벤치리뷰·뉴스·정보/아키텍처·정보분석

[분석정보] Intel 18 코어의 초거대 "Haswell-E" 패밀리를 발표

tware 2014. 9. 9. 21:00

Intel 사상 최대 규모의 멀티코어 서버 CPU

 Intel은 미국 샌프란시스코에서 이번 주 (9월 9일 ~ 11일) 개최하는 기술 컨퍼런스 "Intel Developer Forum (IDF)"에 맞춰 서버용 18코어 CPU를 포함한 "Intel Xeon E5-2600 v3"제품군을 발표했다. 이미 발표된 데스크톱의 "Intel Core i7-5960X"와 같은 Haswell-E 제품군이다. 데스크톱에서 8코어 구성까지만, 서버에서는 3종류의 다이 (반도체 본체)에서 18 코어까지 구성이 제공된다. Intel의 성능 CPU 코어 제품은 최대의 CPU 코어가 되는 멀티 코어 칩이다. 18 코어 구성의 다이는 662 제곱 mm로 일반 IA-32 시스템에서 사상 최대였던 "Nehalem (네할렘) -EX"의 684 제곱 mm에 가깝다.

"Intel Xeon E5-2600 v3" 제품군


18 코어 구성 Haswell-E의 다이


Intel CPU의 다이 크기 목록



 또한 이번에 발표된 것은 QuickPath Interconnect (QPI)가 2 링크로 주로 듀얼 소켓 용 E5 (EP) 시스템으로 동일한 Haswell-E 제품군에서도 QPI 3 링크의 멀티 소켓 용 E7 (EX) 계는 아직 발표되지 않았다. 그러나 Intel은 이전 세대의 Ivy Bridge (아이비 브릿지) 아키텍처 IvyTown에서 하나의 기본 아키텍처로 3개의 다른 다이에서 E5 / E7 량 계열을 파생시키는 전략을 취하고 있다. Haswell-E 역시 3 종류의 다이 및 E5 / E7의 3 계열의 제품에 파생 할 전망이다. 덧붙여서, E5 계와 E7 계의 반도체 칩으로의 가장 큰 차이점은 QPI 링크 수에서 E5는 QPI가 1 링크 비활성화 되어 있다.

 이전 세대의 IvyTown와 같은 22nm 공정의 서버 CPU에서도 다양한 부분에서 강화되고 있다. 먼저 CPU 코어 마이크로 아키텍처는 Ivy Bridge에서 Haswell로 변경 AVX2 명령어가 참가됐다. 그러나 Haswell의 트랜잭션 메모리 TSX 명령은 여전히​​ 비활성화 된 채로 (차세대 E7 클래스에서 대응 예정)이다.

 CPU 코어 수는 최대 15 코어였던 것이 18 코어 늘어나 공유 LL 캐시 크기는 40MB (각 CPU 코어마다 2.5MB)로 늘었다. 전압 조정기의 온다이 & 패키지 통합 기술 "IVR (Integrated Voltage Regulator)"이 구현되어 전력 효율이 크게 올랐다.



Haswell-E의 특징




Haswell 마이크로 아키텍처의 특징



Haswell 마이크로 아키텍처의 블록 다이어그램


 4채널의 DRAM 인터페이스는 DDR3 (최대 1,866Mtps)에서 DDR4 (최고 2,133Mtps)로 바뀌었다. 칩 인터커넥터 QuickPath Interconnect는 기존의 8Gtps에서 9.6Gtps로 고속화되었다. 또한 가상화 하드웨어 지원 기능도 강화되어 온 다이로 하드웨어 기반의 클러스터 분할 등의 기능도 더해졌다. 리소스 모니터링 기능도 강화되었다. TDP (Thermal Design Power : 열 설계 소비 전력)는 서버에서 최대 145W 워크 스테이션에서 160W이다.

Haswell-E 기반 E5 제품군의 특징



두쌍의 링으로 18코어를 링 연결


18 코어가 됨으로써 이전 세대에 우선 크게 달라진 것은 내부 버스이다. Haswell-E도 IvyTown 마찬가지로 링 버스를 사용하지만, 링 버스의 구성이 크게 다르다. 간단히 말하면, IvyTown 계에서는 최대 3링 이었던 것이 Haswell-E 계에서는 최대 4링이 된다. 아래의 슬라이드처럼 마주보는 2링 쌍은 두 가지로 그 사이를 버퍼 스위치를 연결하는 구성으로되어있다.

IvyTown와 Haswell-E 링 버스


 이것을 좀 더 알기 쉽게 도식화하면 아래 그림과 같이된다. CU 코어와 LL 캐시 슬라이스 쌍마다 마주보는 링 쌍에 대한 링 스톱이 있다. 왼쪽의 링에 8 코어 오른쪽 반지에 10 코어가 매달려있다. 비대칭 링 구성이다.

18 코어 Haswell-E 링 버스 구성


 PCI Express 등의 I / O 링 스톱과 2 링크의 QPI 링 스톱은 왼쪽 링. 세 번째 QPI 링 스톱은 오른쪽 링. E5 계에서는 이 QPI는 비활성화 되어있다. 홈 에이전트는 2 유닛으로 좌우의 링에 분산되어 있다. 18 코어 구성의 경우는 좌우 각각의 홈 에이전트가 각각 2 개의 DRAM 컨트롤러를 제어한다.

 링 버스 구성을 이전 세대의 IvyTown과 비교하면 아래 그림과 같이된다. 15 코어 구성 IvyTown 링은 복잡하고 여기에 더해 링 토폴로지를 2 패턴 바꿀 수도 있다. 간단한 계산은 Haswell-E는 링이 하나 늘어난 것으로, 내부 데이터 전송의 효율이 오른 셈이다. 또한 이 링 버스 구성은 후술하는 온다이 클러스터링에 적합하다.

왼쪽이 15코어 IvyTown 링, 오른쪽이 18코어 Haswell-E 링


 Haswell-E는 링 버스의 구성을 변경하는 것으로, 코어 수가 다른 3 종류의 다이를 파생시키고 있다. 18 코어 버전 외에, 12 코어 버전과 8 코어 버전이다. 지난달 출시 된 데스크탑 용 "Core i7-5960X"은 이중 8 코어 버전의 다이를 사용한 것이다.

Haswell-E 제품군의 각 다이 링 버스 구성



왼쪽이 데스크탑 용 8 코어 버전 Haswell-E 다이, 오른쪽이 서버용 18 코어의 다이



통합 전압 레귤레이터는 Haswell과 같은 패키지 트레이스 인덕터


 Intel의 Haswell 세대의 절전 기능의 핵심인 통합 전압 레귤레이터 (IVR)도 Haswell-E 제품군에 구현되었다. 전압을 공급하는 레인은 CPU 코어 단위로 CPU 코어 단위의 세분화 된 전압 및 주파수의 전환이 가능하게 한다. 또한 CPU 코어 이외의 비 코어 부분도 여러 단위로 분할해 별도의 전압 공급이 행해진다.

Haswell의 특징적인 절력 전약 기능 IVR (통합 전압 레귤레이터)이 Haswell-E에 구현



통상 판의 Haswell의 패키지 인덕터의 구성



Haswell에서는 IVR을 온칩 벅 컨버터와 MIM 커패시터 온 패키지의 인덕터로 구성


 IVR 구현 방법은 일반 Haswell과 같고, 온 패키지 "패키지 트레이스 인덕터 (package trace inductor) "를 사용한다. 이것은 Broadwell 계와는 다르다. 이 방식의 경우 IVR 단위 중 인덕터 부분만 온칩 (On-Die) 대신 패키지 기판 내에있다. CPU 패키지에 개별 전압 레귤레이터 (VR)의 기판을 추가해 전력을 공급하도록 솔루션과는 다르다. Haswell-E 패키지 뒷면에는 패키지 추적 인덕터에 특유의 코일 패턴이 새겨 져있다.

 이 기술은 패키지 서브 스트레이트에 인덕터 패턴을 생성한다. 기판의 PTH (Plated Through-Hole)과 트레이스(Trace)를 사용해 에어 코어 인덕터 (Air Core Inductor : ACI)를 만든다. PTH의 방향을 도는 코일 모양으로 되어있는 것으로 보인다. 비 자성 재료의 트레이스이기 때문에 표준 패키지 기술로 제조 할 수있다.

 절전 기술이 외에, AVX 명령 실행시의 동작 주파수를 신설했다. 전력 소비가 큰 AVX 장치가 작동할 때만 평소보다 동작 주파수를 낮춰 TDP (Thermal Design Power : 열 설계 소비 전력) 틀을 유지한다. 정격의 베이스 주파수와 터보 주파수와는 별도로, AVX때 베이스 주파수와 터보 주파수가 바뀐다. 프런트 엔드 AVX 명령을 검출하면 시작 AVX 명령이 완료되면 1ms 정도로 복귀한다. Haswell-E에 내장된 PCU (Power Control Unit)가 제어를 행한다.





DDR4 대역을 확장하면서 전력도 감소


 Intel은 하이 엔드 서버용으로는 4채널의 DRAM 인터페이스를 채택해 왔다. DRAM은 IvyTown 에서는 DDR3 대응 최고의 1,866Mtps을 지원했다. 이에 비해 Haswell-E는 DDR4로 최고 2,133Mtps을 지원한다. 피크 메모리 대역폭은 59.7GB / sec에서 68.3GB / sec로 확장되었다. 그러나 이것은 피크를 비교한 숫자로, 실제로는 차이가 더 크다.

 IvyTown도 Haswell-E도 모두 채널당 최대 3개의 DIMM을 지원한다. 그러나 IvyTown의 경우 3개의 DIMM을 1채널에 올린 경우는 DDR3 1,066MHz까지 전송 속도가 빠진다. 반면, Haswell-E는 3 개의 DIMM을 꽂아 경우도 1,600MHz로 동작 할 수있다. 3개의 DIMM을 꽂는 사용자는 매우 많기 때문에, 스펙보다 Haswell-E가 메모리 대역이 넓게된다. 최고 대역에서 비교하면 성장은 불과 14%이지만, 3 DIMM / 채널시 대역에서 비교하면 계산으로 50%, 실효에서도 44% 대역폭이 성장한다. DIMM은 RDIMM 및 LRDIMM 모두에서이 구성이 가능하다. 또한 DDR3에서 DDR4는 코어 및 I / O 모두의 전압이 DDR3의 1.5V에서 DDR4에서는 1.2V로 낮아졌기 때문에 절전 효과가 크다.

Haswell-E는 DDR4에 의해 대역의 확장과 전력 절감이 모두 가능


IDF2014 Shenzhen에서 Intel이 설명했던 DDR4 메모리의 스펙



3 DIMM / 채널 1,600Mtps에서도 양호한 정도가 열리는 DDR4



멀티 코어 CPU를 분할하는 클러스터 모드


 매니 코어 같은 기능은 온다이 CPU 코어들를 클러스터 분할하는 "COD (Cluster on Die)"모드가 더해졌다. 최대 18개의 CPU 코어를 두 개의 클러스터로 분할해 사용할 수 있다. 장점은 두 클러스터 사이를 필터링하여 코 히렌시 트래픽을 크게 줄일 수있다. 상위의 소프트웨어는 2CPU 패키지처럼 보인다.





 물리적으로는 "거의" 2개의 링에서 2클러스터로 분할 할 수 있기 때문에 캐시 사이의 평균 전송 지연 시간도 줄일 수있다. 2개의 홈 에이전트도 두 클러스터 각각에 전용하기 때문에 메모리 액세스 요청도 클러스터 단위로 분할되어 결과적으로 실효 메모리 대역이 오른다. 또한 홈 에이전트는 각각 14KB (8-way, 256set 2 섹터) 디렉토리 캐시를 내장하고 있다. 따라서 캐시에 히트한 경우 스눕 트래픽을 줄일 수있다.

 난점은 Haswell-E는 링 구성이 비대칭이기 때문에 18 코어를 9코어씩 분할한 경우 오른쪽의 링은 왼쪽 클러스터의 코어가 하나 포함되어, 오른쪽 링도 왼쪽의 클러스터 코 히렌시 트래픽이 일부 흘러드는 것. 매니 코어에서는 클러스터 분할로서 코 히렌시 트래픽을 감소한다는 아이디어는 아주 이른 단계부터 Intel은 제안하고 마침내 구현되었다.



가상화 하드웨어도 확장


 가상화 하드웨어 지원은 Intel의 서버 CPU는 세대마다 진화하고 있지만, Haswell-E도 한층 발전했다. VMCS (Virtual Machine Control Structure) 섀도잉에 의해 VM Exit / Entry 횟수를 줄이는 것이 가능하게 되었다. VMM (Virtual Machine Monitor)이 중첩된 경우 기존에는 루트 VMM과 게스트 VMM 사이에서 반드시 가상 머신 간의 Exit / Entry가 발생하고 소프트웨어 오버 헤드가 컸다. 그것을, 섀도잉한 VMCS에 대해 VMREAD / VMWRITE 명령으로 액세스 할 수 있도록 하여 중첩 VM 간의 VM Exit / Entry의 대부분이 불필요해 졌다.


 이에 따라서 가상화 계층에 대한 대응이 용이하게 되었다. 또한 EPT (Extended Page Table)의 액세스 / 더티 비트 지원을 통해 기존 소프트웨어에서 행하고 있었던 액세스 / 더티 트래킹 불필요로 그만큼의 VM Exit / Entry를 저감했다. 그 결과, VT-x 왕복 사이클 수를 줄이고, 가상화 성능을 끌어 올릴 수 있었다.




Haswell-E는 가상화 기능을 강화



중첩된 계층화 가상화의 구현 사례



 또한 가상화에 관련 하드웨어 확장으로 캐시 모니터링이 더해졌다. 이것은 자원 모니터링 ID마다 캐시 점유율을 동적으로 모니터하는 기능이다. 이렇게 함으로써 캐시를 비정상적으로 점유하고 있는 응용 프로그램을 검색하여 그 작업을 마이그레이션하여 최적화를 도모한다. 가상화 환경에서는 가상 머신 단위로 마이그레이션하여 최적화 한다.




 이 밖에 원격 관리 기능을 위해 배기구의 온도 감지 및 공기 흐름, 자원 사용률 등의 모니터링이 더해졌다. 배기구는 실측 기반이 아닌 계산 근사치를 내고있다.

 18 Haswell 코어와 다양한 확장의 결과 18코어 버전의 Haswell-E는 트랜지스터 카운트도 56억 9,000만으로 표준 IA32 CPU로는 사상 최고를 기록했다. 스몰 코어 서버가 대두하는 서버 시장이지만, 싱글 스레드 성능이 중요한 시장 부분도 많아, Intel은 저전력 코어 서버와 고성능 코어 서버 2가지 정면에 각각 늘린다.

Intel CPU의 트랜지스터 수의 변



2014년 9월 9일 기사 입니다.



[분석정보] 고밀도 서버 전용의 Atom을 대체하는 Broadwell 기반 Xeon D



[분석정보] 인텔 데스크탑 eDRAM 버전을 포함한 브로드웰 패밀리 설명



[분석정보] Xeon E5-2600 v3가 데이터 센터의 변화를 가속



[분석정보] 인텔 최대 18코어 Haswell-EP Xeon E5-2600 v3



[정보분석] IDF 2005 저스틴 래트너 기조 연설 미래의 기술



[분석정보] Atom의 절전 기술도 탑재한 Nehalem