벤치리뷰·뉴스·정보/아키텍처·정보분석

[분석정보] Intel이 개요를 밝힌 옥타 코어 CPU Nehalem-EX

tware 2009. 2. 12. 21:30

 

 

Intel의 하이 엔드 CPU의 향후를 점 치는 Nehalem-EX

 Intel CPU는 드디어 8코어 (옥타 코어 : Octa-core)의 세계에 돌입한다. ISSCC (IEEE International Solid-State Circuits Conference)에서 Intel은 자사 최초의 옥타 코어 CPU "Nehalem-EX"의 개요를 밝혔다. Nehalem-EX는 원래 "Beckton (벡톤) "이라는 코드 네임으로 알려져 있었다. Nehalem 아키텍처의 8개의 CPU 코어에 24MB의 L3 캐시를 탑재한다.

 Nehalem-EX 자체는 MP (Multi-Processor) 서버를 메인 타겟으로 하는 하이 엔드 서버용 CPU이다. 그러나 8코어는 아마도 컨슈머 PC에 있어서도 바로 눈앞에 있다. Intel이 지금은 성능 CPU는 CPU 코어 수를 늘려 가고 있는 전략을 취하고 있기 때문이다. 오늘의 MP 서버 CPU는 내일의 하이 엔드 데스크탑 CPU이 된다.

 예를 들어, Intel은 작년 (2008년), 6 코어 (헥사코어)의 MP 서버 CPU "Xeon 7xxx (Dunnington : 듀닝톤)"을 투입했다. 그리고 내년 (2010년) 2분기에는 6코어 하이 엔드 데스크탑 CPU "Gulftown (걸프타운)"을 투입한다. MP 서버 CPU → 데스크탑 CPU로 아키텍처는 다르지만 CPU 코어 수는 승계된다. 따라서 MP 서버 CPU 아키텍처는 미래의 하이 엔드 데스크탑 CPU를 가늠하는 단서가 된다.

 덧붙여서, Intel 듀얼 코어의 이행한 당초 로드맵이 혼란해져, PC용 CPU가 쿼드 코어인데, MP 서버 CPU는 듀얼 코어 같은 역전 현상이 일어나고 있었다. 또한 상위의 다 CPU 코어의 제품은 MCM (Multi-Chip Module) 기술로 2개의 CPU 다이를 하나의 패키지에 올린 유사 멀티 코어 제품이었다. 그러나 지난해 하반기 부터는 MP 서버 쪽이 CPU 코어 수가 많아지고, 상위 제품도 네이티브 멀티 코어가 되었다.

 Intel의 제품 구성은 Nehalem이 등장한 2008년에야 정상으로 돌아 왔다고 말할 수 있다. 향후에는 MP용 가장 CPU 코어 수가 많은 제품이 투입되어 1 공정 세대 후에 그 CPU 코어 수가 퍼포먼스 데스크탑에 내려 오는 패턴이 될 것으로 예상된다.

 

 

Intel CPU 코어 수의 변천

 


 또한 Nehalem-EX는 Nehalem 아키텍처의 확장성을 검증하는 좋은 예이기도 하다. Nehalem 아키텍처에서 Intel은 4코어에서 8코어와 2코어, 그리고 6코어로 파생시킨다. Nehalem은 처음부터 확장 전개를 전제로 개발되고 있으며, 그것은 듀얼 코어에 최적화된 Core 2 (Merom) 계 마이크로 아키텍처와 큰 차이가 있다.

 

Nehalem 패밀리의 내부 구성

 

 


23억 트랜지스터를 올린 몬스터 칩

 Nehalem 아키텍처를 개발한 것은 Intel의 오레곤 힐스보로 개발 센터. 그러나 이번 Nehalem-EX는 캘리포니아주 산타 클라라의 팀이 발표했다. 산타클라라는 IA-64 계열의 서버 CPU를 담당하고 있으며, 서버용 파생칩인 Nehalem-EX도 담당했다고 볼 수있다.

 아래가 Nehalem-EX의 다이 레이아웃이다. ISSCC의 자료를 기반으로 일부 추측과 보완을 더하고 있다. 따라서 엄밀하게는 정확하지 않지만 개요는 알 수 있다.

 

Nehalem-EX의 다이 레이아웃

 

 

 기본 구성은 CPU 다이의 중앙을 횡단하는 시스템 로직 (허브와 라우터 메모리 컨트롤러 등)을 통합. 다이 중앙의 상하에 8조각으로 분할된 24MB의 공유 L3 캐시를 집적한다. L3 캐시와 결합될 수 있도록 8개의 CPU 코어를 배치했다. 다이 위에 칩간의 인터커넥트로는 "QuickPath Interconnect (QPI)"를 4링크. 다이 아래에 메모리 인터페이스, 이쪽은 발표에서 명시되지 않았지만 4채널 탑재했다.

 Nehalem-EX의 제조 공정 기술은 쿼드 코어 Nehalem과 같은 45nm 공정. 트랜지스터 수는 23억 트랜지스터. 전례없는 방대한 트랜지스터 카운트로 쿼드 코어 Nehalem의 7억 3,100만과 비교하면 약 3배가 된다. 그러나 다이 사이즈는 쿼드 코어에 비해 2.4배 정도 (600 제곱 mm 전후)로 보인다. 또한 TDP는 쿼드 코어와 같은 130W로 억제한다.

 칩 패키지는 49.1 × 56.4mm 대형으로 CPU 다이 외에 프로세서 정보를 담은 ROM 칩이 탑재되어 있다. LGA 소켓의 랜드 수는 1,567. 원래 Beckton 세대의 IA-32 / Intel 64 계열 서버 CPU는 IA-64 계열 CPU와 소켓 호환할 계획이었지만, 도중에 변경되어 현재의 계획은 소켓 호환은 아니다.

 


CPU 코어 자체는 쿼드코어 Nehalem 계와 매우 비슷하다

 Nehalem-EX의 다이 레이아웃을 보고 바로 느낀것은, Nehalem-EX의 CPU 코어 자체는 쿼드코어 Nehalem CPU 코어와 매우 비슷한 것이다. CPU 코어의 가로 세로 비율이 거의 같은뿐만 아니라 살펴보면 CPU 코어 내부의 레이아웃도 거의 흡사하다. 이것은 Nehalem-EX는 Intel이 Nehalem CPU 코어 자체는 별로 손을 대지 않고 그대로 이용했다는 것을 시사하고 있다. Nehalem-EX와 쿼드 코어의 Nehalem을 비교한 것이 아래 그림이다. CPU 코어 크기를 비교하여 거의 같은 스케일로 생각되는 비율로 되어있다.

 

Nehalem-EX와 Nehalem (Bloomfield)

 

 Nehalem 계 CPU는 256KB의 L2 캐시를 포함한 CPU 코어가 직사각형의 CPU 코어 블록에 정리되어 있다. 직사각형이기 때문에 CPU 코어 수를 증감시킬 경우의 레이아웃이 용이하고, 파생 제품을 개발하기 쉽다. Nehalem-EX의 레이아웃에서 그것을 입증하고 있다.

 CPU 코어 자체가 거의 변하지 않는 것은 Nehalem-EX도 L1과 L2 캐시 량과 레이턴시가 쿼드 코어 Nehalem과 다르지 않음을 보여주고 있다. Nehalem 계에서는 명령과 데이터 32KB 씩의 L1 캐시가 4사이클, 각 CPU 코어 전용 256KB의 L2 캐시가 10 사이클이다. Core 2 계까지 L2의 양과 지연 시간은 각 CPU 마다 달랐지만, Nehalem에서는 L2까지 일정하게 되었다.

 

캐시 계층 및 지연

 

 

Nehalem-EX의 내부 구성

 

 QuickPath Interconnect (QPI)를 4링크 갖춘 Nehalem-EX는 QPI를 2링크까지 밖에 갖추지 않은 Nehalem-EP (Gainestown : 게인즈타운)보다 다양한 멀티 프로세서 구성을 취할 수 있다. 또한, 예를 들어 4소켓에서 2개의 CPU 밖에 탑재하지 않는 경우 사용되지 않은 CPU 소켓에 대한 QPI 링크를 해제함으로써 전력 절약화를 도모 할 수도 있다. 각 QPI 포트 당 2W의 전력 절감이 가능하다고 한다. 또한 최대 8소켓 구성도 가능하다.

 

MP 판 Nehalem의 구성예

 

 

Nehalem-EX의 8 소켓 MP 구성 예

 

 

대형화된 시스템 로직 부분

 쿼드 코어 Nehalem과 옥타 코어 Nehalem-EX를 비교하면 CPU 코어 이외의 시스템 로직 부분이 Nehalem-EX는 비대화 되어 있는 알 수 있다. Nehalem-EX의 다이 중앙의 띠 모양의 시스템 로직은, 쿼드 코어 Nehalem 다이와 거의 같은 위치에 있는 시스템 로직에 비해 3배 이상의 면적을 가지고 있는 것으로 보인다. CPU 코어와 인터페이스 연결 수가 증가 하면 조정을 위한 시스템 로직이 늘어난다.

 시스템 로직 블록의 중앙에는 "라우터"가 있고, 그 좌우에 각각 '허브'가 배치되어 있다. 이번은 각 블록의 접속을 알수 있는 다이어그램은 공개되지 않았기 때문에 자세한 것은 모르지만, Nehalem-EX가 8 코어의 연결에 큰 자원을 할애하고 있는 것을 알 수있다.

 8 코어로 공유하는 24MB의 L3 캐시는 8개의 "슬라이스 (Slice)"로 분리되어 있다. 각 슬라이스가 2048 세트로 24웨이 구성에서 캐시 라인은 64 bytes. Intel은 캐시를 서브 어레이로 분할하여 액세스 할 때 활성화 되는 영역을 작게함으로써 전력 소비를 낮추고 있는데, Nehalem-EX도 같은 기술이 사용되고 있다. 각 조각은 48의 서브 어레이로 나누어져 있으며, 1 액세스에서 파워업 되는 것은 전체의 3.125%만 이라고 한다.

 

L3 캐시 슬라이스

 


 CPU 코어와 L3 캐시 슬라이스는 배치상 짝을 이루는 것처럼 보이지만, Nehalem-EX는 분리해 활성화 / 비활성화를 제어 할 수있다. CPU 코어와 L3 캐시 슬라이스에 결함이 있는 경우는 그 코어와 L3 캐시 슬라이스를 비활성화하여 CPU 코어수나 L3 캐시량을 줄이고 리커버리 가능하다.

 또 Nehalem-EX의 L3 캐시는, 데이터 어레이는 Column과 Row에 중복회로가 태그어레이는 Column에 중복회로가 있다. 그 영역에 결함이 있을 경우 중복회로로 대체시켜 커버 할 수 있다. 그러나 태그 Row 등에 결함이 있는 경우 L3 캐시 슬라이스 자체를 사용할 수 없게된다. CPU 코어도 마찬가지로 결함이 있을 경우 작동 할 수 없다.

 Nehalem-EX의 경우는 어떤 CPU 코어와 어떤 L3 캐시 슬라이스도 개별적으로 비활성화 할 수 있다. 아래 그림은 CPU 코어 2와 5, L3 캐시 슬라이스 1-6에 각각 결함이 있어 비활성화 된 경우의 예다.

 

 

CPU 코어와 L3 비활성화

 


다양한 절전 기능을 탑재

 Nehalem-EX도 쿼드 코어 Nehalem과 마찬가지로 파워 게이팅 등의 절전 기능을 갖추고있다. 각 CPU 코어가 절전 모드로 전환하거나 위와 같이 비활성화되면 클럭뿐만 아니라 전력 공급 자체를 차단한다. 따라서 각 CPU 코어마다 파워 스위치가 스위치를 턴 오프하여 전력 공급을 끈다. 스위칭 전류뿐만 아니라 누설 전류 (Leakage)도 차단한다. CPU 코어의 누설 전류는 활성 상태의 최저 전압 0.85V 보다 40% 감소된다고 한다.

 L3 캐시 영역은 슬립 트랜지스터 기술을 사용해 누설전류를 크게 억제하고 있다. L3 캐시는 액티브, 슬립, 셧 오프의 3가지 작동 모드가 있다. 누설 전류를 슬립시에는 35%로 감소, 셧 오프시 전압을 0.36V까지 떨어 뜨린 경우 83%의 절감이 된다.

 ISSCC에서는 Nehalem-EX의 적외선 이미지가 표시되며 비활성화 된 코어와 캐시 영역이 거의 발열이 없는 상태에 있음이 나타났다.

 파워 게이팅하여 CPU 코어에 전력을 해제하는 경우 CPU 코어의 내부 아키첵처럴 스테이트를 CPU 다이에 마련한 스테이트 보존을 위한 온칩 SRAM "State Storage"로 대피시킨다. 이 SRAM 영역은 CPU 코어와는 다른 전압이 공급되고 항상 내용이 유지된다. Nehalem에서는 복잡한 전력 제어를 위한 전용 마이크로 컨트롤러 "PCU (Power Control Unit) '가 탑재되어 있다. Nehalem-EX에도 PCU가 다이 레이아웃에 보인다.

 


누설 전류를 소비전력 전체의 16%로 감소

 Intel은 현재 CPU 회로 설계에서 채널 길이가 다른 트랜지스터를 구사하고 있다. 크리티컬 패스는 고속화를 위해 채널 길이가 짧고 고속이지만 누설 전류가 약간 많은 트랜지스터를 사용한다. 한편, 중요하지 않은 부분은 채널 길이가 길고 느리지만 누설 전류가 작은 "Long-Le"트랜지스터를 사용한다. 다른 업체처럼 문턱 전압 (Vt)이 다른 트랜지스터를 쓰지 않는다.

 Intel은 65nm 공정에서는 Long-Le로 Subthreshold Leakage를 억제 할 수 있기 때문에 스위칭은 약 10% 늦어지지만, 누설전류는 1/3이 된다고 설명했다. Nehalem-EX의 경우 CPU 코어군의 트랜지스터의 58%와 캐시 어레이 이외의 언 코어 부분의 트랜지스터의 85%가 채널 길이가 긴 타입으로 되어있다.

 이러한 저전력 설계의 결과, Nehalem-EX는 총 소비 전력 중 누설 전류가 차지하는 비중은 16% 수준으로 줄일 수 있었다고 한다. 첨단 CPU에서 최근에는 30% 정도가 누설 전류인 것이 많았다. 전체 비율로는 전력 소비 중 54.6%가 CPU 코어 부분, 언 코어 부분이 33.4%로 I / O 부분이 11.2%로 되어있다.

 

Nehalem-EX의 소비 전력

 


 Nehalem-EX의 클럭 도메인은 크게 3가지. CPU 코어와 L2 캐시 등의 코어 도메인과 L3 캐시와 시스템 로직 등의 언코어 도메인, 그리고 메모리 인터페이스와 QPI의 I / O 도메인이다. 전체 16개의 PLL이 배치되어 있다. CPU 코어에 8개, QPI에 4개, 메모리 인터페이스에 2개, 언 코어 영역용 (L3 포함) 1개, 필터용 1개. 각 영역에서 독립적인 클럭 설정이 가능하다.

 전압 도메인은 4개. 8개의 CPU 코어에 공급하는 코어 도메인이 0.85V에서 1.1V의 가변. L3 캐시와 시스템 로직에 대한 언코어 도메인이 0.9V에서 1.1V로 고정. I / O에 대한 I / O 도메인이 1.1V로 고정. 이 밖에 PLL과 온다이 열 센서 용 도메인이 있다.

 

PLL과 DLL

 

 

Nehalem-EX의 전압

 

 

 Intel은 마지막 NetBurst 계열 CPU인 듀얼 코어 MP 서버 CPU "Tulsa (툴사)"에서 Long-Le 디바이스나 L3 캐시의 셧 오프 등을 도입했다. Nehalem-EX는 그 연장 선상에 있는 것을 알 수있다. 또한 Nehalem의 기반 아키텍처의 확장성을 입증했다.

 그러나 8 코어가 되어 비대화된 시스템 로직 부분에서 알 수 있듯이, 멀티코어화 오버 헤드가 명확해졌다. 향후 CPU 코어 수를 더 늘릴 경우에는 허브로 연결하는 현재의 방식과는 다른 온칩 인터커넥트 기술이 필요할 것이다. Cell Broadband Engine (Cell BE)과 Larrabee가 채용한 링 버스가 가장 있을 수 있는 솔루션이라 추정된다.

 

2009년 2월 12일 기사 입니다.

 

[분석정보] 모바일 절전 기능을 강화한 펜린 (Penryn)

 

 

[고전 2000.2.25] 인텔 사내경합이 낳은 Willamette 1.4GHz

 

 

[정보분석] 2년 주기로 아키텍처를 쇄신하는 Intel

 

 

[정보분석] Merom(메롬) 이후인 Nehalem(네할렘) 과 Gilo(길로)

 

 

[분석정보] Intel 4번째 x86 CPU 개발 센터 방갈로르

 

 

[분석정보] 평균 소비전력을 크게 줄일 Penryn의 C6 스테이트

 

 

[분석정보] Atom의 절전 기술도 탑재한 Nehalem

 

 

[분석정보] 드디어 등장한 최상위 x86 서버 프로세서, 아이비브릿지 세대 제온 E7 v2 시리즈

 

 

[분석정보] Intel, Ivy Bridge-EX Xeon E7 v2 패밀리.최대 15코어 CPU 메모리 용량은 최대 1.5TB

 

 

[분석정보] TSX대응으로 약 6배로 성능 향상된 Xeon E7 v3

 

 

[분석정보] Intel, 기간 서버용 CPU 신제품 Xeon E7 v3발표

 

 

[아키텍처] 베일을 벗은 인텔 CPU & GPU 하이브리드 라라비(Larrabee)

 

 

[분석정보] 인텔 하스웰 설계를 행한 마레이시아 제조 개발 거점을 공개

 

 

[분석정보] IDF에서 공개된 "Nehalem"의 내부 구조