벤치리뷰·뉴스·정보/아키텍처·정보분석

[분석정보] Intel이 Haswell 디자인 정보를 Hot Chips에서 발표

tware 2013. 9. 4. 21:00


8 종류의 다이 편차가 있는 클라이언트 버전 Haswell


 Intel은 CPU 설계의 모듈화를 진행해 왔다. 모듈화한 블록을 조합하는 것으로, 다양한 디자인 변형을 일으킨다. SoC (System on a Chip)에서는 당연한 방법이지만, 고성능 CPU는 최근까지 일반적이지 않았다. Intel은 32nm 공정의 Sandy Bridge (샌디 브릿지)에서 모듈 디자인을 대대적으로 도입해 다음 Ivy Bridge (아이비 브릿지)로 발전시켰다. 그리고 현재 Haswell (하스웰)은 또한 모듈화를 추진하고 클라이언트 용 CPU 만 8 종류의 다이 변형을 일으켰다.

Haswell의 다이 변형



 Intel은 미국 스탠포드 대학에서 지난주 개최된 칩 컨퍼런스 "Hot Chips 25"에서 Haswell 8 종류의 다이 변형의 대략적인 레이아웃을 처음 공개했다. 위의 다이 레이아웃의 열을 보면 몇개의 기본 유닛의 조합으로 변형이 생기는 것을 알게된다. 참고로, 4CPU 코어 GT2 GPU 코어의 구성 Haswell은 아래 그림처럼 돼있다.

4CPU 코어 + GT2 GPU 코어 Haswell의 다이 레이아웃



 클라이언트 버전 Haswell에는 CPU 코어가 4코어와 2 코어의 2 개의 구성이 있다. GPU 코어는 연산 유닛 수가 다른 3가지 버전이 있어, 작은쪽부터 "GT1", "GT2", "GT3"로 불린다.

 또한 L3 캐시 양에도 변형이 있다. CPU 코어에 부속된 L3 캐시 슬라이스가 2MB 버전과 1.5MB 버전이 있어, 2MB씩 4코어는 8MB의 L3 캐시, 1.5MB 4코어가 6MB, 2MB 2코어는 4MB, 1.5MB 2코어 3MB 이다. 다이 변형은 기본적으로 이러한 조합으로 된다.

 다만 가장큰 4CPU 코어 + GT3 GPU 코어의 버전만은 다르다. 이 칩은 외부에 128MB의 eDRAM 캐시를 온 패키지로 탑재하기 위해 특별한 블록이 더해져 있다.



다이에 따라서 CPU수, 캐시량, GPU 규모가 다르다


 Intel은 내부적으로 이들의 다이 변형에 "4 + 2"라는 이름을 붙였다. 4 + 2는 4 CPU 코어에 GT2 GPU 코어의 조합 다이다. 또 Hot Chips에서 다이 레이아웃 사진을 보면 4 + 2에는 "4M", "2 + 3 (2CPU 코어 + GT3 GPU 코어)"에는 "2H"라는 이름이 붙여져 있는것도 알수 있다. 4M의 4가 CPU 코어수, M은 미드 레인지의 GPU 코어인 GT2라고 말하는 의미다 라고 생각된다.

 또 같은 2 + 3 (2CPU 코어 + GT3 GPU 코어)에도 캐시량이 다른 버전도 있다. 적은 캐시판은 저전압을 나타내는 ULT가 붙어 있다. 아래가 Haswell 제품군 각각의 다이 레이아웃과 CPU 코어수, 캐시량, GPU 코어, 대략 계산된 다이 크기 일람이다.

Haswell의 다이 배치 비교



 실제 SKU (개별제품)는 이것 이상의 종류가 있지만, 그것은 다이 상의 일부 기능을 끄고 만들고 있다. 또 위의 다이 가운데 2 + 2와 2 + 2 ULT는 다이 크기가 같다 추정되기 때문에 동일한 다이인지도 모른다. 최대 버전인 4 + 3은 CPU 코어가 4개, GPU 코어의 연산 유닛인 EU (execution unit)의 수는 40 (320 FMAD). 최소 버전 2 + 1과 비교하면 CPU 코어수와 L3 캐쉬량은 2배, GPU 코어의 연산 유닛 수는 4배로, 다이 사이즈는 약 2.5 배로 다이 크기에 큰 차이가 있는 것을 알수 있다 .

다이 사이즈의 추이



 지금까지도 Haswell의 베이스 업 칩에는 SKU의 차이에 따라 다이의 가로폭 (짧은 쪽)의 길이가 달랐지만, 레이아웃을 보면 각 유닛의 너비가 미묘하게 다르기 때문에 존재 하는 것임을 알수 있다. 또 GT3 GPU 코어가 사실상 2모듈로 구성되어 있으며, 그 위의 각각의 모듈의 안에 2개의 서로 닮은 블록이 있는 것도 알수있다. 참고로, Haswell의 GT3 구성의 GPU 코어는 아래의 그림처럼 돼있다.

Haswell의 GT3 구성



 또한 모듈화라고 말해도 모든 SKU에 꼭 들어맞게 모듈을 설계할 수 없기 때문에, 데드 스페이스로 생각되는 공간이 생긴 다이도 있다. 위 그림의 중앙의 2 + 3을 보면, 분홍색 불​​명 비어있는 것이 아마 데드스페이스라 생각된다.



다이에 따라서 빈 공간이 생긴다


 Haswell의 각 다이의 다름은 각 기능 단위를 분류하면 더 알기 쉽다. 아래 그림 처럼 색으로 분류하면 CPU 코어와 시스템 에이전트 (SA)와 Intel이 부르는 노스 브릿지 블록은 같은 면적 모듈이 공통으로 쓰여지고 있는 것을 알수 있다. L3 캐시 슬라이스는 2MB와 1.5MB의 크기가 다른 2가지 버전이 있다. GPU 코어는 3가지 타입으로 각각이 공통 면적의 모듈로 돼있다.

Haswell의 다이 레이아웃 비교


 CPU 코어와 L3 슬라이스 쌍은 L3 양에 따라 도상의 폭이 다르다. GPU 코어 중 가장 작은 10 EU의 GT1은 가로 폭이 1.5MB L3 슬라이스에 맞게 설계되었으며, 따라서 1.5MB L3 이외의 조합이 존재하지 않는다. 20 EU의 GT2와 40 EU의 GT3는 가로 폭이 2MB L3 슬라이스에 맞게 설계되었으며, 따라서 1.5MB L3 슬라이스와 함께하면 L3 옆에 빈 것으로 보이는 공간이 생기고 있다.

 조금 재미있는 것은 DRAM 인터페이스에서 볼수 있는 부분으로, 레이아웃을 보면 2 종류 있다는 것을 알수 있다. 2CPU 코어 판에 맞는 짧은 버전과 4코어 판에 맞춘 긴 버전이다. 위의 그림으로 말하면 오른쪽 4개가 짧은 DRAM 인터페이스 왼쪽의 네가지가 긴 DRAM 인터페이스다. 2 + 3 (2CPU 코어 + GT3)는 긴 버전의 DRAM 인터페이스를 쓰고 있으며,이 때문에 비어있게 보이는 공간이 생긴다. 일부러 긴 버전을 쓰는 것은 기능적인 다름이 있음을 시사한다.

 왼쪽 끝의 Haswell 4 + 3은 128MB (1G-bit)의 eDRAM "Crystalwell"을 캐시로서 온 패키지에 갖춘다. 이 eDRAM은 4 + 3 다이 및 전용 시리얼 인터페이스로 연결된다. eDRAM 다이 크기는 80 제곱 mm 대로 위의 그림 정도다. 이 eDRAM은 Intel의 22nm eDRAM 기술로 제조된다. 지난 6월 "VLSI Symposium (2013 Symposium on VLSI Technology and Circuits)"에서 Intel의 발표를 기반으로 하면, eDRAM의 메모리 밀도는 17.5M-bit / 제곱 mm. 이로부터 역산하면 eDRAM 칩에 실려있는 1G-bit의 eDRAM 칩의 메모리 매크로 지역은 58.5 제곱 mm가 된다. GT3e의 eDRAM은 약 80 제곱 mm 이상의 다이로써, 인터페이스에 30% 이하를 쓰고 있다 보여진다. 패키지는 아래의 사진과 처럼 배치돼 있다.

Haswell의 GT3e (우측이 하스웰 GT3를 포함한 CPU에 eDRAM을 묶은 제품이고, 왼쪽은 CPU(+GPU)와 칩셋까지 MCM으로 묶은 초저전력 모델 입니다. .)



Haswell 4 +3의 다이 레이아웃


 Haswell 4 + 3의 다이 레이아웃은 이번에 처음으로 밝혀졌다. 그림 안의 왼쪽에 CPU 코어 4코어와 6MB의 L3 캐시가 배치되어 있으며 그 위에 시스템 에이전트가 있다. 오른쪽에는 GT3 GPU 코어로 오른쪽에 DRAM 인터페이스가 배치돼 있다. 여기까지 모듈은 다른 Haswell과 공통이다. 하지만 차이도 있다.

Haswell 4 +3의 다이 레이아웃



 우선, 다이의 아래쪽 면 부분에 수수께끼의 유닛들이 있다. 4 + 3은 eDRAM과 연결하기 때문에 직렬(시리얼) 인터페이스를 탑재하고 있어, 이 모듈들은 그러한 기능을 가질 가능성이 있다. 또 GT3 GPU 코어에도 상당한 크기의 공간이 있다. 128MB의 eDRAM을 L4 캐시로 쓰는 Haswell 4 + 3은 상당한 크기의 캐시 태그를 갖춘다. Hot Chips에서는 캐시 태그는 CPU 다이에 있는 것이 명확해졌다. 다이의 알수없는 공간은 캐시 태그 일 가능성이 높다.

 다만 Hot Chips에서는 Intel은 Haswell 4 + 3 태그 RAM의 크기는 2 ~ 4MB 정도의 것이라 설명했다. 이것이 옳다면 예상했던 태그 RAM의 양보다 작다. 이 경우에는 eDRAM 에서는 캐시 라인 크기를 크게 취했을 가능성이 있다. 참고로 Intel은 과거 매니 코어 기술 설명 때 데이터 유형에 따라 캐시 라인 길이를 동적으로 바꾸는 "리 콘피규러블 캐시 기술"도 공개했다.

 Hot Chips에서는 128MB의 거대한 L4는 주로 그래픽에서 큰 힘을 발휘한다고 설명했다. 이것은 보통 캐시에 들어가서 잘리지 않아, 그래픽 프레임 간의 데이터를 재이용할 수 있기 때문이다. 큰 텍스처는 물론, 생성한 쉐도우 맵도 캐시에서 다음 프레임으로 건네줄 수 있다. 아래의 슬라이드 CRW로 되어 있는 것은 eDRAM "Crystalwell"의 약자이다.

게임의 eDRAM의 이용


 또 Intel은 Crystalwell eDRAM의 메모리 대역과 레이턴시(지연) 차트도 보여 주었다. 이것을 보면, 40GB/sec의 대역부하의 로드에서도 레이턴시가 50ns 정도에 머무는 것을 알수 있다. 참고로, eDRAM 인터페이스의 대역폭은 단방향 50GB/sec의 양방향 인터페이스인 것으로 밝혀졌다.

eDRAM의 지연



Intel은 Bay Trail의 논문을 취소


 Intel은 Haswell에서 전압 레귤레이터 모듈 (VRM)를 CPU에 내장했다. Hot Chips는 Haswell의 VRM에 대해서도 자세한 설명이 이루어졌다. 아래의 슬라이드 오른쪽이 Haswell의 VRM이다. 칩 외부로부터 공급된 전압은 DRAM 인터페이스 이외는 Vccin로 통합되고 Vccin에서 CPU 내장의 내장 전압 레귤레이터가 전압 변환을 하고 각 유닛에 공급하는 구조로 되어 있다. 이번은 예상보다 많은 다른 전압이 공급되는 것이 밝혀졌다.

VRM의 내장화


 슬라이드는 4 + 3로 보이며, eDRAM과 그 인터페이스로의 전력 공급으로 보이는 VccEDRAM이 있다. 또한 GPU 코어 전압도 2계통으로 나뉘어 있다. Hot Chips에서는 인덕터 이외의 요소는 CPU 다이에 올려져 있는 것도 것도 밝혀졌다. 또 전압 레귤레이터의 통합으로 보드 공간이 크게 줄어든 것도 나타냈다.

전압 레귤레이터의 내장으로 보드의 공간 절감


 Intel은 이번 Hot Chps에서 22nm 공정의 전력절감 코어 기반의 SoC (System on a Chip) "Bay Trail (베이 트레일)"의 개요를 발표한다 했다. 그러나 컨퍼런스 직전이 되자 Intel은 Bay Trail을 취소, Haswell과 Clover Trail +의 설명만 했다. Bay Trail의 기술적인 자세한 공개는 미뤄지고 말았다.