벤치리뷰·뉴스·정보/아키텍처·정보분석

[분석정보] 하스웰의 고성능 그래픽의 열쇠 Intel 제조 eDRAM의 상세

tware 2014. 3. 10. 14:30

 

102.4GB/sec의 초광대역과 128 다 뱅크의 eDRAM


 Intel은 "4세대 Core 프로세서 (Haswell : 하스웰)"의 최상위 모델에 탑재하는 eDRAM (임베디드 DRAM)의 사양을 ISSCC (IEEE International Solid-State Circuits Conference)에서 밝혔다. Intel은 Haswell의 최상위 GPU 코어 구성 "Intel Iris Pro Graphics 5200 (GT3e)" 에 자체 개발 / 생산 eDRAM 칩의 L4 캐시를 갖췄다. 4 CPU 코어에 최대 구성 GPU 코어의 CPU 다이와 eDRAM 다이를 결합한 Multi-Chip Package (MCP) 제품으로 볼 수 있다. eDRAM "Crystalwell (크리스탈웰)"은 128MB (1G-bit) 용량으로, 다이 크기는 77 제곱 mm이다.

 

 

 

 

 

Haswell의 4 코어 + GT3 그래픽 구성

 


 이 eDRAM은 한마디로 Intel CPU를 위한 맞춤형(커스텀) DRAM으로 22nm 공정의 고속 로직 공정에 내장된 초 광대역 인터페이스와 고속 메모리 셀 어레이를 다 뱅크 구성한 성능 중시의 DRAM이다. 그럼에도 불구하고 인터페이스의 전력 소비는 극적으로 낮게 억제되어있다. CPU를 빠르게 하려면 메모리를 고속 및 저소비 전력으로 해야 한다는 Intel의 사상을 구현한 칩이다.

 Intel의 Haswell에는 다양한 구조가 있다. 최대 구성 4 + 2는 4개의 CPU 코어와 320 개의 적화산 (MAD) 유닛의 GPU 코어를 갖추고 있다. 이만큼의 프로세싱 성능을 먹여 살리기 위해 메인 메모리 대역은 너무 좁고. 따라서 eDRAM 메모리 대역폭을 확장했다.

 

Haswell 변형

 

 

 

Haswell 그래픽

 


 Intel 제의 이 eDRAM은 128 뱅크라는 매우 많​​은 독립 뱅크로 구성되어 있다. eDRAM의 메모리 셀 어레이의 동작 주파수는 1.6GHz 고속으로, 메모리 액세스 입도는 512-bit (64-byte). CPU와의 인터페이스인 OPIO (On Package I / O)는 64-bit 폭으로 3.2GHz 동작 6.4Gtps 전송 속도. OPIO의 메모리 대역은 단방향 51.2GB/sec로, 리드와 라이트의 양방향이면 102.4GB/sec 다. 이만큼의 고 대역 인터페이스에서 소비 전력은 불과 1W 정도로 억제되어 있다. 다만 DRAM으로는 메모리 셀이 매우 커, 범용 DRAM 칩과는 다르다.

 

Haswell의 eDRAM의 개요

 


원칩 메모리 대역으로는 압도적인 Intel의 eDRAM


 102.4GB/sec 라는 메모리 대역은 현재 DRAM 기술에서 압도적이다. GPU로 말하면, 메인 스트림 GPU 클래스의 128-bit 메모리 인터페이스 GDDR5 탑재 보드의 메모리 대역이 된다. CPU에 대형 GPU 코어를 통합하는 경우의 최대의 병목은 메모리 대역이지만, Intel은 eDRAM으로 그 문제를 해결했다.

 

DRAM 버스 폭 로드맵


 Intel의 eDRAM 칩에서 특히 눈에 띄는 것은 1개의 칩으로 102.4GB/sec 클래스의 메모리 대역을 실현하고 있다는 점이다. 비교하면 GDDR5 최고의 7.2Gtps 때 단일 칩 (x32시)으로 28.8GB/sec 이므로, Intel의 eDRAM은 GDDR5 칩의 4배 가까운 대역이다. JEDEC의 차기 DRAM "HBM (High Bandwidth Memory)"은 4 다이를 스택했을 때의 대역은 넓지만 1 칩 당 대역은 Intel의 eDRAM의 절반 정도가 된다. Haswell의 eDRAM은 다이 당 대역에서 뛰어난 기술이다.

 또 하나 눈에 띄는 것은 메모리 액세스의 에너지다. OPIO의 비트 당 에너지 소비는 1.22pj / b (picoJoule / bit : 피코 줄 / 비트)라 한다. 컴퓨터 업계가 목표로 하고 있는 1pj / b 이하 대에 한걸음 앞까지 다가갔다.

 

 

 

 

온 패키지로 통합

 


6.4Gtps 전송 레이트의 패키지 인터페이스


 OPIO는 단방향 64-bit 폭의 인터페이스로 메모리 대역폭은 양방향으로 102.4GB/sec. 64-bit 폭 이므로 512-bit 워드의 전송에는 OPIO의 전송률로 8 사이클 분 소요된다. Intel의 통상 캐시 라인 길이는 512-bit (64-byte)이다.

 OPIO의베이스 클럭은 3.2GHz로 양 엣지를 사용하기 때문에 데이터 전송률은 더욱 배속의 6.4Gtps가 된다. 따라서 메모리 대역은 리드와 라이트 각각 단방향은 51.2GB/sec로, 리드와 라이트의 양방향이면 102.4GB/sec이다. 아래와 같은 계산이다.

· 단방향 (리드 또는 라이트)의 메모리 대역
64-bit × 2 에지 × 3.2GHz = 51.2GB/sec

· 양방향 (리드 + 라이트)의 메모리 대역
51.2GB/sec × 2 = 102.4GB/sec

 

 

 

eDRAM 연결

 


 OPIO는 8 데이터 클러스터로 구성되어 있다. 송신기 (TX)와 수신기 (RX) 각각 4 클러스터로 16-bit의 데이터와 포워드 클럭 및 ECC 총 19 인스턴스 이다. 명령 및 주소는 1 클러스터로 사이드 밴드도 갖춘다. 신호는 싱글 엔디드로 차동 신호는 아니다. 이것은 신호선의 수를 줄이는 동시에 실리콘 면적을 줄이기 때문이라 한다. OPIO는 단순화의 사상으로 설계되어 있으며, PHY도 매우 심플하다.

 

 

 

 


 OPIO는 임베디드 클럭은 아니기 때문에, 각 배선의 길이를 같게하는 등장 배선이 필요하다. 일반적으로 등장 배선을 위해 칩 사이의 간격을 넓게 취할 필요가 있다. 그러나 이번 eDRAM의 OPIO는 Haswell 측도 eDRAM 측도 모두 처음부터 등장 배선을 전제로 한 핀 배치가 되어있다. 따라서 복잡한 배선 패턴을 만들지 않고 등장 배선이 가능하게 되었다. 또한,이로 인해 Haswell 다이와 eDRAM 다이 사이의 간격을 1.5mm로 매우 근접하게 배치하고 인터페이스의 전력 소비도 억제한다.

 

 

 

 


Intel의 DRAM 인터페이스의 목표 에너지는 1pj / b 이하


 OPIO 인터페이스의 소비 에너지는 1.22pj / b (picoJoule / bit : 피코 줄 / 비트). 인터페이스 대역은 102.4GB/sec 이므로 역산하면 OPIO의 소비 전력은 1W 정도가 된다 (1Joule는 1W/sec). 슬라이드는 1W로 되어있다.

 1.22pj / b 이라는 숫자는 중요하다. 현재 컴퓨터 업계의 칩 간의 인터페이스 에너지의 중기적인 목표는 1pj / b 이하 대 이기 때문이다. 0.5 ~ 0.6pj / b 전후를 목표로 한다는 목소리가 많다. 예를 들어, 아래의 슬라이드는 Intel에서 ExaFLOPS 슈퍼 컴퓨터 등을 담당하는 Shekhar Borkar 씨 (Intel Fellow, Data Center Group, Director, Extreme-scale Technologies)의 것으로, 칩간 인터커넥트의 에너지 목표치를 0.5 ~ 0.6pj / b 전후로, 인터커넥트 거리를 수 cm로 하고 있다. Intel의 eDRAM의 OPIO가 목표에 아직 도달 할 수 없지만 지금까지와 비교하면 상당히 접근하고 있다.

 

 


 이번 ISSCC에서는 패널 토론에서도 메모리 인터페이스의 에너지 문제가 다뤄졌다. Intel도 참여한 패널은 역시 목표가 0.5 ~ 0.6pj / b 정도인 것이 확인되었다. 기존의 메모리 인터페이스의 에너지 비용에서 보면 이 목표는 꽤 멀지만, 저전력 인터페이스 기술이 급속히 발달하고 있기 때문에 목표가 보이고 있다. 아래는 2010년에 칩 컨퍼런스 "Hot Chips" 에서 강연을 한 MIT의 Vladimir Stojanovic 씨의 슬라이드다.

 

 


향후 메모리 기술의 방향성


 Intel의 이번 OPIO의 저소비 에너지는 완전히 맞춤 설계 eDRAM과 인터페이스 였기 때문에 실현 됐다. 과제의 하나는 이를 저비용 범용 기술로 가는 것으로, OPIO는 지금까지의 고안인 단계라고도 할 수 있다. Intel 이나 GPU 공급 업체가 요구하는 TB / sec의 메모리 대역을 실현하려고 하면 0.5 ~ 0.6pj / b에서도 전력은 5W 정도가 된다.

 인터페이스의 에너지에 더해서, DRAM 자체가 에너지를 소비한다. 현재는 DRAM 칩 자체의 전력 소모도 크다. 이것에 대해서는, Intel은 이전부터 DRAM 메모리 셀 어레이에서 활성화하는 페이지의 입도를 작게하는 것으로, 전력을 감소시키는 것을 제안하고있다. 아래는 Intel의 Borkar 씨가 일본의 반도체 칩 컨퍼런스 "Cool Chips" 2011년의 키 노트 스피치에서 보여준 슬라이드다.

 


 Intel은 인터페이스뿐만 아니라 메모리 액세스 전체의 에너지도 수 pj / b까지 억제하려고 한다. 아래 Cool Chips 슬라이드에 있는 것처럼 현재 토탈로 100pj / b 이상 (슬라이드에서는 byte 단위로 1,500 pj)의 에너지를 수십분의 1로 떨어뜨린다.

 

 

 

 


 Intel의 Haswell eDRAM은 그 기술을 살펴보면 Intel의 나아가려 하는 기술적인 방향을  알수 있다. 목표하는 0.5 ~ 0.6pj / b라는 스펙이 있고, 그 방향으로 진행하는 과정에 1.2pj / b의 OPIO를 사용한 캐시 eDRAM이 있다. 그리고 최종적인 도달점은 확실히 스택크드 DRAM 기술 (TSV 인터포저의 이용 포함)이 될 것이다.

 

 

 

 

[분석정보] Intel의 eDRAM 칩은 128 뱅크 구성에 읽기, 쓰기, 리프레시를 병렬

 

 

[분석정보] DDR4는 어떻게되나? 인텔의 메모리 전략을 예측

 

 

[분석정보] JEDEC이 "DDR4"와 TSV를 사용 "3DS" 메모리 기술의 개요를 밝힌다.

 


[분석정보] 테라 바이트 대역의 차세대 메모리 HBM이 2015년에 등장

 

 

[분석정보] 하스웰 eDRAM에 JEDEC 차세대 DRAM으로 대항하는 AMD의 메모리 전략

 

 

[분석정보] IDF 2013 베이징 전시장 및 기술 세션에서 새로운 기술에 주목한다.

 

 

[분석정보] 엘피다 메모리의 한계는 DRAM 종언의 상징?

 

 

[분석정보] Intel의 메모리 로드맵에 DDR4가 없는 이유

 

 

[분석정보] 20나노 공정부터 앞으로 무어의 법칙의 의미가 없어지나? ~ 트랜지스터당 비용 상승

 

 

[분석정보] 그리고 CPU는 DRAM 다이도 통합

 

 

[분석정보] 정체를 보인 Haswell의 eDRAM 솔루션

 

 

[분석정보] Intel이 Haswell 디자인 정보를 Hot Chips에서 발표

 

 

[아키텍처] Intel의 차기 CPU 하스웰(Haswell) eDRAM의 수수께끼

 

 

[분석정보] Haswell 절전 기능의 열쇠 "FIVR" 과 그 이후