2.5D 솔루션을 전제로 하는 HBM 규격
TB / sec 클래스의 초 광대역 메모리를 실현하는 새로운 메모리 규격 "HBM (High Bandwidth Memory)"이 드디어 보이기 시작했다. HBM은 이미 사양의 책정 작업이 끝나고 프로토 타입 시험제작 칩의 스펙 검증 작업에 들어간 것으로 알려졌다. 제품의 제공시기는 2015년경이 될 것 같다. 원칩으로 128GB/sec에서 256GB/sec의 메모리 대역을 실현하는 HBM에 의해 GPU나 일부 CPU의 메모리 대역은 한 단계 오른다. 그러나 당분간은 HBM은 다소 가격이 비싼 솔루션으로 머물러 GDDR5와 공존할 것이다.
HBM은 JEDEC에서 개발중인 차세대 메모리 규격으로, 특징은 1,024-bit의 매우 폭이 넓은 인터페이스로 광대역의 메모리 대역을 실현한다. 마이크로 범프와 실리콘 관통 비아 (TSV : Through Silicon Via)에 따르면 DRAM 다이 스택을 전제로 한 규격이다. 전력 소비도 기존의 GDDR5 보다 인하
HBM의 시스템 아키텍처
HBM 실현 방법
HBM의 장점
비슷한 JEDEC 규격으로 있는 Wide I / O 계열과의 차이점은 인터페이스 폭과 전송 속도 및 TSV 인터포저의 대응. Wide I / O 인터페이스는 512-bit로 4채널로 분할하고 있지만, HBM은 배인 1,024-bit 8채널이다. 핀당 전송 속도는 HBM이 1T ~ 2Tbps로 1세대 Wide I / O (최대 266Mbps)보다 5 ~ 8배 빠른 속도이다. Wide I / O 계열은 TSV에 의한 로직 칩에 3D 스택킹을 메인으로 생각하고 규격화를 시작했지만, HBM은 TSV 인터포저에 의한 2.5D 솔루션을 전제로 하고 있다. 또 모바일의 Wide I / O 계열이 절전에 포커스가 있는 반면, 그래픽 & 네트워크 & 고성능 시스템 용도의 HBM은 전력 효율을 추구하며 광대역에 포커스 하고 있다.
HBM은 2011년 3월부터 워킹 그룹이 활동을 시작하고 당초는 울트라 Wide I / O 같은 명칭으로도 불렸다. 작년 (2012년)에서 인터페이스 부분의 프로토 타입을 제작하고 접촉성 등의 검사를 행해 왔다고 한다. 지난달 (2013년 3월) 말부터는 메모리 칩의 프로토 타입이 Fab에서 나와 연구소에 반입되었기 때문에 실제 칩의 검증에 들어간 것이라고 한다. 메모리와 컨트롤러의 프로토 타입 칩에 의한 다양한 테스트를 거쳐 최종적인 사양으로 조정하고 양산으로 가지고 간다. 현재의 프로토 타입 칩은 저용량이지만, 제품판에서의 용량은 GDDR5 수준이 될 것으로 보인다.
시장으로의 제품 도입은 일정이 공식적으로 발표된 것은 아니지만 "아직 많은 도전이 남아 있지만, (HBM 탑재 제품의 투입이) 2015 년이면 비교적 안전한 일정 일것"이라고 어떤 JEDEC 관계자는 말한다. 공격적인 스케줄도 있을 수 있지만, 현실 솔루션은 2015 년과 보는 것이 좋아 보인다.
1024-bit 인터페이스를 8 채널로 분할
HBM은 1,024-bit 인터페이스를 8 채널로 분할하고, 각 128-bit 채널이 8 병렬로 동작하는 인터페이스가 된다고 볼 수 있다. 즉, 1개의 DRAM 다이에 8 채널의 인터페이스가있다. 종래의 DRAM은 1다이에 1채널로 HBM은 이 점이 크게 다르다. 채널로 분할된 큰 목적은 메모리 액세스 입도를 일정하게 억제하는 것이다.
JEDEC 메모리 버스 폭 비교
실제로는 모바일의 Wide I / O가 1다이에서 4 채널의 구성을 취하고 있으며, HBM의 8채널 / 다이는 그 연장에 있다. 또한 GDDR5와 DDR4는 메모리 셀 어레이를 뱅크 그룹을 나누어 프리패치 하는 구조를 취하고 있으며, 아래 그림과 같이 다른 뱅크에 병렬 액세스가 가능하다. GDDR5와 DDR4의 아키텍처는 채널에 명확히 구분되는 것은 아니지만, 메모리 셀을 분할 · 병렬화로 메모리 액세스 입도를 억제하는 목적은 같다. 덧붙여서, HBM의 프리 페치는 아직 밝혀지지 않았다.
DDR 메모리 프리페치
HBM은 실리콘 기판에 구멍을 뚫어 연결하는 TSV 기술로 DRAM 다이를 적층한다. HBM은 최초의 세대에서는 최대 4개의 DRAM 다이를 스택 한다. 8개의 다이 스택도 시야에 넣는다. 스택한 DRAM 다이는 TSV 의해 8채널로 접속된다. 전압 진폭은 VDD와 VDDQ도 1.2V로 예상된다.
TSV의 다이 스태킹 기술
HBM의 인터페이스
128GB/sec에서 스타트해 2배까지 광대역화
HBM은 핀당 전송 레이트가 1Gbps 부터 시작한다. 인터페이스는 1,024-bit이므로 1Gbps 때는 원칩으로 1Tbps의 메모리 대역이 된다. 바이트로 환산하면 128GB/sec이다. 또한 같은 1세대 HBM에서 2Gbps와 그것 이상의 전송 속도로 끌어올릴 여지가 있다고 한다.
"주파수 범위로는 최초의 제품에 비해 2배에서 최대 3배까지 확장성이 있다고 생각하고 있다. GDDR5는 4Gbps가 최초의 목표였지만, 현재는 5Gbps를 넘어 7Gbps에 도달하고 있다. 마찬가지로 HBM도 2배의 전송 속도까지는 확실하고 아마 3배까지 끌어 올릴 수 있을 것 "이라 어떤 JEDEC 관계자는 말한다.
현재 단계에서는 JEDEC에서 표준화를 진행하고 있는 것은 1세대 2배의 전송 레이트 2Gbps 까지. 2Gbps에서 칩당 대역은 2Tbps로 256GB/sec 된다. 만약 HBM에서 3Gbps이 가능하게 되면, 칩당 메모리 대역은 384GB/sec에 달하게 된다.
스택 크드 DRAM 솔루션
모바일용의 Wide I / O 계열 메모리는 TSV의 3D 스태킹을 고려하여 규격화되고 2.5D도 지원하는 방향으로 향했다. 그것에 비해, HBM은 처음부터 TSV 인터포저를 사용한 2.5D 솔루션을 전제로 하고 있다. 거기에는 많은 이유가 있지만 최대 이유는 HBM의 주요 이용자로 상정하고 있는 GPU와 CPU 업체들이 3D를 바라지 않기 때문이라고 한다. 어떤 JEDEC 관계자는 다음과 같이 설명한다.
"HBM이 TSV 인터포저에 포커스 하고 있음은 열 문제도 있지만, 공정 기술의 문제도 크다. 첨단 공정이 개발되고 부터, 그 과정에서 TSV를 이용가능 될때 까지 시간이 걸리기 때문이다. 다양한 테스트를 하는 시간도 고려하면 아마도 18 ~ 20개월 걸릴 것이다. 그렇다면 다음 세대의 공정 기술이 이제 일어서기 시작하는 시기이다. 그렇게 되면, 칩 벤더에게는 TSV를 사용한 1세대 오래된 공정 기술을 사용하거나 TSV를 쓰지 않는 새로운 공정 기술을 쓰거나 하는 선택 사항이 된다. GPU 등의 업체는 트랜지스터 중독자로 (탑재 할 수있는 트랜지스터 수가 감소) 오래된 공정기술 이라는 선택은 있을 수 없다. 그러므로 TSV 인터포저를 사용해야 한다. "
아래의 슬라이드처럼, TSV 인터포저를 사용하는 경우에도 스택크드 DRAM의 장점을 많이 누릴 수 있다.
TSV 인터 포저를 사용하는 메리트
Wide I / O는 당초 3D 스택에 포커스해 설계되었기 때문에 인터페이스 부분은 아래의 다이 사진처럼 칩 중앙에 모아져 있다. 그것에 비해, HBM은 TSV 인터포저의 사용에 포커스 하기 때문에 인터페이스 부의 배치가 다르다. Wide I / O는 칩의 중앙에 인터페이스가 있기 때문에 칩 중앙에 배치하는 경우가 많은 크로스바 스위치와 메모리 컨트롤러에 인터페이스를 근접시킬 수 있다. 그러나 HBM의 인터페이스가 칩의 구석에 배치된다고 하면 이러한 이점을 얻을 수 없다.
Wide I / O 인터페이스
HBM의 인터페이스
의문점이 있는 NVIDIA의 Volta의 스택크드 DRAM
NVIDIA는 차 차세대 GPU의 Volta (볼타)에서 스택 크드 DRAM을 비디오 메모리로 채용하고 TB / sec의 초 광대역 메모리를 실현하는 것을 제시했다. 아래 NVIDIA의 슬라이드와 같이 Volta 명료하게 2.5D 솔루션의 HBM인 것으로 보이는 메모리를 싣고있다. 이 Volta의 스택크드 DRAM에 대해 어떤 JEDEC 관계자는 "(Volta의 메모리) HBM을 상정하고 있는 것으로 보이지만 그림은 만화적이고 HBM과는 조금 떨어져 있다"고 말한다.
Volta 메모리
우선, TSV 인터포저는 다이 면적이 한정되어 있기 때문에, Volta의 그림보다 더 다이끼리 근접한 칩이 된다고 한다. Volta의 그림 같은 TSV 인터포저는 경제적으로는 있을 수 없다고 한다. 또한 Volta의 그림은 6개의 DRAM 스택을 GPU 주변에 배치하고 있지만, 인터페이스 폭이 넓은 HBM 에서는 6스택은 상당히 어려울 것이라고 지적한다. "6 스택이라는 것은, 조금 놀랐다. NVIDIA가 확실히 HBM의 사양을 검토한 결과인지 의문이다" 라고 어떤 JEDEC 관계자는 말한다. 다만, GDDR5로 x 512 인터페이스를 구현하는 경우도 있으므로, HBM에서 6 스택도 있을 수 없는 이야기는 아닐지도 모른다.
HBM의 최초의 스펙이 될 것으로 보이는 1Gbps의 핀당 전송 레이트에서, NVIDIA가 주장하는 1TB/sec의 메모리 대역의 실현에는 8스택이 필요하다. 그러나 6 스택에서도 어렵다고 하면 적어도 최초의 세대에서 1TB/sec는 이상해 진다. 다만, HBM이 고속화 하는 시기는 빠르다고 보여지기 때문에 1TB/sec가 그렇게 멀지는 않다.
단일 칩의 메모리 대역은 압도적인 HBM
아래는 JEDEC의 성능 DRAM의 전송 레이트와 대역의 차트다. 단일 칩의 대역폭과 복수 칩에 의한 넓은 인터페이스 구성의 대역폭을 나타내고 있다. HBM 눈에 띄는 특징은 단일 칩당 대역폭이 매우 넓은 것. GDDR5는 x32로(칩당 16/32bit) 사용하는 경우에도 현재의 6Gbps 칩당 24GB/sec에 불과하다. 그것에 비해, HBM은 원칩으로 128GB/sec에서 256GB/sec 이다.
JEDEC 성능 DRAM의 전송 속도와 대역폭
기본 DRAM과 비교하면 차이는 더 크다. x16 칩에서도 (4/8/16 bit) DDR3는 2.13Gbps 전송 속도에서도 대역은 4.2GB/sec 정도. (모듈램 단위에서는 64bit 고정이므로 약 17GB/s. 듀얼채널이면 약 34GB/s) DDR4의 로드맵에서 최고속인 전송 속도 3.2Gbps에서 6.4GB/sec로, 4.26Gbps까지 올려도 대역은 8.5GB/sec에 머문다. 기본 DRAM과 GDDR에서는 칩 개수를 많이 하고 기판상의 배선을 늘려 대역을 넓힐 수 밖에 없다.
그래도 서버 CPU에서 x 256의 (4채널) 메모리 인터페이스 구성에서도 DDR4 3.2Gbps에서 102GB/sec이 상한이다. 현행의 메인 스트림 PC라면 x128 (듀얼채널) 인터페이스 DDR3에서 1.86Gbps 까지면 대역은 30GB/sec 이하다.
GPU는 현재 GDDR5로 x256에서 x384 인터페이스로 300GB/sec에 접근하고 있다. Intel의 HPC (High Performance Computing)용 Knights Corner는 x512로 320GB/sec의 대역을 달성하고 있다. 그러나 GDDR5의 고속화는 한계에 가까워지고 있고, 전송 레이트 7Gbps대로 머물 것으로 보인다. x384 에서도 메모리 대역은 300GB/sec 대 까지가 한계로 x512 에서도 500GB/sec에 도달할까 도달하지 않을까 이다. 무리하게 고속화는 이제 한계가 보이고 있는 것이 GDDR5의 현실이다.
그것에 비해 HBM은 전송 속도 1Gbps 에서도 2스택 메모리 대역 256GB/sec, 4스택 512GB/sec에 달한다. 거기에서 배속의 2Gbps로 전환하면 4스택 1TB/sec에 도달 할 수 있다. 4스택까지 JEDEC에서도 상정하고 있는 것으로, 1TB/sec는 접근하고 있다. NVIDIA의 Volta의 그림과 같이 만약 6스택이 가능하면 2Gbps 때는 1.5TB/sec가 된다.
HBM은 필요로 하는 메모리 대역을 달성 할 수 있는 몇 안되는 선택지다. 그러나 HBM에도 약점이 있고 그것은 TSV 인터포저를 사용하는 것에 의한 비용 상승이다. 비용에 대해서는 낙관론과 부정적인 견해가 예상이 어렵다. 적어도 출시되는 2015년 전후는 꽤 비싸게 붙을 것이고, 따라서 그래픽에서도 GDDR5를 순조롭게 바꿀 가능성은 낮다. 처음에는 하이엔드만의 도입으로 상당 기간 GDDR5와 공존할지도 알수 없다. HBM은 HPC (High Performance Computing)와 네트워크 기기에도 침투를 노리고 있다.
DRAM 기술 동향
현재의 흐름에서는 스택크드 DRAM이 2014에서 2015년에 침투하기 시작할 전망이다. 그러나 이미 1세대 Wide I / O는 시작이 잘 되지 않고, Wide I / O 2에서 다시 시작한다. JEDEC이 제시하는 광대역 메모리의 해결책은 스택크드 DRAM을 향해 있지만, 어떤 페이스로 침투하는지는 아직 보이지 않는다. 그러나 프로세서가 광대역 메모리를 갈망하는 것도 확실하고, 향후 CPU와 GPU의 통합이 진행되면 점점 메모리 대역이 중요해 진다.
2013년 4월 12일 기사 입니다.
[분석정보] GPU의 메모리 대역을 1TBsec로 끌어올리는 HBM이 준비 완료
[분석정보] 2015년 컴퓨터 플랫폼 IDF Spring 2005
[정보분석] IDF 2011 Justin Rattner 기조연설 매니코어 시대가 다가옴 2/2부
[분석정보] DDR4는 어떻게되나? 인텔의 메모리 전략을 예측
[분석정보] JEDEC이 "DDR4"와 TSV를 사용 "3DS" 메모리 기술의 개요를 밝힌다.
[분석정보] 하스웰 eDRAM에 JEDEC 차세대 DRAM으로 대항하는 AMD의 메모리 전략
[분석정보] IDF 2013 베이징 전시장 및 기술 세션에서 새로운 기술에 주목한다.
[분석정보] 엘피다 메모리의 한계는 DRAM 종언의 상징?
[분석정보] Intel의 메모리 로드맵에 DDR4가 없는 이유
[분석정보] 20나노 공정부터 앞으로 무어의 법칙의 의미가 없어지나? ~ 트랜지스터당 비용 상승
[분석정보] 정체를 보인 Haswell의 eDRAM 솔루션
[분석정보] Intel이 Haswell 디자인 정보를 Hot Chips에서 발표
[아키텍처] Intel의 차기 CPU 하스웰(Haswell) eDRAM의 수수께끼
[벤치리뷰] 기가바이트 BRIX Pro(GB-BXi5-4570R)VS 카베리
[벤치리뷰] Iris Pro 5200 내장 GIGABYTE BRIX 최강 모델
[벤치리뷰] 마우스 컴퓨터 LuvBook H로 아이리스 프로 5200 성능 검증
[벤치리뷰] 하스웰 아이리스 프로 5200 (intel Iris Pro 5200)
[벤치리뷰] 인텔 아이리스 프로 5200 그래픽 리뷰 코어 i7-4950HQ 테스트
[제품정보] Intel Xeon Phi 새로운 폼 팩터 채용 포함 5모델 추가
'벤치리뷰·뉴스·정보 > 아키텍처·정보분석' 카테고리의 다른 글
[정보분석] CPU와 GPU의 메모리 공간을 통일하는 AMD의 hUMA 아키텍처 (0) | 2013.05.02 |
---|---|
[정보분석] 배터리로 20일간 아이들 상태로 가능한 차세대 하스웰 Ultrabook (0) | 2013.04.26 |
[아키텍처] IDF 2013 Beijing에서 공개된 하스웰(Haswell)의 절전 & 오버 클러킹 기능 (0) | 2013.04.17 |
[분석정보] IDF 2013 베이징 Intel 프로세서에서 가능한 것은 Windows 만이 아니다 (0) | 2013.04.12 |
[분석정보] IDF 2013 베이징 전시장 및 기술 세션에서 새로운 기술에 주목한다. (0) | 2013.04.12 |
[정보분석] GDC 2013 하스웰 탑재 울트라북 지금보다 게임이 잘된다? 인텔 확장 설명 (0) | 2013.03.27 |
[정보분석] CeBIT 메인보드 제조사 제4세대 코어 프로세서용 메인보드 전시 (0) | 2013.03.06 |
[정보분석] Clover Trail +와 앞선 공정을 무기로 전진하는 Intel 스마트폰 사업 (0) | 2013.02.27 |