크게 늘어나는 APU의 성능에 조합할 메모리 대역
AMD는 차세대 APU "Kaveri (카붸리) '에서 GPU 코어의 성능을 크게 강화한다. 현재 Trinity (트리니티) / Richland (리치랜드) 계에서는 GPU 코어의 적화산(MAD) 유닛 수는 384 유닛이지만, Kaveri는 512 단위로 33% 늘어날 것으로 보인다. 그러나 현재 APU의 그래픽에서의 문제점은 연산 유닛측만이 아닌 메모리 대역 측에 있다. 표준 일반 DRAM의 모듈을 사용하는 것이 전제가 되는 APU나 CPU는 메모리 대역폭을 개별 GPU 수준으로 높이는 것이 어렵다.
AMD 제 APU의 GPU 비교
Intel도 GPU 코어의 성능을 높인 Haswell에서 같은 문제에 직면했다. 이 문제를 해결하기 위해 Intel은 최근 "Haswell"(하스웰)은 "GT3e"구성의 그래픽 코어 버전에서 eDRAM을 패키지에 내장하는 방식을 취했다.
AMD의 Joe Macri 씨 (CTO, Fusion)도 GPU 코어를 통합한 APU는 메모리 대역폭이 병목인 것을 인정한다. 더구나 Intel이 채택한 것과 비슷한 초광대역 DRAM을 CPU 패키지에 통합하는 방법이 이치에 맞다 동의한다. 즉, AMD도 Intel과 같은 기술적인 방향성을 가지고 있다. Macri 씨는 다음과 같이 설명한다.
"기본적으로 광대역 메모리 프로세스 노드에 타이트하게 연결하는 것은 올바른 방향이다. Intel의 방법도 아이디어 자체는 옳다고 생각한다. 사실 우리도 (Intel의 eDRAM과) 유사한 솔루션을 수년에 걸쳐 검토해 왔다.
하지만 문제는 비용과 접근에 있다. 이러한 유형의 솔루션은 저렴한 비용으로 가능한 더 많은 시스템에 제공할 수 있도록 해야한다. 최종 사용자가 어떤 하이 엔드 APU에도 메모리의 비용을 신경 쓰지 않고 살 수 있어야 한다. 그러기 위해서는, (패키지에 포함) DRAM의 비용을 낮출 필요가 있다. "
AMD도 비용적인 조건만 갖추어지면 패키지 광대역 DRAM을 가져 오려고 생각하고 있다. 그것 이외에, 지금의 PC 아키텍처에서 메모리 대역폭 문제를 해결하는 길이 없기 때문에 당연한 방향이다.
실제로 AMD의 Kaveri는 GPU 코어의 원 성능으로는, Haswell의 GT3e에 맞서는 위치에 있다. 하지만 AMD는 Kaveri에서 Intel의 eDRAM과 같은 솔루션을 제공하지 않는다. 그것은 CPU 패키지에 DRAM을 가져올 경우에는 저비용으로 억제할 필요가 있지만 현재로서는 그것은 어렵다. 아직 시기가 성숙되지 않았다.
"Intel의 발상, 방향성 자체는 옳지만, 구현 방법은 잘못이라 생각한다. Intel은 잘못된 선택을 했다. Intel이 취한 (맞춤형 DRAM)의 접근은 비용이 높기 때문이다. 많은 고객에 널리 제공할 수 없다.
Intel의 eDRAM 솔루션과 비교하면 누구나 개별 그래픽을 택할 것이다. 50 달러를 플러스하면, 훨씬 뛰어난 개별 GPU 솔루션이 GDDR5 메모리와 붙어 손에 들어가는 때문이다. "
Intel의 취한 방법은 비용이 들기 때문에 모든 하이 엔드 APU에 eDRAM을 채용 할 수 없다고 AMD는 지적한다. 따라서 eDRAM 솔루션을 표준으로 하면 널리하지 못하고, 가격도 높게 설정해야 한다. 그렇게 되면 개별 GPU에 대한 경쟁력을 잃게 된다는 것이 AMD의 주장이다.
JEDEC의 광대역 DRAM 채용을 시야에 넣는 AMD
AMD는 비용을 낮추기 위해서는 온 패키지의 메모리에 맞춤형 설계의 DRAM을 사용하는 것은 잘못이라 보고있다. DRAM은 표준화된 규격이 훨씬 저렴한 가격으로 되기 때문이다. Macri 씨는 다음과 같이 지적한다.
"DRAM 비용에 대해 말하면, JEDEC (반도체의 표준화 단체)에서 표준화 된 DRAM이라면 싸게 억제된다. DRAM 메이커가 제조하는 메모리라면 비용에 최적화된 공정 기술로 보다 높은 수율로 제조되므로 시스템당 비용을 낮출 수 있다. DRAM이 싸면 더 많은 고객에게 광대역 DRAM 솔루션을 제공할 수 있다.
우리는 (패키지에 포함될 수있는 광대역 DRAM은) JEDEC에서 "Wide I/O2"또는 "HBM"(High Bandwidth Memory) 등을 설계하고 있다. 가까운 장래에 JEDEC 표준 DRAM으로 많은 선택이 사항이 생긴다 생각하고 있다. 장래 APU에 DRAM을 조합하는 솔루션을 제공하는 경우도 가격으로 AMD의 개별 그래픽 솔루션보다 명확하게 낮지 않으면 안된다고 생각하고 있다. 그 위에서 뛰어난 게임 체험을 포함하여 높은 그래픽 성능을 제공한다. "
Intel과 AMD의 큰 차이는 맞춤 설계 특수 DRAM을 사용하는가? JEDEC 규격의 범용 DRAM을 사용하는가 하는 점에 있다. Intel은 자사 Fab에서 제조하는 자사의 eDRAM으로 Haswell의 메모리 대역폭을 확장했다. 반면 AMD는 어디까지나 JEDEC 표준 DRAM 규격을 고집한다. 그부분이 DRAM 칩 자체의 비용을 절감 하기 때문이다. 그리고 현재 JEDEC에서 급속도로 표준화를 추진하고 있는 광대역 메모리 Wide I/O2 와 HBM이 후보로 지목되고 있다.
광대역 메모리 기술 개요
그러나 Macri 씨의 이 발언의 이면에는 자사에 반도체 Fab을 가진 Intel과 팹리스 AMD의 입장 차이도 있다. Intel은 이번 Haswell을 위한 eDRAM을 자사에서 제조한다. 맞춤형 DRAM을 다른 반도체 메이커에 외주 하는 경우와는 다르다. Intel은 자사의 Fab의 용량을 eDRAM 칩 제조로 채우기 때문에 비용의 감각은 AMD와는 다르다.
원칩으로 최고 256GB/sec을 실현하는 HBM
Wide I/O2 와 HBM (High Bandwidth Memory)는 모두 JEDEC에서 규격화하고 있는 스택크드 타입의 메모리 규격이다. 모두 초광폭 인터페이스로 마이크로 범프를 핀에 채택한다. Wide I/O2와 HBM의 모두 Through Silicon Via (TSV) 기술을 통해 CPU 나 GPU 위에 겹쳐 스택이 가능하다. 또한 복수의 DRAM 칩을 TSV를 사용하여 스택할 수 있다. 차이는 Wide I/O2가 모바일용으로 소비 전력에 초점을 맞추는데 비해 , HBM은 그래픽 이나 HPC 용으로 성능에 초점을 맞추는 점. 성능을 중시한다면 HBM, 노트북 PC에서 전력을 중시한다면 Wide I/O2라는 선택이 될 것 같다.
Wide I/O2는 1칩 256 ~ 512 핀 (인터페이스 폭이 다른 2종류의 다이가 있다.)에서 핀당 전송률은 800Mbps (오버 클럭시에는 1Gbps)가 목표. 1 칩당 메모리 대역은 25.6 ~ 51.2GB/sec (오버 클럭시에는 68GB/sec)가 예정되어 있다. 그에 비해 HBM은 1,024 핀으로 전송 속도는 1 ~ 2Gbps의 범위, 1 칩당 메모리 대역은 128 ~ 256GB/sec를 목표로 한다. 원칩으로 256GB/sec의 메모리 대역이 되면 ,384-bit 폭 인터페이스의 GDDR5에 필적한다. 인터페이스 폭은 아래와 같다.
JEDEC 규격간의 메모리 대역폭 비교
LPDDR4와 Wide I/O2 기술 개요
비교되는 Haswell의 eDRAM은 1칩 대역은 단방향 50GB/sec 이상으로 양방향이면 100GB/sec를 초과한다. 시리얼 인터페이스가 단방향 256-bit 씩 구성이다. 전송 속도는 1.6Gbps로 보인다.
아래의 메모리 대역의 차트에서 중앙 근처에 있는 붉은 점이 Haswell의 eDRAM으로, 그 위가 HBM, 왼쪽이 Wide I/O2가 된다. HBM 이라면 Haswell eDRAM을 크게 웃도는 메모리 대역폭을 실현한다. Wide I/O2 라면 Haswell eDRAM의 단방향분의 메모리 대역을 원칩으로 실현할 수 있다.
메모리 대역폭 로드맵
Wide I/O2은 2014년 안에 도입을 목표로 하고 규격을 책정 중이다. HBM은 이미 샘플 DRAM칩 테스트 단계로 Wide I/O2보다 선행 스케줄로 진행되고 있다고 한다. 이전 기사에서 HBM 제품의 도입을 2015년이라 썼지만, 실제로는 2014년 중에 제품화 되는 페이스 라고 한다. 즉, Kaveri 다음 APU쯤 이라면 아슬아슬한 사이에 맞는 시기 DRAM이 나온다. 아래는 JEDEC이 5월에 개최한 "Mobile Forum 2013"의 슬라이드다.
모바일 DRAM의 로드맵
AMD는 본래 GPU에서 스택 DRAM 기술의 선행 도입을 생각하고 있었다. 설계가 용이한 GPU에서 도입하고, 그 다음에 APU / CPU에 응용할 계획이었다 보여진다. 또 당초 GPU에 직접 DRAM 스택하는 방향을 검토하고 있었다고 한다.
그러나 현재 AMD는 APU와 GPU에 직접 Wide I/O2와 HBM을 올리는 것이 아니라, 실리콘 인터포저 라고 불리는 실리콘 기판 위에 APU나 GPU에 DRAM 칩을 올리는 솔루션을 생각하고 있다. "2.5D"로 불리는 스택 방식으로 APU나 GPU에 복잡한 TSV 생성 공정을 사용할 필요가 없는 것이 장점이다. 보다 안전하게 높은 수율로 APU와 GPU를 제조할 수 있다.
3D 스택과 2.5D (실리콘 인터포저)의 모식도
DDR3 / 4과의 병용이 될 가능성이 높은 HBM 또는 Wide I/O2
Wide I/O2와 HBM은 TSV로 DRAM 칩을 스택하여 메모리 용량을 늘릴 수 있다. GPU에서 HBM을 사용하는 경우 기본적으로 비디오 메모리를 모두 HBM으로 구현한다. 즉, GDDR5 대신 HBM을 사용하는 방법이 일반적으로 될 것으로 보인다. 모바일 SoC (System on a Chip)에서 Wide I/O2를 사용하는 경우도 마찬가지로, 메인 메모리를 모두 Wide I/O2에서 구현하는 것이 일반적이 될 것이다.
하지만 PC에서 APU의 경우 저비용으로 대용량의 메인 메모리를 실현해야 한다는 제약이 있다. 따라서 DDR3 및 DDR4의 PC용 일반상품 DRAM으로 용량을 벌고 증설을 가능하게 하고, 한편으로 Wide I/O2와 HBM을 패키지로 끌어와 메모리 대역도 확장하는 방식이 될 가능성이 높다. 실제로 Haswell의 eDRAM 솔루션은 이러한 접근이다.
PC용 APU에서 예상되는 메모리 아키텍처
이 경우 Wide I/O2나 HBM을 어떻게 사용할지가 큰 과제가 된다. Intel의 eDRAM 처럼 캐시하려면 캐시 액세스를 위한 태그 RAM이 필요하다. Wide I/O2와 HBM은 원칩이 4 ~ 8Gbit의 (512MB ~ 1GB) 용량으로 시작하기 때문에, 태그 RAM이 크게 늘어나 버려, 효율적이지 않다. 아래는 추정되는 Haswell의 eDRAM 솔루션의 다이 레이아웃으로, 다이 (반도체 본체)를 대형화하고 있는 원인의 하나는 태그 RAM이라고 추측된다.
Haswell의 다이 레이아웃
그러나 하드웨어에서 캐시로 제어하지 않는 경우에도 문제가 생긴다. 예를 들어, 스크래치 패드 메모리로 하면 명시적으로 소프트웨어에서 제어할수 밖에 없게 되어, 소프트웨어 측이 복잡해진다. 패키지의 광대역 DRAM과 외부 DDR3 / 4를 모두 메인 메모리로 연속 물리 주소로 제어하는 경우 소프트웨어 측이 메모리의 차이를 관리할 필요가 나온다.
이전이라면 GPU의 메모리로 고정하는 수도 있었다. 그러나 AMD는 GPU를 범용으로 사용하려고 GPU 코어와 CPU 코어의 주소 공간을 공통화하려 하고 있는 그러한 흐름에 맞지 않는다. AMD가 HBM과 Wide I/O2를 APU에 가지고 올 때, 어떤 접근 방식을 취할지 주목된다.
[분석정보] 2015년 컴퓨터 플랫폼 IDF Spring 2005
[분석정보] Intel의 eDRAM 칩은 128 뱅크 구성에 읽기, 쓰기, 리프레시를 병렬
[분석정보] 하스웰의 고성능 그래픽의 열쇠 Intel 제조 eDRAM의 상세
[분석정보] AMD의 차세대 APU Kaveri (카베리)는 아키텍처의 전환점
[분석정보] Intel의 CPU "Haswell"용 DRAM 기술
[분석정보] 정체를 보인 Haswell의 eDRAM 솔루션
[아키텍처] Intel의 차기 CPU 하스웰(Haswell) eDRAM의 수수께끼
[분석정보] 메모리가 큰 벽이 되는 AMD의 퓨전 (FUSION) 프로세서
[분석정보] 테라 바이트 대역의 차세대 메모리 HBM이 2015년에 등장
[분석정보] IDF 2013 베이징 전시장 및 기술 세션에서 새로운 기술에 주목한다.
'벤치리뷰·뉴스·정보 > 아키텍처·정보분석' 카테고리의 다른 글
[분석정보] 스몰 코어 마이크로 서버로 기우는 Intel의 서버 전략 (0) | 2013.07.30 |
---|---|
[분석정보] 부드러운 데이터 센터를 만드는 Intel의 Software Defined Infrastructure (0) | 2013.07.30 |
[분석정보] 20나노 공정부터 앞으로 무어의 법칙의 의미가 없어지나? ~ 트랜지스터당 비용 상승 (0) | 2013.07.09 |
[분석정보] 인텔 하스웰 설계를 행한 마레이시아 제조 개발 거점을 공개 (0) | 2013.07.08 |
[분석정보] AMD의 차세대 APU Kaveri (카베리)는 아키텍처의 전환점 (0) | 2013.07.05 |
[분석정보] Research @ Intel 2013 Direct Compressed Execution 등을 시현 (0) | 2013.06.30 |
[분석정보] 4만 8000개의 제온파이로 중국 톈허2 세계에서 가장 빠른 슈퍼 컴퓨터 (0) | 2013.06.19 |
[분석정보] TOP500 슈퍼컴퓨터 순위 2013년 6월 (0) | 2013.06.18 |