고성능 CPU 시대 최대의 난관인 메모리
CPU와 GPU가 함께 할뿐 아니라 CPU와 메모리도 함께 되려고 하고 있다. 몇년 후 높은 처리량 CPU는 DRAM 다이 (반도체 본체)를 CPU와 같은 패키지에 넣을 가능성이 높다. 멀티 코어화와 벡터 연산 능력을 강화 (또는 GPU 코어 통합)한 CPU에 DRAM도 들러 붙는. 말하자면, "CPU + GPU + DRAM"이라는 모습으로 바뀌게 된다.
이유는 간단하다. TFLOPS 성능을 노리는 CPU가 수백 GB / sec의 메모리 대역폭을 필요로 하기 때문이다. 전체 성능을 발휘하기 위해 필요한 피크 수백 GB / sec 대역을 실현하기 위해서는 현재 수십 GB / sec에서 단번에 10배로 메모리 대역을 높여야 한다. 그러나 3~4 년에 데이터 전송 속도를 배로에 올려 놓는 DRAM 로드맵에서는 이 대역을 도저히 따를 수 없다. 메모리 인터페이스 폭을 넓히는 것도 한계에 접근하고 있다.
여기서 CPU 벤더는 4 가지 선택이 있다. (1) JEDEC (미국의 전자 공업회 EIA의 하부 조직으로 반도체의 표준화 단체)에서 표준화 된 일반 DRAM (DDR 계 메모리)을 더 높은 전송 속도로 견인한다. (2) 표준의 일반 DRAM과는 다른, 독자 규격의 높은 전송 속도의 DRAM 제품을 채택한다 (인텔이 예전에 펜티엄4와 펜티엄3 말기에 채택한 RDRAM 같은). (3) 최초의 2 개의 절충안으로, 일반 DRAM과 다른 높은 전송 속도의 2가지 DRAM을 JEDEC에서 표준화한다. (4) 일반 DRAM의 전송 속도의 향상 속도는 그대로, CPU에 가까운 곳에 초 광대역 맞춤형 DRAM을 둔다.
Intel은 Pentium 4때 계획 (2)를 가지고 Direct Rambus DRAM (RDRAM)를 메인 메모리에 자리 잡은 (실제로는 Pentium III의 말기부터). 또한 RDRAM 후에 DRAM을 개발하는 단체 ADT (Advanced DRAM Technology)를 설립하여 "ADT L '과'ADT H"의 2 종류의 차세대 메모리의 개발도 진행했다. 그러나 RDRAM은 DRAM 업계에서 반발을 받아 Intel은 노선을 변경 ADT도 해소. JEDEC에서 표준화 된 DDR 계 메모리에 돌아왔다 (인텔이 RDRAM을 선택한 뒤에 부랴부랴 램 업계도 고속화로 진행. 업계와의 마찰도 있었겠지만, JEDEC 표준 램 속도가 빨라지니, 굳이 RDRAM을 계속 밀어부칠 이유도 없어짐. 인텔이 크게 알려졌지만, AMD도 RDRAM 라이센스를 받았죠.).
[고전 1998/10/09] AMD, Direct RDRAM 라이센스 취득
다음 Intel은 계획 (1)을 가지고 공격적인 DDR2로의 전환을 계획하고 DDR2 자체도 고속화로 향했다. 그러나 메모리의 이행은 Intel의 상정한 속도로 진행되지 않고, 로드맵은 순조롭게 돌파되지 않았다. DDR4에서는 계획 (3) 절충안으로, 이전의 DDR 계 메모리의 연장인 'DDR4 Single-Ended "와 높은 전송 속도를 노리는"DDR4 Differential'의 2 가지 계획이 제안되었다. 그러나 이것도 잘 가지 않고, DDR4 자체가 백지화 됐다.
메모리 로드맵
DRAM 공정 기술 및 용량 세대 로드맵
일반 DRAM의 모델에서 벗어날 수 없는
따라서, 메모리는 지난 10년 정도 동안 다양한 시도가 좌절하고 CPU의 향후 성능 향상에 맞는 기술 로드맵이 보이지 않는다. 더 정확히 말하면 표준 일반 DRAM의 세계에서는, CPU에 맞는 발전이 계획되어 있지 않다.
그러나 JEDEC 표준을 벗어나면 거기에는 고 대역폭 메모리 기술 방안이있다. Rambus는 16Gtps 매우 높은 전송 속도의 메모리 인터페이스를 통해 TB / sec 대역폭 메모리 기술 이니셔티브 "Terabyte Bandwidth Initiative"를 제창하고 있다. 이것은 Rambus 기술의 집대성과 같은 제안, 낮은 진폭 왜곡도 대책, 메모리 액세스 입도도 억제 기술적으로 "아름다운" 솔루션이다.
그러나 주요 CPU 업체들은 Intel도 AMD도 당분간 계획 (2)를 가지며 JEDEC 표준 일반 DRAM이 아닌 메모리를 자사의 메인 제품의 메모리로 채용할 기색은 없다. 적어도, 수면에는 나타나지 않았다. 업계의 합의를 얻지 못하고, 일반 상품이 될 수 없었던 RDRAM 때의 반복 된 실패가 되는 것을 두려워 하기 때문이다.
문제의 근원은, 일반 DRAM의 "원 사이즈 피츠 올 (one size fits all)"모델이 아직 무너지지 않은 것에 있다. 이 모델은 JEDEC에서 표준화 된 DRAM이 상품으로 다양한 시스템에 퍼진다. 넓은 시장에 대부분의 DRAM 업체들이 동일한 규격에 따른 메모리를 제조하고 시스템 벤더가 자유롭게 선택한다. 따라서 각 DRAM 제조업체가 가격과 성능을 경쟁하고 사용자는 저렴한 비용으로 고성능 메모리를 손에 넣을 수있다. 일반 DRAM은이 메커니즘으로 번영해 왔다.
그러나 일반 상품이 아닌 DRAM이 고리에서 빠져 버린다. 일반 DRAM이 급속히 저가격화 되어도, 비 일반의 DRAM의 가격은 변동 폭이 좁고 높은 가격에 머문다. 따라서 시스템 측은, 비 일반 DRAM을 사용하고 있는 한은 최대 사용자 요구인 메모리 탑재량의 증대를 충족하기 어려워 진다.
이러한 사정이 있기 때문에 CPU 벤더도 당분간 일반 DRAM에서 떠날 수 없다. 그러나, 일반 DRAM은 바로 " 일반 제품 "이 되기 때문에, 컨트롤러 측의 호환성을 포함하여 폭 넓은 요구에 응할 수 있는 스펙이 요구된다. 그것이 속도의 발목을 잡고 만다.
이것이 CPU 벤더가 안고 있는 일반 DRAM의 딜레마이다. 이를 위해 계획 (1)과 (3)과 같은 방식으로 표준 DRAM의 고속화를 도모해 왔다.
계획 (1)에서 (3)이 속수무책, 계획 (4)가 부상
하지만 현재로서는 계획 (1) ~ (3)은 어느쪽도 할수 없게 되었다. JEDEC 표준 DRAM은 3~4 년에 2 배의 느긋한 전송 속도 향상 곡선으로 남아있다. JEDEC의 2 가지 계획도 반드시 합의를 모을 수 없고. 그렇다고 해서, JEDEC 외부 메모리를 가지고 오기도 주저된다. 이대로는, 메모리 대역은 2010 년대에 들어간 시점에서도 50GB/sec에서 잘 가도 70GB/sec 정도 밖에 되지 않는다.
그러나 프로세서 측은 멀티 코어화에 의한 "thread 레벨의 병렬성 (TLP : Thread-Level Parallelism)" (멀티코어,SMT(HTT) 또는 둘다 사용) 의 향상과 벡터 연산의 (SIMD연산 SSE,AVX 등) 강화를 통한 "데이터 레벨의 병렬성 (DLP : Data-Level Parallelism)"의 향상으로 향후 극적인 성능 향상이 가능해진다. CPU의 성능 향상 커브가 다시 가속되어 간다.
따라서 CPU에 데이터를 피드하기 위한 메모리 대역의 확대는 미룰 수 없는 상황이다. 데이터에 굶주린 맹수에게 먹이를 자꾸주는 "짐승 먹이 (feeds the beast)"문제를 CPU 벤더는 눈앞에 버리고 있다. CPU 메이커가 요구하는 메모리 대역폭 및 DRAM 로드맵에는 결정적인 차이가 생겨 버렸다.
한발 앞서 이 문제에 직면 하이 엔드 GPU와 "Larrabee (라라비)"와 같은 제품은 이 문제를 해결하기 위해 GDDR 계 메모리를 채용하고 있다. 그러나 DDR 계 와의 콘트롤러 측의 호환성을 어느 정도 유지하면서 고속화한 GDDR 계는 기술과 비용면에서 무리가 많다. 따라서 기술적으로도 경제적으로도 메인 메모리에 가져 오는 것이 어렵다.
그러면 일반 DRAM을 메인 메모리에 사용하는 노선을 버리지 않고, 그렇다고 해서, 일반 DRAM 속도로 무리하게 견인하지 않고 메모리 대역폭 문제를 해결하는 수단은 무엇인가? 그래서 부상한 것이 계획 (4)이다.
광대역을 필요로하는 CPU에 대용량 DRAM을 내장하는 구상
좋은 것을 얻지만 기술과 경제의 장애물도 높다
계획 (4)는 CPU 가까운 곳에 수백 MB 정도의 용량의 메모리를 설치한다. 근접한 CPU 다이와 메모리 다이를 초광폭 인터페이스로 연결하는 것으로, 200GB/sec ~ 1TB/sec 범위의 초광대역 메모리를 실현한다. 이에 따라 메인 메모리 DRAM은 수십 GB / sec의 대역에 머물러도 성능의 제약은 거의받지 않게 된다고 한다. 모듈 증설 할 수 있는 메인 메모리 부분은, 일반 DRAM의 로드맵으로 제공하므로 저렴한 가격으로 대용량 탑재 혜택을 누릴 수 있다.
즉, 계획 (4)를 취한다면, 일반 DRAM의 모델은 그대로, CPU의 성능 문제를 해결할 수 있다. 어느 의미로도 좋은 것을 얻는 솔루션이 될 수있는 셈이다.
하지만 계획 (4) DRAM 다이의 CPU 패키지에 탑재 같은 기술과 경제의 측면에서 몇 가지 장애물이 있다. 기술적으로는 어떻게 CPU와 DRAM의 다이를 연결하는 것인가? 스택 또는 가장자리의 중첩 또는 MCM (Multi-Chip Module) 형? 스택의 경우 전력 소모가 큰 CPU와 열에 약한 DRAM을 통합하는 어려움이 있다. 경제적으로는 맞춤형 DRAM이 될 가능성이 높은 DRAM의 비용 문제가 있다. 또한 스택 때의 실리콘 비아스 등의 요소 기술의 비용도 고려할 필요가 있다.
DRAM과 CPU를 하나의 패키지로 스택에는 기술상의 일부 연구가 필요하다.
(위의 경우도, 패키지상 통합을 하면, 메모리 업계를 끌어들일 필요가 없고, CPU쪽도 특별한 공정없이 패키지 연구쪽만 하면 쉽계 적용 가능, 그만큼 물리적 배선 거리등에 따른 노이즈나 그런걸 잘 해결해야 하지만..., 적층형의 경우 메모리가 아래에 있고, CPU가 위에 있는 경우가 이상적이겠지만, 메모리 업계가 이런 메모리를 만들어야만 적용이 가능. 메모리가 위에 있는 경우는 메모리 업계를 끌어들이지 않고 CPU업체 스스로 CPU 윗쪽에 접속 홀을 만들면 가능하지만, 열 방출이 문제. 저성능 저전력 CPU야 이 방법으로 가능하겠지만, 고성능 CPU는 불가능. 이후에 한때 태블릿용 스마트폰용 아톰에서 CPU위에 메모리를 올린 (PoP Package on Package) 모델을 판매. 물론 아톰의 경우는 성능 때문은 아니고, 소형화가 목적. 성능 때문에 MCM으로 올린 제품은 하스웰과 브로드웰에서 그래픽 성능 개선을 위해 eDRAM을 올린 노트북용과 일부 데스크탑 제품. 제온파이 나이츠 랜딩에서 16GB MCDRAM으로 올리고 외부 (보드 램 슬롯) DDR4 사용이 가능한 제품이 존재. 즉 인텔 스스로 할 수 있는 것은 다 한 상태.
이런 것 없이도 메모리 대역폭을 높이는 방법은 메모리 채널을 4채널 6채널로 또는 그 이상으로 할 수도 있지만, 그렇게 되면 메인보드의 가격이 엄청나게 뛰는 문제가 발생 (또 성능을 내기 위해 소비자도 메모리를 그만큼 더 많이 사야함.). 초저가격 부터 고가까지 폭넓은 가격대를 가지는 PC의 경우 같은 소켓으로 모두 커버하려면 2~3채널 정도가 한계 (같은 세대인데 CPU가 모델별로 소켓이 다르면 메인보드 업체도 힘들고, 소비자도 반발하고, CPU업체도 너무 다양한 제품을 만들어야 하니 힘들고...). 서버나 웍스테이션용 이라면야 4채널 6채널이 가능하겠지만.... 자동차로 말하면 일반 승용차야 크기(정원,승차감), 속도(최대속도, 순간 가속도, 정숙함 등)에 여타기능을 따지고, 여기에 가격을 더해서 가성비도 따지겠지만, 경주용 자동차는 성능이 우선이지 가성비가 우선이 아니듯이.....)
계획 (4) CPU + DRAM에는 다양한 도전이 기다리고 있다. 그러나 CPU 메이커에 있어서 다른 유망한 대안이 없는 것도 확실하다. CPU 측의 변화는 이제 정규 노선이기 때문에, 메모리 대역은 절대적으로 필요하다. 따라서 계획 (4) 아니면 계획 (2)와 (3)에서 외부 메모리 인터페이스의 극적인 고속화를 도모 밖에 없다.
이 경우 계획 (2) (3)과 계획 (4)를 비교하여 어느 쪽이 CPU 제조업체가 편하냐 하는 문제가 있다. 계획 (2) (3)에서 일반 DRAM과 공존하는 고속 DRAM 규격을 JEDEC의 안이나 외부에서 만들 것과 계획(4)에서 외부 일반 DRAM은 건드리지 않고 패키지에 초고속 DRAM을 가져오는, 어느 쪽이 노력이 적은가? 기업간 정치적으로 DRAM 업계 전체를 끌어들일 필요가 없는 계획 (4)가, 이야기가 빠르다.
따라서 CPU 측은 계획 (4), DRAM 다이의 CPU 측에 탑재로 향할 가능성이 있다고 추측된다. 적어도 Intel은 진지하게 이 방향으로 향하고 있다.
메모리 계층 구조의 변화
2008년 12월 26일 기사 입니다.
[고전 1998/10/09] AMD, Direct RDRAM 라이센스 취득
[고전 2001/03/01] Intel이나 DRAM 벤더가 RDRAM시스템의 저비용화 안을 발표-"2-Channel RIMM"이 등장
[분석정보] 2015년 컴퓨터 플랫폼 IDF Spring 2005
[분석정보] 광대역 메모리의 채용을 가능하게 하는 Intel의 새 패키징 기술 EMIB
[제품정보] Intel 차세대 Xeon Phi Knights Landing
[분석정보] 하스웰 eDRAM에 JEDEC 차세대 DRAM으로 대항하는 AMD의 메모리 전략
[분석정보] Intel의 CPU "Haswell"용 DRAM 기술
[분석정보] 정체를 보인 Haswell의 eDRAM 솔루션
[아키텍처] Intel의 차기 CPU 하스웰(Haswell) eDRAM의 수수께끼
[정보분석] IDF 2011 Justin Rattner 매니코어 시대가 다가옴 2/2부
[분석정보] Larrabee는 SIMD와 MIMD의 균형 - Intel CTO가 말한다.
[정보분석] 2개의 CPU 개발팀이 경쟁하는 Intel의 사내 전략
[분석정보] 메모리가 큰 벽이 되는 AMD의 퓨전 (FUSION) 프로세서
[고전 2000.08.25] 그래픽 통합 CPU 팀나(Timna)의 개요를 분명히-극적인 다이 크기 축소를 실현
[분석정보] 테라 바이트 대역의 차세대 메모리 HBM이 2015년에 등장
[분석정보] IDF 2013 베이징 전시장 및 기술 세션에서 새로운 기술에 주목한다.
'벤치리뷰·뉴스·정보 > 아키텍처·정보분석' 카테고리의 다른 글
[분석정보] CPU 아키텍처 시대의 전환점이 되는 AMD의 "Bulldozer" (0) | 2009.03.18 |
---|---|
[분석정보] Intel 4번째 x86 CPU 개발 센터 방갈로르 (0) | 2009.02.24 |
[분석정보] 그래픽 및 DirectX 로드맵을 정리 (0) | 2009.02.18 |
[분석정보] Intel이 개요를 밝힌 옥타 코어 CPU Nehalem-EX (0) | 2009.02.12 |
[정보분석] Intel 힐스보로가 개발하는 CPU 아키텍처의 방향성 (0) | 2008.12.17 |
[분석정보] AMD가 바라보는 x86시장 점유율 50%의 전략 (0) | 2008.12.10 |
[분석정보] 반도체 제조사는 팹리스화로 진행 (0) | 2008.12.09 |
[분석정보] Intel AMT를 사용해서, 원격으로 BIOS 제어나 OS 복구에 도전 (0) | 2008.12.04 |