벤치리뷰·뉴스·정보/아키텍처·정보분석

[분석정보] 인텔이 목표하는 네할렘 에서의 GPU와 CPU의 통합

tware 2007. 10. 5. 14:00

 

Nehalem 에서는 시스템 파티션이 바뀐다

 Intel은 45nm 공정의 Nehalem (네할렘) 세대부터 GPU를 CPU로 통합한다. CPU와 GPU를 통합하는 비전 자체는 AMD의 차세대 CPU와 같다. 그러나, Intel과 AMD는 CPU와 GPU의 통합의 목적과 방법이 다르다. 그것은 향후의 헤테로지니어스 (Heterogeneous : 이종혼합)형 멀티코어 시대의 CPU를 어떻게 만들까라는 점에서 Intel과 AMD의 비전이 다르다는 것을 의미한다.

 

 

Stephen L. Smith (스티브 L 스미스) 씨

 

 Intel의 Stephen L. Smith (스티븐 L 스미스) 씨 (Vice President, Director, Digital Enterprise Group Operations, Intel)는 Nehalem에서의 GPU 통합의 이유를 다음과 같이 설명했다.

 "오늘의 시스템 파티셔닝에서는 FSB를 갖춘 CPU가 있으며, CPU에서 FSB를 끼고 메모리 컨트롤러가 위치한다. 그리고 그래픽은 메모리 컨트롤러의 옵션이 된다.1 번째 칩은 CPU 플러스 FSB, 두 번째 칩이 메모리 컨트롤러 플러스 옵션의 그래픽이라는 파티셔닝이다.

 그래픽은 기본적으로 메모리 컨트롤러 측에 있는 것이다. 실제로 개별(외장) 그래픽 카드는 (GPU에) 메모리 컨트롤러가 있다. 그래픽 통합 칩셋의 컨셉도 메모리 컨트롤러 근처에 그래픽을 두는 것이었다. (이 컨셉에 따른) 오늘의 (Intel의) 시스템 파티셔닝은 매우 효율적이고 높은 성능을 달성하고 있다.

 그러나 미래는 (CPU의) 확장성을 향상시키기 위해 (Nehalem에서는) 메모리 컨트롤러를 CPU 측으로 이동시킨다. 그 시점이 되면 시스템 파티셔닝의 자연스러운 흐름으로서, 그래픽도 그쪽 (CPU) 측에 넘어가게 된다. 메모리 컨트롤러가 CPU측에 있는 이상, 그래픽 컨트롤러를 (CPU에서) 분리 된 칩에 하는 것은 합리적이지 않기 때문이다. 그래픽을 메모리 컨트롤러와 동일한 장소로 옮기자고 생각하고 있다. 이 시스템 파티셔닝의 변화야말로 우리가 그래픽 (CPU 측으로) 옮기는 ​​근본적인 이유다 "

 즉, GPU 코어는 메모리 컨트롤러와 동일한 칩 안에서 근접해 있는 것이 바람직하다. 그러므로, CPU에 메모리 컨트롤러를 통합하면 필연적으로 GPU 코어도 CPU 측으로 이동한다는 설명이다.

 

시스템 파티셔닝의 변화 추측도

 

 

 

Nehalem (Gainestown / Bloomfield)의 내부 구성

 


GPU 코어와 DRAM 콘트롤러의 통합 필요성

 실제로는 더 이야기는 좀더 복잡하며, Smith 씨의 설명으로는 아직 불충분하다. 원래 CPU와 GPU에서는, CPU의 쪽이 메모리 레이턴시 단축의 필요성이 강하다. 범용 CPU상의 처리에서는 랜덤 메모리 액세스가 발생하는 것이 많아, 캐시에서 흡수하지 못하는 경우는, 메모리로 부터의 로드 대기로 CPU의 처리가 멈춘다. 따라서 CPU는 메모리 레이턴시가 중요하다.

 그런데 그래픽의 경우는 의존성 없는 처리가 방대하게 있어, 각각을 병렬 처리 할 수​ ​있다. 따라서 하나의 처리가 메모리 대기로 스톨에서도 쉽게 스위치 가능하다. CPU 보다 메모리 대기시간에 관대해서 (Latency Tolerant), 메모리 컨트롤러가 다른 칩에 있어도, 원리적으로는 그래픽 쪽이 성능의 저하가 적다.

 실제로는, 기존 칩세트 측에 GPU 코어와 메모리 컨트롤러가 있던 것은, 개발과 제조상의 제약에 불과하다. CPU는 설계가 복잡해서 개발 사이클이 길다. 한편, GPU 코어와 메모리 인터페이스는 아키텍처의 사이클이 짧다. 또 메모리 인터페이스에는 많은 메모리  업체의 많은 DRAM 장치와의 호환성을 취한다는 번거로운 작업이 있다. CPU를 독립시켜서, FSB로 세컨드 칩과 묶는 기존의 Intel 아키텍쳐에는 이러한 개발 사이클의 어긋남과 호환성 검증의 번거로움에서 CPU를 자유롭게 한다는 의미가 있었다.

 그럼 왜 Intel은 Nehalem에서 CPU에 GPU를 통합하는 것인가? 우선 CPU 측은 성능을 늘리기 위해서 메모리 컨트롤러의 통합이 필요해진다. 그리고 앞으로의 클라이언트 PC의 소프트웨어 환경에서는 일정 수준의 3D 그래픽 성능이 필수이며, 따라서 방대한 메모리 대역을 필요로 한다.

 이 점이 Windows Vista 전과 후에서 크게 다른 점이며, 메모리 대역을 위해 향후의 GPU 코어는 메모리 컨트롤러와 온칩 접속하는 것이 유리하다. 특히 성능 / 소비 전력을 생각하면, 그 쪽이 유리하다. 결과적으로 Intel도 AMD도 GPU 코어를 CPU 측으로 가져오려 한다.

 


45nm 공정 세대에서 실현되는 통합화

 물론 통합화의 근원에는 공정 기술의 진화가 있음은 말할 필요도 없다. Intel은 당초 Nehalem에서 최초의 GPU 통합판은 2다이 솔루션을 검토하고 있었다고 말한다. MCM (Multi-Chip Module)을 사용해서, CPU의 다이 (반도체 본체)와 GPU의 다이를 패키지 안에서 연결하는 방식이다. 실제로 그 경우의 2다이의 배치에 대해서, 냉각 효율면에서 세심한 검토가 이뤄졌다고 어느 업계 관계자는 전한다.

 그러나 현재의 계획에서는 Nehalem에 GPU 코어를 네이티브로 통합하는 것 같다. 즉, CPU와 GPU를 1개의 칩으로 통합하려 한다.

 Smith 씨는 IDF에서의 언론 브리핑 후에 GPU 통합은 MCM으로 실현 하는가 라는 질문에 고개를 흔들며 부정했다. 또한 다음과 같이 말했다.

 "우리는 45nm 공정에 이르러, 처음으로 통합 그래픽과 메모리 컨트롤러를 CPU 측에 옮기는 것이 가능한 정도의 게이트 수의 예산을 얻었다. 그것도 통합화의 한가지 이유다. 45nm 공정에서라면 제조시에 평균 다이 크기로 방대한 페널티를 지지 않고, (CPU에 GPU 코어와 메모리 컨트롤러를) 통합하는 것이 가능하다. "(Smith 씨)

 GPU 통합은 메인 스트림 PC로 부터 아래의 솔루션이기 때문에, Intel도 AMD도 최초에는 듀얼 코어 CPU에 GPU 코어를 통합하는 것으로 추정된다. 예를 들면, 쿼드 코어 Nehalem에 GPU 코어를 더하면 다이 사이즈(반도체 본체의 면적)는 300 제곱 mm를 크게 넘는 것으로 보이기 때문에 비용적으로 생각하기 어렵다. 그러나 CPU 측이 듀얼 코어라면 지금의 통합 그래픽 정도의 규모라면 200 제곱 mm 대 초반의 칩에 넣는 것이 가능하다고 추정된다. (실제 네할렘 아키텍처의 GPU는 칩셋쪽에 메모리 컨트롤러와 그래픽이 있죠. CPU코어 다이 + GPU/메모리 컨트롤러 다이를 MCM으로 CPU로 패키징. 이 두 다이는 QPI로 연결되어 있구요. 또한 45나노 제품은 취소되고, 32나노가 빠르게 투입되죠. 그것이 클락데일.)

 반대로 말하면, 32nm 공정부터 이후로는, 메인 스트림 & 밸류 CPU는, GPU를 통합하지 않으면 다이가 남게 된다. 스레드 병렬성이 낮은 소프트웨어 환경을 타겟으로 하면, 범용 CPU 코어의 수는 급격히 늘릴 수 없다. 그렇다면 경제적인 측면에서도 CPU와 GPU를 통합해야 된다.

 

die size 이행도

 


IOH 측에 GPU 코어를 통합하는 계획은 없음

 그러면 Intel은 GPU 코어를 칩세트 측에 통합 제품 계획은 일절 가지지 않는 것인가? 원래의 Nehalem의 계획에서는 데스크탑 용에는 최초는 통합 그래픽 칩셋을 제공 할 계획이었다 (모바일은 당초부터 CPU 측에 GPU를 통합 예정이었다). 그러나 Smith는 통합 그래픽 칩셋의 계획을 부정한다.

 "(GPU를 IOH에 통합 계획에 대한 대답은) 노다. 그래픽 컨트롤러를 IOH에 통합하는 것은 시스템 아키텍처으로 의미가 없기 때문이다. IOH는 (QPI + PCIe 때문에) 약간 복잡하게 될지도 모른다. 컨슈머 비디오 포트 같은 것들에 대한 연결을 갖게 될지도 모른다. 그러나 그래픽 컨트롤러 자체는 가지지 않는 것이다 "(Smith 씨) (샌디브릿지를 보면 모니터와 연결하는 출력포트가 PCH에 있죠(아이비는 틱 버전이니 똑같고). 그래픽 출력은 CPU내 GPU코어와 PCH가 FDI로 연결 됩니다 (CPU와 PCH는 DMI로 연결되죠. 이것과 별도로 그래픽 출력은 FDI로 연결). FDI를 통해서 받아 PCH에서 각각의 디지털, 아날로그 단자를 통해서 출력되죠. 톡인 하스웰에서는 아날로그 d-sub 출력만 PCH에 남고 디지탈은 CPU에서 출력을 하구요.)

 명료하게 통합 그래픽 칩셋의 존재를 부정하고 있다. CPU로의 GPU 통합이 현재의 Nehalem 플랫폼의 제품 계획 같다. 칩세트 측에 GPU 코어라는 계획은 수정된 것으로 보인다. 물론 퍼포먼스 데스크탑에서는 개별 (외장) 그래픽이 필요하기 때문에 GPU 통합판 Nehalem은 메인 스트림으로부터 아래의 옵션이 될 것이다.


 또 Smith 씨가 뒤에서 말한 것은 아날로그 비디오 출력인 것이라고 추정된다. CPU에 아날로그 비디오 출력을 통합하는 것은 기술상 약간 장벽이 높다. 저 노이즈로 고성능의 혼합 신호 회로에는, 특수한 공정의 특징이 필요하기 때문이다. Intel이 그러한 CPU 복잡함을 피하려면, 칩세트 측에 아날로그 아웃을 내장하거나 다른 칩을 사용하는 것이 자연스러운 흐름이다.

 참고로, Intel은 Nehalem에서 최초로 제공하는 칩셋 "Tylersburg (타일러스버그)"는 하이 엔드 솔루션으로, IOH (I / O Hub) 칩 외에 ICH를 다른 칩으로 접속한다. 그러나 메인 스트림용 칩셋은 ICH와 IOH가 통합된 칩이 될 전망이다. 기존의 3칩 솔루션 (CPU + MCH + ICH)에서 2칩 솔루션 (CPU + IOH)으로 이행해 나갈 것으로 보인다.

 

Gainstown의 구성 예

 


Nehalem에 통합하는 GPU 코어는 Intel 통합 그래픽의 흐름

 Intel이 Nehalem에 GPU 코어를 통합하는 것은 명확하게 되었다. 그러나 지금은 어떤 GPU 코어를 올리는지는 밝혀지지 않았다. Intel은 그래픽 통합 칩셋용의 GPU 코어를 이미 가지고 있다. 그러나 그래픽 용에는 더 범용성이 높은 MIMD (Multiple Instruction, Multiple Data) 형의 데이터 병렬 프로세서인 Larrabee (라라비)도 준비하고 있다. Nehalem에는 어느쪽을 올리는 것이다. Smith 씨는 다음과 같이 대답한다.

 "Larrabee는 2008년에 최초의 데모를 한다. Larrabee 소프트웨어의 준비가 정리될 때 까지는 잠시 시간이 걸릴 것이다. 한편, 우리의 그래픽 아키텍처는 이미 방대한 출하를 하고있다. 그리고 , Intel 965 부터는 우리의 통합 그래픽은 프로그래머블 아키텍쳐가 되었다.

 즉, 우리는 이미 (CPU에 통합에) 사용할 수 있는 그래픽의 기준선은 가지고 있다. 최초는 우리가 가진 기준선에서 선택 할 수 있다고 생각하고 있다. 그래서 시간과 함께, 그래픽 (하드웨어의) 아키텍처 자신이 변화되어 나가는 것도 있을 것이다. 다만 우리는 이외에도 (Intel 그래픽과 Larrabee 이외에도) 옵션을 가지고 있다."

 이것도 명확해서, Intel은 기본적으로 기존의 통합 그래픽 노선의 GPU 코어를 Nehalem에 통합한다. Intel 통합 그래픽은 이미 단일 쉐이더 형의 유연한 Shader 프로세서 구조를 가지고 있다. 그래픽 용도로 생각하면 그 발전계의 코어를 CPU에 통합하는 것은 자연 스럽다.

 반면 Larrabee는 아직 앞으로의 단계이다. 미래적으로는 Larrabee가 다음의 GPU 아키텍처로 통합될 가능성도 있지만 아직 명확하지 않다. Larrabee에 대해서는 개별로 소프트웨어 환경을 조성하고 실적을 올리는 것부터 라는 것이 될 것 같다.

 


2000년의 Timna 이후로 GPU와 메모리 컨트롤러의 통합

 CPU와 GPU의 통합은 언제 어떤 GPU 아키텍처를 통합하는가? GPU 코어의 리프레시를 어떻게 하는가? 그러한 부분에서 여러가지 장애물이 있다.

 흥미로운 것은 Nehalem에서의 GPU 코어의 통합에 대해서 Intel 간부의 약간의 온도차다. Smith 씨를 비롯한 데스크톱 & 서버를 담당하는 Digital Enterprise Group은 GPU의 통합을 Nehalem의 포인트의 하나로서 강조한다. Nehalem 자체가 같은 그룹에서 개발되고 있다.

 

Shmuel (Mooly) Eden 씨

 

 반면 Core Microarchitecture (콘로)를 개발한 Mobility Group은 더 신중한 견해가 있다. Mobility Group도 Digital Enterprise Group이 개발한 Nehalem을 노트북 PC용 CPU로 2008 ~ 2009년에 도입한다. 그리고, 노트북 PC에는 메인 스트림 이하의 카테고리에서 GPU 통합이 절실하게 필요하다. Intel의 Shmuel (Mooly) Eden 씨 (Vice President, General Manager, Mobile Platforms Group, Intel)은 다음과 같이 말한다.

 "CPU와 GPU의 통합을 성공 시키려면 올바른 때에 올바른 기술로 하지 않으면 안된다. 최초에 GPU를 통합한 CPU는 무엇이었는가를 생각해 내기를 바란다. 그것은 FUSION은 아니다 .CPU와 GPU를 통합한 최초 칩은 "Timna (팀나)"였다 (웃음).

 Paul (Paul S. Otellini (폴 S 오텔리니) 씨 (President & CEO))는 Timna에 대해 2개의 실수가 있었다고 말했다. 하나는 Timna의 개발을 시작한 것, 또 하나는 Timna를 그만 둔 것이다. 왜냐하면 Timna가 취소된 것은 GPU의 통합이 잘되지 않았기 때문이 아니기 때문이다. GPU 통합 자체는 멋지고 훌륭했다. 그럼에도 Timna가 출시되지 않았던 이유는 RDRAM 인터페이스를 통합한 것이었다. RDRAM은 고가로 갔기 때문이다. (그래서 여기에 SDRAM을 끼우고 그것을 다시 팀나의 RDRAM 인터페이스로 연결시켜 주는 중간 칩을 단 것 까지 발표했는데.. 팀나 자체가 저가형의 그래픽 통합 시스템인데 (특히 사무용에서는 최고겠죠. 높은 그래픽 성능이 필요 없죠.), 중간에 변환칩을 또 달아야 되니까.. 가격면에서나 성능면에서나 (약간이라도 떨어질 수 밖에 없음) 좋을 수가 없죠. 결국 출시를 포기 합니다. 그 뒤로 그냥 쭉 보드 칩셋내 그래픽으로...).

 Timna의 경험이 있기 때문에 CPU와 GPU의 통합은 나에게 새로운 이야기는 아니다. 그래서 통합에는 제약이 따른다는 것을 이해하고 있다. 예를 들면, CPU를 2년마다 리프레시 하고, GPU를 6에서 7개월마다 리프레시 한다고 하면. 그러면 (CPU의 개발 사이클 때문에 GPU 아키텍처가) 동결되는 기간이 길어져 버린다."

 Timna는 Eden 씨가 이끌던 Intel 이스라엘의 개발 팀이 개발한 Pentium III 계의 통합 CPU로, GPU 코어와 DRAM 컨트롤러를 내장하고 있었다. Eden 씨가 말한대로 Timna는 RDRAM을 지원했기 때문에, RDRAM의 활성 실패와 함께 묻히고 말았다. CPU로의 GPU와 DRAM 컨트롤러의 통합은, 일면에서는 위험하여, CPU 벤더의 경우에는 도박이기도 하다.

 

 

2000년에 발표한 Timna의 구상

 

 

 

Timna를 탑재한 플랫폼의 블록 다이어그램

 

 

 

Timna 다이

 


울트라 모빌리티도 통합화로 진행

 다만, GPU와 DRAM 컨트롤러의 통합은, 모바일에서는 소비 전력의 저감과 칩수의 감소에 의한 장착 면적의 축소로 이어진다. Eden 씨도 통합화 자체는 올바른 방향이라고 기대를 말한다.

 "전체적으로는 모바일 기술의 통합화는, I / O를 줄이는 것에서 소비 전력과 면적을 줄이는 이점이 있다. 또 CPU와 그래픽을 타이트하게 통합하면 (GPU와 CPU의) 실행 유닛을 각각이 사용하는 것도 가능하게 된다. 많은 면에서 통합은 이유가 된다. 그러므로, 저는 CPU와 GPU의 통합이 (CPU의) 올바른 방향이라고 믿고있다. 전반적으로는 점점 통합으로 혁신되어 갈 것이다.

 그러나 주의 깊게 해야할 것도 확실하다. 먼저 마케팅상 (의 통합)과 진정한 통합을 구별할 필요가 있다 (웃음). 멀티 칩 패키지로 (GPU를 CPU 패키지에) 넣었다고 하자. 그것은 칩의 장착 면적을 줄이지만, 혁신적인가 말하면, 그렇지 않다. 같은 실리콘에 (CPU와 GPU를) 넣은 경우는 그것은 혁신이다 "

 Intel의 내부에서도 모바일 계에서는 CPU와 GPU의 통합을 강하게 바라고 있는 것이 판명된다. 성능 / 소비 전력을 생각하면, 통합의 이점은 명백하다. 또 Eden 씨는 MCM에 의한 GPU 통합에 대해서는 "마케팅" 주도의 계획으로서 분명히 부정적이다. 이것은 당연, 소비 전력의 저감을 바란다면 실리콘상에서의 통합이 되지 않으면 의미가 적어지기 때문이다. 이러한 발언에는 모빌리티 그룹(Mobility Group)은 처음부터 GPU의 네이티브 통합을 요구하고 있었다는 것을 알 수 있다.

 참고로, Mobility Group이 개발하고 있는 2010년의 CPU " 샌디브릿지 (Sandy Bridge)"는 처음부터 GPU 통합을 고려한 설계가 되어 있다고 말한다. 흐름으로는 Intel에서도 향후 2 ~ 3년에서 CPU로의 GPU 통합이 당연한 것이 되어 간다고 보인다. 또, 그것은 PC용 CPU뿐만 아니라 전체의 트랜드가 되어 가는 것이다. Eden 씨는 다음과 같이 말한다.

 "시장에 따라서도 통합의 속도는 다르다. Anand (Anand Chandrasekher (아난드 찬드라 세커) 씨 (Senior Vice President, General Manager, Ultra Mobility Group))의 분야 (울트라 모바일 기기)에서는 CPU와 GPU의 통합은 더 신속하게 일어난다. 왜냐하면 다른 선택지가 없기 때문이다 .GPU을 통합하지 않으면 울트라 모바일 기기에 알맞게 하는 것은 가능하지 않기 때문이다.

 울트라 모바일 분야에는 SOC (System on a Chip)로의 통합화는 PC보다 앞서 진행된다. 그만큼 리스크가 크고, 더 신중하게 설계해야 한다. 그러나 CPU와 GPU의 통합의 방향 자체는 옳다 "

 Intel의 Ultra Mobility Group이 2009년에 도입하는 "Moorestown (무어스타운) "플랫폼도 CPU 측에 GPU 코어와 DRAM 콘트롤러를 통합한다. 울트라 모빌리티용에는 통합으로 단번에 진행될 전망이다.

 이렇게 보면 Intel도 AMD와 궤를 일치시켜서 GPU의 통합으로 진행되고 있는 것으로 보인다. 그러나 양자의 접근 방식에는 큰 차이가 있다. AMD는 GPU 코어를 범용으로 사용하는 것을 목적으로 통합하려고 한다. 반면 Intel에서 지금 보이고 있는 단계는 그래픽을위한 프로세서로의 통합이다. 양자의 비전에는 꽤 차이가 있다.

 

2007년 10월 5일 기사

 

[분석정보] 인텔 네할렘과 AMD 퓨전 양사의 CPU + GPU 통합의 차이

 

 

[고전 2000.08.25] 그래픽 통합 CPU 팀나(Timna)의 개요를 분명히-극적인 다이 크기 축소를 실현

 

 

[분석정보] 임베디드 시장에 IA 침투를 목표로 하는 Intel

 

 

[분석정보] Intel 울트라 모빌리티 기조 강연

 

 

[정보분석] 암달의 법칙(Amdahl's law)을 둘러싼 Intel과 AMD의 싸움

 

 

[정보분석](암달의 법칙) 2010년대 100 코어 CPU 시대를 향해서 달리는 CPU 제조사

 

 

[분석정보] AMD와 ATI 프로세서는 하나로 융합한다

 

 

[분석정보] 정식 발표된 라라비(Larrabee) 아키텍처

 

 

[정보분석] Penryn의 1.5배 CPU 코어를 가지는 차세대 CPU "Nehalem"                    

 

 

[아키텍처] Intel의 차기 CPU "Nehalem"의 설계 개념은 "1 for 1"

 

 

[정보분석] 인텔의 2013년 CPU 하스웰로 이어지는 네할렘 개발 이야기

 

 

[정보분석] 2년 주기로 아키텍처를 쇄신하는 Intel

 

 

[정보분석] 2개의 CPU 개발팀이 경쟁하는 Intel의 사내 전략

 

 

[정보분석] Merom(메롬) 이후인 Nehalem(네할렘) 과 Gilo(길로)

 

 

[정보분석] 같은 무렵에 시작된 Nehalem과 Larrabee와 Atom

 

 

[정보분석] Intel 힐스보로가 개발하는 CPU 아키텍처의 방향성

 

 

[분석정보] IDF에서 공개된 "Nehalem"의 내부 구조