벤치리뷰·뉴스·정보/아키텍처·정보분석

[분석정보] AMD가 확장판 K10 코어 기반의 APU Llano 를 첫 공개

tware 2010. 10. 21. 21:00


대만의 기술 컨퍼런스에서 Llano의 동작 데모를 행하다.


 AMD는 대만 타이페이에서 개최한 기술 컨퍼런스 "AMD Technology Forum and Exhibit (AMD TFE) '에서 내년 (2011년)의 메인 스트림 PC 용 CPU"Llano (라노) "의 동작 시현을 최초로 공개했다 . 또한 Llano의 웨이퍼를 공개, Llano 가 상대적으로 GPU 성능을 중시하고 있는 것으로 밝혀졌다.

 AMD는 2010년 말부터 2011년 중반까지 3 개의 새로운 CPU 제품군을 투입할 계획이다. 처음에 등장하는 저가형 CPU 군은 새로운 마이크로 아키텍쳐 "Bobcat (밥캣)" 베이스. 내년 중반부터 후반에 등장하는 하이 엔드 CPU 군은 새로운 마이크로 아키텍처 "Bulldozer (불도저)"기반. 그리고 내년 상반기에 등장하는 메인 스트림 CPU인 Llano는 기존의 K10 아키텍처 기반으로 합니다. 3 단계 시장에 3 단계의 CPU 아키텍처로 도전하는 것이 AMD의 2011년 CPU 전략이다. 이 가운데 Bobcat 코어의 "Zacate (자카테)"와 ontario (온타리오)" K10 코어 Llano는 GPU 코어를 통합한 APU (Accelerated Processing Unit)로 제공된다.

AMD 아키텍쳐의 비교


 3 제품군의 새로운 CPU 중 Bobcat의 마이크로 아키텍처와 Bulldozer의 개요는 8월의 칩 컨퍼런스 "Hot Chips" 에서 공개됐다. 또한 Bobcat은 9월의 Intel Developer Forum (IDF)기간에 AMD가 수행한 미디어 미팅에서 실제 칩의 동작 데모가 공개되었다. Bulldozer는 생산을 담당하는 GLOBALFOUNDRIES가 개최한 컨퍼런스에서 다이 사진이 공개됐다. 그러나 Llano의 모습은 2월의 반도체 컨퍼런스 ISSCC (IEEE International Solid-State Circuits Conference)에서 CPU 코어 기술이 공개된 것을 제외하고는 지금까지 보이지 않는 상태였다.

 AMD TFE에서 회사의 Chris L. Cloran 씨 (Corporate Vice President and General Manager, Computing Solutions Group, Client Division, AMD)는 단상에서 Llano의 웨이퍼를 내걸고 공개. 또한 Llano 동작 칩을 사용하여 원주율 계산 및 Blu-ray 재생, GPU를 사용한 n-Body 시뮬레이션 등의 작업을 병렬로 수행 데모를 공개했다. 데모 자체는 매우 빨라 다양한 애플리케이션 성능을 알수 있는 데모는 아니었지만, 메시지는 명료하다. CPU에 부하가 높은 작업을 시켜도, 비디오 엔진과 GPU 기반 병렬 컴퓨팅에 의해 병렬 처리가 가능한 것이다.

Llano의 웨이퍼를 든 Chris L. Cloran 씨 (Corporate Vice President and General Manager, Computing Solutions Group, Client Division, AMD)


AMD TFE에서 열린 Llano의 동작 데모



웨이퍼가 공개되어 뚜렷해진 Llano의 모습


 이번 AMD TFE는 Llano 내용은 새로운 사실​​이 속속 밝혀졌다. 첫째, Llano의 다이는 이전의 추정보다 훨씬 큰 200 제곱 mm 대였다. 자세한 내용은 다음 기사에서 보고하지만, Llano 다이에서는 지금까지 공개되지 않은 새로운 블록의 존재가 밝혀졌다. 늘어난 블록은 GPU와 노스 브릿지 관련이다. 이 때문에 Llano의 설계는 AMD가 GPU 코어의 연산 성능에 상당한 중점을 두고있는 것이 선명해졌다.

 이는 같은 2011년 상반기에 Intel이 투입하는 "Sandy Bridge (샌디 브릿지)" 와 비교하면 명료하다. Sandy Bridge와 Llano는 모두 4개의 CPU 코어와 GPU 코어, PCI Express 2채널 DRAM 컨트롤러를 내장한다. 구성은 매우 유사하지만 그 내용은 크게 다르다. 아래가 동 스케일 비교한 Llano와 Sandy Bridge의 다이이다.

Llano와 Sandy Bridge의 비교



Cloran 씨


 Sandy Bridge는 CPU 전체의 절반 이상을 CPU 코어와 캐시가 차지하고 있다. 대조적으로, Llano는 CPU 코어와 캐시는 CPU 전체의 불과 30% 정도 밖에 차지하지 않는다. 이 차이의 상당 부분은 GPU 코어가 차지하고 있다고 추정된다. 크기가 크면, 당연히 GPU 성능이 증가한다. AMD는 Llano의 GPU 성능은 "(Zacate와 비교하면 그래픽 성능의 차이는) 현저하다"(Cloran 씨) "개별(외장) GPU 수준의 성능이 APU의 다이에 실려있는"(Bob Grim 씨 Director, Client Product Marketing, AMD) 이라고 설명한다.

 큰 내장 GPU 코어는 AMD가 GPU를 사용한 범용 컴퓨팅 (그래픽 이외의 일반적인 사용)에 주력하고 있는 것을 의미한다. AMD는 CPU 코어의 스칼라 프로세싱 및 GPU 코어의 병렬 프로세싱을 결합한 이기종 (Heterogeneous : 이종 혼합) 컴퓨팅에 대한 노력을 강조해 왔다. Llano의 시현과 디자인에서 그 주장이 단순한 마케팅 메시지가 아니라 진심의 노력임을 알 수 있다. AMD의 Cloran 씨는 다음과 같이 말한다.

 "Intel은 분명 여전히 x86 스칼라 성능을 끌어올리려 하고 있다.이 때문에 (Sandy Bridge의) GPU는 작다. 대조적으로, 우리는 균형 잡힌 접근 방식을 취하려고 하고 있다. x86 성능도 매우 중요 하지만 동시에 GPU의 벡터 프로세싱으로 달리게 하는 것이 좋은 작업도 방대하게 있다. 그래서 우리는 각각의 워크로드를 컴퓨터의 어디에서 실행시키는 것이 가장 효율적인지를 생각해 균형을 취하고 있다 "

 간단히 말하면, Intel은 큰 CPU 코어로 기존의 x86 스칼라 성능을 높이는 방향으로 향해, ​​AMD는 큰 GPU 코어에서 앞으로 필요할 때 그들이 생각하는 벡터 성능을 높이는 방향으로 향하고 있다. 그 때문에, Intel의 GPU 코어는 상대적으로 작고, AMD의 CPU 코어는 상대적으로 작다. 그러나 Intel은 x86 코어 측의 벡터 유닛 256-bit 폭의 AVX로 확장하고, 스칼라 프로세서에 포함 된 벡터 성능도 증가하고 있다. Intel의 CPU 코어가 큰 이유 중 하나는 벡터 성능을 높인 점도 있다. 따라서 아키텍처의 차이는 벡터 프로세싱을 어디서 할 것인가의 분리의 차이라고 생각할 수도 있다.



AMD 다이 크기의 이행도



철저한 전력 절약화를 도모한 Llano의 CPU 코어


 AMD는 Llano 를 주로 메인 스트림 데스크탑 및 노트북 PC 용으로 투입한다. Cloran 씨에 따르면, Llano 는 먼저 노트북 PC에 투입되고 데스크탑이 따라간다. AMD가 노트북 PC에서 Llano 를 중시하는 것은 Llano가 AMD 메인 스트림 CPU로는 어느때 보다 저전력이기 때문이다.

 AMD는 Llano에 탑재하는 32nm 버전 K10 코어 기술을 공개하고 있다. 그에 따르면, Llano의 K10 코어는 전력면에 대해서는 기존의 AMD K10과는 전혀 별개이다. Llano의 K10 코어는 기존의 K10 코어와 동일한 소비 전력이라고 생각하지 말라.

 Llano는 (1) 반도체 기술 수​​준 (2) 회로 설계 수준 (3) 아키텍처 수준의 세 가지 수준에서 전력 절약 화를 도모 할 수 있다.

(1) 반도체 기술 수​​준은 GLOBALFOUNDRIES의 32nm SOI 프로세스가 "High-k Metal-Gate (HKMG)" 를 채용했기 때문에, 트랜지스터 수준에서 누설 전류 (Leakage)의 저감이 실현되고 있다.


(2) 회로 설계 레벨에서 캐시 메모리를 8T 메모리 셀 화에 의한 저전압 구동 및 채널 길이가 긴 트랜지스터 (LC-RVt)의 사용에 의한 누설 전류 저감이 실현되고 있다. 또한 코어 수준의 파워 게이팅을 지원, 아이들 전력을 완전히 차단할 수 있게 되었다.

(3) 아키텍처 수준에서 전력 모니터 회로가 CPU 코어에 구현되고 정확하게 전력 소비를 모니터링 하여 보다 세밀한 전력 관리가 가능하게 되었다.

 따라서 45nm 버전 K10 코어와 비교하면, Llano의 32nm 버전 K10 코어는 전력 소비가 매우 작아지고 있다. 32nm 버전은 45nm 버전에 비해 누설 전류가 68%, 동적 전류에서 84%로 낮춘다. 즉, Llano의 CPU 코어가 아이들 때의 작동도 모두 전력이 낮아진다.


45nm 및 32nm 소비 전력 비교



K10 코어 아키텍처도 확장


 또한 성능에 관한 아키텍처 부분도 Llano의 K10 코어는 지금까지의 K10 코어에 비해 확장되고 있다. 확장 부분은 그리 크지는 않지만, 효율 향상에 기여 할 것 같은 부분이 포함되어 있다.

 먼저 32nm 버전은 아웃 오브 오더 실행 명령 윈도우가 기존의 72 항목에서 84 항목으로 확장되었다. 이것은 정수와 부동 소수점 (FP)의 두 실행 처리 능력을 향상시킨다. 정수 연산에서 나누기를 하드웨어화 했다. 부동 소수점 연산 (FP) 명령의 대기 시간도 단축되고있다. 이 밖에 데이터 프리 페치가 확장 된 메모리 필과 캐시 스테이트의 전환이 가속화 가상화의 고속화를위한 TLB 확장이 더 나아 갔다.


32nm의 K10 코어



 확장은 더해지고 있지만, CPU 코어의 기본 레이아웃은 종래와 거의 변함이 없다. 이것은 45nm와 32nm의 레이아웃을 비교한 아래의 그림을 보면 알수 있다. 프롬 스크래치에서 디자인 된 Bulldozer와 Bobcat 과는 달리 어디까지나 마이너 체인지이다. Bulldozer와 Bobcat 개발 자원을 할애하고 있는 AMD는 K10 코어를 크게 확장 할 여유는 없을 것으로 보인다.


32nm와 45nm의 K10 코어 비교


 코어를 크게 변경하지 않은 장점은 코어의 소형화이다. AMD의 K8/K10 계 CPU 코어 프로세스 기술의 미세화와 함께 점점 소형화 됐으며, 32nm 버전에서는 마침내 10 제곱 mm를 이하가 됐다. 동일한 32nm의 Sandy Bridge와 비교하면, CPU 코어의 크기는 절반 정도이다 (그러나 Sandy Bridge의 CPU 코어는 L2캐쉬도 포함한다). 따라서 AMD는 Sandy Bridge와 같은 수준의 다이 크기 Llano에 더 큰 GPU 코어를 탑재 할 수 있었다.

AMD의 코어 사이즈의 추이



2010년 10월 21일 기사 입니다.



[분석정보] 보여진 AMD의 차기 CPU Llano의 실상



[분석정보] K8 이후 크게 바뀐 AMD의 CPU 개발주기



[분석정보] K9는 DDR2 메모리와 차세대 HyperTransport에 대응



[분석정보] AMD Fab 36의 위험과 기회



[분석정보] 듀얼 코어의 다이 사이즈로 부터 판단되는 AMD의 CPU 전략



[분석정보] AMD의 차기 CPU 코어 "K9"는 2005 년에 등장인가?



[분석정보] 심플 코어로 향하는 차세대 CPU 아키텍처



[분석정보] AMD와 ATI 프로세서는 하나로 융합한다



[분석정보] AMD가 2009년의 CPU 코어와 통합 CPU의 개요를 발표



[분석정보] 결정된 헤테로지니어스 멀티코어에 대한 기류



[분석정보] 메모리가 큰 벽이 되는 AMD의 퓨전 (FUSION) 프로세서



[분석정보] 고속화를 가져오는 Radix-16 Divider와 shuffle Engine



[분석정보] 전면 개량이 아닌 부분 개량에 머문 Penryn



[분석정보] Intel, 45nm공정의 차기 CPU Penryn 자세히 공개



[분석정보] AMD가 발표한 메인 스트림 APU Llano의 아키텍처



[분석정보] AMD Kaveri의 메모리 아키텍처와 향후의 APU 진화