벤치리뷰·뉴스·정보/아키텍처·정보분석

[분석정보] AMD가 발표한 메인 스트림 APU Llano의 아키텍처

tware 2011. 6. 14. 22:00

 

32nm 공정의 메인 스트림 PC 용 APU


 AMD는 자사의 FUSION 전략의 핵심이 되는 메인 스트림 PC 용 APU (Accelerated Processing Unit) "Llano (라노)"를 공식적으로 발표했다. 이번에 발표한 메인 스트림 노트북 PC용 Llano1으로 "AMD A-Series APU"의 브랜딩이 된다. 플랫폼은 "Sabine"에 해당 칩셋은 "AMD Fusion Controller Hub A70M / A60M" 이다.

 

 

Llano의 다이 및 각 블록

 

 

메인 스트림 노트북 PC 용 Sabine 플랫폼

 

 

AMD A-Series APU의 특징


 Llano는 메인 스트림용 CPU와 외장급 GPU를 통합한 AMD의 APU 제품군의 상위 제품군이다. 다이 (반도체 본체)로는 4코어로 고성능 GPU 코어인 "Llano1"과 2코어로 중간 성능 GPU 코어 "Llano2"의 2 종류가 있다. AMD가 이번에 투입하는 것은 Llano1으로 Llano2는 수개월  늦게 등장한다.

 

 Llano는 AMD에서는 첫 32nm 공정 제품으로 GLOBALFOUNDRIES의 32nm SOI (silicon-on-insulator) 공정을 사용한다. 이것은 GLOBALFOUNDRIES에서는 처음 HKMG (High-K / Metal Gate) 기술을 사용한 공정이다. 공정 이행은 Intel에 1 년 반 가까이 벌어져 있다.

 

 AMD는 APU에 통합하는 CPU 코어와 GPU 코어는 1세대 전의 성숙된 버전이라고 설명한다.  위험을 제거하기 위한 것으로, 따라서 Llano의 CPU 코어는 새로운 Bulldozer (불도저) 코어가 아닌 현재 Stars 코어 (K10 또는 Hound) 계이다. 그렇지만 기존 코어를 단순히 45nm에서 32nm 공정으로 이식했을뿐 아니라 마이크로 아키텍처와 절전기구를 개량을 더했다. 다만 Intel의 Nehalem (네할렘) -> Sandy Bridge (샌디 브릿지)만큼 극적인 개선이 아니라 어디 까지나 마이너 체인지에 머문다.

 

 GPU 코어도 마찬가지로 아키텍쳐 적으로는 첨단인 Radeon HD 6970 (Cayman)이 아닌, Radeon HD 5000 계나 Radeon HD 6000 계열의 하위 GPU와 같다. Llano1는 단정밀도 부동 소수점 (FP)의 적화산이 가능한 Stream Processor가 총 400개 탑재되어 있다. 순수 성능은  최고 355GFLOPS이며, 미드 레인지 GPU급의 처리 능력이다.

 

 CPU 코어의 동작 주파수는 모바일 버전은 최고 2.6GHz (베이스 1.9GHz)가 된다. AMD는 2010년 2월 반도체 컨퍼런스 ISSCC (IEEE International Solid-State Circuits Conference)에서 Llano 아키텍처의 동작 주파수는 최대 3GHz 라고 설명했다. GPU 코어의 동작 주파수는 모바일 버전은 최고 444MHz. 고정 기능 유닛이 많은 GPU 코어는 CPU 코어만큼 동작 주파수를 높게 할 수 없다.

 

 

Llano의 3 종류의 내장 GPU 스펙

 

 

AMD A-Series 라인업


 Llano는 비디오 가속으로 UVD (Universal Video Decoder)를 HD 비디오 기능을 강화한 UVD3가 탑재되어 있다. 메모리 인터페이스는 DDR3 2채널. 메모리는 모바일에서는 최대 DDR3-1333으로 피크 대역폭은 25.6GB / sec. 데스크톱은 최고 DDR3-1600으로 피크 대역폭은 29.8GB / sec. PCI Express는 총 24레인의 구성이다. 또한 디지털 디스플레이 출력도 갖추고있다.

 

 

AMD의 서버 / 데스크톱 / 모바일 CPU 이행도

 

 

 

UVD 기능 비교. Llano는 UVD3를 탑재

 

 

AMD A8, A6, A4의 차이

 

 

메모리 부분의 사양

 

 

디스플레이 출력, PCIe 사양

 


GPU 코어의 연결이 특수한 Llano의 전체 구성


 Llano의 전체 다이 레이아웃은 아래의 그림과 같다. 그림상의 상반부가 CPU 코어와 노스 브릿지 블록. 하반부가 GPU 코어 블록. 양쪽에 메모리 인터페이스와 PCI Express 등 I / O 인터페이스가 배치되어 있다.

 

 

Llano의 다이 레이아웃

 

 

Llano 내장 CPU, GPU, 노스 브릿지, 메모리 컨트롤러, I / O 연결


 Llano는 4개의 CPU 코어는 크로스바 스위치로 연결되어 노스 브릿지에 연결되어 있다. 노스 브릿지는 메모리 컨트롤러에 연결되어 있고, 노스 브릿지가 허브가 된다. GPU 코어도 노스 브릿지에 연결되어 있지만, CPU와는 연결이 다르다.

 

 GPU 코어는 노스 브릿지 / 메모리에 대한 2개의 버스를 가지고 있다.

 

 한쪽은 "Radeon Memory Bus (코드네임 Garlic)"으로, 이것은 GPU 코어에서 메모리 컨트롤러에 대한 광대역 액세스를 실현한다. Garlic은 GPU 코어와 메모리 컨트롤러로 광대역으로  직결되는 외장 GPU에 가까운 액세스를 위한 버스이다. 주로 그래픽 처리를 위해 사용된다. 스누핑을 일절 행하지 않고 메모리는 2채널 인터리빙으로 효율성을 높이기 때문에, 유효 메모리 대역폭은 읽기 17GB / sec, 쓰기에서 12GB / sec에 이른다고 한다. 덧붙여서,이 버스의 GPU 코어에서의 피크 대역폭은 29.8GB / sec 메모리 대역폭과 일치한다.

 

 

PCIe의 구성


 또 하나의 버스는 "Fusion Compute Link (Onion)"로, 이쪽은 CPU와의 일관된 버스이다. 이 버스를 사용하면 GPU 코어가 지금까지 할 수 없었던 CPU 캐시에 스눕 수 있게 된다. 이 onion 버스를 사용하는 것으로 GPU의 범용 컴퓨팅 때에, CPU와 GPU 사이의 불필요한 메모리 복사를 제거하는 제로 카피가 가능하다.

 

 다만 GPU 코어에 캐시되는 CPU 메모리 공간에 액세스 하는데 제약이 있어, CPU 코어와 GPU 코어가 자유롭게 동일한 메모리 공간을 읽고 쓸 수 있는 것은 아니다. 자세한 것은 이후의  보고서에서 설명하지만, 자유로운 액세스는 다음 세대 APU로 미뤄진다. 또 이 onion 버스는 Garlic 버스보다 메모리 대역도 제한된다. I / O 계는 I / O 버스로 노스 브릿지와 연결되어 있다. 또한 I / O 콤플렉스는 GPU 코어에도 액세스 포트를 가진다.

 


마이크로 아키텍처가 확장된 Llano의 CPU 코어


 Llano의 CPU 코어는 K10 세대 마이크로 아키텍처의 32nm 공정판이다. AMD는 이 코어의 개요를 2010년 2월 반도체 컨퍼런스 ISSCC (IEEE International Solid-State Circuits Conference)에서 밝혔다. 아래 그림은 ISSCC에서 발표한 32nm CPU 코어의 평면도 그림이다. 전체 레이아웃은 기존의 K10 계열 코어와 거의 다르지 않다.

 

 

32nm 공정 버전 K10 코어

 

 

32nm 버전은 IPC 개선으로 최대 6% 향상

(페넘2에 비해서 순수 코어의 성능이 증가하는데, 반대로 L3 캐시가 없는 관계로 순수 코어가 아닌 CPU제품으로서는 그만큼 성능 저하로 최종 성능은 + -)


 그러나 명령 실행의 효율을 향상시키는 개량이 더해져, IPC (Instruction-per-Clock)는 최대 6% 향상된다고 한다.

 

 첫째, 명령 스케줄링에서는 아웃 오브 오더 실행의 리오더 버퍼의 명령 윈도우가 기존의 72엔트리에서 84 엔트리로 확장되었다. 이것은 정수와 부동 소수점 (FP)의 양쪽 실행 처리 능력을 향상시킨다. 또 로드 / 스토어의 윈도우 사이즈도 확장되었다. 하드웨어 데이터 프리 페처도 확장되고, 또한 메모리 필과 캐시 스테이트의 전환이 고속화 되었다.

 

 정수 연산에서는 나눗셈이 하드웨어화 되고 (지금까지 하드웨어가 없었나...), 부동 소수점 (FP)는 몇가지 명령의 실행 지연 시간도 단축되었다. 이 밖에 가상화의 고속화를 위한 TLB 확장이 더욱 진행됐다. 극적인 것은 없지만 미세하게 성능을 향상시키기 위한 궁리가 집중되었다.

 

 
외장 GPU를 맞춤화 한 Llano의 GPU 코어


 Llano의 GPU 코어는 외장 GPU의 맞춤형 코어다. 외장과 큰 차이는 메모리 컨트롤러가 ROP (Rendering Output Pipeline) 유닛에 직결되지 않고, ROP는 노스 브릿지 장치에 연결되어있는 것. GPU 코어 내부의 허브뿐만 아니라 노스 브릿지에 연결하는 데에 PCI Express 버스 등은 GPU 코어 내부의 허브에 연결되어 있지 않다. 외장 GPU의 허브 역할이 바뀌었다.

 

 

Llano 내장 Sumo GPU 코어


 GPU 코어의 마이크로 아키텍처 자체는 외장 GPU와 같다. 최소 단위는 VLIW (Very Long Instruction Word) 형의 쓰레드 프로세서로, 1개의 VLIW 프로세서에 안에 5개의 Stream Processor가 탑재된 VLIW5 구성으로 되어 있다. VLIW 프로세서는 16개로 1개의 SIMD (Single Instruction, Multiple Data) 엔진을 구성한다. Llano1는 다이에 5개의 SIMD 엔진이 탑재되어 있기 때문에 총 Stream Processor ​​수는 400개가 된다.

 

 제품으로는 SIMD 단위로 비활성화 되어 Stream Processor가 320개 (4 SIMD)와 240개 (3 SIMD)의 변형이 있다. Llano의 모바일 제품으로는 A8이 400개, A6가 320개, A4 240개의 구성이다.

 

 

GPU 코어 "Sumo"상세

 

 

Sumo는 Radeon HD 6470M보다 고속


 AMD의 VLIW 프로세서의 5개의 Stream Processor는 실제로는 4개의 단정밀도 FP 적화산(MAD) 유닛과 1개의 슈퍼 펑션 유닛 (SFU)이다. SFU는 초월 함수 등의 실행 유닛으로, 단 정밀도 FP 적화산 유닛도 겸하고 있다. 각 연산 유닛은 같은 명령을 실행하는 SIMD 대신 별도의 다른 명령을 실행할 수 있다.

 

 

SUMO의 SIMD 어레이와 VLIW5 프로세서

 

 

스레드 프로세서의 상세


 각각의 VLIW 프로세서는 VLIW 명령에 포함된 6개의 명령을 1 사이클로 실행한다. 연산 유닛 인 Stream Processor는 5개지만, 분기를 담당하는 브랜치 유닛이 1개 포함되어 있기 때문에  명령 슬롯은 6이 된다.

 

 AMD 아키텍처에서는 SIMD 엔진에 포함된 16개의 VLIW 프로세서가 같은 VLIW 명령을 실행한다. AMD가 SIMD를 더 분해하지 않고, SIMD 단위로 해제 시키는 것은 이 때문이다. SIMD 엔진이 AMD GPU 아키텍처의 실행 단위인 wavefront를 실행하는 최소 단위이다. 16개의 VLIW 프로세서가 4사이클로 64 스레드를 실행하는 구조로, wavefront가 AMD GPU의 논리적 벡터 길이다. 즉, SIMD 안의 프로세서 수를 변경하면 논리적 벡터 길이가 바뀌게 되어, 프로그래밍에 큰 영향을 주게 된다.

 

 

SIMD 발행되는 AMD GPU의 VLIW 명령

 

ROP 클러스터 수는 2로 상대적으로 다소 적다. 이것은 CPU의 표준 메모리를 사용할 수 밖에 없는 APU에서는 메모리 대역폭 자체가 제한되어 있기 때문이다. 메모리 대역을 먹는 ROP를 마구 늘려도, 메모리 액세스가 포화되어 버리기 때문에 의미가 없다.

 

 

파워 게이팅을 사용한 Llano의 절전 기능


 이번 AMD CPU의 제조를 담당하는 GLOBALFOUNDRIES는 32nm SOI 공정에서 "High-K Metal-Gate (HKMG)"를 채용했다. HKMG는 게이트 누설 전류를 억제하는데 유리하다. 공정 기술면에서의 이점에 더해, AMD는 회로 설계에서 다양한 절전기구를 더했다.

 

 

 우선, CPU 코어의 내부 L1 캐시는 기존의 6T (6 트랜지스터) SRAM 셀을 바꿔, 8T SRAM 셀을 채택했다. 8T 셀화를 통해 더 낮은 전압에서의 동작이 쉬워졌다. 또한 문턱 전압은 표준 (RVt)에서도 채널 길이가 긴 트랜지스터 (LC-RVt)을 많이 채용해서 Subthreshold 누설 전류를 억제한다. 그 위에 AMD는 Llano에 전력 모니터 회로를 CPU 안에 넣는 것으로, CPU 코어의 다양한 스테이트를 실시간으로 모니터링하고 세밀한 전력 관리를 하도록 했다.

 

 절전에서 Llano의 주역은 파워 게이팅 기능이다. 파워 게이팅에서는 아이들 상태의 코어로의  전력 공급을 완전히 차단한다. 전력을 차단함으로써 누설 전류를 최소까지 억제한다. Llano에서는 CPU 코어와 L2 캐시의 쌍이 되는 블록 단위로 파워 게이팅을 한다. 또한 GPU 코어와 UVD 코어도 각각 파워 게이트 한다.

 

 

AMD의 Turbo Core Technology

 

 

시스템 전력 최적화

 

 

Llano의 절전 설계

 

 

UVD 그래픽 파워 게이팅

 

 

Turbo Core Technology 전력 제어

 


Sandy Bridge와 크게 다른 Llano


 AMD는 2코어 버전의 Llano2도 준비하고 있지만, Llano1보다 몇달 늦어진다. 최초에 등장하는 2코어 버전 Llano는 실제로는 Llano1의 4코어 중 2개의 코어를 무효화한 제품이 될 전망이다.

 

 Llano2의 시기가 어긋나는 것은, Llano 아키텍처의 경우는 2코어 버전을 파생하려면 대규모  재 설계가 필요하기 때문이다. Intel의 Sandy Bridge는 4코어 버전에서 2코어 버전을 비교적 간단하게 파생 할 수 있다. 그러나 Llano의 경우 CPU 코어 수를 바꾸려는 경우, 먼저 크로스바 스위치 부분의 설계 변경이 필요하다. 그 위에 현재의 레이아웃에서는 양사이드의 I / O 부분의 위치도 바꾸지 않으면 안된다. 또 AMD는 Llano2에서는 GPU 코어도 규모를 축소한다고 설명했다. Llano2는 상당한 엔지니어링이 필요하기 때문에 제품화가 늦어지게 된다.

 

 Llano와 Intel의 Sandy Bridge는 모두 4개의 CPU 코어와 GPU 코어, PCI Express 2채널 DRAM 컨트롤러를 내장한다. 구성은 매우 닮았지만, 다이를 비교하면 크게 다른 것이 판명된다. 아래가 같은 스케일로 비교한 Llano와 Sandy Bridge의 다이이다. 다이 크기 자체는 거의 같지만, 유닛의 비율이 완전히 다르다.

 

 

Llano와 Sandy Bridge의 다이 비교

 

 Llano에서는 CPU 코어와 캐시는 CPU 전체의 30% 정도 밖에 차지하지 않는다. 반면, Sandy Bridge는 CPU 다이 중 절반 이상을 CPU 코어와 캐시가 차지하고 있다. GPU 코어의 크기  차이는 분명하며, Llano 쪽이 훨씬 GPU 코어가 크다. AMD가 GPU 코어를 중시하는 것은 AMD가 GPU를 사용한 범용 컴퓨팅 (그래픽 이외의 범용적인 이용)에 주력하고 있기 때문이다.

 

 AMD는 CPU 코어에 의한 스칼라 처리와 GPU 코어에 의한 병렬 처리를 조합한 헤테로지니어스 (Heterogeneous : 이종 혼합) 컴퓨팅으로 컴퓨터의 성능을 올리려 한다. 반면, Intel은 어느쪽인가 말하면 기존의 x86 스칼라 성능을 높이는 쪽으로 다가간다. 그렇지만, Intel은 x86 코어 측의 벡터 유닛 256-bit 폭의 AVX로 확장했다. Intel과 AMD의 아키텍처의 차이는 벡터 처리를 CPU 코어 측과 GPU 코어 측의 어느쪽에서 하는가 꺾인 정도의 차이라고 생각하는 것도 가능하다.

 

 AMD는 CPU 코어의 크기를 늘리지 않는 전략을 취하고 있으며, AMD CPU 코어의 크기는 계속 소형화 하고 있다. 아래는 AMD의 세대마다의 CPU 코어의 면적 차트이다. 차세대 Bulldozer도 2CPU 코어를 융합한 모듈로 Llano의 CPU 코어 2개 정도의 크기 밖에 안된다. CPU 코어의 작음이 AMD의 강점이다.(같은 공정에서 같은 성능에 코어가 작은 크기면 엄청난 강점이 되지만, 기본적으로 코어의 크기가 작으면 성능이 낮다는 얘기 입니다. 아래 아래 아래의 불도저와 k10의 차이를 봐도 알 수 있죠. 회로의 규모는 더 커졌지만 공정에 의해서 실제 크기가 축소된 경우 제외. 코어의 크기가 작아지면 대신 크기당 성능 효율은 증가.)

 

 

AMD의 세대마다의 코어 크기의 차이

 


Llano로 부터 앞으로 계속되는 APU의 길


 Llano의 다이 크기는 228 제곱 mm로 트랜지스터 수는 15억. CPU와 GPU를 통합한 APU로서 정확히 메인 스트림용의 다이 크기가 된다. 기존은 메인 스트림 CPU의 다이는 140 제곱 mm 정도가 스위트 스팟 이었지만, GPU 코어의 통합 수준은 200 제곱 mm 이상으로 대형화 된다. 2코어 Llano2는 더 작은 다이가 될 것으로 추정된다.

 

 

AMD CPU die size 이행도

 

 AMD는 Llano를 K7 → K8 → K10 (Stars / Hound)로 발전시켜 온 코어​​의 마지막 제품으로 위치 시킨다. 내년 (2012년)부터는, AMD는 메인 스트림 PC의 코어도 Bulldozer로 바꾼다. 그 의미에서 Llano는 중간 값의 제품이라고 말할 수 있다. Bulldozer부터는 CPU 코어의  아키텍처가 완전히 바뀌기 때문에 AMD에게는 대전환이다. 칩 전체로는 2012년 이행에 GPU 코어의 아키텍처나 CPU와 GPU를 통합한 시스템 아키텍처도 크게 바꿔간다. AMD 아키텍처를 급속히 발전시키고 있다.

 

 

Bulldozer, K10, Bobcat 아키텍처 비교

 

 

AMD CPU 아키텍처 이행도

 

2011년 6월 14일 기사

 

[분석정보] 심플 코어로 향하는 차세대 CPU 아키텍처

 

 

[분석정보] 결정된 헤테로지니어스 멀티코어에 대한 기류

 

 

[아키텍처] 폴락의 법칙에 찢어지고 취소된 테하스(Tejas)

 

 

[고전 2001.02.07] 인텔 폴락의 법칙이 등장 Intel 겔싱어 CTO의 ISSCC 강연

 

 

[분석정보] 폴락의 법칙을 깨뜨리기 위한 멀티 코어

 

 

[분석정보] AMD와 ATI 프로세서는 하나로 융합한다

 

 

[분석정보] 현실 노선으로 수정된 AMD의 FUSION

 

 

[분석정보] AMD 차기 아키텍처 Bulldozer 와 Bobcat 의 개요

 

 

[분석정보] 인텔의 대항에 직면한 AMD의 서버 로드맵

 

 

[분석정보] AMD가 2009년의 CPU 코어와 통합 CPU의 개요를 발표

 

 

[분석정보] AMD GPU 통합 CPU Llano의 CPU 코어 기술을 발표

 

 

[분석정보] AMD가 확장판 K10 코어 기반의 APU Llano 를 첫 공개

 

 

[분석정보] 보여진 AMD의 차기 CPU Llano의 실상

 

 

[분석정보] K8 이후 크게 바뀐 AMD의 CPU 개발주기

 

 

 

[분석정보] 메모리가 큰 벽이 되는 AMD의 퓨전 (FUSION) 프로세서

 

 

[분석정보] 전면 개량이 아닌 부분 개량에 머문 Penryn

 

 

[분석정보] Atom의 절전 기술도 탑재한 Nehalem

 

 

[분석정보] 인텔 45nm 공정 차세대 CPU Penryn(펜린) High-k 메탈게이트 성공

 

 

[벤치리뷰] 애슬론 II X4 630 2.8Ghz 620 2.6Ghz

 

 

[분석정보] AMD Kaveri의 메모리 아키텍처와 향후의 APU 진화