벤치리뷰·뉴스·정보/아키텍처·정보분석

[분석정보] AMD GPU 통합 CPU Llano의 CPU 코어 기술을 발표

tware 2010. 2. 15. 21:30


APU의 핵심인 32nm 공정의 CPU 코어


ISSCC의 회장인 샌프란시스코 메리어트 호텔


 AMD는 내년 (2011년) 초기에 투입할 예정인 32nm SOI 공정 "K10 (Hound) '계 CPU 코어의 개요를 밝혔다. 미국 샌프란시스코에서 개최된 ISSCC (IEEE International Solid-State Circuits Conference)에서 밝혀졌다. 32nm K10 계열 코어는 CPU에 GPU 코어를 통합 한 APU (Accelerated Processing Unit)의 첫 번째 제품 "Llano (랴노)"의 코어로 사용 될 전망이다. 32nm 코어 세대 이름이 "K10"이 될지 모르지만, ISSCC에서 발표 된 코어가 "FUSION (퓨전)"이라고 했던 CPU + GPU 통합의 심장이 되는 것은 틀림 없다.

 덧붙여서, AMD의 데스크톱 PC는 32nm 세대에서 "Bulldozer (불도저)"를 투입한다. 즉, 32nm에서는 성능 전용에는 Bulldozer 개별 CPU, 메인 스트림 전용은 K10 계의 APU를 제공한다. Bulldozer도 APU로 향하지만 첫 번째 단계에서는 개별 = Bulldozer, APU = K10으로 2 계통으로 분류된다.

AMD의 데스크탑 CPU 이행도


 Llano는 노트북 PC와 데스크톱 PC를 위한 32nm APU로 1 개의 다이에 2 ~ 4 개의 CPU 코어와 DirectX 11 지원 GPU 코어, PCI Express 호스트 등을 통합한다. ISSCC 발표에서는 Llano의 핵심인 32nm CPU 코어의 크기는 불과 9.96 제곱 mm, 마침내 10 제곱 mm를 끊었다. 1MB의 L2 캐시 (플러스 새로 추가된 파워 게이팅 링)와 함께해도 면적은 17.7 제곱 mm에 불과하다.

 CPU 코어만을 보면, 32nm 버전 K10 계열 CPU 코어의 크기는 45nm 버전의 Intel의 Atom (Bonnell : 본넬) 계 CPU 코어의 크기와 크게 다르지 않다. 즉, Llano 세대 CPU 코어의 비용은 Atom 코어 수준이다. 물론, Atom을 32nm로 전환 시키면 CPU 코어는 절반 정도 크기가 되기 때문에 단순한 비교는 할 수 없다.

 그러나 Intel의 Nehalem (네할렘) 계 CPU 코어와 같이, 32nm에 256KB의 L2 캐시 포함 크기가 17 제곱 mm 가까운 대형 코어와 비교하면,이 공정에서 K10 계열 코어가 훨씬 작은 것은 확실하다.

 덧붙여서, AMD의 Chuck Moore 씨 (Corporate Fellow and CTO Technology Development)는 2008년 12월 CPU 컨퍼런스 "Micro41"에서 22nm 때로는 Opteron 코어 (K10 코어)가 약 5 제곱 mm의 면적에, 1MB 캐시가 약 4.5 제곱 mm가 될 것으로 예측하고 있다. 32nm 버전의 코어를 보는 한,이 속도로 진행되고 있다. Bulldozer에도 2 개의 CPU 코어를 융합시킨 CPU 모듈이 2 개의 CPU 코어보다 작은 크기가 될 것으로 예상된다. CPU 코어를 대형화를 계속하는 Intel과 CPU 코어를 작게 유지하려 시작한 AMD로 방향이 나뉘어져 갈 것으로 보인다.

AMD CPU의 코어 다이 사이즈 추이


아키텍처를 확장한 32nm 버전 코어


 아래 그림은 ISSCC에서 발표된 32nm CPU 코어의 평면도 그림 ( "DIGEST OF TECHNICAL PAPERS"에 게시된 그림)에 약간 손본 것이다. 발표 된 그림의 기능 블록 구분이 약간 어긋나 있었기 때문에 기존의 K10 코어 블록 다이어그램을 기반으로 덧붙였다. 기능 블록은 대략적인 추정 위치를 보여주고 있다.

32nm의 K10 코어


32nm 및 45nm K10 코어 비교


 이 32nm 코어도 거의 K10 CPU의 레이아웃을 답습하고 있다. AMD는 작년 (2009년) 11 월에 개최한 "2009 Financial Analyst Day "에서 개별 CPU와 GPU 각각으로 발전된 기술을 APU로 병합한다고 설명했다. 그러나 ISSCC에 계시된 32nm 버전 K10 계열 코어는 기존의 K10 코어보다 훨씬 확장되어 있었다.

 ISSCC에서 발표된 32nm K10 코어 아키텍처의 확장은 다음과 같다. 아키텍처의 확장은 그리 크지는 않지만, 효율 향상에 기여할 것 같은 부분이 포함되어 있다. 명령 윈도우는 기존의 72 항목에서 84 항목으로 확장되었다. 가장 중요한 점은 새로운 C-State, 이것은 후술하는 절전 기능과 밀접하게 관련되어있다.

32nm 버전의 아키텍처 확장

.명령 윈도우를 확장해 정수 / 부동 소수점 (FP)의 실행 처리량을 향상
.하드웨어 정수 나누기
.부동 소수점 연산 (FP) 명령의 대기 시간을 단축
.데이터 프리 페치를 확장
.메모리 필과 캐시 스테이트 전환 속도
.전체 프로세서 스테이트의 저장을 포함한 I / O 기반의 C 스테이트
.가상화의 고속화를 위한 TLB 확장



45nm K10 코어에 비해 전력이 계속 내려 간다


 32nm 버전 K10 계열 코어에서 가장 향상된 것은 절전 관련이다. 절전 형상의 측면에서, 32nm의 K10 계열 코어는 45nm까지의 코어와는 전혀 다른 제품이라고 봐도 좋을 것 같다. 그만큼 많은 확장이 이뤄지고 있다. 지금까지 AMD 코어는 Intel과 비교하면 절전 기능에서 약한면이 있었지만, 32nm 세대에서는 꽤 따라 잡았다.

 사실, 45nm 세대와 비교하면 32nm 코어는 상당한 전력을 줄일 수있다. 45nm 코어와 비교하면 32nm 코어는 동일한 성능에서 Dynamic 성분 84% 정적 성분 (누설 전류)에서 68 %까지 전력 소모를 낮춘다. 현재의 공정 기술로 꽤 좋은 전력 절감이다.

 덧붙여서, 32nm 코어 전체의 소비 전력 중 71%가 동적, 29%가 정적이 되고 있다. 현재 성능 CPU는 다양한 절전 방법을 사용해도 누설 전류 (정적 성분)는 20% 대까지 밖에 줄일 수 없다. AMD도 그 사정은 마찬가지다.

32nm 와 45nm 소비 전력 비교


CPU 코어 전력 분석


 이번 AMD CPU의 제조를 담당하는 GLOBALFOUNDRIES는 32nm SOI 공정 "High-K Metal-Gate (HKMG) '를 채택했다. HKMG는 게이트 누설 전류를 억제하는데 유리하다. CPU 코어 내부의 L1 캐시는 기존의 6T (6 트랜지스터) SRAM 셀을 바꿔, 8T SRAM 셀을 채용했다. 8T 셀 화를 통해 더 낮은 전압에서 동작이 쉬워진 것과 동시에, 리드와 라이트를 분리하여, 동 사이클에서 읽기와 쓰기가 가능하게 한다. 코어 SRAM을 8T로 하는 것은 Intel과 같다.

 AMD는 그동안 CPU에서 문턱 전압 (Vt)이 다른 트랜지스터를 병행해 특히 문턱 전압이 높고 누설 전류가 적은 높은 Vt (HVt) 장치를 많이 사용해 왔다. 그러나 32nm에서 HVt 트랜지스터의 비율을 낮추고 문턱 전압은 표준 (RVt)에서도 채널장이 긴 트랜지스터 (LC-RVt)를 많이 채용했다. 더 낮은 전압에서 높은 성능을 내기 때문이라고 한다. 이 접근은 Intel과 같다.

 작동시 전력을 낮추는 기술로 CPU는 클럭 게이팅이 사용되고 있다. 휴식 상태의 기능 블록에 대한 클럭 공급을 중지해 액티브 전력을 낮춘다. AMD는 이번에 섬세한 단위로 클럭 게이팅을 행하는 것으로,보다 효율적인 클럭 정지를 행할 수 있게했다.

 AMD는 이번 32nm 코어에서 전력 모니터 회로를 CPU 안에 넣었다. 이것은 CPU 코어의 다양한 스테이트를 모니터링하여 세분화 된 전력 관리를 할 것이다. Intel도 Nehalem (네 할렘)에 전력 관리를 하는 프로세서를 내장했는데, AMD의 방법도 유사한 것이다.

 Intel CPU에서 본격적인 전력 모니터 및 전력 제어 회로를 내장한 IA-64 프로세서 "Montecito (몬테시토)"였다. Montecito을 포함한 IA-64 계열 CPU는 원래 Hewlett-Packard의 PA-RISC 설계자인 Samuel Naffziger 씨가 중심이 되어 개발하고 있었다. 사실 이번 ISSCC의 AMD의 논문은 Samuel Naffziger 씨의 이름이있다. Samuel Naffziger는 현재 AMD로 이적해 있으며, 32nm 버전 K10 개발에 관련된 것 같다. 이 말은 Intel과 접근이 비슷한 절전 기술이 채용되고 있는 것도 당연 할지도 모른다.


AMD도 파워 게이팅을 구현


 AMD는 이와 같이, 32nm 프로세스에서는 절전 기술을 풍성하게 했다. 그 결과, 전력 절감을 어느 정도 향상시킬 수 있게 되었다. 이러한 절전 기술은 같은 32nm의 Bulldozer도 어느 정도 채택되어 갈 것이다. 무엇보다, 32nm의 K10 계열 코어로 절전 효과는 더 중요하다. 그것은 32nm의 K10 계열 코어는 퍼포먼스 데스크탑이 아닌 메인 스트림 데스크톱이나 노트북 PC를 타겟으로 하고 있기 때문이다. 시장에서는 절전이 중요하기 때문에 전력 절감을 철저하게 행한 32nm 코어의 방향은 일치하는 것이다.

 특히 모바일 장치에서 사용할 절전 기능도 32nm의 K10에서 구현되고있다. 그것은 파워 게이팅이다. 파워 게이팅에서는 아이들 CPU 코어에 전력 공급을 중지한다. 이를 통해 누설 전류를 크게 줄일 수 있다. AMD의 경우 CPU 코어와 L2 캐시 쌍을 이룬 블록 단위로 파워 게이팅을 행한다.

 파워 게이팅도 Intel이 한발 앞서 45nm에서 채택하고 있다. 그러나 AMD의 파워 게이팅에는 몇 가지 차이가 ​​있다. 먼저 구현은 Intel과 같이 두꺼운 금속화 레이어를 형성하는 특별한 프로세스를 사용하지 않는 방법을 채택했다. 구현이 더욱 쉬워진다는 이점이 있다. 파워 게이트 링은 CPU 코어와 L2 캐시의 주위를 감싸게 설치되어 있다.

 또한 Intel은 파워 게이팅을 위해, CPU 코어의 스테이트를 유지하는 특별한 SRAM을 CPU에 구현, 파워 오프에서 복귀를 가속화 했다. 그러나 AMD의 구현은 CPU 코어의 스테이트는 CPU 외부 DRAM에 대피된다. 따라서 원리적으로 Intel의 파워 게이팅 보다 온 - 오프 지연 시간이 길다. 실제 기기에서는 파워 오프에서 복귀에 시간이 걸리게 될것이 어느정도 실용성이 있는지는 아직 잘 모른다.


K10의 파워 게이팅 시퀀스


 파워 게이팅의 실효성은 불분명하지만, AMD가 이번 32nm K10 계열 코어로 철저한 저전력 화를 도모한 것은 확실하다. 전례없는 규모의 전력 절약 기능의 확장이 이루어지고 있으며, AMD가 전력을 중시하고 있는 것을 알 수있다. 향후는, AMD는 모바일 PC에서도 강점을 내놓을 것으로 추측된다.



2010년 2월 15일 기사 입니다.



[분석정보] AMD가 확장판 K10 코어 기반의 APU Llano 를 첫 공개



[분석정보] 보여진 AMD의 차기 CPU Llano의 실상



[분석정보] 모바일 절전 기능을 강화한 펜린 (Penryn)



[분석정보] 평균 소비전력을 크게 줄일 Penryn의 C6 스테이트



[분석정보] Atom의 절전 기술도 탑재한 Nehalem



[분석정보] AMD가 2009년의 CPU 코어와 통합 CPU의 개요를 발표



[분석정보] 보여진 AMD의 차기 CPU Llano의 실상



[분석정보] 현실 노선으로 수정된 AMD의 FUSION



[분석정보] AMD가 발표한 메인 스트림 APU Llano의 아키텍처



[분석정보] AMD Kaveri의 메모리 아키텍처와 향후의 APU 진화