벤치리뷰·뉴스·정보/아키텍처·정보분석

[분석정보] 드디어 밝혀진 AMD의 불도저 (Bulldozer)

tware 2011. 3. 1. 20:00

 

컴팩트하고 전력 효율이 높은 Bulldozer

 

 

 

ISSCC2011의 회장이 된 샌프란시스코 메리어트 호텔


 AMD는 미국 샌프란시스코에서 지난 주 개최된 반도체 컨퍼런스 "ISSCC (IEEE International Solid-State Circuits Conference) 2011 '에서 새로운 아키텍처 CPU"Bulldozer (불도저) "디자인의 개요를 밝혔다. ISSCC에서 3 개의 세션에서 공개 된 Bulldozer의 모습은 설계대로라면 이 새로운 CPU가 상당한 경쟁력을 가질 것을 보여주었다.

 ISSCC에서 밝혀진 것은 Bulldozer 다이 평면도 정보 및 각 모듈의 개요, 상대적으로 작은 모듈 크기, 3.5GHz 이상을 달성하는 고클럭화 디자인과 높은 처리량을 제공하는 부동 소수점 ( FP) 유닛의 구조와 파워 게이팅을 사용한 전력 절약 설계 등 다방면에 걸친다.

 또한 이러한 발표를 통해 Bulldozer 아키텍처의 특성도 확실하게 되었다. 큰 포인트는 8 코어 상대적으로 작은 다이 사이즈로 실현 가능한 클러스터 아키텍처의 장점. 이것은 올해 중반에 등장하는 8 코어 Bulldozer가 비용으로 무리하지 않고 있다는 것을 의미하고 있다.

 또한 Bulldozer의 설계 사상은 정수 연산 파이프는 길이는 기존의 AMD CPU보다 증가 되지만, 동작 클럭의 향상 등으로 보완 하는 것이 명확하게 되었다. Bulldozer는 기존과 동일한 전력 범위에서 3.5GHz 이상의 주파수에서 동작 할 수 있다고. FO4 (Fanout-Of-4)가 기존 K10보다 20 % 적은 즉, 파이프 라인 스테이지 당 게이트 딜레이가 20 % 나 줄어들 기 때문이다. 부동 소수점 (FP) 단위는 128 - bit의 SIMD FMA를 2 병렬과 다른 명령을 2 명령어 병렬로 실행 가능한 레지스터 대역을 가지는 것도 밝혀졌다.

 절전은 32nm 세대 게이트 누설 전류 (Leakage)가 적은 HKMG (High-K/Metal Gate) 기술 된 것 외에도 임계 전압은 표준 (RVt)하지만 채널 길이가 긴 트랜지스터 (LC-RVt )을 많이 채용 한 것으로 누설 전류를 억제했다. 모듈 전체 누설 전류는 맥스시 22 ~ 23 % 정도로 상대적으로 낮다. CPU 코어 내부의 L1 캐시는 기존의 6T (6 트랜지스터) SRAM 셀에서 8T SRAM 셀로 바꿔 더욱 데이터 내용 유지 전압을 낮췄다. 즉, 더 낮은 전압으로 낮추는 것이 가능하게 되었다. 특정 유닛 단위로 전력 공급을 차단하는 파워 게이팅이 CPU 코어와 캐시에도 채용되고 있다.

 이러한 특징을 보면, Bulldozer는 컴팩트하고 전력 효율이 높은 CPU로 설계되어 있는걸 알 수 있다. AMD는 내년 (2012 년)에는 Bulldozer 아키텍처를 메인 스트림 데스크탑과 노트북 PC에도 도입 할 예정이다. Bulldozer의 CPU 코어가 충분히 작고, 메인 스트림 PC에 맞는 비용에 들어가는 것이 명확하게 되었다.

 

 

Bulldozer의 다이 사진

 

AMD CPU의 이행도

 

 

 

Bulldozer의 소비 전력



Orochi의 "미가공" 다이 사진을 처음 공개


 위가 이번에 공개 된 Bulldozer 코어 CPU 다이 "Orochi (오로치)"의 사진이다. Orochi는 Bulldozer 기반의 첫 번째 다이에 GLOBALFOUNDRIES의 32nm SOI 공정 (High-K/Metal Gate)에서 제조된다.

 Orochi는 2 개의 CPU 코어를 융합시킨 "Bulldozer Module"을 총 4 개 탑재한다. CPU 코어 수로 환산하면 8 코어 상당 ,8-way 멀티 쓰레딩이다. 4 개의 Bulldozer Module과 함께 8MB의 L3 캐시, 듀얼 채널의 DDR3 인터페이스, 4 링크의 HyperTransport 3.0을 내장한다.

 Orochi 다이는 AMD가 올해 중반에 서버 및 하이 엔드 데스크탑에 투입하는 CPU 제품군의 기반이 된다. 제품으로 코드 네임은 하이 엔드 데스크탑이 "Zambezi (잠베지)"서버 "Valencia (발렌시아)"와 "Interlagos (인터라고스) '다. Interlagos는 2 개의 다이를 패키지에 연결한 MCM (Multi-Chip Module) 16 코어 (8 모듈)이다.

 

AMD CPU 아키텍처 이행

 

 Orochi 다이를 보면 각 Bulldozer Module에 2MB의 L2 캐시가 밀접하게 통합되어 있는 것을 알 수 있다. 실질적으로 L2까지를 포함하여 모듈이다. Orochi 다이는 4 개의 모듈이 서로 나란히 있다.

 ISSCC에서는 다이의 중앙이 크로스 바 스위치가 차지하고 있는 것으로 설명되었다. 주위에 Bulldozer Module, 노스 브릿지 기능, L3 캐시, 메모리 컨트롤러 등이 배치되어있다. L3 캐시는 2MB 씩 4 개의 블록으로 분리되어 있다. 각 유닛의 교차점인 다이 중앙은 크로스바를 배치하는 데 합리적이다.

 그림의 다이의 오른쪽에는 듀얼 채널 DDR3 메모리 인터페이스가 배치되어있다. Orochi 세대에서는 DDR3-1866까지 지원하기로 되어 있다. 또한 다이의 왼쪽 그리고   하변의 왼쪽 절반은 HyperTransport의 PHY 것으로 보이는 유닛이 배치되어 있다. 기존의 HyperTransport의 PHY 장치보다 슬림. 다이 가장자리의 상당 부분이 I / O 패드가 점유한 설계로 되어있다.

 AMD는 실은 작년 (2010 년) 9 월에도 Orochi 다이 사진을 공개했다. 그러나 이때의 다이 사진은 가공이 더해져 CPU 코어의 개요 및 크기를 알 수 없도록 되어 있었다. 아래 그림의 오른쪽의 사진이 작년 것이다. Bulldozer Module 부분이 가공되고 있는걸 알 수 있다. AMD가 명백한 가공을 해가며 숨기고 싶었던 것은, Bulldozer Module의 크기와 모양이다. 이번 ISSCC에서는 그것이 밝혀졌다.

 

Bulldozer의 다이 신구 비교

 


Bulldozer Module에 대한 자세한 분명


 Orochi에 4 개 탑재되어 있는 Bulldozer Module은 각각 아래의 그림과 같은 구조로 되어 있다. CPU 모듈 부분은 큰 유닛마다 명확히 구분되어 있으며, 유닛군 사이에는 클럭 드라이버의 띠가 이미 끼워져 담겨 있다. 맨 위의 유닛군이 프런트 엔드의 명령어 인출 / 해독 및 분기 예측, 64KB의 L1 명령어 캐시. 그 아래에 정수 코어가 2 개 나란히 있다. 정수 코어는 정수 연산 파이프 블록과 로드 / 스토어 계의 블록 상하로 나누어져 있다. 로드 / 스토어 유닛은 16KB의 L1 데이터 캐시가 코어에 각각 포함되어 있다. 아래는 부동 소수점 (FP) 유닛이다.

 Bulldozer Module은 클러스터 아키텍처를 기반으로 하는 모듈에 2 쓰레드의 실행 리소스가 클러스터 되어 부분적으로 공유화 되고 있다. Bulldozer는 정수 연산은 두 개의 쓰레드가 각각 전용 코어를 가진다. 그러나 명령 디코더나 부동 소수점 연산 유닛 등은 2 개의 쓰레드에서 공유한다. 따라서 정수 코어 부분은 2 쓰레드에 완전히 분리되어 있다.

 

Bulldozer 모듈

 

 

 

Bulldozer 모듈 및 유닛

 

 

 

Bulldozer 아키텍처

 


 ISSCC에서는 이 모듈의 크기가 2MB의 L2 캐시를 포함하여 30.9 제곱 mm 인 것으로 밝혀졌다. 이것은 매우 작은 크기로, 따라서 Bulldozer 기반 CPU 자체도 코어 수에 비해 다이가 작아지는 것을 알 수 있다. 또한 CPU 전체의 멀티 쓰레딩 성능 / 다이 면적이 높은 것을 의미한다. 이것은 특히 CPU 코어가 비대화를 계속하고 있는 Intel의 비해 유리하다.

 Bulldozer Module의 30.9 제곱 mm라고 하는 크기가 얼마나 작은 지는 AMD의 현재 K10 (Hound)계 CPU 코어와 비교하면 잘 알 수 있다. Bulldozer는 GLOBALFOUNDRIES의 32nm 공정이므로 동일한 공정에서 만들어지는 "Llano (라노)"의 CPU 코어와 비교 한 것이 아래의 그림이다. Llano는 올해 AMD의 메인 스트림 CPU가 된다.

 

 

Bulldozer과 Llano 비교

 

 

 

다이 사진을 제외한 모듈의 비교

 


Llano의 K10 코어 약 2 개분의 크기 Bulldozer Module


 Llano의 32nm K10 코어의 크기는 CPU 코어 뿐이라면 9.69 제곱 mm. CPU 코어 + 1 MB L2 캐시 + 파워 게이팅 링에서 17.7 제곱 mm가 된다. 비교되는 Bulldozer Module은 2 코어분 모듈과 2MB L2캐쉬가 30.9 제곱 mm. 다이 사진을 보면 2MB의 L2를 제외한 부분은 18 제곱 mm 정도로 보인다. 즉, 2 코어분 Bulldozer Module 본체는 1 코어 분의 K10 CPU 코어의 약 2 배의 면적 셈이다.

(순수 코어별 크기 라노 1코어 면적 x 2 = 19.38 제곱 mm , 불도저 2코어 = 약 18 제곱 mm. L2 캐쉬를 포함하면 1코어(1MB L2)  x 2 = 35.4 제곱 mm, 불도저 1모듈 (2코어 + 2MB L2캐쉬) = 30.9 제곱 mm.  어떻게 봐도 불도저의 크기가 상대적으로 작은 크기. 불도저가 L2와 L3의 총 용량이 매우커서 결국 다이는 커짐. 이말은 IPC가 낮아지면 낮아지지 절대 높아질 수 없다는 얘기. 저 IPC로 인해서 코어당 성능이 떨어지는 것을 클럭을 끌어올려 만회하려다 보니 전력도 효율이 좋지 않음.)


 K10 코어 2 개분으로 Bulldozer Module 1 개라면, CPU 코어 수의 비교라면 계산이 맞는다고 할 수 있다. 하지만 Bulldozer Module은 K10보다 기능적으로 상당히 확장되고 있다. 기능을 강화하고 듀얼 코어했다면 K10 2 개분 보다 큰 면적을 먹는다. Bulldozer는 그것을 K10 2 개분의 면적에 밀어넣었다고 할 수 있다.

 Bulldozer Module에서 역산하면 Bulldozer 기반 Orochi 대략적 다이 사이즈도 알아낼 수 있다. 다이 사진으로 계산하면 Orochi는 300 제곱 mm 이하로 제한 되는 것으로 추정된다. AMD는 이전에 Orochi가 현재의 45nm 공정의 K10 6 코어의 "Istanbul (이스탄불)"다이 보다 작아 진다고 설명했다. Istanbul은 346 평방 mm이므로 실제로, Bulldozer는 Istanbul보다 수십 퍼센트 작다.

 

AMD의 세대 별 코어 크기

 

CPU 다이 크기의 이행도

 

 300 제곱 mm 가까운 다이 사이즈는 꽤나 크게 느껴지지만, 4 코어가 되면 x86 CPU는 하이 엔드에서는 이미 이 사이즈가 일반적이다. AMD는 65nm 공정의 K10 코어 4 "Barcelona (바르셀로나)"가 283 제곱 mm. Intel은 45nm의 Nehalem 쿼드 코어 "Lynnfield (린 필드)"가 296 제곱 mm, 32nm 6 코어 "Westmere (웨스트 미어)"는 한층 작은 240 제곱 mm 이다. AMD는 8 코어의 Orochi 현재 고성능 CPU의 표준 다이 크기로 가져왔다 말할 수있다.

 또한, 메인 스트림 CPU는 현재 4 코어에 GPU 코어를 통합하여 200 제곱 mm 대의 다이 크기가 주류를 이루고 있다. AMD가 올해 중반에 출시 할 예정인 K10 쿼드 코어 + GPU 코어 Llano도 200 제곱 mm를 약간 넘은 다이 크기가 된다. 따라서 GPU 코어분을 생각하지 않으면, 메인 스트림 CPU와 차이도 상대적으로 작다.

 

Bulldozer과 Llano의 다이 크기 비교

 

 

 

 

[정보분석] 8 코어 AMD FX가 쿼드 코어로, MS의 불도저 아키텍처 최적화 패치

 

 

[벤치마크] AMD FX 불도저 패치

 

 

[벤치리뷰] 6코어와 4코어 잠베지(불도저) FX-6100, FX-4100,FX-8150

 

 

[벤치리뷰] 마침내 등장 불도저 아키텍처 잠베지 AMD FX-8150 3.6GHz

 

 

[벤치리뷰] 3GHz 16 CPU 코어당 성능

 

 

[아키텍처] 정수 연산 성능을 희생해서 효율성을 거둔 AMD 불도저

 

 

[벤치리뷰] 마침내 등장 불도저 아키텍처 잠베지 AMD FX-8150 3.6GHz

 

 

[아키텍처] AMD 불도저 제품은 4GHz 이상.

 


[벤치리뷰] AMD FX-8350 비셰라 (Vishera, 파일드라이버 코어)

 

 

[벤치리뷰] AMD FX-8150 리뷰



[벤치리뷰] 6코어와 4코어 잠베지(불도저) FX-6100, FX-4100,FX-8150

 

 

[정보분석] AMD 2013년까지 로드맵 공개