벤치리뷰·뉴스·정보/아키텍처·정보분석

[분석정보] AMD 차기 아키텍처 Bulldozer 와 Bobcat 의 개요

tware 2009. 11. 12. 21:00

 

다채로운 발표였던 Analyst Day


 AMD는 지난 밤 (미국 시간으로 11월 11일)에 분석가를 위한 컨퍼런스 "2009 Financial Analyst Day '를 개최했다. 이 컨퍼런스에서 AMD는 차기 CPU 아키텍처인 'Bulldozer (불도저) "와 Atom 대항의 저전력 CPU 아키텍처"Bobcat (밥캣)"의 개요를 발표했다. Bulldozer가 효율적으로 멀티 스레딩을 실현하는 클러스터드 아키텍처를 가지고 가는 것을 공식적으로 밝혔다.

 또한 CPU에 GPU 코어를 통합하는 "APU (Accelerated Processing Unit)"의 첫 번째 제품이다 "Llano (라노)"의 다이 레이아웃을 공개. CPU 로드맵을 업데이트 해 넷북 시장에 Bobcat 기반 ontario (온타리오)"를 사용하는 "Brazos "플랫폼을 도입하는 것 등을 밝혔다. 또한 GPU의 신제품으로서 다음 주, R800 계의 듀얼 GPU "Hemlock (헴록)"을 발표하고 내년 (2010년) 1분기에 모바일 DirectX 11 GPU의 "Broadway (브로드 웨이)"등을 도입하는 것도 밝혔다.

 

 

Llano의 다이

 


클러스터드 아키텍처를 가진 Bulldozer 코어


 AMD는 2011년에 출시 할 차세대 마이크로 아키텍처 Bulldozer의 개요를 마침내 공개했다. Bulldozer는 우선 개별 CPU로 서버 및 데스크탑 용 세그먼트에 투입된다. 기존 K8과 K10 (Hound) 아키텍처의 후계​​로서 완전히 새롭게 개발된 CPU 아키텍처다. 제조 공정은 32nm SOI에서 시작한다.

 AMD는 Bulldozer에 클러스터 (Clustered) 형 마이크​​로 아키텍처를 가진다 소문이 있었다. 현재 AMD는 클러스터드 아키텍처를 공식적으로 밝혔다. Bulldozer의 클러스터드 아키텍처는 CPU 코어가 클러스터화 되어 있다. 구체적으로는 2개의 CPU 코어가 융합되어 있어 부동 소수점 연산 유닛과 명령 디코더 등의 자원이 2 개의 코어 / 스레드에서 공유되도록 되어 있다.

 Bulldozer 아키텍처는 2 코어의 융합 클러스터를 "Bulldozer Module" 이라고 부르고 있다. 2 스레드를 병렬로 실행할 수 있는 모듈이 Bulldozer의 기본 단위이다. Bulldozer는 이 유닛을 복수로 모으는 것으로 멀티 코어 구성을 실현하는 것으로 보인다. 예를 들어, 4 코어의 Bulldozer CPU 라면 두개의 Bulldozer Module을 탑재 하는 것이다.

 Bulldozer의 클러스터드 아키텍처는 1개의 모듈로 2스레드를 동시에 실행할 수 있다. 이것은 하나의 CPU 코어에서 2개의 스레드를 실행할 수 있는 Intel Hyper-Threading과 비슷하게 보이지만 크게 다르다.

 Intel Hyper-Threading에서는 CPU 전체의 자원을 명령 단위로 2개의 스레드에서 공유 한다. 반면, AMD는 CPU의 자원 중 정수 연산 파이프는 2개의 스레드가 각각 전용 파이프를 가진다. 그러나 명령 디코더와 부동 소수점 연산 유닛 등은 2개의 스레드에서 공유한다. 정수 연산에서는 스레드 간의 충돌이 없기 때문에 처리량이 높다.

 AMD에 따르면, CPU의 용도로는 실제로는 부동 소수점 연산은 유휴 상태가 많고, 정수 연산 파이프가 바쁘게 된다고 한다. 따라서 충돌이 일어나는 정수 연산 파이프를 이중화하고 충돌이 적은 부동 소수점 연산 파이프는 공유로 했다고 설명한다. 즉, CPU에서 자주 사용되는 부분은 2스레드 각각 분리, 공유하는 것이 효율이 좋은 부분은 싱글로 한 것이 Bulldozer의 클러스터드 아키텍처이다.

 

 

 

 

 

 

Bulldozer 아키텍처

 


성능이 80% 증가 하는 Bulldozer


 Bulldozer의 개발을 리드하는 AMD의 Chuck Moore 씨 (Corporate Fellow and CTO Technology Development)는 2005년 Analyst Day에서 클러스터드 아키텍처의 장점을 설명했다. CPU 코어의 자원을 50% 늘리는 것만으로 80%나 처리량을 늘린다고 설명했다. 이때의 설명에서는 Hyper-Threading 같은 SMT (Simultaneous Multithreading)는 자원도 조금으로 끝나지만, 성능 향상도 적다고 설명했다.

(인텔의 개발자 말로는 HT 지원에 5%의 추가 자원으로 30% 성능 증가)

 

 

50%의 CPU 자원 증가로 80%의 성능 증가

 

Moore 씨는 이번 Analyst Day에서도 아키텍처에 대한 설명을 하고, Bulldozer가 80%의 처리량 향상을 달성 할 수 있다고 말하고 있다. 또한 AMD는 클러스터드 아키텍처에 얽힌 특허도 다수 출원 (United States Patent Application 20090006814, 20090024836 등)하고 있다.

 Bulldozer의 구체적인 구조는 아래 그림과 같다. 1개의 Bulldozer Module에서 2개의 정수 연산 코어가 있다. 각각의 정수 연산 코어는 4개의 정수 연산 파이프 라인을 가지고 있다고 말한다. 이 4 개의 파이프는 ALU (연산 유닛)와 AGU (주소 생성 유닛)의 쌍 4개인지, 아니면 2개의 쌍으로 총 4파이프로 계산하는지 아직 밝혀지지 않았다. 현재 AMD 아키텍처는 ALU와 AGU 쌍이 3 개로 최대 3 개의 x86 정수 연산을 실행할 수 있다. ALU와 AGU 쌍이 4개 라고 하면 1개의 정수 연산 코어가 현재의 CPU 코어보다 확장되고 있다. ALU와 AGU 쌍이 2개 라고 하면 현재의 코어의 2/3 규모다. (후자가 맞습니다.)

 

 

Bulldozer 아키텍처

 

 

Bulldozer의 구체적인 구조

 


 Bulldozer Module의 명령어 인출과 디코딩은 각 사이클 4 명령이 된다. x86에서 4명령이 연산과 메모리 조작 명령으로 분해되어 8개의 uOPs (내부 명령)가 된다고 생각하면, 정수 연산 파이프가 ALU와 AGU 쌍이 2개라면 그냥 계산이 맞는다.

 부동 소수점 연산 유닛은 128-bit의 SIMD 적화산 유닛이 2개 마련되어 있다. 2 유닛을 사용해 256-bit의 Intel AVX 호환 SIMD 명령을 실행 할 것으로 예상된다. AMD는 Bulldozer에 독자적인 SSE5를 구현할 계획을 변경, Intel의 256-bit SIMD 명령 AVX에 독자 명령을 더한 명령을 구현 하기로 했다. 부동 소수점 연산 유닛은 하나의 스레드가 2 파이프를 모두 차지할 수도 두 스레드가 1 파이프씩 공유하는 것도 가능하다고 한다.

 

AMD의 명령 확장 변경

 

 

AVX 형식의 명령도 반입

 

 

Intel의 Atom과는 크게 다른 Bobcat 아키텍처


 AMD는 저전력 & 저비용 CPU Bobcat에 대해서도 개요를 밝혔다. Bobcat은 기존의 AMD의 K8 코어나 Hound (K10) 코어와도 다른 아키텍처로 Bulldozer 와도 다르다. 1W 이하를 대상으로 개발된 완전히 새로운 코어로 Intel의 Atom에 해당한다.

 그러나 아키텍처는 Atom과 꽤 다르다. 최대 2명령 발행인 점은 Atom과 같지만, 명령 스케줄링 부분에 차이가 있다. Atom이 복잡성을 폐하기 위해 명령을 차례로 실행하는 In-Order 실행을 채용한 반면, Bobcat은 명령의 순서를 바꿔 넣는 Out-of-Order 실행을 채용하고 있다. Out-of-Order 실행 쪽이 In-Order 실행 보다는 명령의 병렬 실행의 확률이 높아지기 때문에 IPC (Instruction-per-Clock)가 높아진다. 반면 CPU 스케줄러가 복잡​​해 진다.

 Bobcat은 2명령 발행 2명령 리타이어 / 사이클의 Out-of-Order 실행 코어로 성능이 상대적으로 동 클락의 Atom보다 높은 것으로 추정된다. AMD는 오늘의 메인 스트림 성능에 비해 90%를 달성 할 수 있다고 설명하고 있다. CPU의 실리콘 면적은 절반 수준 이라고 한다. 즉, 50%의 다이 크기 (면적)에서 90%의 성능을 제공 가능하게 된다.

(지금의 베이트레일과 다르게 초대 아톰은 인오더 방식 이었죠.)

 이러한 배경에서 Bobcat은 Atom보다 약간 높은 성능 레인지 아키텍처라고 추정된다. 명령 세트는 오늘의 메인 스트림 CPU의 기능을 커버한다. x86 명령 세트의 확장은 SSE1 ~ 3 및 가상화가 지원 된다.

 Bobcat도 Bulldozer와 마찬가지로 2011년에 등장 할 예정이다. 첫 번째 제품은 ontario로 노트북 PC 용이 된다. 또한 Bobcat은 커스텀 회로를 사용하지 않고 재사용 할 수 있도록 고급 언어로 작성되어 있다. 따라서 변형이 다수 등장 할 것으로 예상된다.

 

Bobcat 아키텍처

 

 

APU의 최초의 칩 Llano가 드디어 베일을 벗는다


 AMD는 CPU에 GPU 코어를 통합한 APU (Accelerated Processing Unit)의 최초의 제품 Llano에 대해서도 개요를 밝혔다. Llano는 노트북 PC와 데스크톱 PC 용으로 2011년 초에 등장한다. 제조 공정은 32nm SOI가 된다. Llano는 1개의 다이에 4개의 CPU 코어와 DirectX 11 GPU 코어를 통합한다. 설계 플로우로 개별 CPU와 GPU 각각으로 발전된 기술을 APU로 융합 시킨다고 한다. 따라서 Llano는 CPU 코어도 GPU 코어도 2011년 시점의 최첨단의 것은 아니다. CPU 코어는 현재 Hound (K10) 계 코어를 32nm로 확장한 것으로, GPU 코어도 DirectX 11 베이스로 한다.

 

GPU와 CPU의 통합

 

 

Llano는 GPU와 CPU를 통합 한 AMD 최초의 CPU


 AMD는 Llano의 다이 레이아웃도 밝혔다. 아래는 현재 쿼드 코어 Athlon II X4 (Propus)와 비교한 그림이다. CPU 코어 아키텍처는 거의 동일하기 때문에 CPU 코어의 크기를 공정의 미세화에 준하여 축소 배율을 추정했다. 거의 같은 축척으로 추정되는 크기에 맞춰 보았다. 그 결과 Llano와 Propus의 다이 크기 (면적)는 거의 같은 정도라고 볼 수 있다.

 

Llano와 Propus의 die size는 거의 같다.

(라로는 32나노, 프로프스 (페넘2의 저가형 버전 4코어)는 45나노)


 이 말은 32nm가 되면, AMD는 현재 쿼드 코어 CPU에 GPU 코어를 넣을 수 있게 되는 셈이다. 가격 범위도 동일한 정도로 100 달러 클래스로 가지고 올 수 있는 것이다. Llano를 동일한 32nm에서 GPU 코어를 통합한 Intel의 Sandy Bridge와 비교한 것이 아래 그림이다. 이쪽도 예상으로 이 정도로 추정 축척에 맞춰있다.

 

 

Llano와 Sandy Bridge의 다이 크기 비교


 Llano와 Sandy Bridge는 GPU 코어는 동일한 정도의 크기로 추정된다. 메모리 컨트롤러도 거의 같다. CPU 코어는 Sandy Bridge가 더 크고 캐시는 Sandy Bridge가 훨씬 크다. 따라서 Sandy Bridge의 것이 다이가 한층 큰 것으로 추정된다.

 

 

[분석정보] 보여진 AMD의 차기 CPU Llano의 실

 

 

 

 

 

 

 

 

 

Llano의 주요 특징

 

 

CPU와 GPU의 로드맵도 쇄신


 AMD는 CPU 로드맵도 쇄신했다. 로드맵 자체는 작년 (2008년)의 Analyst Day에서 크게 다르지 않다. 세부 사항을 더 명확하게 했다.

 데스크톱은 2011년에는 Bulldozer 코어 열광자 (enthusiast) 데스크톱 CPU "Zambezi (잠베지)" 가 등장한다. 작년에는 "Orochi (오로치)"라는 코드 네임 이었다. Zambezi는 4 또는 8 코어 이므로 Bulldozer Module이 2 또는 4로 계산된다. 플랫폼은 "Scorpius (스코 피어스)"로 GPU 아키텍처도 신세대가 된다. 메인 스트림 데스크탑에서는 2011년 Llano APU를 기반으로 하는 "Lynx (링스)"플랫폼으로 이행한다.

 메인 스트림 노트북 PC에서는 2011년 Llano APU 베이스의 "Sabine (세이바인)"플랫폼이 등장. 넷북이나 울트라 씬 노트북 PC 용으로는 Bobcat 아키텍처의 ontario APU의 "Brazos (브라 조스)"가 등장한다.

 서버 사이드에서는 2011년에 12 또는 16 코어의 "Interlagos (인테르라고스)"가 등장. Bulldozer 코어로 MCM (Multi-Chip Module)으로 2 다이를 1 패키지에 밀봉한 것으로 보인다. 플랫폼은 Opteron 6000 계 전용의 "Maranello (마라넬로)"로 2 또는 4 소켓 전용의 "소켓 G34" 지원.

 또한 같은 시기에 6 또는 8 코어의 "Valencia (발렌시아)"가 등장한다. 플랫폼은 Opteron 4000 전용의 "San Marino (산 마리노)"로 1 또는 2 소켓 전용의 "소켓 C32" 현재는 2 소켓과 4 소켓 전용의 플랫폼이 공통의 소켓 F베이스의 "Fiorano (피오라노) "로, 1 소켓 전용 만이 데스크탑과 같은 소켓 AM2 기반으로 달랐던 구분이 바뀐다. CPU 소켓 수의 상한 이외에 G34와 C32의 최대의 차이는 메모리 인터페이스다. G34가 4 채널 메모리, C32가 2 채널 메모리가 된다.

 

 

노트북 플랫폼 로드맵

 

 

데스크톱 플랫폼의 로드맵

 

 

하이 엔드 데스크톱 플랫폼

 

 

메인 스트림 데스크탑 플랫폼

 

 

메인 스트림 노트북 플랫폼

 

 

울트라 씬 용 플랫폼

 

 

 

 

서버용 플랫폼 로드맵

 

 

 GPU는 DirectX 11 세대의 R800 계열 아키텍처로의 전환이 급격히 진행된다. 듀얼 GPU "Hemlock (헴록)"이 다음주 등장하는 것 외에 내년 (2010년) 1 분기에 메인 스트림과 밸류 전용의 "Redwood (레드우드)"와 "Cedar (시더)"가 투입될 예정이다. 모바일 용 DirectX 11 계도 내년 (2010년) 1 분기에 등장한다. 코드 네임은 NY 맨하탄 지역의 거리 이름 시리즈 "Broadway (브로드 웨이)", "Madison (매디슨)", "Park (공원)"가 예정되어 있다.

 

GPU 로드맵

 

 

AMD CPU 다이 크기의 이행도

 

 

다이 크기 추정

 

 

2009년 11월 12일 기사 입니다.

 

 

[분석정보] AMD의 차세대 CPU Bulldozer의 클러스터 기반 멀티 스레딩

 

 

[분석정보] 보여진 AMD의 차기 CPU Llano의 실

 

 

[벤치리뷰] 인텔 샌디브릿지 공개 코어 i7 2600k, i5 2500k, i5 2400, i3 2100 CPUs

 

 

[아키텍처] 정수 연산 성능을 희생해서 효율성을 거둔 AMD의 "Bulldozer"

 

 

[분석정보] 드디어 밝혀진 AMD의 불도저 (Bulldozer)

 

 

[아키텍처] AMD 불도저 제품은 4GHz 이상.

 

 

[분석정보] 수수께끼가 많은 K10 아키텍처의 방향성

 

 

[분석정보] 메모리가 큰 벽이 되는 AMD의 퓨전 (FUSION) 프로세서

 

 

[분석정보] 그리고 CPU는 DRAM 다이도 통합