종전 공개된 사진보다 큰 다이
AMD는 대만 타이페이에서 10월 19일에 개최한 기술 컨퍼런스 "AMD Technology Forum and Exhibit (AMD TFE)" 에서 2011년의 메인 스트림 PC 용 CPU"Llano (라노)"의 발표를 했다. 이 컨퍼런스에서는 Llano의 웨이퍼를 공개, 또한 단 시간이지만 동작 시현을 보였다. 따라서 Llano의 실상이 밝혀지기 시작했다.
Llano에 대해 TFE에서 공개된 웨이퍼에서 다양한 것이 밝혀졌다. 우선, 다이 사이즈. 웨이퍼를 보면 4코어 판 Llano의 다이는 세로 (CPU 코어를 위쪽으로 본 경우)에 18.x 개, 가로 22 개 배치되어 있는 것으로 보인다. 300mm 웨이퍼이므로, 다이의 각 변의 길이는 계산에서 세로가 16mm 조금, 가로가 13.5mm 전후가 된다. 따라서 다이 사이즈 (반도체 본체의 면적)는 계산으로 220 제곱 mm 전후가 된다.
이 숫자를 지금까지의 추정과 비교하면 두회정도 큰 칩임을 알 수있다. 사이즈로 4코어 판의 "Sandy Bridge (샌디 브릿지)"와 거의 같은 정도. 다이를 살펴보면 새롭게 판명 된 부분의 대부분이 GPU 코어임을 알 수 있다.
아래 그림의 왼쪽 가운데 컬러가 붙어있는 부분이 Llano의 다이 기존 공개된 부분. 그러나 이 부분 뿐이라면 면적은 180 제곱 mm 정도로 실제 Llano 웨이퍼로 부터 도출되는 다이 사이즈와 맞지 않는다. 따라서 웨이퍼 사진에서 다이를 자르고, 계산상의 다이 크기에 맞게 성형했다. 그러자 Llano의 실제 다이, 위 3 / 4는 기존 공개된 부분에 거의 일치하지만 다이 아래 1 / 4 부분은 지금까지의 공개 사진에 포함되지 않았음을 볼 수 있다.
Llano의 다이 레이아웃
AMD Technology Forum and Exhibit (AMD TFE)에서 공개된 Llano 웨이퍼
GPU의 통합 메인 스트림 CPU 다이가 대형화
웨이퍼를 보면, Llano는 기존의 AMD의 메인 스트림 CPU의 다이 사이즈인 160 제곱 mm의 크기를 크게 웃돈다. AMD는 CPU 측에 내장 그래픽과 노스 브릿지 기능을 집어넣은 것으로, CPU 자체의 비용이 올라도 마진을 충분히 확보 가능하다는 과정을 거치고 있는 것으로 보인다. 이것은 Intel의 전략과 같다. 결과적으로, 메인 스트림 CPU의 다이 크기는 GPU를 통합한 APU (Accelerated Processing Unit) 세대는 AMD와 Intel 모두 200 제곱 mm 대에 도달하게 된다.
AMD는 저가형 CPU 부문에서는 Bobcat (밥캣) 코어의 "Zacate (자카테)" ontario (온타리오)" 시스템을 가지고 간다. 이 2 코어 버전 Bobcat은 GPU 코어를 포함해 70 제곱 mm 대로, 이것도 Intel의 Atom 계열과 동일한 정도의 다이 크기로 나란히 있다. 그러면 설계 리소스에 여유가 있으면, Intel의 2코어 버전 Sandy Bridge에 대항 할 수 있는 150 ~ 180 제곱 mm 정도의 다이 (반도체 본체)의 Llano도 투입 할 가능성이 있다. 그러나 기사의 뒷부분에서 설명하지만, 여기에는 어려움이 있다.
AMD의 die size 이행도
Llano의 다이는 그림의 상단 부분에 4개의 K10 계열 CPU 코어와 L2 캐시가 모여져 있다. 이 코어는 "Husky (허스키) '라는 이름이 붙여져 있지만, 실제로는 거의 K10이다. 약간의 컴퓨팅 기능 확장과 대폭적인 전력 절약 기능 확장이 추가 된 것 외에는 K10 코어와 다르지 않다.
32nm의 K10 CPU 코어
Llano의 다이 양쪽은 I / O 계에서 차지하고 있다. CPU 코어에서 아래의 부분은 전형적인 표준 셀 설계 부분으로 보인다. AMD의 GPU 코어 및 I / O 컨트롤러의 많은 부분은 표준 셀을 사용하기 (NVIDIA의 GPU 프로세서 코어는 주문 설계) 때문에 표준 셀 부분은 GPU 코어와 노스 브릿지의 일부 (패드 등을 제외한 부분 )임을 짐작할 수있다.
웨이퍼 사진에서의 다이를 보면, 새롭게 밝혀진 대부분도 마찬가지로 표준 셀 부분처럼 보인다. 그 블록도 GPU 코어와 노스 브릿지 기능이 차지하고 있는 것으로 추정된다. 이렇게 큰 그림이 제시되면 Llano에서는 GPU 코어 부분이 상당히 크다는 것을 알 수 있다. 이전 기사에서도 간단하게 설명했지만, GPU 부분의 크기는 Intel의 Sandy Bridge (샌디 브릿지)와 비교하면 명확하다.
CPU 코어와 GPU 코어의 밸런스가 다른 AMD와 Intel
아래는 Llano와 Sandy Bridge를 거의 동일한 규모로 늘어놓은 그림이다. 모두 32nm 공정으로 200 제곱 mm 대의 다이에 4개의 CPU 코어와 GPU 코어, PCI Express, 2채널 DRAM 컨트롤러를 내장한다. 비슷한 구성이지만, GPU 코어 부분이 AMD 쪽이 크고 CPU 코어 군의 부분은 반대로 Intel 쪽이 크다.
좀 더 자세히 보면 차이는 더 명확해진다. AMD Llano의 32nm 공정 버전 K10 CPU 코어는 Intel의 32nm 버전 Sandy Bridge 코어와 비교하면 코어 부분 뿐이라면 약 절반 크기 밖에 안된다. K10 코어의 크기는 9.6 제곱 mm, 1MB의 L2 캐시와 파워 게이팅 회로의 링 (CPU 코어와 L2를 빙 둘러싸고 있는)을 포함해도 17.7 제곱 mm 밖에 안된다. 대조적으로, Sandy Bridge 코어 (256KB의 L2 (미드 레벨) 캐시를 통합)은 가볍게 20 제곱 mm를 넘는다. 크기의 차이는 크다. K10 코어는 코어 크기의 작음이 무기가 되고 있다.
Llano와 Sandy Bridge의 비교
GPU 코어 부분의 크기는 Llano가 훨씬 크다. 구성으로 보면, GPU 코어 측에 노스 브릿지 기능이 많이 포함되어 있는 것으로 보이지만 그래도 GPU 코어의 차이는 명확하다. AMD는 Intel은 스칼라 CPU 코어의 성능을 추구해 벡터 엔진의 성능과 균형이 잡히지 않은다 주장하고 있는데, 그 근거는 여기에 있다.
AMD는 지금까지 GPU를 벌크 공정으로 설계해 왔다. 그러나 Llano는 SOI (silicon-on-insulator) 공정으로 GPU도 이식되어 있다. 그 때문에, GPU 블록은 모두 재 설계 할 필요가 있었을 것이다. 새로운 공정의 이식은 AMD에게 아마 큰 도전, 따라서 GPU 코어는 얌전한 Evergreen (VLIW5 세대 아키텍처.) 세대의 디자인에 멈춘 것으로 추측된다.
Intel과 다른 캐시와 버스 아키첵처
Sandy Bridge가 8MB의 "공유"LL (Last Level) 캐시를 탑재하는 것에 비해, Llano는 각 CPU 코어에 점유되는 L2 캐쉬를 1MB 씩 합이 4MB 탑재한다. Intel은 각 CPU 코어와 GPU 코어에서 LL 캐시를 공유하지만, AMD는 GPU 코어는 CPU와 캐시를 공유하지 않는다. AMD의 Joe Macri 씨 (CTO 인 Fusion)는 "GPU 코어는 캐시를 우회 할 것"이라고 형용한다. GPU 코어의 분리성은 AMD쪽이 강하고, Sandy Bridge의 GPU 코어와 같이 대형 캐시의 혜택은 받을 수 없다. 다만 그래픽스 태스크는 캐시가 CPU보다 효과가 어렵고, 캐시 제어도 CPU용 블록과 나눌 필요가 있어 복잡해진다.
AMD는 4개의 CPU 코어 사이에 큰 로직 블록이 배치되어 있다. 전통적인 AMD 멀티 코어 CPU의 배치로 보면 이것은 아비터와 크로스바 스위치를 포함하는 CPU 버스 부분으로 보인다. 블록 모양으로도 기존의 AMD 멀티 코어 CPU의 크로스바와 흡사하다.
그것에 비해, Sandy Bridge는 그러한 내부 버스 블록이 보이지 않는다. Sandy Bridge는 각 CPU 코어, GPU 코어, 노스 브릿지 부분을 연결하는 링 버스가 LL 캐시에 대한 배선층을 써서 구현되어 있기 때문이다. 따라서 Sandy Bridge 쪽이 코어 부분의 면적 비가 큰, CPU의 효율이 좋은 설계가 된다. 내부 버스 부분의 크기는 버스 아키텍처를 바꾼 Sandy Bridge가 더 뛰어나다.
Llano의 오른쪽, Sandy Bridge의 아래에 배치된 DRAM 인터페이스의 크기는 거의 같다. 이것은 어느쪽도 2채널의 DDR3 PHY를 구현하고 있기 때문이다. I / O에서 큰 것은 어느쪽도 PCI Express Gen2. 물리적으로는 Sandy Bridge가 20 레인, Llano가 24 레인의 PCI Express를 구현한다. Llano의 PCI Express가 많은 것은 칩셋과의 연결은 기존의 HyperTransport 대신 PCI Express x4를 사용하기 때문이다. 또한 PC 용 Sandy Bridge는 PCI Express 16 레인이 된다.
확장성에 큰 차이가 있는 Sandy Bridge와 Llano
Llano와 Sandy Bridge의 다이에서 큰 차이 중 하나는 확장성이다. Sandy Bridge의 다이는 확장성을 제 1로 설계되어 있지만, Llano는 그렇지 않다.
아래는 4코어 판 Sandy Bridge에서 CPU 코어를 2개 줄인 경우의 견적이다. 2 코어의 레이아웃 에서도 DRAM 인터페이스 등 각 블록이 그대로, 딱 들어가는 것을 알수 있다. 코어 사이를 연결하는 링 버스는 LL 캐시의 상층에 배선되어 있기 때문에 CPU 코어를 줄인 경우에도 버스의 디자인과 크기에 거의 영향이 없다.
GPU 코어 내부의 실행 유닛의 증감은 좀 골치 아프지만, CPU 코어의 증감 만이면 기본적으로 각 블록의 디자인은 만지지 않아도 된다. 따라서 4코어 버전 Sandy Bridge는 다이에 데드 스페이스로 보이는 부분까지 생기고 있다. 그러한 낭비가 발생해도 확장성을 우선한 것이 Sandy Bridge의 설계이다.
Sandy Bridge 4 코어와 2 코어 추정도
그것에 비해, Llano의 경우 CPU 코어 수를 바꿀 경우, 먼저 크로스바 스위치 부분의 설계 변경이 필요하다. 그위에 현재의 레이아웃은 양쪽 I / O 부분의 배치도 바꿔야 된다고 추측된다. 또 CPU 코어 자체가 작기 때문에 Llano는 CPU 코어만 2개로 줄여도 GPU 코어를 줄이지 않는 한 그렇게 큰 다이 크기를 줄일 수 없다. 제조 비용을 제 1로 생각, 2 코어 버전 Sandy Bridge에 대항하는 다이 크기로 하려면, GPU 코어도 규모를 축소 할 필요가 있다.
이렇게 보면 Llano는 파생 설계하기 위해서는 상당한 엔지니어링 노력이 필요할 것으로 예상된다. 이것은 Llano 제품 구성에도 영향을 미친다. AMD는 Llano는 4 코어 버전뿐만 아니라 2 코어 버전도 제공한다고 한다. 그러나 2 코어 버전을 진심으로 설계하려고하면 나름대로의 개발 리소스가 필요하게 된다.
현재, AMD는 성능형 CPU로 "Bulldozer (불도저)"을 가격형 CPU로 Bobcat을 병행하여 투입하고 있어, 개발 자원은 매우 빡빡 하다. 또 Llano는 사실 Bulldozer 베이스의 "APU"까지의 연결에 불과하다. 그러한 사정을 생각하면, AMD는 Llano 에서는 4코어 버전의 다이 (반도체 본체)에서 2 코어를 파생시키는, 즉 CPU 코어를 2 개의 무효 시키고 2 코어 버전으로 하는 가능성이 높다.
2010년 11월 4일 기사 입니다.
[분석정보] AMD가 확장판 K10 코어 기반의 APU Llano 를 첫 공개
[분석정보] K8 이후 크게 바뀐 AMD의 CPU 개발주기
[분석정보] K9는 DDR2 메모리와 차세대 HyperTransport에 대응
[분석정보] 듀얼 코어의 다이 사이즈로 부터 판단되는 AMD의 CPU 전략
[분석정보] AMD의 차기 CPU 코어 "K9"는 2005 년에 등장인가?
[분석정보] 심플 코어로 향하는 차세대 CPU 아키텍처
[분석정보] AMD와 ATI 프로세서는 하나로 융합한다
[분석정보] AMD가 2009년의 CPU 코어와 통합 CPU의 개요를 발표
[분석정보] 메모리가 큰 벽이 되는 AMD의 퓨전 (FUSION) 프로세서
[분석정보] AMD가 발표한 메인 스트림 APU Llano의 아키텍처
[분석정보] AMD Kaveri의 메모리 아키텍처와 향후의 APU 진화
'벤치리뷰·뉴스·정보 > 아키텍처·정보분석' 카테고리의 다른 글
[분석정보] 드디어 밝혀진 AMD의 불도저 (Bulldozer) (0) | 2011.03.01 |
---|---|
[분석정보] ARM버전 Windows로 시작된 x86 대 ARM의 CPU전쟁 (0) | 2011.01.24 |
[분석정보] 범용 컴퓨팅을 강화한 Sandy Bridge의 그래픽 (0) | 2010.12.14 |
[분석정보] 캐쉬 구현 방식으로 보는 AMD와 인텔이 처한 상황 (0) | 2010.11.15 |
[분석정보] CPU와 메모리의 속도 차이를 해소하는 캐시의 기초지식 (0) | 2010.10.25 |
[분석정보] AMD가 확장판 K10 코어 기반의 APU Llano 를 첫 공개 (0) | 2010.10.21 |
[분석정보] x86을 고속화하는 조커기술 명령변환 구조 (0) | 2010.10.04 |
[분석정보] 명령의 실행 순서를 바꿔 고속화 하는 아웃 오브 오더 (0) | 2010.09.27 |