벤치리뷰·뉴스·정보/아키텍처·정보분석

[분석정보] 스몰 코어 CPU Avoton '에서 밝혀진 Intel의 저전력 CPU 전략

tware 2013. 9. 9. 18:30



빅 데이터로 변한 서버 CPU


 Intel이 발표한 'Avoton (아보톤)'은 마이크로 서버용 스몰 코어 서버 CPU이다. 서버는 빅 데이터 처리가 테마가 되어 달라졌다. 컴퓨팅(연산) 집중적인 일변도에서 I / O 및 메모리에 부하가 특히 높은 처리에 대한 대응이 중요해 졌다. "Hadoop '이나'Memcached (멤 캐시) '에 최적화가 중요하다"Software Defined Network (SDN)'나 'Software Defined Storage (SDS) "에 의한 가상화가 도입되려 한다. 이러한 상황에서 기존의 서버 CPU와 다른 칩이 요구되게 된다. 그것이 컴퓨팅 부하가 낮지만 다른 부하가 큰 작업 부하에 전력 효율에 대응할 수 있는 CPU. 스토리지 및 네트워크 측에 분산이 쉬운 저전력의 CPU이다.

Facebook의 서버 구성


 Avoton는 이러한 흐름에 대한 Intel의 해답이며, 같은 목적을 가진 ARM 서버에 대항하는 것이다. Avoton은 Intel의 저전력 IA (LPIA) 계 코어인 'Silvermont (실버몬트) "를 8 코어 탑재 서버에 필요한 I / O를 단일 칩에 통합 한 SoC (System on a Chip)가 된다. 이를 위해 Intel의 기존 모바일 SoC에서 내부 상호 연결도 향상시켰다.

 기존의 SoC는 CPU 코어를 접속하는 North SoC Interconnect는 크로스바의 "Memory Fabric (메모리 패브릭) '과 I / O 연결 South SoC Interconnect 측은 "IOSF (Intel on-die Switch Fabric) "의 2 계층 이었다. Avoton는 노스측은 크로스바 "Silvermont System Agent" 사우스 측은 빠른 "High Speed​​ IOSF" 과 느린 "Low Speed​​ IOSF"2 계층이다.

Avoton의 블록 다이어그램


 Intel은 메인 스트림 PC 및 서버용 CPU는 내부 CPU 버스로 링 버스를 사용하고 있다. 그러나 LPIA 계열의 SoC는 CPU 코어를 위한 버스는 크로스바 스위치가 있다. 링 버스는 링의 배선이 L2 캐시 상층과 통하기 위한 면적이 작다. 그러나 Avoton는 아마 CPU 코어 사이의 부분이 원단과 메모리 컨트롤러에서 상당한 면적을 가지고 있다고 볼 수있다.



Avoton 다이


 IOSF는 Intel SoC 표준 내부 버스에서 PCI 에뮬레이션을 프로토콜로 지원하여 레거시(기존에 사용되던) 드라이버와의 호환성을 유지하고 있다. 또한 IOSF와 다른 하위 패브릭을 지원할 수 있는 사이드 밴드 채널을 갖추고 있어 타사 IP의 도입도 가능하다. Silvermont 코어, 1MB의 L2 캐시를 공유하는 2코어의 모듈로 Silvermont System Agent 와 포인트 투 포인트 (점 대 점) "IDI (In-Die Interconnect) '로 접속되어 있다.



패키지에서 볼 다이와 코어의 크기


 Avoton의 패키지 크기는 34 × 28mm, 이것은 제 1세대 서버용 스몰 코어인 "Atom Processor ​​S1200 (Centerton)"을 계승하고 있다. 패키지에서 추측되는 다이 크기는 100 제곱 mm를 조금 넘는 정도이며, 이는 100 제곱 mm 미만이었던 Centerton과 거의 다르지 않다. 그런데 CPU 코어는 아웃 오브 오더 실행으로 확장되고 CPU 코어 수는 2코어에서 8코어로 증가, DRAM 인터페이스는 2배가 돼 거느리는 I / O 도 늘었다.

Avoton 포장


 Intel은 Centerton에서 Avoton 으로 공정을 32nm에서 22nm로 미세화했다. CPU 코어는 32nm 세대 "Saltwell (솔트웰)"에서 22nm의 Silvermont 가 됐다. 그리고 Intel은 Silvermont 코어를 매우 주의 깊게 디자인 하고 코어를 작게두고 멀티 코어화를 촉진했다.

 Silvermont는 Intel의 LPIA 코어로 초대 "Bonnell (본넬)"코어 이후 처음으로 대폭적인 설계 변경이다. 기존의 Bonnell / Saltwell 계열 코어가 인 오더 실행인데 반해, Silvermont는 아웃 오브 오더 실행이 된다. 하지만 아웃 오브 오더 실행 이면서도 Silvermont는 최대한 자원을 늘리지 않도록 했다. 그 결과 Avoton은 PC용 CPU라면 최소 클래스 크기의 다이에 8코어를 집적하는 것이 가능해졌다.

 위의 다이를 보면, 2코어에 1MB의 L2 캐시로 모듈화 된 유닛이 4개 나란히 있다. 8개의 CPU 코어에서 다이 면적의 약 3분의 1을 취하고 있다. 2CPU + L2 모듈의 크기는 역산하면 8 제곱 mm 대 이다. L2와 L2 컨트롤러와 버스로 보이는 유닛 군을 분리하면 Silvermont CPU 코어 자체의 크기는 2.5 제곱 mm 정도로 추측된다. Haswell (하스웰)의 CPU 코어가 L2를 포함하여 14 제곱 mm 이므로 Silvermont는 4분의 1이하의 크기이다.



기능확장에 의한 다이의 대형화를 억제한 Silvermont 아키텍처


 Intel의 LPIA 코어는 크기가 큰 것이 단점 이었다. 따라서 저비용 다이에는 많은 코어를 쌓기가 어려웠다. Intel의 IA CPU 코어로 최소 크기이지만, ARM 등 다른 아키텍처의 CPU 코어와 비교하면 컸다. 예를 들어, 초대 45nm 공정의 Bonnell 코어는 512KB의 L2 캐시를 더한 크기가 14 제곱 mm, L2를 제외하고도 9 제곱 mm 미만의 크기였다.

Intel의 LPIA 코어


 Intel은 32nm의 Saltwell에서는 CPU 아키텍처를 수정하지 않고 CPU 코어를 축소했다. CPU 코어 + L2의 크기는 60% 정도 작아졌다. 그리고 위의 그림을 보면 알 수 있는대로, Intel은 22nm의 Silvermont는 다시 CPU 코어를 축소했다. 그림의 CPU 코어가 되는 부분은 Saltwell에서는 버스 유닛을 포함하고 있는데, Silvermont에서는 공유 버스 유닛은 L2로 포함되어 있다. 따라서 순수 CPU 코어 만의 사이즈라면 Silvermont는 Saltwell의 60% 대 면적으로 보인다. 그렇다면 아키텍처를 확장한 것이 다이 크기에 거의 영향주지 않은 것이 된다.

 하지만 이것은 어느정도 예상이 가능했다. 왜냐하면 Silvermont의 향상된 기능은 쥐어짜 맞춘 매우 억제한 것으로 되어 있기 때문이다. 아래는 왼쪽이 Bonnell, 오른쪽이 Silvermont의 블록 다이어그램이다.


Bonnell과 Silvermont의 블록 다이어그램

 양자를 비교하면, 실행 유닛의 수는 거의 같고, 버퍼 등은 멀티 스레딩으로 이중화 하고 있던 부분을 단일 스레드로 구성하여 자원을 늘리지 않도록 주의하고 확장하는 것으로 판단된다. 또한 리오더(재정렬) 버퍼도 32 엔트리(항목)으로 매우 작다. 이것은 Silvermont가 거의 1 대 1로 x86/x64 명령을 내부 명령으로 변환하고 있기 때문이다.

 예를 들어, CISC (Complex Instruction Set Computer) 형의 x86 명령어 Load-Op-Store 형의 명령은 PC 용 빅 코어에서는 일반적으로 2 개의 MacroOPs로 변환된다. 그러나 Silvermont는 1 개의 MacroOP로 트럭(교환.변환)한다. 따라서 아웃 오브 오더 실행 리소스가(자원) 작아진다.



ARM의 Cortex-A15 계와 비교하면 반 세대차 공정으로

동 레벨의 다이 영역


 Intel은 Silvermont 에서는 자원을 절약하려고 크기를 작게 멈추고, 결과적으로 멀티 코어 화를 쉽게 했다 보인다. Silvermont의 추정 다이 영역이 얼마나 작은 지는 타사의 CPU 코어와 비교하면 잘 알 수 있다.


Intel의 LPIA 코어와 ARM 코어의 비교

 위는 ARM 코어와 비교한 Intel의 LPIA 코어 제품군이다. ARM 코어는 상단이 40nm의 Cortex-A9. ARM 코어는 구현에 따라 동일한 공정에서 코어의 면적이 2배나 변화한다. 그림의 예는 ARM의 TSMC 하드 매크로 성능 최적화 설계의 코어 크기로, Cortex-A9 가운데 가장 큰 크기의 것이다.

 그 아래 3 개는 28nm로 Cortex-A9, 저전력 Cortex-A7, 고성능의 Cortex-A15 이다. Cortex-A9는 NVIDIA의 Tegra 4i 구현 크기. Cortex-A7는 ARM의 발표때의 숫자로, Samsung의 구현은 이보다 크다. Cortex-A15는 NVIDIA의 Tegra 4에서 구현 크기이다. 덧붙여서, 그림의 다이 레이아웃은 ARM 발표의 것으로, NVIDIA의 구현은 다이 레이아웃이 다르다. 면적은 NVIDIA의 구현 것이다.

 언뜻 봐도 알수 있는 정도로, 45nm의 Bonnell 코어는 40nm 때의 Cortex-A9와 비교하면 말도 안되게 크다. Bonnell 쪽이 40nm의 Cortex-A9 보다 성능은 일반적으로 높지만, 그래도 이 다이 크기의 차이는 거대하다. 그런데 ARM 코어도 성능을 높이기 위해 대형화 하고 있다. 아래는 ARM 코어의 블록 다이어그램으로 왼쪽 끝의 Cortex-A9 부터 Cortex-A12 Cortex-A15 으로 보다 대형 구성이 된다. Avoton과 서버 시장에서 부딪치는 오른쪽 Cortex-A57는 Cortex-A15의 64-bit 확장이다.


ARM 프로세서의 블록 다이어그램



AMD의 Jaguar보다 코어가 작은 Silvermont


 AMD의 저전력 코어 계열과 비교해도 Intel 코어 소형화는 눈부시다. 아래 그림의 오른쪽은 AMD의 저전력 코어로, 위가 40nm의 Bobcat (밥캣)과 512KB의 L2 캐시, 아래가 28nm의 Jaguar (재규어) 단독 코어이다. AMD는 Bobcat에서 Jaguar에서 기능을 크게 확장했지만, 코어 크기는 60%대로 축소하고있다. 그러나 28nm의 Jaguar는 22nm의 Silvermont와 비교하면 코어 크기는 크다.


Intel의 LPIA 코어와 AMD의 저전력 코어의 비교


 물론, Jaguar와 Silvermont는 반세대 공정의 차이 때문에 Jaguar 쪽이 같은 공정이라면 코어는 작은 것이다. 하지만 올해 (2013년) 후반부터 내년 (2014년) 중반에서 보면, 22nm의 Silvermont 와  맞서는 것은 28nm의 Jaguar 코어이기에, 다이 사이즈 적으로는 AMD는 조금 불리하게 된다. 한편, 마이크로 아키텍쳐 적으로는 Jaguar는 Silvermont 보다 확장되고 있다.

 다만 Intel의 22nm 공정은 FinFET 3D 트랜지스터로, 저전압시의 특성이 뛰어나다. 따라서 AMD보다 동작 주파수를 올리기 쉽다. 덧붙여서, Silvermont 파이프 라인 단수는(깊이) Bonnell 보다 적다. 그러나 이것은 Bonnell / Saltwell이 CISC (Complex Instruction Set Computer)에 최적화 된 Load-Op 형의 파이프 라인으로 실행 단계 전에 L1 데이터 캐시 스테이지 군이 끼어 있기 때문이다. 실질적인 파이프 라인 단수는 Silvermont 도 같기 대문에 FinFET 된 만큼 동작 주파수는 올리기 쉬워진다.

Silvermont 파이프 라인과 블록 다이어그램



2 세대 걸려 ARM 계열 CPU 코어의 크기로 축소


 Intel의 CPU 코어가 다이에서 영역의 변화를 차트로 다른 CPU 코어와 비교하면 Intel의 의도는 명확하다. 45nm → 32nm → 22nm로 LPIA CPU 코어의 크기는 점점 축소돼 왔다. 실제로 AMD 저전력 코어도 마찬가지다. 그에 비해 ARM 계열 코어는 고성능화를 위해 다이 영역을 유지하고 있거나 커지고 있다. 정확하게는 작은 코어가 큰 코어로 변형 확장되고 있다.


모바일 CPU의 다이 사이즈 변화


 그리고 22nm의 Silvermont는 드디어 28nm의 Cortex-A15와 Krait 클래스의 다이 영역에서 거의 동급이 되었다 추정된다. Silvermont는 CISC의 2명령 디코드, Cortex-A15와 Krait는 RISC (ARM도 RISC로 한다면) 3명령 디코드라는 차이는 있지만, Intel LPIA = 대형 코어라는 구도는 없어졌다.

 물론 ARM 계열 코어가 20nm로 미세화 되면 Silvermont 코어보다 작아진다. 그러나 Intel은 Silvermont에서 1년으로 14nm의 "Airmont (에어몬토)"코어를 기반으로 이행한다. 파운드리는 20nm에서 1년으로 14/16nm를 시작하지만, 14/16nm은 20nm의 지오메트리(형상)에 트랜지스터를 FinFET 으로 바꾼 것이 되기 때문에 코어 영역은 크게 변화하지 않는다고  예상된다. 따라서 Intel 코어 크기의 불리함은 현재는 없게졌다고 생각해도 좋을 것이다. 이는 스마트 폰과 태블릿 용 모바일 SoC에도 크게 영향을 준다.


프로
세서 
코어
  클럭 GHz
 메모리   
PCI-e 2.0 
 포트
Vt-x
 TDP
기본 터보
채널 DIMM 타입 주파

용량
컨트
롤러
레인
2.5
GbE
사타
2
사타
3
USB
2
C2750
8  2.4  2.6 2  4 DDR3/L
1600
64GB
 4 16 4
4
2
4
 +  20W
C2730
8  1.7  2.0 2  4 DDR3/L
1600 32GB
 2  8 2
0
2
4
 +  12W
C2550
4  2.4  2.6 2  4 DDR3/L
1600
64GB 4 16 4
4
2
4
 +  14W
C2530
4  1.7  2.0 2  4 DDR3/L
1333
32GB
 2  8 2
0
2
4
 +  9W
C2350
2  1.7  2.0 1  2 DDR3/L
1333
16GB
 1  4 4
0
2
4
 +  6W


Xbit 기사에서 정리된 Avoton 사양표 입니다. 





[분석정보] Toshiba, 8인치 LCD 채용 Windows 8.1 태블릿을 전시



[분석정보] Intel, 저전력 서버용 SoC Atom C2000 발표



[분석정보] Intel, 14nm SoC 버전 Broadwell / Denverton 절전 서버 출시



[분석정보] 컴퓨텍스 2013 Bay Trail-T와 LTE 모뎀을 무기로 모바일 시장에 파는 Intel



[분석정보] 태블릿 윈도우 라이센스 재검토 시작 윈텔(Wintel) 제국의 역습



[아키텍처] 인텔 22나노 아톰(ATOM) CPU코어 실버몬트(Silvermont) 세부 사항



[아키텍처] 저전력 x86 시장에서 AMD의 재규어와 싸울 인텔 실버몬트



[정보분석] 인텔 22나노 아톰(ATOM) CPU코어 실버몬트(Silvermont) 세부 사항



[정보분석] Clover Trail +과 같은 과정을 무기로 전진하는 Intel 스마트 폰 사업



[정보분석] 아웃 오브 오더 및 최신 프로세스를 채용하는 향후의 Atom



[정보분석] 14나노 공정까지 달려가는 인텔 아톰 스마트폰, 타블렛 전략



[정보분석] IDF에서 보다. Google, Microsoft, Intel의 줄다리기



[정보분석] Clover Trail +과 같은 과정을 무기로 전진하는 Intel 스마트 폰 사업



[정보분석] 아웃 오브 오더 및 최신 프로세스를 채용하는 향후의 Atom



[모바일 리뷰] 삼성 아티브 스마트 PC 500T 아톰기반 윈도우8 태블릿



[모바일 리뷰] 인텔 클로버 트레일(Atom Z2760) 리뷰 에이서 W510



[정보분석] 14나노 공정까지 달려가는 인텔 아톰 스마트폰, 타블렛 전략



[정보분석] CES 2012 인텔 폴 오텔리니 기조연설. 인텔 스마트폰 출시