벤치리뷰·뉴스·정보/아키텍처·정보분석

[분석정보] 인텔 팬리스 PC를 위한 Core M 프로세서

tware 2014. 8. 12. 20:19



 Intel은 8월 11일 (현지 시간) 14nm 공정의 차세대 프로세서 "Core M"프로세서 (개발 코드 명 : Broadwell-Y 브로드웰 - 와이)의 개요를 밝혔다. Core M은 팬리스 태블릿, 2-in-1 장치를 설계하는데 필요한 3 ~ 5W의 낮은 소비 전력으로 작동하며 현재 제품의 4 세대 Core 프로세서 (개발 코드 명 : Haswell)에 비교하여 IPC (사이클 당 명령 실행)가 5% 정도 개선되고 내장 GPU 엔진 수가 20% 가량 증가하는 등 성능면에서도 강화되고 있다.

 Core M은 Intel이 타사에 앞서 양산화에 성공한 14nm 공정 기반 제품으로 이미 오레곤에 있는 회사의 개발 공장 D1X에서 양산되고 있어 향후, 애리조나에 소유한 Fab42, 아일랜드 더블린 근교에 건설한 Fab24로 생산을 확대해 나간다.

 이미 OEM 업체에 출하도 시작하고 있으며, 올해 (2014년)의 연말 판매 경쟁에는 Core M을 채용한 팬리스 태블릿, 2-in-1 장치 등이 시장에 등장할 전망이다.



팬리스 태블릿을 Core 프로세서로 실현


 Intel 프로세서 개발을 총괄하는 입장에있는 플랫폼 엔지니어링 사업부 부사장 라니 보카 씨에 따르면, "Core M을 개발하는데 있어서 우리가 처음에 정한 목표는 Core 프로세서의 성능을 가지면서 팬 리스 시스템을 실현하는 것이었다 "고 말했다.

 지금까지의 Intel의 Core 프로세서의 역사를 돌이켜 보면 이 의미는 크다. 지금까지 Intel의 PC 용 프로세서는 항상 어느 메인 스트림의 볼륨이 있는지 예​​측하고 거기에 최적화 해서 설계되어 왔다. 우선 그 대상 제품의 정의를 행하고, 그 이외의 제품은 파생 상품으로 만들어진다.

[그림 1] Intel 프로세서의 메인 볼륨의 역사 (필자 작성)


 예를 들어, 2011년에(원문은 12년으로 되어 있는데 오타 인것 같네요. 12년은 아이비브릿지 출시) 출시된 2세대 Core 프로세서 (Sandy Bridge)의 경우 TDP가 35W 제품을 가장 취할 수 있도록 설계되어 있으며, 그 이외의 제품, 예를 들면 TDP가 17W가 되는 얇은 노트북 PC 용이나 데스크톱 PC를 위한 65W 이상의 제품 등은 파생 상품으로 생산된것 중에서 선별된 다이가 사용된다. Intel과 같이 대규모로 생산하고 있는 업체의 경우 이러한 제조 방법이 가장 합리적이기 때문이다.

 그래서 메인 볼륨을 어디로 설정하는가는 CPU 설계시 매우 중요한 명제가 된다. 데스크톱 PC 시장이 볼륨의 중심이었던 때, 그것이 65W로 설정되어 있었고, 노트 PC의 시대에는 그것이 25 ~ 35W로 설정되어 있었다.

 2013년에 출시된 4세대 Core 프로세서의 경우,이 메인 볼륨 존이 TDP 15W로 설정되어 있었다. 이것은 Intel이 Ultrabook 시장의 메인 스트림이 될 것이라고 생각하는 표현이다 (그러나 Haswell에서 다이의 변화가 매우 많기 때문에, 엄밀히 말하면 이것에 들어 맞지 않는 것도 있다).

 그러면 Core M은 어떤가? 그것을 단적으로 보이고 있는 것이, 첫머리에서 소개한 보카 씨의 발언이다. Core M은 팬리스 태블릿 및 2-in-1 장치를 제공하는 것을 목표로 설정되었다. 반대로 말하면, 그 이상의 TDP를 가지는 노트북 PC 용 제품과 데스크톱 PC 용 제품은 파생 상품이라는 것이다.

 Core 프로세서를 팬리스가 요구되는 태블릿에 가져가려면 어떻게 하면 좋을까? 그것을 최우선하여 Intel이 설계한 최초의 CPU가 Core M인 것이다.



CPU의 내부 실행 엔진의 개량에 의해 IPC는 5% 개선


 Intel 펠로우 겸 플랫폼 엔지니어링 그룹 SoC 아키텍처 부장 스테판 조던 씨에 따르면, Core M도 TICK-TOCK 모델 (새로운 마이크로 아키텍처와 미세화 프로세스가 교대로 신제품에 채용 되는.TICK이 미세화 된 공정, TOCK이 새로운 마이크로 아키텍처인 것을 의미)로 TICK에 해당하는 제품이다. 즉, 기본적으로는 2013년 출시된 Haswell의 마이크로 아키텍쳐를 14nm 공정으로 축소한 것이다. 실제 프로세서의 내부 구조는 Sandy Bridge 이후 이어지고 있는 CPU / GPU / PCI Express / 메모리 컨트롤러 등이 전용 ​​링 버스로 연결되어 있다는 구조에 변화는 없다.

 다만 최근의 Intel의 TICK에 해당하는 제품은 단순히 같은 마이크로 아키텍처를 새로운 공정으로 옮긴 물건은 없어지고 있어 일정 부분이 수정되는 것이 관례로 되었다. 이번 Core M도 마찬가지로, CPU, GPU에 각각 개량이 더해지고 있다.


[표 1] Haswell-Y와 Broadwell-Y의 비교



Hasell-Y

Broadwell-Y

제조 공정

22nm

14nm

코어 / 스레드

2C / 4T

2C / 4T

GPU

Intel 내장 그래픽 Gen 7.5

intel 내장 그래픽 Gen 8

그래픽

20 EU

24EU ??

그래픽 API

Direct3D 11.1 / OpenGL 4.0 /

OpenCL 1.1

Direct 3D 11.2 / OpenGL 4.3 /

OpenCL 1.2 , 2.0

PCH

Lynx Point-LP

Broadwell-PCH

(WildcatPoint-LP)

TDP (SoC)

11.5W

Haswell-Y의 절반 이하

SDP (SoC)

4.5 ~ 6W

3~5W ?

패키지 크기

(폭 x 길이 x 높이)

24 x 40 x 1.5mm

16.5 x 30 x 1.04mm



조던 씨에 의하면, CPU에 관해서는 기본적인 구조 (듀얼 코어 CPU 캐시 용량) 등에 관해서는 기본적으로 Haswell-Y와 같지만 아래의 점에서 실행 엔진의 효율이 개선되고 있다고 한다.

1.아웃 오브 오더 스케줄러의 확​​장, 스토어에서 로드에 인도의 고속화


2. 더 큰 L2 TLB (1K에서 1.5K 앤트리 증가),

새로운 전용 1GB 페이지 L2 TLB (16 엔트리)


3. 세컨드 TLB 페이지 핸들러


4. 보다 고속인 부동 소수점 곱셈 (5사이클에서 3사이클로), Radix-1024 나누기, 보다 고속인 벡터 수집


5. 주소 예측의 개선


6. 특정 암호화 가속 명령의 개선


7. 보다 고속인 가상 머신 전환


이러한 개량에 의해 Haswell에 비해 IPC가 5% 개선되고 있다고 한다.


Core M 프로세서의 개선을 나타내는 슬라이드 (출처 : Intel)



GPU의 실행 엔진은 20%, 샘플러는 50% 증가로 처리 능력이 향상


 GPU에 대해서도 이전 세대에 비해 20 %의 실행 엔진의 증가, 50%의 샘플러 처리량 개선, 여기에 지오메트리, Z 버퍼, 픽셀 필 등의 처리를 할 때 성능을 끌어 올리는 마이크로 아키텍쳐의 개량을 행하고 있다. 조던 씨에 의하면 구조 개혁은 "간단히 말하면 2슬라이스가 3슬라이스 된다고 생각해도 좋다"라는 것으로, EU가 20% 증가 샘플러가 50% 증가하고 있다고 한다. 그 말에서 유추하면 아마 다음과 같은 구조로 되어 있다고 생각할 수있다.


[그림 2] Intel이 공개한 자료에서 만든 Haswell 세대와 Broadwell 세대의 GPU 구조


 Haswell의 GT2 (Intel HD Graphics 4600/4400 개발 코드 명)을 내장하고 있는 제품에서는 2슬라이스, GT3 (Intel Iris Graphics, Intel HD Graphics 5000)을 내장하고 있는 제품에서는 4슬라이스 되어있는 구조다. 이에 비해 Broadwell-Y의 GPU는 3 슬라이스로 되어 있으며, EU의 구체적인 숫자는 공개되지 않았지만, 20% 늘어나는 것이므로 아마 24 EU가 내장되는 형태가 된다 추측된다. 그렇게 되면, 하나의 슬라이스에 8개의 EU + 샘플러라는 3개 있다고 생각하면 계산이 맞게 된다.

 덧붙여 이번 Intel은 태블릿 용되는 Broadwell-Y 만 공개했기 때문에, Haswell 세대에서 말하는 GT2에 해당하는 구조라고 생각된다. 다른 구성은 공개하지 않았지만, OEM 메이커 관계자의 정보에 의하면, Broadwell에는 이외에도 Broadwell-U (Ultrabook 용), Broadwell-H (A4 사이즈 노트 PC 용), Broadwell-K (조립 PC 용의 배수 해제 버전)이 준비되어 있으며, 그곳에는 GT3를 내장한 다이가 준비되어 있는 것으로 예상된다. 그곳은 GT2의 3 슬라이스의 2배 6개가 있다고 가정되므로 총 48EU가 될 가능성이 높다.

 이 다른 점도 강화되고 있다. 소프트웨어 API는 Direct3D 11.2, OpenGL 4.3, OpenCL 1.2 / 2.0에 대응하는 등 강화되고, 비디오 재생의 처리를 행하는 Video Quality Engine의 처리량을 배로 되어 비디오 재생시의 표시 품질이 강화. Sandy Bridge 세대에서 탑재된 비디오 인코딩 엔진 (Quick Sync Video)에 대해서도, GPU 내부의 처리 능력이 상승함에 따라 향상되고 있다.

 또한, Broadwell 디스플레이 출력 엔진은 종전과 같이 3 파이프이며, 디스플레이 출력 사양으로는 4K 출력에 대응하고 있다. 그러나 이것은 모든 SKU가 그렇다는 것은 아니고, Core M에 관해서는 2,560 × 1,600 도트가 최고의 해상도다. 이것은 그러한 디스플레이 출력을 올리면 소비 전력이 증가하는 것과 트레이드 오프가 되기 때문. 다만 OEM 업체들이 소비 전력이 오르는 것을 각오로 구현하는 경우, 출력하는 것도 불가능하지 않다. 이 부분은 실제 제품을 기다려야 할 것이다.

 이 밖에 CPU / GPU의 마이크로 아키텍처의 더 자세한 내용은 9월 샌프란시스코에서 열리는 IDF에서 공개될 예정이다. 이번에 발표된 Core M 이외의 제품과 GT3에 eDRAM이 붙어 있는가?  등에 관해서는 거기서 밝혀질 것이다.

Broadwell의 내장 GPU의 향상된 기능을 설명하는 슬라이드,

EU가 20% 증가 샘플러의 처리량이 50% 향상 (출처 : Intel)


Broadwell의 내장 GPU의 향상된 미디어 부분에서도 향상된 기능이 많다 (출처 : Intel)



14nm 공정으로 이행해, Haswell 대비 다이 크기가 63%


 이번 밝혀진 개요를 보면, Broadwell의 마이크로 아키텍처는 TICK-TOCK 중 1세대 이전 마이크로 아키텍처가 미세화 된 새로운 공정으로 전개되고, CPU의 IPC 개선과 GPU의 내부 구조가 개량되는 것으로, TICK+ 로 표현하는 것이 타당 할 것이다.

 하지만 Broadwell의 진가는 거기가 아니다. 서두에서도 언급했듯이, Intel은 Core M을 Core 프로세서의 처리 능력을 유지하면서 팬리스 태블릿을 실현하기 위한 제품이라고 평가하고 있어 그 최대의 특징은 SoC 전체의 소비 전력이 이전 세대에 비해서 압도적으로 작아지고 있는 것이다.

 Intel은 팬리스가 되는 시스템의 소비 전력을 조사하고 8 ~ 10mm 두께로 10.1 인치 디스플레이를 가진 시스템을 실현하려면 3 ~ 5W 정도의 소비전력을 실현할 필요가 있다고 판단했다. 다만 여기서 말하는 소비 전력은 TDP가 아닌 현재 Intel이 SDP (Scenario Design Power)라고 부르는 어떤 특정 이용 모델링의 소비 전력이라 생각이 옳다.(다만 이번 Intel이 3 ~ 5W가 SDP 인지, 아닌지 명확하게 하지 않았다).


Intel의 조사에 의한 팬리스에 필요한 SoC의 전력. 디스플레이 크기와 두께에 따라 소비 전력의 테두리는 달라지지만 10.1 인치의 디스플레이에 8 ~ 10mm 두께의 태블릿을 설계 하려면 3 ~ 5W의 전력이 되는 SOC가 필요한 결론을 내렸다 (출처 : Intel )



처리가 항상 계속되고 있는 때에도 성능이 저하하지 않는

그러한 설계가 필요하다고 결론 (출처 : Intel)


 조던 씨는 이러한 저전력을 실현하기 위해서는 "프로세서에 부하가 연속적으로 걸렸을 때, 아무것도 최적화 하지 않은 프로세서의 경우에는 심각한 성능 저하가 발생한다. 그래서 전력 대비 성능을 극대화 함으로써 그러한 장면에서도 성능을 유지 할 수 있는 그런 제품을 목표로했다"고 말하며 다음과 같은 점에서 성능을 희생하지 않고 전력 효율을 개선하는 연구를 하고 있다고 설명했다.

공정 미세화
소형 새로운 패키지 채용
전원 관리 기능의 진화
SoC 레벨의 새로운 소비전력


 Broadwell의 생산에 14nm 공정이 이용된다. 만일 동일한 다이 상으로 (Haswell의 회로를 그대로 14nm에 옮긴 경우) 50%의 크기로, 이번 Broadwell처럼 기능이 확장 (주로 GPU의 확장)이 들어간 부분을 고려해도 63%의 다이 크기로 줄일 수 있다고 한다. 또한 소위 누설 전류는 이전 세대에 비해 2분의 1로 되어 있으며, 트랜지스터 성능이 10 ~ 15% 향상, 또 작동 가능한 하한 전압이 10% 가량 인하된 것 등에 의해, 일반적인 공정의 미세화의 경우보다 2배의 전력 절감이 실현되고 있다고 한다.

14nm 공정의 장점. Broadwell에서는 14nm 공정에 최적화해서 일반 미세화에 비해

2배의 전력 절감을 실현할 수 있다 (출처 : Intel)


 Broadwell-Y는 얇고 가벼운 태블릿에 구현되는 것을 전제로 설계되었기 때문에, 패키지도 기존의 Haswell-Y에 비교하여 소형 / 얇아져 있다. 기존의 Haswell-Y 패키지가 24 × 40 × 1.5mm (폭 × 길이 × 높이)였던 것에 비해 새로운 Broadwell-Y는 16.5 × 30 × 1.04mm (동)로 더 작은 (구현 면적 50% 감소)하고 두께 (30% 감소) 패키지 사이즈를 실현하고 있다. OEM 메이커는 기판 크기를 기존의 Core 프로세서 용 제품에 비하면 25% 절감 할 수있게 하며 얇게 할수 있게 된다.

 이 소형 패키지 크기를 실현하기 위해, 커패시터 등을 다른 서브 기판에 설치하고 그것을 3D로 구현한 3DL 모듈이라는 구조를 채용하고 있다. 이것은 패키지의 윗면에 3DL 서브 보드를 구현하고 메인 보드 측에 구멍을 내는 것으로 거기에 끼우는 형태로 높이를 버는 방법이다. CPU 패키지의 높이를 줄일 수 있기 때문에 보드 전체의 높이를 줄일 수 있다는 장점이있다.

 또한 Haswell에서 도입된 FIVR (Fully Integrated Voltage Regulator, CPU 패키지에 통합 된 전압 변환기)에 관해서도 제 2세대로 진화하고 있으며,보다 효율적인 전압 공급이 가능하게 되었다.


Broadwell-Y는 새로운 소형 패키지를 도입해 설치 면적 50% 감소,

두께는 30% 절감을 실현 했다.(출처 : Intel)


높이의 실현에 공헌하고있는 것은 3DL 모듈.

기판 측의 구멍에 맞춰 장착해 SoC 패키지의 높이를 줄일 수 있다 (출처 : Intel)



절전 기능의 진화와 SoC에 MCM 구현되는 PCH가 진화


 전력면에서의 개선 사항에는 절전 관리의 진화를 들수 있다. 우선 첫 번째는 Turbo Boost 기능의 안정성이 강화되고 있다. 일반적으로 Core 프로세서는 몇 단계로 나누어 클럭 주파수가 오르지만, Turbo Boost가 유익한 최초에 일시적으로 클럭 주파수가 많이 상승하는 시간의 안정성이 향상되었다. 예를 들어 OS가 시작될 때와 응용 프로그램을 시작할 때 등 CPU의 클럭 주파수를 일시적으로 올려 사용자의 체감 속도를 개선 할 수 있다. 게다가 빠르게 처리를 마치고 CPU를 일반 주파수나 아이들로 떨어트려 소비 전력을 줄일수 있게 된다.

 또 하나의 독특한 개선점으로 듀티 사이클로 불리는 CPU와 GPU의 클럭 주파수가 전압 하한 근처 가까이 떨어진 때에 지금보다 효율적으로 제어하는​​ 듀티 사이클 컨트롤 기능이 추가된 것이다 .

 일반적인 프로세서는 CPU / GPU의 전압과 주파수가 연동되어 있다. 주파수가 올라 갈수록 구동 전압도 끌어 올려야 한다. 반도체의 전력은 구동 전압의 제곱 × 주파수에 비례하여 커지므로 전압을 낮추는 것은 CPU / GPU의 소비 전력을 낮추는 데 큰 의미가 있다.



클럭 주파수가 내려지는 것으로는 그 이상 전력을 낮추는 것이 어렵지만,

듀티 사이클 스로틀링 이라는 구조를 이용해서 블록마다 온 오프를 행한다 (출처 : Intel)


GPU는 듀티 사이클 관리를 GPU 드라이버와 연계하여 행하는 것으로,

GPU가 아이들 상태에있을 때의 소비 전력을 절감 (출처 : Intel)


 그러나 일반적으로 주파수 낮춰도 하한이 있고, 주파수를 내려도 전압이 효율적으로 내려 가지 않는 문제가 있다. Broadwell에서는 이 하한 전압이 14nm 공정의 혜택에 의해 내려지고 있는데, 듀티 사이클 컨트롤 기능에 의해, 하한에 도달 할 때는 일시적으로 CPU와 GPU의 클럭 주파수를 블록마다 오프 하거나, 다시 온 하는 것을 반복해 새로운 소비전력 절감이 가능하게 된다. 조던 씨에 의하면, GPU에 관해서는 이 제어를 하드웨어뿐만 아니라 GPU의 드라이버와 협조해 행하고 있다고 한다.

 또한 Broadwell-Y는 기존 제품인 Haswell-Y 등과 같이, PCH라는 I / O 컨트롤러가 프로세서 기판상에 MCM (Multi Chip Module)에 의해 장착돼 SoC로 구현되어 있다. 조던 씨에 의하면 이 Broadwell 용의 새로운 PCH는 완전히 새로운 설계의 칩이 된다. Intel은 이번 발표에서 이 PCH의 개발 코드 네임 등을 밝히지 않았지만, 개발 코드 네임 Wildcat Point-LP로 알려진 PCH 라고 생각된다.

 여기에 새롭게 주목되는 기능이 2개 추가된다. 하나는 오디오 DSP가 신세대 엔진으로 변경되어 처리에 이용되는 SRAM의 용량이 증가 처리 능력이 향상되고 있다. 이에 의해 오디오 후 처리 품질을 향상되거나 음성 인식에 의한 기동 기능 (Wake on Voice)의 구현과 소비 전력 감소를 실현. 또 하나는 PCI Express SSD를 네이티브 지원해 시스템의 응답성 등을 개선하는 것이 가능하다는 점이다.

 새로운 PCH는 기존의 Haswell에 채용되고 있던 Lynx Point-LP와 같은 32nm 공정으로 생산되지만, 물리적 설계 등이 처음부터 고쳐지고, 미세한 전력을 깎았기 때문에, 20%의 활성 전력 절감과 25%의 유휴 전력을 절감을 실현한다. PCH의 개량도 Broadwell의 SoC 전체의 소비 전력의 절감에 크게 기여한다.


Broadwell-Y에 도입 된 새로운 PCH는 새로운 오디오 엔진 및

PCI Express SSD 네이티브 대응 등이 주목되는 기능이다 (출처 : Intel)



OEM 메이커에 출하된 연말 판매 경쟁에는 탑재 태블릿 / 2-in-1 장치가 등장


 조던 씨에 의하면 이러한 여러 개선으로 Broadwell-Y는 Haswell-Y와 비교해 패키지 풋 프린트는 50%에 이르고, 30% 얇아지고 TDP는 2분의 1이 되고, 60% 낮은 아이들시 소비 전력을 실현하고, 9mm를 이하의 얇은 태블릿을 설계하는 것이 가능하게 된다고 한다.

 14nm 공정은 22nm 공정의 때의 오름에 비해 느리지만, 3분기에는 22nm가 오를때와 거의 동일한 수준의 수율을 달성할 전망이라 한다. COMPUTEX TAIPEI에서 공개된 바와 같이, 탑재되는 태블릿 및 2-in-1 디바이스의 등장은 올 연말 판매 경쟁이 된다는 일정은 변경 없다. 예년 9월 상순에 독일에서 열리는 IFA 그 다음 주에 샌프란시스코에서 열리는 IDF에서 탑재된 제품이 OEM 업체로 부터 선보이게 될 것이 많아, 아마 거기에서 OEM 업체에서 매력적인 Core M 탑재 태블릿 및 2-in-1 장치 등이 공개될 것이다.



Intel_14nm_New_uArch.pdf



[분석정보] 고밀도 서버 전용의 Atom을 대체하는 Broadwell 기반 Xeon D



[분석정보] 인텔 데스크탑 eDRAM 버전을 포함한 브로드웰 패밀리 설명



[분석정보] 인텔의 "브로드웰"을 뒷받침 하는 강력한 14nm 공정



[분석정보] 모바일에 최적화를 진행한 Intel의 14nm 공정



[분석정보] 컴퓨텍스 2014 인텔 저전력 모바일 Broadwell은 Core M 브랜드



[분석정보] GDC 2014 미국 MS DirectX 12를 발표



[분석정보] IDF 13 IDF에서 Intel이 14nm 공정 세대 Broadwell 을 공개



[분석정보] 인텔 내장 그래픽 그래픽 API (DirectX, OpenGL,OpenCL)지원 정보



Haswell과 Broadwell의 사이에는, DirectX 12관련의 중요한 차이가 있다





Intel_14nm_New_uArch.pdf
2.59MB