벤치리뷰·뉴스·정보/아키텍처·정보분석

[분석정보] 인텔의 차세대 마이크로 아키텍처 스카이레이크

tware 2015. 8. 20. 00:00


CPU 코어 부분의 레이아웃이 크게 바뀐 Skylake


 Intel은 차세대 CPU 마이크로 아키텍처 "Skylake (스카이레이크)"에 대한, 아키텍처 개요를 Intel Developer Forum (IDF) 2015에서 공개했다. 이번 IDF 기조 강연에서는 Skylake에 알리지 않고 3D XPoint 메모리를 특징으로 삼아. CPU 코어의 중요도를 한 단계 낮춘듯한 느낌의 연출을 했다. 그러나 기술 세션에서는 Skylake 개요, 특히 그래픽스 부분을 중심으로 깊게 파내려 갔다.

 Intel은 단계적으로 Skylake의 베일을 벗기고 있어, 이번 IDF에서는 CPU 마이크로 아키텍처의 개요는 최소한의 공개로 멈추고, GPU 마이크로 아키텍처와 절전 기능의 공개에 집중되었다. 단숨에 공개하는 것이 아니라 부분적으로 밝혀가는 "애 태우는" 방법을 취하고 있다.

 Skylake도 기존대로 CPU 코어와 GPU 코어, 그리고 예전의 노스 브릿지 기능에 해당하는 DRAM 컨트롤러와 I / O 부분을 시스템 에이전트로 통합한 반 SoC (System on a Chip)로 되어있다. 내부 인터커넥트도 대역은 확장되었지만 기존의 링 버스다. CPU 코어와 GPU 코어 이외의 유닛의 큰 차이로는 카메라 데이터 처리 (Image Signal Processor)를 통합 한 것.



 Skylake의 다이 (반도체 본체)를 보면 CPU 코어의 주위를 빙 LL (Last Level) 캐시 SRAM이 둘러싸고 있다. 보통의 CPU 코어 레이아웃에서는 낯선 SRAM의 배치이다. 이것은 CPU 코어의 열을 효율적으로 분산하기 위한 궁리라고 볼 수있다.


LL 캐시 SRAM이 CPU 코어를 둘러싼 Skylake CPU 코어 레이아웃

(CPU코어 주변에 연두색 캐시)


 공정이 미세화되면 전력 밀도가 높아진다. 회로 면적은 1세대 공정 미세화로 50%까지 줄일 수 있지만, 용량은 70% 대까지 밖에 내려 가지 않고 전압은 몇% 밖에 내려 가지 않는다. 전력 용량 × 전압의 제곱 × 동작 주파수에 비례하기 때문에 미세화에 의해 면적당 전력 밀도가 올라 버린다.

 이러한 기술상의 이유가 있기 때문에 프로세서는 미세화와 함께 다이상에서 어떻게 열을 효율적으로 분산 하느냐가 중요하다. 따라서 각사 모두 CPU 코어의 배치를 연구하고있다. Intel의 경우는 상대적으로 콜드인 SRAM을 상대적으로 핫인 CPU 코어의 주변에 배치하다는 해결책인것 같다.

 Skylake에서는 Broadwell까지 세대와 달리 CPU 코어와 LL 캐시가 1열이 아닌, 2열이 되었다. 그러나 그 이외의 요소는 Broadwell까지 세대와 크게 변하지 않고, 다이의 한쪽에 칩셋 기능이 집중되고, 반대 편에 GPU 코어가 있어, 그 사이에 CPU 코어와 LL 캐시가 끼워져 그들을 링 버스가 잡고있다. 기존의 Intel CPU 설계 모듈 패턴을 답습하고 있다.




버퍼를 깊게해서 병렬성을 높인 CPU 코어


 CPU 코어 마이크로 아키텍처도 지금까지의 흐름을 답습하고 있다. 개요만 간단히 익히면, 기본 파이프 라인은 Haswell / Broadwell 세대를 베이스로 하면서 확장을 추가하여 IPC (Instruction-per-Clock)의 향상과 동작 주파수의 향상을 도모하고 있다. Haswell 세대에서는 명령 스케줄러에서 실행 유닛에 대한 명령 발행 포트를 늘렸지만 이번에는 그 앞의 명령 디코더 부분에 확장이 더해지고 있다.



 또한 프론트 엔드에서는 분기 예측 기능을 강화했다고 설명했는데, 매번 같은 분기 예측 알고리즘을 어떻게 했는지 설명은 없다. 분기 예측은 블랙박스인 채로 강화가 계속되고 있다. 또한 아웃 오브 오더 윈도우는 Skylake 세대에서 더욱 확장되었다. 윈도우를 확장한 만큼 스케쥴링에 여유를 갖지기 위해 스케줄러의 엔트리도 확장되고, 레지스터 경합을 피하기 위해 물리 레지스터 수가 확장되었다. 간단하게 말하면, 더 많은 명령을 병렬화에 쉬워졌다.



 로드 / 스토어에서는 프리 페치의 지능이 증가되었다. 불필요한 페칭은 대역폭과 전력이 낭비되기 때문에 불필요한 때는 프리 페치를 행하지 않고, 필요할 때만 켜지 것이 이상적인데, 그 알고리즘이 개선되었다. 스토어 버퍼도 강화되었다. 또한 캐시 관리 명령이 추가되었다.




또 다시 대폭 강화된 GPU 코어


 GPU 코어에 대해 꽤 큰 아키텍처 확장이 이뤄졌다. 우선, 각 CPU 코어의 실행 유닛이 SIMT (Single Instruction, Multiple Thread) 형의 스칼라 실행으로 되었다. 또한 Broadwell 세대에 도입되었지만, 대부분 선전되지 않은 CPU 코어와 GPU 코어 사이의 공유 가상 메모리와 캐쉬 coherency가 기능 강화되고, 대대적으로 내세웠다. 세밀한 (Fine Grain)의 태스크 스위칭에 있어, GPU의 프리 엠프션도, 쓰레드를 실행 도중에 전환이 가능하게 되었다. 32-bit 단정도 연산 유닛을 8개 갖춘 EU를 최대 72 유닛 갖춘 것으로, 최고 성능은 마침내 1TFLOPS을 넘어 1,152GFLOPS가 되었다. 자세한 내용은 다른 기사에서 소개 하지만, GPU 코어 부분의 강화는 다방면에 걸쳐있다.


(실제 제품의 클럭과 다르게 모두 그래픽 클럭 1GHz 때 피크 Flops)



 Intel 그래픽은 원래 4-way의 SIMD (Single Instruction, Multiple Data) 유닛이었다​​. 128-bit의 SIMD 유닛을 32-bit 단정밀도 뿐만 아니라 16-bit 반 정밀도와 각 비트 폭의 정수 연산으로 분할하여 사용할 수 있는 사양으로 되어 전형적인 SIMD 아키텍처다. 그러나 이번 Skylake의 GPU 코어에서는 NVIDIA나 AMD의 GPU 코어와 비슷한 스칼라 실행형으로 바뀌었다. GPU 업계의 흐름에 따른 아키텍처의 변경이다.

 또한 Skylake GPU 코어는 공유 가상 메모리와 캐쉬 coherency, 세밀한 태스크 스위칭을 갖춘 것으로, GPU 컴퓨팅에 대단히 적합한 아키텍처가 되었다. 참고로, 공유 가상 메모리는 AMD의 APU (Accelerated Processing Unit)에서도 실장되어 있으며, 프리엠프션도 AMD가 Carrizo에서 구현한 기술과 거의 같다. 즉, Skylake GPU 코어는 HSA (Heterogeneous System Architecture) 상당의 GPU 컴퓨팅을 위한 기능을 갖추게 된다. 또한, CPU 코어와 GPU 코어의 캐쉬 coherency는 Intel 만 구현했다.




컴퓨팅 계의 기능이 강화



컴퓨팅과 그래픽의 양쪽 기능을 강화한 GPU 코어


 이처럼, Intel은 Skylake 세대 GPU 코어의 컴퓨팅 기능을 대폭 강화했다. Intel은 GPU 형의 병렬 컴퓨팅 솔루션으로 한때 Intel 그래픽이 아닌 Larrabee (라라비)를 앉혔다. Skylake 세대도 원래 계획에서는 Larrabee 아키텍처의 병렬 컴퓨팅 코어를 갖추는 것이었다. 그러나 Larrabee 계 아키텍처는 Xeon Phi 계열만으로 되고, 여파로 Intel 그래픽스의 GPU 컴퓨팅 대응은 늦었다. 그러나 Skylake 세대에서 기능적으로는 따라잡고 추월하는 단계에 까지 왔다고 말할 수 있다.

 또 GPU 컴퓨팅 기능을 강화하는 한편, 그래픽 고정 기능도 일제히 강화되고 있다. 텍스처 유닛, 렌더 백엔드, 테셀레이터 등이 강화되었다. 결국 다크 실리콘 문제가 있기 때문에, 현재의 CPU는 CPU 코어 등과 동시에 활성화 되는 것이 적은 유닛을 늘리는 것은 실리콘 예산상 문제가 없다. 따라서 현재의 CPU는 고정 기능을 증가시키는 경향이 있다.

 eDRAM을 사용한 메모리 대역 확장 솔루션은 Skylake 에서도 제공되는데, 아키텍처가 바뀌었다. 기존에는 CPU 코어 측에 넣었던 캐시 TagRAM이 제거되고 eDRAM을 "메모리 사이드 캐시 (Memory Side Cache)"로 쓴다. eDRAM 지원 CPU의 다이 면적을 억제하는 것이 가능해져, 지금까지처럼 비용이 높은 대형 다이 CPU 정도만 eDRAM을 지원할 수 밖에 없는 상황이 없어졌다. 그 결과, Skylake는 eDRAM 지원 스큐가 확대되었다.




 이 밖에 Skylake의 큰 특징은 보안용 신명령등 보안 기능, 그리고 크게 강화된 절전 제어. Skylake는 Haswell 세대의 "FIVR (Fully Integrated Voltage Regulator)" 라는 절전력 기능 조커를 없앴다. 그에 따라 다른 형태의 절전력화를 도모하지 않으면 안된다. 그러한 이유로 절전 제어는 특히 힘이 들어가 있다.


Skylake 웨이퍼



Skylake의 모바일 제품 패밀리



[분석정보] 현행 SSD 보다 7배 빠른 3D Xpoint 탑재 SSD 시현



[분석정보] 슬라이드로 보는 Skylake 아키텍처의 개요



[분석정보] Skylake의 SpeedShift로 P스테이트의 소비 전력 삭감을 실현



[분석정보] Intel 3D XPoint 베이스 SSD와 Curie의 실제 실리콘을 데모



[분석정보] PC 게임에 힘을 쏟는 인텔



[분석정보] 클라이언트에서 서버까지 토털 솔루션을 제공하는 Intel의 IoT



[분석정보] Intel의 새 메모리 3D XPoint가 DIMM으로 투입되는 배경




[분석정보] GPU 컴퓨팅 기능을 강화한 Skylake의 GPU



[분석정보] Skylake 아키텍처의 수수께끼 2 - 5명령 디코더와 6명령 uOP캐시




[고전 2001.02.07] 인텔 폴락의 법칙이 등장 Intel 겔싱어 CTO의 ISSCC 강연



[고전 2001.02.08] 서버용 CPU는 멀티 CPU 온 다이, PC용은 통합화? Intel 겔싱어 CTO ISSCC강연



[분석정보] 모바일 절전 기능을 강화한 펜린 (Penryn)



[고전 2001.02.06] 2010년 CPU 전력은 600W?



[분석정보] 5W 이하의 저전력 프로세서의 개발로 향하는 Intel



[분석정보] Intel 22nm 공정에서 3D트랜지스터 기술을 채용



[분석정보] AMD가 Hot Chips에서 Richland에서 확장한 전력 제어 장치 등을 발표



[아키텍처] 환경 조건을 이용하여 성능을 끌어 올리는 터보 모드



[분석정보] Intel 또 하나의 차세대 CPU LPP



[분석정보] Atom의 절전 기술도 탑재한 Nehalem



[분석정보] Haswell 절전 기능의 열쇠 "FIVR" 과 그 이후




[정보분석] 팀스위니 미래의 게임 개발 기술. 소프트웨어 렌더링으로 회귀



[분석정보] 인텔 GDC에서 라라비 명령 세트의 개요를 공개



[분석정보] 정식 발표된 라라비(Larrabee) 아키텍처



[분석정보] Larrabee에 쫓기는 NVIDIA가 GT200에게 입힌 GPGPU용 확장



[분석정보] Intel의 Larrabee에 대항하는 AMD와 NVIDIA



[정보분석] IDF 2011 Justin Rattner 기조연설 매니코어 시대가 다가옴 1/2부



[분석정보] 매니코어 프로세서로 손바닥 슈퍼 컴퓨터를 실현



[벤치리뷰] N형 문제 프로그램의 인텔 제온 파이 이식 평가



[벤치리뷰] 인텔 제온 파이 5110P와 엔비디아 테슬라 K20 행렬 곱 실효 성능 비교



[정보분석] 인텔 60코어 매니코어 "Xeon Phi" 정식발표



[분석정보] TOP500 슈퍼컴퓨터 순위 2015년 6월





[분석정보] 그리고 CPU는 DRAM 다이도 통합



[분석정보] 범용 컴퓨팅을 강화한 Sandy Bridge의 그래픽



[분석정보] 정체를 보인 Haswell의 eDRAM 솔루션



[분석정보] Intel이 Haswell 디자인 정보를 Hot Chips에서 발표



[분석정보] Intel의 eDRAM 칩은 128 뱅크 구성에 읽기, 쓰기, 리프레시를 병렬



[분석정보] 인텔 데스크탑 eDRAM 버전을 포함한 브로드웰 패밀리 설명



Haswell과 Broadwell, DirectX 12관련의 중요한 차이가 있다



[정보분석] CPU와 GPU의 메모리 공간을 통일하는 AMD의 hUMA 아키텍처



[분석정보] 광대역 메모리의 채용을 가능하게 하는 Intel의 새 패키징 기술 EMIB



[분석정보] 명령의 실행 순서를 바꿔 고속화 하는 아웃 오브 오더



[분석정보] 보이는 인텔의 5~10년 후 CPU 아키텍처




[벤치리뷰] 인텔 스카이레이크 코어 i3 6100 리뷰



[벤치리뷰] 스카이레이크 Core i3-6100



[벤치리뷰] 코어 i3 6100, i3 6300, i3 6320 테스트



[벤치리뷰] Intel 스카이레이크 코어 i5 6600K 리뷰



[벤치리뷰] Intel Skylake: Core i7 6700K review



[벤치리뷰] 스카이레이크 아키텍처를 채용한 Core i7-6700k



[분석정보] AMD Kaveri의 메모리 아키텍처와 향후의 APU 진화



[분석정보] 모바일 SoC에서 다크 실리콘의 속박



[분석정보] AMD가 차세대 Zen 개요를 더욱 밝혀