벤치리뷰·뉴스·정보/아키텍처·정보분석

[분석정보] 인텔(intel) CPU의 큰 이정표가 될 하스웰(Haswell) 드디어 등장

tware 2013. 6. 2. 17:57

 

CPU 코어가 20%미만 정도 대형화된 Haswell의 다이


 Intel이 드디어 새로운 CPU 마이크로 아키텍쳐 "Haswell '을 공개했다. 그동안 베일에 싸여 있던 Haswell 다이 평면도의 사진도 공개됐다. 4코어 중형 구성의 GPU 코어 "4 +2"의 구성에서 다이 크기는 177 제곱 mm, 트랜지스터 수는 1.4B (14 억). 아래가 다이다.

 

 

 

Haswell의 다이

 

 

Haswell 개요


 언뜻 보아서 알 수 있듯이 CPU 코어의 좌우에 생소한 레일이 배치되고, 노스 브릿지 인 시스템 에이전트 (SA)의 안에도, 지금까지 없던 모듈이 있다. CPU 코어의 레이아웃도 현재 Ivy Bridge (아이비 브릿지)에서 두드러지게 변화, CPU 코어의 크기 자체도 Ivy Bridge의 약 11.x 제곱 mm 에서 Haswell 에서는 약 13.x 제곱 mm와 20 % 미만 정도로 대형화 됐다.

 아래는 Haswell 다이와 동일한 22nm 공정의 Ivy Bridge와 32nm 공정의 Sandy Bridge와 비교한 그림이다. Ivy Bridge의 동등한 구성 (4 +2)와 비교하면, GPU 코어는 EU가 4 개 (적화산 유닛 16 개) 늘어난 만큼 커져, GPU 코어가 20% 미만 커지고, 그만큼 가로형으로 되었다.

 

Haswell와 Ivy Bridge / Sandy Bridge의 다이 크기 비교


 GPU 코어의 왼쪽 상하로 나란히 있는 사각형이 EU이고, 사이에 있는 것이 L3 캐시와 크로스바 스위치로 보인다. GT2 구성은 Ivy Bridge의 16 EU에서 Haswell에서는 20 EU 늘어나 있으며, 그것은 확실히 간파 할 수 있다. 최근의 Intel CPU가 가로로 긴 것은, 1개링의 링버스에 CPU 코어와 GPU 코어를 묶는 형태를 가지고 있기 때문이다.

 177 제곱 mm라는 Haswell의 다이 크기는 Ivy Bridge (160 제곱 mm)와 비교해도 10% 정도 밖에 커지고 있지 않다. Intel은 45nm 공정에서 300 제곱 mm 근처까지 비대화해 메인스트림 CPU 다이를 32nm에서 220 제곱 mm 전후 축소, 22nm 프로세스에서는 160 ~ 170 제곱 mm까지 밀어 넣었다. Intel이 CPU의 제조 비용을 낮추게 되고 있는 것을 알수 있다. 그러나 현재는 공정이 미세화 되면서 웨이퍼 당 비용이 상승하고 있어, 다이 축소로 어느 정도 상쇄된다. Haswell도 Sandy Bridge와 Ivy Bridge와 마찬가지로 모듈형 설계이므로, 더 작은 크기의 다이 및 대형 다이로 파생한다.

 

Intel CPU die size


 Haswell의 다이를 AMD의 Trinity (트리니티) 계의 다이 (Richland 포함)와 비교하면 차이는 명확하다. AMD는 32nm 공정 임에도 불구하고 2개의 CPU 코어를 융합시킨 Piledriver (파일드라이버) 모듈의 다이 위치는 Intel의 Haswell CPU 코어 2 개분보다 훨씬 작다. 반면 AMD는 GPU 코어에 더 많은 영역을 할애하고있다. 그러나 Haswell은 GPU의 연산유닛 수가 배인 GT3 구성의 GPU 코어도 있다.

 

 

Haswell와 Trinity의 다이 레이아웃의 비교

 


세밀하게 전압을 제어하는​​ iVR


 절전 기능에 대한 개요도 더 보여줬다. Haswell의 절전을 지탱하는 기둥은 "통합 전압 레귤레이터 (iVR : Integrated Voltage Regulator) '와 'C10 까지의 절전 스테이트" "파워 옵티 마이저 (Power Optimizer) '의 3 개. 통합 전압 레귤레이터 내용은 아래의 오른쪽 그림과 같은 구조로 되있는 것이 밝혀졌다. 왼쪽이 기존의 Intel CPU이고 오른쪽이 Haswell 이다.

 

지금까지의 Intel CPU와 Haswell 전압 레귤레이터


 지금까지는 오프칩 마더 보드의 전압 레귤레이터 (VR)에서 공급된 각 유닛에 대한 전력이, Haswell에서는 CPU의 다이와 패키지로 가져온 VR에서 공급된다. 오프칩의 VR에서는 VCCIN으로 단일 전압 레일로 공급되고 Haswell 온칩 iVR에서 변압이 되고 각 유닛에 공급된다.

 이전 칼럼에서 설명한 그림과 큰 차이는 CPU 코어가 각각 독립적인 전압 레일이 있는 것이다. 이전 기사에서 쓴 각 CPU 코어 전압 레일이 공통이라 한 것은 실수였다. (이 기자의 그 이전기사 부터 계속 따로일 거라고 했는데, 인텔 공식 발표에서 간단하게 통합된 형태로 그림을 보여줘서 아니라고 생각했는지, 바로 다음의 기사에서는 통합이라고 함. 즉 그 기사 외에는 쭉 따로 있다고 얘기). 따라서 Haswell은 CPU 코어마다 최적의 전압과 주파수에서 동작시킬 수 있다. 이전에는 낮은 주파수에서 작동하는 코어도 높은 주파수로 동작하는 코어 전압에 끌려, 고전압 동작해야 했다. Haswell에서는 이러한 낭비가 없어졌다.

 Intel은 로직 공정에 VR의 구성 요소를 모두 탑재 할 수 있는 기술을 개발해 왔다. 그러나 Haswell의 경우 완전히 온다이에 통합되는 것은 아니다. 구조상 가장 통합이 어려울 것으로 보이는 인덕터 부분은 온패키지 라고 말한다. 개별 인덕터인 것으로 보이는 파트가 Haswell 패키지에 보인다. 그러나 iVR에서는 전압 선택 스위치 시간이 짧아지기 위해 인덕터의 용량은 작게 끝나게 된다.

 Haswell에서의 전압 선택 스위치 속도는 밝혀져 있지 않다. 그러나 원칙적으로는 iVR에서는 아래와 같이 전압 전환이 가속화됨으로써 쓸데없는 전압 공급 시간이 깎아져 동작시 전원이 최적화된다.

 

Fine Grain Power Management의 구조

 


콜드 리셋 해당되는 Haswell의 C10 스테이트


 Haswell 또 하나의 중요한 절전 기능은 C10까지 깊은 절전 상태와 그것을 사용할 수 있도록 하는 Power Optimizer. 기존의 인텔 CPU는 C7 (Deep Power Down)까지 절전 스테이트가 설정되어 유휴 상태가 계속되면, 더 깊은 C 스테이트로 이행한다. 모바일 용 Haswell에서 C7까지의 전통적인 스테이트 이외에 C10까지 3개의 새로운 스테이트가 신설되었다. C7 스테이트에 C10는 6 분의 1에 유휴 전력을 낮출 수 있다. C10의 Haswell의 대기는 45mW 정도다.

 

 

 

Haswell에서는보다 깊은 C 스테이트가 준비된다

 


 깊은 C 스테이트가 될 수록 소비 전력이 떨어지지만 활성화 복귀할때 까지의 대기 시간이 길어진다. C7은 대부분의 내부 클럭과 전압 레일이 정지되고 대용량의 공유 LL (Last Level) 캐시도 단계적으로 플래시 된다. 외부 전압 레귤레이터의 입력 전압 Vccin은 일반적으로 1.8V 이지만 C7 스테이트 되면 1.6V 이하로 낮춘다.

 C8이 되면 남은 전압 레일이 꺼지고 PLL 전원을 종료하고 정상적인 100MHz의 베이스 클럭(BCLK)이 완전히 정지된다. 대안으로 24MHz의 중요한 클락이 공급된다. Vccin는 1.2V 이하로 내려 간다. C9되면 입력 전압은 0V가 되고 또한 C10되면 iVR가 종료된다고 한다.

 Intel CPU는 아키텍처럴 상태를 되돌리는 지연시간을 줄이기 위해 CPU 코어가 오프시에도 전압을 공급하는 SRAM 영역(C6 어레이 라고도 불림)을 온다이에 품고 거기서 아키텍처럴 상태를 유지한다. 아키텍처럴 상태는 C9까지 다이에 보관되고 C10는 폐기된다. C10에서는 아키텍처럴 스테이트는 C7에 들어가기 전의 단계에서 메모리에 저장된 스테이트 정보를 써 되돌린다.

 

Haswell의 C 상태에서 복귀 지연

 

 Haswell의 각 C 스테이트에서 복귀 지연 시간은 위의 그림과 같다. C10 만 3ms 매우 길다. 이것은 C10에서의 복귀는 Haswell은 사실상 콜드 리셋이 되는 때문 이라고 한다. CPU에 리셋을 걸쳐 전압이 안정, PLL이 동작하고 부팅하고 스테이트를 읽고 돌려 보낸다. 따라서 대기 시간이 길고, 복귀에 어느 정도의 소비 전력도 걸립니다. 또한 복귀 한 경우 C0로 이동한다.

 


더 긴 대기 시간을 보장하기 위해 Power Optimizer


 깊은 C 상태의 문제는 그러한 C 스테이트에 들어갈 만큼의 아이들 시간을 확보 하는 것이다. 기존에는 CPU 인터럽트가 자주 걸리기 때문에 아이들 시간이 분단되어 버린다. 그래서 Haswell은 플랫폼 전력 관리 프레임 워크 'Power Optimizer'을 Haswell에서 도입하기 시작한다. 이것은 "CPPM" 이라고 이전에 불리고 있던 구조로, 그 기능 중 하나는 CPU에 인터럽트를 제어하는​​ 것이다.

 

Power Optimizer의 구조

 

 Power Optimizer는 지금까지 비동기였던 소프트웨어나 장치에서 인터럽트를, 버스트 동기화 시킨다. 위 그림의 맨 위의 예와 같이 기존의 시스템에서는 가로의 시간축에 화살표와 세로막대로 나타나 있다 인터럽트나 DMA 액세스가 비동기 적으로 들어가기 때문에 CPU가 아이들 상태로 들어가는 시간이 한정되어 버린다.

 그러나 Haswell은 그림 중앙의 예와 같이, Power Optimizer가 인터럽트와 DMA 액세스를 정리하고 동기화시켜 버린다. 타이밍이 중요하지 않거나 장치 측에 버퍼함으로써 지연 가능 인터럽트를 지연 동기화하여 더 넓은 아이들 윈도우를 만든다. 이를 위해 Intel은 Power Optimizer 프레임 워크에서 지연 허용치를 동적으로 CPU 측에 전달하는 'Latency Tolerance Reporting (LTR) "를 새롭게 설정했다. 장치 공급 업체 측이 LTR에 대응 하도록 움직여 왔다고 한다.

 장치에서 인터럽트를 제어하고 여전히 위 그림의 검은 화살표로 표시되는 OS의 인터럽트가 남아있다. 이 내용은 Windows 8등 새로운 OS에서 없애 달라고 하도록 했다고 한다.따라서 Windows 8 + Haswell 에서는 더 긴 시간 동안 아이들에 들어갈 수 있게 된다.

 Power Optimizer 또 하나의 효용은 아이들 시간을 예측할 수 있게 되는 것. 따라서 복귀 지연 시간이 긴 C 상태에서 복귀까지 워밍업 윈도우를 결정하고 들어갈 수 있게 되었다.

 

[정보분석] IDF 2011 인텔 하스웰(Haswell)의 다이와 절전 기술

 

[정보분석] IDF 2005 저스틴 래트너 미래의 기술

 

[아키텍처] 환경 조건을 이용하여 성능을 끌어 올리는 터보 모드

 

아이들 시간 예측

 

 

Haswell의 C 스테이트 항목과 복귀 지연

 


 기본적으로 Ultrabook Haswell에서는 LTR 응답 및 기반으로 하고 깊은 C 상태에 들어간다. LTR과 C 스테이트의 관계는 위의 그림과 같이 되어 있어, 예를 들면 LTR에서 허용되는 지연 시간이 90μs 이상일 때 C8에 들어간다.

 문제는 그 Ultrabook에 실려있는 장치가 모두 LTR에서 레이턴시에 여유를 갖게 해주지 않으면, 깊은 C 스테이트에 넣지 않는 것. 1 개의 장치가 LTR의 헤드 룸이 짧은 것만으로도 무너져 버린다. 또한, 버스 및 장치 자체의 전원 관리 기능도 중요하고, Intel이 ROP 이라고 부르는 CPU와 칩셋 이외의 부분의 전력을 줄일 필요가 있다. Power Optimizer 프레임 워크는 그것도 움직여 왔다.

 

 

 

 

CPU뿐만 아니라 버스 및 장치 자체의 전원 관리 기능도 제의 필요가있다


 그러나 이러한 Power Optimizer 프레임 워크에 대한 대응 비용에 관련된 것이다. LTR의 허용 지연 시간이 길고, 전력 소비가 적은 장치 부재를 가지런히 하려고 하면 비용이 올라가야 한다. 따라서 Power Optimizer를 충분히 살릴 수 있는 Ultrabook은 높은 가격대에서 시작될 가능성이 있다고 한다.

 


Nehalem에서 Haswell까지 마이크로 아키텍처의 진화


 Haswell에는 CPU 코어 마이크로 아키텍처 측면에서의 장점도 크다. Haswell 마이크로 아키텍처는 SIMD (Single Instruction, Multiple Data) 연산 유닛의 FMAD 장치를 통한 최대 연산 성능의 두배, 명령 발행 포트를 2포트 늘린데 따른 IPC (Instruction-per-Clock)의 증가 연산에 맞춘 로드/스토어 대역의 두배 등이 포인트다.

 

Haswell 아키텍처 블록 다이어그램

 

 

Sandy Brdige 아키텍처 블록 다이어그램

(테두리가 빨간색으로 된 것은 이전 아키텍처와 비교할때 추가된 것들 입니다. 하스웰은 샌디(아이비)에 비해서 추가된 것. 샌디브릿지는 네할렘(블룸필드,린필드)에 비해서 추가된 것 입니다.

 


 정상은 Haswell과 Sandy Bridge 각각의 CPU 코어의 블록 다이어그램이다. 쭉 비교해 볼면 알수 있듯이, 프론트 엔드는 두 CPU에서 거의 차이가 없다. 그러나 실행 엔진에는 큰 차이가 보인다. 명령 발행 포트는 2 개 늘어나고 새로 정수 연산 유닛 및 저장 장치가 참가했다.

 Intel 아키텍처는 정수 연산과 부동 소수점 / SIMD 연산은 명령 발행 포트를 공유하고있다. 따라서 명령 발행 충돌이 발생해 버리는 일이 있었다. 정수 연산 유닛의 추가는 이러한 문제의 해결을 위해 예를 들어, 이전에는 곱셈과 충돌했던 분기 유닛이 독립했다. (실제로는 분기 단위가 2 개 구성 되었다).

 Intel은 2 개의 로드 / 스토어의 주소 생성 유닛 이외에, Haswell 에서는 스토어 전용 주소 생성 유닛도 추가했다. 따라서 2로드와 1 스토어를 1 사이클에 수행 할 수 있게 되었다. L1 데이터 캐시 대역폭도 이에 맞춰 확장되고 ,32-byte로드를 2 개로 ,32-byte 스토어를 병렬로 액세스 할 수 있게 되었다. 또한 L2에서의 대역폭이 두배가 되었다.

 Intel은 이러한 Haswell의 명령 발행의 병렬성 강화에 맞추고, 아웃 오브 오더 버퍼의 강화도 하고 있다. 아래 그림은 Nehalem에서 Sandy Bridge, Haswell까지 실행 유닛과 스케줄러 및 대기열 항목의 변화다. 아웃 오브 오더 윈도우는 Nehalem의 128에서 Sandy Bridge에서 168, Haswell에서 192로 증가하고 있다. 스케줄러 항목과 물리 레지스터 (Nehalem에서는 레지스터 리네임 버퍼를 사용) 수, 로드 / 스토어 버퍼도 증대시켜왔다. 싱글 스레드 성능 강화를 계속하고 있다.

 

Haswell과 Sandy / Ivy Bridge의 실행 유닛 비교

 


GPU 코어의 메모리 계층 구조를 강화


 Haswell에서는 GPU 코어가 모듈화 되어 있어 GPU 구성을 변경하기 쉽다. 사실, Haswell은 적화산 유닛이 24개인 최소의 GT1, 80개 GT2, 160개 GT3 ,160 개에 eDRAM 칩을 더한 GT3e 및 변형이 있다. Haswell의 GPU 코어를 기반으로 하면, 앞으로도 Intel은 GPU 코어의 구성을 대형화 할 수 있는 것이다.

 

Haswell 그래픽

 

 

Intel GPU의 전환


 Haswell 흥미로운 것은 GPU 코어의 메모리 계층 구조에서 아래의 그림과 같이 매우 깊은 메모리 계층 구조를 가진다. 기본은 CPU와 공유할 LL (Last Level) 캐시에서 GPU의 슬라이스의 L3 캐시, 샘플러의 L2 캐시 L1 캐시로 계층이 있다. 그리고 GT3e 구성은 여기에서 외부 eDRAM 칩이 붙는다.

 이 eDRAM은 대용량의 그래픽 캐시로 작업하지만, CPU 측도 eDRAM이 캐시 입장으로 사용 된다고 한다. 가장 간단하게 LL 캐시 아래 캐시 계층 구조로 놓으면 eDRAM에 버스가 병목될 가능성이 있다. 따라서 LL 캐시에서 메모리로 넘침을 캐시 하는 등의 가능성이 있다.

 

Haswell의 그래픽 메모리 계층


 살펴보면 Haswell이 Intel의 CPU 제품군에 큰 이정표임을 알 수 있다. 특히 전압 레귤레이터의 통합이나 Power Optimizer에 의한 전력 제어는 새로운 단계로 향후 Intel CPU의 중요한 열쇠가 된다.

 

 

[분석정보] 2013 컴퓨텍스 타이페이 4세대 Core 프로세서로 시작된 PC 업계의 대역습

 

[정보분석] 배터리로 20일간 아이들 상태로 가능한 차세대 Ultrabook

 

 

[분석정보] IDF 2013 베이징 Intel 프로세서에서 가능한 것은 Windows 만이 아니다

 

 

[정보분석] IDF 2013 Beijing에서 공개 된 하스웰(Haswell)의 절전 & 오버 클러킹 기능

 

 

[정보분석] CES 2013 Intel, Haswell을 탑재한 레퍼런스 하이브리드 PC 공개

 

 

[아키텍처] IDF 2012 인텔 차세대 주력 CPU Haswell(하스웰) 공개.

 

 

[정보분석] IDF 2011 인텔 하스웰(Haswell)의 다이와 절전 기술

 

 

[정보분석] Hasell(하스웰) 최강의 무기 통합 전압 조절기

 

[정보분석] Intel의 "Ozette"칩에서 Haswell(하스웰)까지의 전압 레귤레이터 통합​​의 길