벤치리뷰·뉴스·정보/아키텍처·정보분석

[아키텍처] IDF 2012 인텔 차세대 주력 CPU Haswell(하스웰) 공개.

tware 2012. 9. 15. 10:06

 

Intel의 강력한 신 마이크로 아키텍쳐

 

 

 

 

Per Hammarlund 씨 (Intel Fellow, 왼쪽)와 Ronak Singhal 씨

(Sr. Principal Engineer, 오른쪽)

 

Intel은 차세대 CPU 마이크로 아키텍처 "Haswell (하스웰)"의 개요를 밝혔다. 현재 샌프란시스코에서 개최되는 자사의 기술 컨퍼런스 "Intel Developer Forum (IDF)"에서 "4th Generation Intel Core Processor" 라고 이름 붙여진 Haswell 설명 세션이 진행되고 있다.

Haswell은 22nm 공정으로 제조되는 CPU다. 32nm의 Sandy Bridge를 22nm에 이식 한 Ivy Bridge와 달리 새로운 마이크로 아키텍쳐이다. 전체 칩의 확장점은 마이크로 아키텍처를 포함하여 많은, 지금까지의 Intel의 PC 용 CPU에서 큰 도약이다.

 

 

하스웰 특징

 

 

Tick Tock 비지니스 모델

(톡은 전 공정으로 신아키텍처 개발, 틱은 이 제품을 공정전환및 기능개선.)

 

Haswell은 Intel 개발 모델 인 '틱 톡 (Tick Tock) "모델 중 Tock에 해당하는 프로세서이다. 틱 톡은 2 년 마다 반도체 공정 기술을 혁신 (Tick), 그 중간의 2 년마다 CPU 마이크로 아키텍쳐를 쇄신 (Tock)하는 개발 모델이다. 22nm 프로세스를 시작하는 Tick이 Ivy Bridge (아이비 브릿지)에서 22nm에서 새로운 마이크로 아키텍처가 Haswell이다.

Haswell의 최대 포인트는 상당한 성능 향상과 전력 절감을 모두 이룬 것. 성능과 전력은 모순되는 것 같지만, Intel은 다양한 트릭을 사용하여, 상반되는 요소를 양립시키고있다. 또한 전력을 낮출 수록 코어 수가 많은 서버와 모바일 모두에서 유리하기 때문에 서버에서 태블릿까지 폭 넓은 라인업을 커버 할 수있다.

 

 

 

Ronak Singhal

 

성능은 새로운 명령어 확장 "AVX (Advanced Vector Extensions) 2"에서 FMA (덧 곱셈 합동 연산)를 지원하여 부동 소수점 연산 성능을 2 배로했다. 또한, 명령 발행을 확장하여 최대 8 내부 명령 (uOPs)을 동시 발행, 4 정수 연산을 병렬로 실행할 수 있도록했다 (현재는 6 uOPs / 3 정수 연산). 또한 연산 성능이 오른 프로세서 코어, 데이터 피드 메모리 계층을 크게 강화했다. 또한, 교착 상태를 자동으로 해결할 수 있는 트랜잭션 메모리를 하드웨어로 구현했다.

전력에서 Haswell은 복귀 지연 시간이 짧은 시스템 유휴 스테이트 "SOix"모드를 마련하여 유휴 전력을 기존의 20 분의 1로 억제했다. CPU의 각 장치의 전압 제어를 분리하여 작은 단위로 전압과 주파수를 제어할 수 있도록했다. 또한, 플랫폼 레벨에서 인터럽트 제어 유휴 들어가는 시간을 크게 늘리는 것이 가능했다.


또한 Haswell은 TDP (Thermal Design Power : 열 설계 소비 전력) 테두리를 아래로 넓히는 것으로, 기존의 Intel CPU보다 광범위한 분야를 포함한다. 10W 이하의 범위를 커버한다. 이러한 발상은 AMD와 닮아 있지만 크게 다른 것은 "우리는 매 세대마다 코어 당 성능을 늘려야 한다고 생각한다"(Haswell의 설계자 인 Ronak Singhal 씨, Sr. Principal Engineer , Intel) 라는 것이다.

 

 

 

 

 

 

해즈웰의 범위

 

 

2 코어와 4 코어, 3 종류의 GPU 코어와 패키지 옵션


Haswell의 CPU코어는  4 코어,2 코어 2 가지, GPU 코어 쉐이더 프로세서 수가 다른 세 가지 버전이있다. 그리고 GPU 코어는 GT1/GT2/GT3 3 버전 함께 제공된다. 또한, 4 코어와 GT3 조합의 하이 엔드 버전은 메모리 대역폭이 부족하므로 온 패키지에서 DRAM 칩을 올린 버전도 투입되는 것으로 알려져 있다.

 

 

 

샌디브릿지,아이비브릿지, 하스웰 GPU

(GT3 은 모바일 전용이라고 예전에 밝혔었습니다.)

 

그러나 이번 IDF에서는 전혀 그러한 버전에 대해서는 언급하지 않았다. 확실하지 않기 때문에, 같은 이유로, 온칩 전압 조정기에 물음표를 달고 있다. 또한 Haswell CPU에 PCH (Platform Controller Hub)칩 Lynx Point를 Multi-Chip Package(MCP)로 원 패키지화 한 제품도 울트라 모바일 전용으로 제공된다. Intel은 이 버전을 SoC (System on a Chip) 버전으로 부르고 있다.

 

 

 

모듈 옵션

 

Haswell의 전체 구조는 Sandy Bridge 계와 비슷하다. 링 버스가 CPU 코어, LLC (라스트 레벨 캐시) ,GPU 코어, 시스템 로직을 연결하고있다. Intel이 구조를 채용하는 것은 모듈화 된 장치의 노드 증감이 쉬운 링 버스로 연결하는 것으로, 파생 칩을 다수 낳을 수 있기 때문이다. 링은 유니 다이 렉 셔널 (1 방향)로 각 코어마다 상행과 하행 두 스톱이 있다.

 

 

 

링버스

 

 

하즈웰 구성도

 

 

 

프런트 엔드 확장은 제한적

 

 

 

하스웰 전시 시스템

 

 

Haswell은 전체 장치의 연결 토폴로지가 Sandy Bridge 계의 상태에서 각 코어의 파이프 라인도 전단만 보면 큰 변화에 보이지 않는다. 왜냐하면, 프론트 엔드의 명령어 인출 / 디코드 스테이지 군은 기존의 Sandy Bridge / Ivy Bridge와 비슷하기 때문이다. 그러나 명령 발행 아래의 백엔드와 캐시 주위는 크게 다르다. 이 부분은 공격적으로 확장되었다.

Haswell 핵심은 한마디로 백 엔드에 초점을 맞춘 개선 한 마이크로 아키텍처, 명령 발행 / 실행 파이프 라인을 보면 지난 몇 세대 (Nehalem-Sandy Bridge)보다 훨씬 큰 도약이다 있다. 구체적으로는 Merom 에서 Ivy Bridge까지 6 명령 발행을 계승하고 있었지만, 이번이 첫 확장 8 내부 명령 (uOPs) 발행 4 정수 연산된다.

아키텍트 Ronak Singhal 씨 (Sr. Principal Engineer, Intel)는 다음과 같이 말한다. "프런트 엔드 다소 확장은 있지만 거의 기존 아키텍쳐를 답습하고 있다. 명령 대역 등은 여전했다. 지금 거기에 큰 병목 현상이 없었기 때문이다. 물론 Haswell에서 분기 예측 를 일신하고 캐시 미스시의 지연 시간도 대폭 줄여 그것은 성능에 크게 기여하고있다. 그러나 프런트 엔드는 그 이상은 없다. Haswell의 포커스는 백엔드에있다. "

프런트 엔드는 백엔드와 비교하면 적지만, 그래도 일부, 공격적인 확장이 더 해지고있다. Singhal 씨가 언급 한 캐시 미스는 투기 캐시 미스 핸들을 행해, 미스시 지연 시간을 은폐한다. 분기 예측은 이번에도 자세한 내용은 밝혀 않지만 일신했다고 한다. uOPs 캐시 성능도 기여하고있다. 덧붙이면, uOPs 캐시는 Pentium 4 추적 캐시와 달리 uOPs 캐쉬의 태그가 L1 명령 캐시 태그와 끈 연결되어 있다.

 

 

 

프론트 엔드 분기 예측 개선

 

 

명령 발행 포트는 Merom 이후 큰 확장

 

(메롬이 코어 마이크로 아키텍처 이름, 타겟 자체가 노트북, 이후 데스크탑까지 확대=데탑= 콘로)


Intel의 현재 아키텍처의 명령 발행 포트는 다소 변칙적이고, 정수 연산과 부동 소수점 / SIMD 연산이 같은 명령 이슈 포트에 할당하고있다. 정수 연산 ALU는 총 3 유닛로드 / 스토어 파이프는 2였다. 그러나 Haswell 에서는 명령 발행 포트는 2 포트 늘고 8이 정수 연산 유닛과 스토어 파이프가 하나씩 늘었다. 따라서 Haswell는 4 정수 연산의 병렬 실행과 2로드와 1 저장소 동시성이 가능 해지고있다. 정수 연산 유닛의 포트는 "두 번째"분기 유닛도 배치되어있다.

 

 

 

 

마이크로 아키텍처 강화 (6포트, 7포트 2개의 포트가 추가)

 

 

하스웰 실행유닛 (노란색 테두리가 새롭게 추가된 부분들)

 

또한 포트 0과 포트 1에 각각 연결되는 AVX (Advanced Vector Extensions)의 256-bit 폭 SIMD 연산 유닛도 확장되었다. 기존 포트 0 AVX의 256-bit SIMD 곱셈 (MUL)에서 포트 1 AVX의 가산 (ADD)이​​었다. 그러나 Haswell에서는 포트 0이 256-bit SIMD의 (FMA)와 곱하기, 포트 1이 256-bit SIMD의 (FMA)로 곱하거나 가산되고 있다.

이제 벡터 유닛의 최대 연산 성능은 기존의 2 배로 뛰었다. 또한 멀티 중심의 경우도 2 유닛으로 병렬이다. 즉, CPU 코어 수가 같아도 FMA 명령어를 사용하는 경우, Haswell은 Sandy Bridge 대해 CPU 코어 측의부동 소수점 연산 SIMD 연산 성능은 2 배가된다. AMD의 Bulldozer 아키텍처에 대해서도 2 배다. 또한 AVX2 명령은 정수의 256-bit 폭 명령도 더해져,이 2 포트와 포트 5에서 실행된다.

 

 

 

새로운 명령어

 

 

명령어 세트 비교

 

 

피크 성능

 

재미있는 것은, AMD는 어느 쪽 일까  말하면, 부동 소수점 연산의 헤비 워크로드는 GPU 코어 쪽으로 기울고 있지만, Intel은 CPU 코어 측의 부동 소수점 SIMD 성능도 급격히 늘리고있는 점이다.CPU와 GPU의 균형, CPU 쪽으로 기울고 있는 것이 Intel, GPU 쪽으로  기울고 있는 것이 AMD이다.

 

또한 256-bit 폭의 SIMD FMA 유닛을 2 개 갖추고 있기 때문에 Haswell 이후 아키텍처는Larrabee/Knights 계의 512-bit 폭의 SIMD 명령을 물리적으로 지원이 용이해 졌다. Ronak Singhal 씨는 "그것은 장기적인 비전이다"라고 하지만, Intel이 그러한 가능성을 버리지 않는 것이 보인다.

포트 6 정수 장치. Intel은 Merom 이후 최대 4 명령 디코드의 프런트 엔드를 통해왔다. 그러나, 실행 파이프라인은 최대 3 정수 연산이었다. 이번 Haswell에서 명령 디코드 및 실행 파이프 정수 연산의 피크 대역폭이 일치했다. 또한 정수 연산 유닛은 포트 0과 포트 1에 벡터 명령이 발행 된 때 정수 연산을 실행할 수있다. 명령이 혼재하는 경우, 정수 측의 지연을 막을 수있다.  포트 7 스토어 어드래스 전용 포트로 인해 포트 2와 포트 3(로드 & 스토어 어드래스 유닛)을 로드 어드래스에 사용할 수 있게 된다.

Haswell은 다양한 버퍼와 항목의 크기도 확장되었다. 아웃 오브 오더 윈도우는 Sandy Bridge의 168에서 192로 증가했다. 로드 및 스토어 인플라이트  제어수도 증가 스케줄러 항목 수가 늘었다. AVX의 SIMD 물리 레지스터는 144에서 168으로 확장되고, 정수 레지스터도 160에서 168로 약간 증가했다. 또한 할당 큐는 지금까지 스레드에 분리되어 있던 것이 통합.

 

 

 

버퍼 사이즈 확장

 

내부 메모리 대역폭을 대폭 확장

 

Haswell에서 눈에 띄지 않으면서 중요한 것이 확장 메모리 계층 접근의 대폭적인 확장이다. 실행 코어의 성능을 대폭 늘린 때문에 데이터 피드 메모리 계층의 경로가 강화되었다. 먼저 L1에서로드는 매 사이클에 64 byte (512-bit)로드, 32 byte (256-bit) 스토어로 대폭 강화됐다. L2에서 L1에 대역도 기존 32 byte (256-bit)에서 64 byte (512-bit)로 확장되었다. 또한 L2 Translation Lookaside Buffer (TLB)도 크게 확장 되어 대규모 워크로드의 성능이 오른다.

 

 

 

캐시 메모리 대역폭 향상

 

 

캐쉬 메모리 강화

 

트랜잭션 메모리도 Haswell의 기둥의 하나다. 이것은 소프트웨어 개발자가 다중 스레드 응용 프로그램을 쉽게 작성할 핵심 기술이다. Intel의 구현은 모두 트랜잭션 메모리 추적하는 것이 아니라, 명령에서 명시한 코드 부분 등에 한정하는 방식이다. 

 

 

 

 

 

 

 

 

 

 

 

트랜잭션 메모리

 

Haswell의 강력한 절전 기능


Haswell는 절전 기능이 대폭 강화됐다. 먼저 S0 액티브 모드시의 전력과 S3 / 4 절전 전류 모두 낮춤. 또한, 절전에 가까울수록 전력 소모가 적은데, 복귀 지연 시간은 S0 수준으로 빠른 새로운 시스템 스테이트 "S0ix"이 설치되었다.이것은 Intel의 모바일 SoC (System on a Chip)의 "Medfield (메드 필드)" 와 비슷하다.

Medfield의 ​​"S0i"수준의 스테이트는 CPU 코어 C6과 전체 오프. 다른 기능 단위의 대부분은 전력 커팅 된 상태로 되어 있다. 그러나 Haswell의 경우, CPU 코어와 GPU 코어가 대부분을 차지하기 때문에 Medfield와 접근이 크게 다르다. Haswell의 경우, 칩 전체의 전압과 전력 제어를 기존보다 섬세한 단위로 분리하여 그들을 빠르게 전환하여 절전 상태를 늘린다. 그리고, CPU 코어 이외의 부분을 파워 게이트함으로써 유휴전력을 감소시키고 있다. 또한 거기에 맞추어, CPU의 절전 스테이트도 C6 (파워 게이트)보다 더 아래 스테이트 "C7/C8/C9/C10"이 설치 되었다. 예를 들어, C7은 CPU 코어가 꺼져 있고 디스플레이가 켜지는 모드로 되어있다.

 

 

 

 

 

 

 

 

 

전력 관리의 혁신

 

Haswell의 절전 방법에는 몇 가지 열쇠가있다. 하나는 PC가 절전 할 수 없는 원흉의 하나의 인터럽트 제어, Haswell는 "Power Optimizer"또는 "CPPM"라는 플랫폼 전력 관리 프레임 워크가 도입된다.이것은 Haswell가 전원 상태에있을 때, 가능한 오랫동안 절전 모드 상태에 둘 수 있도록 하는 기술이다. 주변 장치와 소프트웨어 인터럽트와 DMA 액세스를 정리하고 동기화 해 보다 긴 유휴 기간을 만들어 낸다.

 

 

 

S0ix 스테이트

 

 

전력 최적화

 

또 다른 열쇠는 전압 레귤레이터의 통합이다. 전압을 세밀하게 지역에서 신속하게 전환 할, Haswell 절전의 열쇠라면, CPU에 매우 가까운 곳에 고효율 전압 조정기가 구비되어 있다고 생각하는 것이 자연 스럽다. 문제는 이것이 온다이 (On-Die)인지? 온 패키지인지?  이 부분은 이번 기술 세션도 애매하게 되어 명확히 되지 않았다. Intel은 "현재는 다이 안에 세밀한 컨트롤이 행해지고 있다"라고 밖에 말할 수 없다고 하고있다.



전압 조정기가 Haswell에 통합되면, 이것은 매우 큰 변화다. 어쩌면, Intel이 Haswell의 다이 사진을 공개하고 싶어하지 않는 것과 관련 있는지도 모른다. 대개의 경우 이시기가 되면 차기 CPU의 다이는 밝혀지지만, Haswell는 공식적으로 밝혀지지 않았다.
이 밖에 Haswell에서는 GPU 코어도 구조가 크게 확장되었다.

 

 

 

Hasell GPU 코어

 

 

 

PC Watch  고토 히로시게

 

 

[벤치리뷰] 인텔 4세대 코어 i7-4770K 리뷰 : 하스웰 성능

 

 

[정보분석] GDC 2013 하스웰 탑재 울트라북 지금보다 게임이 잘된다? 인텔 확장 설명

 

[벤치리뷰] 코어 i7-4770K 하스웰 성능,프리뷰

 

[정보분석] IDF 2005 저스틴 래트너 미래의 기술

 

 

[정보분석] 하스웰 (Haswell)의 GPU 코어 아이리스(Iris) 왜 강력한가

 

 

[정보분석] 배터리로 20일간 아이들 상태로 가능한 차세대 Ultrabook

 

 

[정보분석] IDF 2013 Beijing에서 공개 된 하스웰(Haswell)의 절전 & 오버 클러킹 기능

 

 

[정보분석] CES 2013 Intel, Haswell을 탑재한 레퍼런스 하이브리드 PC 공개

 

 

[정보분석] Hasell(하스웰) 최강의 무기 통합 전압 조절기

 

[정보분석] Intel의 "Ozette"칩에서 Haswell(하스웰)까지의 전압 레귤레이터 통합​​의 길

 

[정보분석] 인텔의 2013년 CPU 하스웰로 이어지는 네할렘 개발 이야기

 

 

[정보분석] Intel의 차기 CPU 하스웰(Haswell) eDRAM의 수수께끼

 


[정보분석] IDF에서 보다. Google, Microsoft, Intel의 줄다리기

 

 

 

[정보분석] 인텔의 2013년 CPU 하스웰로 이어지는 네할렘 개발 이야기

 

[정보분석] Intel 4세대 Core 하스웰 프로세서의 내장 GPU 브랜드 Iris 와 성능을 공개

 

정보분석] 배터리로 20일간 아이들 상태로 가능한 차세대 하스웰 Ultrabook

 

[아키텍처] 차세대 CPU "Haswell"(하스웰) 의 2 배 강력한 GPU 코어

 

[정보분석] IDF 2011 인텔 하스웰(Haswell)의 다이와 절전 기술