벤치리뷰·뉴스·정보/아키텍처·정보분석

[아키텍처] 차세대 CPU "Haswell"(하스웰) 의 2배 강력한 GPU 코어

tware 2012. 9. 14. 20:00

 

Ivy Bridge의 GPU 코어의 연장선에 있는 Haswell GPU 코어
 

Intel의 차세대 CPU 마이크로 아키텍쳐 "Haswell '은 CPU 코어가 일신될 뿐만 아니라 내장 GPU 코어도 대폭 강화 되었다. CPU 코어쪽 부동 소수점 연산 성능을 배가시킨뿐만 아니라 GPU 코어측의 부동 소수점 연산 성능도 최대 구성은 두배로 된다. 그러나 이것은 GPU 코어가 최대 구성의 경우인 모바일용 하이 엔드 제품 뿐이다. Haswell의 데스크탑 제품과 메인 스트림 모바일 제품의 GPU 코어 Ivy Bridge를 다소 강화 정도에 그친다.

 Haswell의 GPU 코어 아키텍처는 Ivy Bridge의 연장에 있다. Ivy Bridge의 CPU 코어 부분은 Sandy Bridge와 거의 같지만, GPU 코어 부분은 일신되어 확장 가능한 모듈 형 구성으로 되어 있다. Ivy Bridge 때 작성한 GPU의 틀에서 GPU 코어를 확장 한 것이 Haswell의 GPU 코어이다. Haswell의 GPU 코어 최대 구성은 AMD의 Fusion에 어느 정도 같게한다.

 Haswell의 GPU 코어는 아래의 슬라이드와 같은 구조로 되어있다. Ivy Bridge와 비슷하며, DirectX 11.1 세대다. 그러나 연산 유닛의 구성이 작은 "GT1"GPU 코어와 중간 "GT2 '코어 외에도 구성이 큰"GT3 "코어가 있다.

 

 

 

 

Haswell 아키텍처

 

 

Haswell SKU

 

 

그래픽 기능 비교

 

 

Haswell GPU 코어는 크게 6 개의 부분으로 나뉜다. 아래의 슬라이드 중에서 가장 왼쪽에있는 (1)는 3D 그래픽 처리에 필요한 고정 기능 유닛 군에서 Intel은 "Global Assets"라고 부르고 있다. 쉐이더 GPU 코어 프로세서에서 달리게 위한 설정은 모두 여기에서 행한다.

 

 

Haswell GPU코어 블럭

 

(2)는 "Slice Common "라고 불린다. 다각형에서 픽셀로 변환하는 래스터 라이저나 화면 픽셀을 가공하는 픽셀 백엔드와 L3 캐시, 렌더링 / 깊이 캐시등의 공유유닛 군으로 구성되어 있다. (3)는 "Sub-Slice "또는 "Half-Slice "라는 유닛으로, 연산 유닛의 무리이다 "EU (Execution Unit)"와 텍스처 유닛 (그림 중에서는 3D Sampler 이다), 텍스처 L2 캐시 등으로 이루어져있다. Haswell의 경우, 슬라이스 공통 및 1 ~ 2 개의 서브 슬라이스가 1 개의 슬라이스 (Slice)로 구성되어 있다.

 그림의 (4)는 비디오 디코딩 및 인코딩 할 "Multi-Format Video CODEC Engine (MFX)"(5) 비디오 화질 처리를 행하는 "Video Quality Enhancement Engine"(6) 화면에 표시 하는 디스플레이 엔진이다.

 위의 슬라이스를 GPU 인 파이프 라인 다이어그램 내역이 다음의 그림이다. 그림 중에서 Half Slice로 되어있는 것이 서브 슬라이스, 슬라이스에서 서브 슬라이스에 포함되지 않은 부분이 슬라이스 공통이다.

 

 

 

 

Haswell GPU (슬라이스가 2개면 GT3, 1개면 GT2 이하

GT2를 다시 하프슬라이스만 쓰거나, GT2를 전부 쓰지만 EU등이 죽은 형태가 되다면

GT1. 같은 EU를 가진다면 당연히 하프슬라이스만 쓰는 때 보다, GT2의 2 하프슬라이스를 다 쓰지만 EU만 같은 형태가 성능상 더 높음. 그러나 아무래도 GT2에서 하프슬라이스 1개만 쓰는 형태가 되겠죠.)

 

 

Ivy Bridge GPU (하프 슬라이스가 2개면 HD4000(GT2) , 1개면 HD2500이하(GT1))

 

 

Sandy Bridge GPU (EU가 12개면 HD3000(GT2), 6개면 HD2000이하(GT1))

 

 

확장에 확장 할 Haswell의 GPU 코어 아키텍처


 Haswell GPU 코어의 각 블록 중 프런트 엔드에 맞는 글로벌 자산은 GPU의 명령어 흐름을 제어하는​​ Command Streamer가 추가되었다. 이러한 장치는 타사의 GPU도 갖추고있다. 또한 GT3 구성 내용은 3D 기능 파이프 라인의 각 기능이 약 2 배의 성능으로 확장되었다. 또한, 슬라이스 안에 텍스처 유닛이 Ivy Bridge보다 크게 향상되었다.

 

 

 

하스웰 GPU 코어 명령 스트리머

 

 

파이프라인

 

그러나 Haswell GPU 코어의 가장 큰 포인트는 Ivy Bridge에서 채용한 GPU 코어 내부의 모듈 형 설계를 사용하여 GPU 코어의 구성을 크게 한 것이다. 지금까지 Intel의 내장 GPU 코어는 칩셋에 GPU 코어를 내장하고 있던 시대와 마찬가지로 저가형 GPU 코어 구성 상태였다. 그러나 Haswell에서는 AMD의 Fusion과 마찬가지로 메인스트림급 GPU 코어에 필적하는 구성의 GPU 코어를 내장한 버전을 준비한다.

 

 

샌디브릿지,아이비브릿지,하스웰별 GPU 코어 구성

 

Intel이 처음으로 GPU 코어를 CPU 코어에 내장 한 Sandy Bridge는 두 가지의 내장 GPU 코어가 대규모 구성의 것이 GT2 작은 구성 GT1 이었다. Intel GPU 코어는 4 개의 단정밀도 연산 유닛을 갖춘 EU (execution unit)가 기본 단위로 되고 있다. Sandy Bridge의 최소 구성 GT1은 6 개의 EU 24 개의 연산 유닛의 구성이었다. GT1의 24 연산 유닛이라는 구성은 Haswell의 최소 GPU 코어 GT1에서도 변함 없다. Ivy Bridge는 최대 구성 GT2는 16 개 EU에서 총 64 개의 단정밀도 연산 유닛을 갖추고 있다.

 이것이 Haswell로 가면 6 EU 24 연산 유닛의 GT1과 20 EU 80 연산 유닛의 GT2, 거기에 40 EU 160 연산 유닛의 GT3 구성된다고 되어 있다. 이러한 확장이 가능하게 된 것은 Ivy Bridge 이후의 Intel GPU 코어가 NVIDIA 및 AMD와 같은 모듈 구성되며, 확장이 용이하게 되었기 때문이다.

 

 

 

 

GT3 공통 슬라이스

 

 

GT3 서브 슬라이스

 

Haswell의 GPU 코어는 서브 슬라이스 2 개와 슬라이스 공통 1 조각을 구성한다. 이것으로 정점을 파견 한 후에 모든 처리 파이프 라인이 들어가있다. 따라서 슬라이스를 늘리면 연산 성능뿐만 아니라 래스터도 픽셀 작업도 캐쉬 량도 모두 두배가 된다. 말하자면 슬라이스가 CPU 코어 수 같게 되어있어 코어 수를 비교적 자유롭게 늘릴 수있는 구조로 되어있다. 따라서 하이 엔드 GT3을 올린 Haswell은 AMD의 Fusion에 접근한다. 아직 연산 유닛 수가 2 배 이상 차이가 있지만, 지금까지와 같은 비교가 되​​지 않는 수준이 아니다.

 

 

하스웰과 트리니티 GPU 비교

 

또한, GT3는 온 패키지로 eDRAM을 올렸다 Multi-Chip Package (MCP) 구성으로 제공되는 것으로 알려져 있었다. 이에 대해서는 자세한 내용은 아직 모른다.

 

 

비디오 엔진은 4K 비디오를 지원


 Intel의 GPU 코어 군의 특징은 비교적 강력한 비디오 코덱 엔진을 탑재하고 있으며, 또 GPU 코어 측에도 비디오 프로세싱에 적합한 기능이 탑재되어 있는 것이다. 비디오 엔진과 GPU 코어도 밀접하게 연결되어 있으며, 고정 기능 유닛과 GPU 코어 프로세서의 조합으로 비디오 인코딩 / 디코딩을 행하는 구조로 되어있다. 비디오에 강한 GPU 코어라는 전통은 Haswell에서도 계승되고 새로 'Video Quality Engine "이 더해지고 있다.

 

 

비디오 코덱

 

 

하스웰 디오 기능 강화

 

 

비디오 품질 엔진

 

 

미디어 블럭

 

Intel GPU 아키텍처의 특징은 GPU 프로세서측에 비디오와 같은 미디어 처리를 위한 장치가 추가 된 점이다. 비디오의 픽셀 처리 장치 및 비디오 데이터 가져 오기 / 필터링 장치가 구비되어 있다. Haswell 영상 엔진 확장의 중심은 4K 해상도에 대응으로, 3,840 × 2,160 도트 60Hz로 DisplayPort 1.2 출력 또는 4,096 × 2,304 도트 / 24Hz로 HDMI 출력을 지원한다.

 

 

저전력 디코딩 엔진

 

 

4k 해상도 대응

 

 

4k 영상 지원

 

하드웨어 가속을 하는 비디오 인코더도 Haswell은 강화되어 있다. 또한 소비 전력을 억제한 구조도 더해지고 있다. 전용 하드웨어의 비율을 늘려 전력 효율을 올리는 외에도 GT3 구성은 GPU의 서부코어마다 슬라이스 단위의 파워 게이팅을 동적으로 수행 할 수 있다.

 

 

비디오 인코더 강화

 

 

인코더 기능

 

 

Quick Sync Video 비교

 

 

비디오 품질 향상

 

 

저소비 저전력

 

또한 Haswell도 Bridge 제품군과 마찬가지로 GPU 코어가 링버스 메모리 컨트롤러에서 가장 먼 곳에 배치되어 있다. 그러나 Haswell에서는 CPU 코어와 링, 이것과 LL (Last Level) 캐시 각각의 전압과 주파수 영역이 분리되어 세밀한 제어되게 되었다. 따라서 CPU 코어가 유휴에서 GPU 코어가 작동하는 경우도 링 버스의 주파수만 올리고, GPU 코어와 메모리 사이를 고속으로 연결될 수 있다. 이러한 Haswell의 핵심이다. 세밀한 전력 제어도 그래픽 작업시의 절전에 기여하고 있다.

 

 

하스웰 아키텍처

 

pc watch

 

[정보분석] Intel 4세대 Core 프로세서의 내장 GPU 브랜드와 성능을 공개

 

 

[정보분석] 배터리로 20일간 아이들 상태로 가능한 차세대 Ultrabook

 

 

[정보분석] CeBIT 메인보드 제조사 제4세대 코어 프로세서용 메인보드 전시

 


[정보분석] CES 2013 Intel, Haswell을 탑재한 레퍼런스 하이브리드 PC 공개

 

 

[정보분석] IDF 2011 인텔 하스웰(Haswell)의 다이와 절전 기술

 

 

[아키텍처] IDF 2012 인텔 차세대 주력 CPU Haswell(하스웰) 공개.

 

[정보분석] Hasell(하스웰) 최강의 무기 통합 전압 조절기

 

[정보분석] Intel의 "Ozette"칩에서 Haswell(하스웰)까지의 전압 레귤레이터 통합​​의 길

 

 

[분석정보] Ivy Bridge의 강화 포인트는 GPU 아키텍처의 개혁