벤치리뷰·뉴스·정보/아키텍처·정보분석

[분석정보] 인텔 데스크탑 eDRAM 버전을 포함한 브로드웰 패밀리 설명

tware 2014. 9. 11. 18:38

 

 

eDRAM 버전이 투입되는 하이엔드 그래픽 버전 Broadwell

 

Intel은 미국 샌프란시스코에서 개최되는 자사의 기술 컨퍼런스 "Intel Developer Forum (IDF)"에서 14nm 세대의 CPU 아키텍처 "Broadwell (브로드웰) '제품군 전체에 대한 개요를 설명했다.

현재는 아직 Core M (Broadwell-Y) 밖에 발표되지 않은 Broadwell 제품군이지만, 종래대로 서버까지 전방위로 제품이 투입된다. IDF는 아직 발표되지 않은 고성능 버전의 예로서 아래의 쿼드 코어가 나타났다. Haswell 과 같이 하이 엔드 그래픽에서는 eDRAM 버전이 투입된다.

 

 

Broadwell-Y의 다이 레이아웃

 

 

 

 

 

 

쿼드 코어 Broadwell의 개념도


 명령 실행 효율성인 IPC (Instruction-per-Clock)가 종래보다 향상. 부동 소수점 연산과 벡터 오퍼레이션의 실행 레이턴시가 낮아졌다. 유휴 전력은 60% 감소, 활성 전력은 30% 줄어든다. PCH (Platform Controller Hub)의 전력 관리는 더 치밀하게 되고, 통합 전압 레귤레이터 (IVR)의 구현도 변경되었다. CPU 코어 측은 마이너 체인지이지만, GPU 코어 측은 마이크로 아키텍처도 크게 바뀌어, 지원하는 API도 확장되었다. GPU에서 무엇보다 중요한 것은 공유 가상 주소 공간이 하드웨어로 지원되며, CPU 코어와 GPU 코어 사이의 데이터 교환이 쉬워진 것이다. 


 Broadwell의 특징 중에서도 가장 중요한 포인트는 물론 14nm 공정으로 제조되는 것이다. 공정 기술의 이점만으로 Broadwell는 전기용량을 65%까지 낮추고 최소 구동 전압을 10% 낮춰 저전압시 트랜지스터의 성능을 10 ~ 15%로 향상 누설 전류 (Leakage)를 반으로 줄였다. 전력 효율의 향상 대부분은 공정 기술에 의한 것으로 판명된다. 용량이나 전압의 저하율은 최근의 공정 이행 안에서 매우 양호하고, 14nm 공정은 Intel 에게는 강력한 공정이다.

 

 

 

 


 다만 Intel의 14nm 공정은 축소 비율도 높고, 논리 영역의 면적은 22nm 공정의 51 %까지 축소되고 있다. 다이 면적이 작아진다는 것은 전력도 상응해 줄지 않으면 전력 밀도 (Power Density)가 상승하는 것을 의미하고 있다. Haswell과 동일한 구성의 Broadwell 다이가 만약 50% 내외로 축소되고 활성 파워가 70%까지 밖에 줄어들지 않는다면, 전력 밀도는 오른다. 전력 밀도의 상승은 냉각을 어렵게 한다.

 

 

Intel 공정 기술의 로직 영역 스케일링

 

CPU 코어와 LL 캐시는 22nm 세대에서 50%로 축소

Broadwell의 다이 Haswell과 비교해 보면,이것이 잘 나타난다. 아래의 그림 위는 4 CPU 코어 + GT2 GPU 코어의 Haswell, 아래가 Broadwell-Y로 2 CPU 코어 + GT2 GPU 코어이다. 동일한 구성의 비교는 아니지만, Haswell에서 Broadwell의 수축이 잘 나타난다.

 

 

Haswell 4 + 2와 Broadwell 2 + 2의 다이 비교


 또한 이것을 파트별로 보면 아래 그림과 같다. CPU 코어와 2MB의 LL 캐시 슬라이스 다이 영역은 22nm Haswell로 부터 14nm Broadwell 까지 거의 50%로 축소되고 있다. Broadwell CPU 코어의 마이크로 아키텍처 확장은 작기 때문에 거의 로직과 SRAM이 미세화의 비율대로 작아지고 있다는 것을 알 수 있다. GPU 코어는 같은 GT2 클래스이지만 구조적으로 확장되고 있기 때문에 다이 면적은 69%로 되어있다. 이 비율에서도 Broadwell이 CPU보다 GPU의 확장에 중점을 둔 세대임을 알 수 있다.

 

 

Haswell 4 +2와 Broadwell 2 +2 다이를 파트별로 비교


 시스템 에이전트 및 I / O 영역의 축소율은 57%로, 이것은 축소율이 낮은 I / O 영역이 포함되어 있기 때문이다. DRAM 인터페이스도 마찬가지로 63%로 비율이 낮다. Broadwell을 Haswell 제품군의 다이와 비교하면 아래와 같다. Broadwell-Y 구성에 해당하는 Haswell 2 + 2로 이 구성끼리의 비교에서는 다이는 62%로 축소되고 있다.

 

 

다이 레이아웃

 

Broadwell는 2 +2 구성에서 더 TDP (Thermal Design Power : 열 설계 전력) 높은 레인지도 커버하기 때문에 이보다 다이를 축소하기 어려운 것으로 보인다. 반대로 말하면, GPU 영역을 늘리는 것은 열 관점에서 보면 당연한 흐름이다. CPU로 부터 오프로드 하는 코어 영역을 늘리지 않으면 다크 실리콘 영역이 생겨 버리기 때문이다.


CPU 마이크로 아키텍처는 소폭 개선
 Broadwell CPU 코어의 마이크로 아키텍처의 확장으로는 아웃 오브 오더 스케줄러 엔트리가 60에서 64으로 확장되었다. 이 엔트리가 Nehalem (네할렘)이 36으로, Sandy Bridge (샌디 브릿지)가 54로 계속 확장되고 있다. 또한 스토어 포워딩도 더 빨라졌다.

 L2 통합 TLB (Translation Lookaside Buffer)는 4KB로 2MB 페이지에서 1K 엔트리에서 1.5K 엔트리로 확장되었다. 또한 새로 1GB 페이지 L2 TLB 16 엔트리가 마련됐다. 분기 주소의 예측 기능의 정확성도 향상되었다.

 Intel은 연산계의 성능을 오랜만에 올렸다. 부동 소수점 곱셈은 지금까지 5 사이클 레이턴시에서 3 사이클 레이턴시로 단축됐다. 나누기는 Radix-1024 나누기 유닛의 레이턴시가 단축되고 처리량도 올렸다. 또한 Haswell에 더해진 Gather 명령도, 생성하는 마이크로 옵스 (uOPs)가 최대 60%로 감소되어 향상됐다. 이 밖에 암호화 및 보안에 관해서는 새로운 명령 등이 더해졌다.

 

 

 

 

 

 


 재미있는 기능으로는 프로세서의 실행 추적을 자동으로 메모리에 써내는 Intel Processor ​​Trace 모니터링 기능이 더해졌다. 또한 좀처럼 쓸수 없는 Transactional Synchronization Extensions (Intel TSX)에 대해서도 새로운 명령이 더해졌다.

전압 레귤레이터는 인덕터만을 도터 보드에
 Intel CPU의 절전 기술의 핵심인 통합 전압 레귤레이터 (IVR : Integrated Voltage Regulator)는 Broadwell에서 큰 변화가 있다. Haswell에서는 IVR 인덕터를 CPU 패키지의 배선층에 생성하고 있었지만, Broadwell에서 인덕터는 CPU 패키지 아래의 도터 보드 "3DL 모듈"로 옮겨졌다. Haswell CPU 패키지의 후면에 있던 둥근 트레이스가 사라지고 Broadwell-Y에서는 그 부분은 아래에 튀어 나온 도터 보드로 내밀게 됐다.

 

 

(위 그림은 데스크탑 LGA가 아닌 노트북,태블릿 용도의 BGA (보드 납땝방식) 블로드웰-Y 그림 입니다.)


 Haswell의 IVR은 온다이에 구현된 DC-DC 컨버터와 고밀도 "MIM (metal-insulator-metal) 커패시터" 그것에 온 패키지 "패키지 트레이스 인덕터 (package trace inductor)"로 구성된다. IVR 단위 중 인덕터 부분만 온다이가 아닌 패키지 측에있다. 온다이와 패키지를 모두 사용한 통합이었다.

 CPU용 전압 레귤레이터를 칩에 통합하는 경우 가장 큰 문제가 되는 것은 큰 개별 부품 인 인덕터의 통합이다. Intel은 CPU의 패키지 기판에 에어 코어 인덕터 (Air Core Inductor : 공심 인덕터)를 생성했다. 기판의 PTH (Plated Through-Hole)과 트레이스 (Trace)를 사용해 에어 코어 인덕터를 만든다. PTH의 주위를 돌아 들어가는 코일 모양으로 되어 있는 것 같다. 비 자성 재료의 트레이스이기 때문에 표준 패키지 기술로 제조 할 수 있다.

 

 

 

 


 IVR은 전압 전환이 고속으로 진행되기 때문에 인덕터의 용량도 상대적으로 작게 끝난다. 그에 따라 패키지 내의 배선을 사용한 인덕터도 가능하게 되었다. 이 기술로 마더 보드의 CPU 측에도, 칩 패키지에도 개별 어레이 커패시터를 배치 할 필요가 없어졌다. Broadwell 에서는 다이에 내장된 벅 컨버터와 MIM 커패시터는 그대로, 패키지 측의 인덕터를 3DL로 이동시켰다.

 Intel의 Srinivas Chennupaty 씨 (Sr. Principal Engineer, CPU Chief Architect, Intel)는 그 이유에 대해 CPU 패키지를 얇게하고 싶다는 요구가 있었기 때문이라고 설명한다. 패키지 트레이스 인덕터를 사용하면 코일 때문에 패키지를 두껍게 해야 한다. 패키지 두께를 얇게하기 위해 패키지 트레이스 인덕터를 분리하는 것은 논리적이다. (스카이레이크에서는 다시 하스웰 이전으로 돌아가서인지 패키지가 얇아지죠)

 또 다른 Intel 관계자는 패키지 트레이스 인덕터 노이즈가 큰 문제 였다고 설명한다. 실제로 Intel의 과거 논문에서 패키지 트레이스 인덕터의 EMI를 어떻게 누를까가 논의 됐었다.

 

 

Intel이 4년 전에 패키지 트레이스 인덕터의 EMI 특성을 설명한 슬라이드

 

 Intel의 연구를 보면 회사의 목표 IVR의 골은 온다이에 인덕터를 포함해 통합하는 것이다. Broadwell의 구현은 그러한 흐름에서 보면 역행하는 것으로 보인다. 또한 Skylake (스카이레이크)는 전압 레귤레이터의 사양이 달라져 더욱 후퇴한다는 소문도 있다. 전압 레귤레이터의 통합은 현재도 흔들리고 있는 중이다. (사실이고, 그 다음의 CPU에 다시 들어간다는 소문도.. 유저들은 모르는 여러 난점을 해결하고 다시 쓸 수 있을 때 쓰는게 아닐지..)

 이러한 불안을 불식하기 위함인지, Intel은 IDF 에서 IVR의 효율성 향상을 강조했다. 저전압시의 손실을 줄이고 전압 하강의 속도를 향상시키는 등의 개량을 행했다고 한다.

 

 

GPU 코어의 내부 구조를 개선


 Intel의 틱톡 모델은 사실 CPU 코어와 GPU 코어의 확장의 교체 모델이기도 하다. 공정이 미세화 된 최초의 틱 세대는 미세화 뿐만 아니라 GPU 코어가 크게 강화되는 경향이 강하다. 그리고 미세화의 2세대 톡 세대는 CPU 코어가 강화된다. Broadwell은 틱이기 때문에 GPU 코어가 더 강화되고 있다. 커스텀 설계의 CPU 코어와 로직 합성 부분이 대부분의 GPU 코어의 차이이다.

 

 

 

 

성능 / 전력 향상은 공정 기술과 회로 설계 기술도 기여

 

 Broadwell GPU 코어의 확장은 다양하게 이어진다. 공정 기술과 회로 설계 기술에 의한 전력 효율성도 있지만, 그 이상으로 마이크로 아키텍처의 확장의 비율이 크다.

 Broadwell GPU 코어는 Haswell GPU 코어와 내부 마이크로 아키텍처가 다르다. Haswell GPU 코어는 연산 코어의 최소 단위 "Sub-Slice (서브 슬라이스) (하프 슬라이스 라고도 함)"는 10 개의 EU (execution unit)를 갖추고 있었다. EU는 4-way의 SIMD (Single Instruction, Multiple Data) 유닛을 2 개 갖추고 있어 각각의 SIMD가 다른 스레드의 명령을 실행 가능하다.

 또한 텍스처 유닛 (그림 중에서는 3D Sampler로 되어있다.) 텍스처 L2 캐시 등도 서브 슬라이스에 갖추고 있다. Haswell GPU의 경우는 2 개의 서브 슬라이스에서 "Slice Common (슬라이스 공통)"로 부르는 공유 유닛을 공유한다. 슬라이스 커먼에는 폴리곤에서 픽셀로 변환하는 래스터 라이저와, 화면 픽셀을 가공하는 픽셀 백엔드와 L3 캐시, 렌더링 / 깊이 캐시 등의 유닛 군이 포함된다.

 

Haswell GT2의 블록 다이어그램


 이에 비해 Broadwell에서는 서브 슬라이스는 2 유닛이 아니라 3 유닛이 되고, 각 서브 슬라이스가 각각 8 개의 EU를 갖춘다. 따라서 EU에 대한 텍스처 유닛의 비율이 바뀌었다. 기존에는 10 EU에 1 텍스쳐 유닛이었던 것이 8 EU 1 텍스처로 텍스처의 비율이 높아졌다. 즉, 상대적으로 텍스처 성능이 높아졌다. Intel은 FLOPS 텍스처 비율이 40 대 1에서 32 대 1이 되었다고 설명하고 있지만 같은 뜻이다. 연산 대 텍스처 비율은 그래픽 최적화에 영향을 준다. 또 통상 GPU는 연산 유닛 수를 4의 배수로 하지만, Intel의 경우는 SIMT (Single Instruction, Multiple Thread) 형의 제어가 아니기 때문에, 4의 배수에 얽매이지 않는다.

 

 

 

 

Broadwell의 GT2

 

또한 Broadwell은 위의 슬라이드 중에서 가장 왼쪽에 있는 3D 그래픽 처리의 고정 기능 유닛 군을 강화했다. 지오메트리 파이프에 대해서는 성능이 2 배가 되었다고 한다. 일반적으로 지오메트리 파이프의 개량을 할 경우는 파이프를 2 개로 하고 그 아래의 쉐이더 프로세서도 2 분할하여 2 개의 GPU와 같이 제어한다. 그러나 Broadwell의 경우 이러한 확장은 수행하지 않은 것 같다.


공유 가상 메모리를 지원하는 Broadwell
 GPU 아키텍처 측면에서 Broadwell에서 가장 중요한 확장은 공유 가상 주소 공간 (Shared Virtual Address Space) 이다. Broadwell은 GPU 코어와 CPU 코어 군이 같은 가상 메모리 주소 공간을 공유 할 수 있다. 따라서 CPU 코어와 GPU 코어 사이에 주소 포인터로 데이터 전달이 가능하다.

 Intel은 MIC 아키텍처에서 소프트웨어 제어의 공유 가상 메모리 (SVM : Shared Virtual Memory)를 도입하고 있지만, Broadwell의 경우 하드웨어 제어이다. 소프트웨어 제어의 입도 큰 (페이지 기반) SVM과 달리 Broadwell는 캐시 라인 단위 정도의 입도 작은 SVM을 지원하고 GPU와 CPU 사이는 아토믹 오퍼레이션으로 동기를 취한다. 

 또한 Broadwell에서 하드웨어 기반의 메모리 코히렌시 시스템을 갖추고 있어 CPU 측과 GPU 측 모두에서 캐시 스눕이 이뤄진다고 한다. 이 점에서, GPU 측에서 스눕 밖에 할 수없는 AMD보다 진보된 사양이 되고 있다. 그러나 Intel도 방대한 업데이트가 발생하는 GPU 캐시에 대한 스눕 트래픽 경감 방법 등에 대해서는 아직 밝히지 않았다.

 공유 가상 주소 공간은 GPU 컴퓨팅의 필수 단계이다. 이 기능에 의해 Broadwell 이후는 Intel GPU 코어를 사용한 범용 응용 프로그램의 개발이 훨씬 쉬워질 것으로 추측된다. 비슷한 기능은 AMD도 APU (Accelerated Processing Unit)의 하드웨어에서 NVIDIA는 소프트웨어로 구현하고 있다. 이 기능의 구현은 Intel 내장 GPU 코어의 GPU 컴퓨팅에 적극적임을 보여주고 있다.

 Broadwell의 GPU 코어도 Haswell과 같이 복수의 구성으로 제공된다. 현재 밝혀지고 있는 것은 GT2 사양이지만, GT3가 GT2의 두 배 구성이라고 하면, 아래와 같은 구성이다. 부동 소수점 연산 유닛 수는 384 유닛 (절반의 192 유닛은 슈퍼 펑션 유닛과 공유).

 

 

Broadwell의 GPU 코어의 변형


 Broadwell GPU 코어에 관해서는 IDF 2 일째에 집중적인 세션이 진행될 예정으로, 이후에 더 상세한 리포트를 하고 싶다. 덧붙여서, Intel은 2세대 eDRAM의 개요는 이미 올해 (2014년) 6월의 "VLSI Symposium (Symposium on VLSI Technology and Circuits)" 에서 발표했다. 셀 영역 크기는 기존과 다르지 않기 때문에 eDRAM의 최대 용량도 변하지 않을 전망이지만, 대기시의 전력은 크게 감소된다. 이것은 보존 시간이 100μsec에서 300μsec로 크게 늘은것 위에 온도에 따라 리프레시 타이밍을 바꾸는 기능이 더해졌기 때문이다.

 

 

 

 

 

 

Haswell의 eDRAM 아키텍처. 2 세대 eDRAM도 기본 구조는 비슷하다.

 

 

Compute Architecture of Intel Processor Graphics Gen8.pdf

 

 

 

2014년 9월 11일 기사 입니다.

 

[분석정보] AMD가 Hot Chips에서 Richland에서 확장한 전력 제어 장치 등을 발표

 

 

[분석정보] 고밀도 서버 전용의 Atom을 대체하는 Broadwell 기반 Xeon D

 

 

[분석정보] 인텔 팬리스 PC를 위한 Core M 프로세서

 

 

[분석정보] Intel의 eDRAM 칩은 128 뱅크 구성에 읽기, 쓰기, 리프레시를 병렬

 

 

[분석정보] Haswell 절전 기능의 열쇠 "FIVR" 과 그 이후

 

 

[분석정보] ARM 코어의 다양한 라이센스 모델과 CPU코어의 설계 흐름

 

 

[분석정보] 라라비 (Larrabee)의 비장의 카드 공유 가상 메모리

 

[정보분석] CPU와 GPU의 메모리 공간을 통일하는 AMD의 hUMA 아키텍처

 

 

Haswell과 Broadwell의 사이에는, DirectX 12관련의 중요한 차이가 있다

 

 

[벤치리뷰] 인텔 코어 i7-5775C 리뷰

 

 

[분석정보] 광대역 메모리의 채용을 가능하게 하는 Intel의 새 패키징 기술 EMIB

 

 

[분석정보] AMD Kaveri의 메모리 아키텍처와 향후의 APU 진화

 

 

[분석정보] 모바일 SoC에서 다크 실리콘의 속박

 

 

 
Compute Architecture of Intel Processor Graphics Gen8.pdf
2.24MB