벤치리뷰·뉴스·정보/아키텍처·정보분석

[분석정보] 14나노 공정 세대의 서버 CPU 브로드웰-EP의 모듈러 설계

tware 2016. 4. 1. 19:00


22nm 공정 세대에서 물리 코어 수는 50% 증가


Intel은 14nm 공정 세대의 서버 CPU 패밀리 "제온 프로세서 E5-2600 v4"를 발표했다. 코드 네임은 "Broadwell-EP"이다. 듀얼 소켓용인 "Xeon E5-2 계다. Intel은 이 세대에 한층 CPU 코어 수를 늘려 최대 구성은 22 코어가 된다. 또 메모리는 DDR4를 지원하고 메모리 전송 속도는 최대 2,400Mtps가 된다.


Broadwell-EP 발표


 Intel은 65nm의 Tulsa에서 2코어, 45nm의 Nehalem-EX에서 8코어, 32nm의 Westmere-EX 10코어, 22nm의 Haswell-EX에서 18 코어로 공정 세대마다 다이 상의 CPU 개수를 늘려왔다. 코어 수의 증가는 2 -> 8 ->10 -> 18으로 변칙적이다. 이번에는 Haswell에서 Broadwell로 CPU 코어 아키텍처가 마이너 체인지, CPU 코어 개수는 18 -> 24로 50% 증가했다. 다만 중복성을 위해 24 코어 중 현재의 SKU로 사용되는 것은 22 코어까지로 되어있다. 즉, 최대 구성의 제품에서도 22 코어이지만, 물리적으로 24 코어가 다이에 실려있다..


 중복 코어가 설정되어 있는 것은 대형 다이가 되면 다이에 결함 (defect)이 포함될 가능성이 높아지기 때문이다. 논리 회로는 defect에 약하고, 때문에 불량에 의한 수율이 저하된다. 400 제곱 mm을 넘는 칩의 경우 결함이 있는 다이는 매우 많아진다. 결함이 포함 된 다이를 모두 파기하면, 수율은 현저하게 낮아진다.

 따라서 GPU나 게임기용 APU등 에서는 결함에 의한 불량 코어의 발생을 내다보고 로직 부분에 중복성을 갖게 하는 것이 일반적이다. 현재 Broadwell-EP의 구성은 24 코어 중 2 코어가 불량이어도 출하 가능하다. SRAM 부분도 대체 셀로 중복성을 가지기 때문에 수율은 일정하게 끌어 올리는 것이 가능하다. Broadwell-EP의 24 코어는 그러한 목적으로 보인다.



다이 크기를 작게 멈춘 Broadwell-E 계열


 이번 Intel은 공정을 미세화 했음에도, 코어 수는 50% 증가에 멈췄다. CPU 코어 자체의 확장은 작기 때문에, 코어 면적은 축소되고, 다이 크기는 이전 세대보다 축소되었다 (같은 공정이면 약간의 코어 확장으로 코어당 크기가 커지지만, 공정이 바뀌기 때문에 실제로는 작아짐). Broadwell-EP의 다이 크기는 최대규모인 24 코어의 다이에 관해서 웨이퍼로부터 역산이 된다. 300mm 웨이퍼에서 Broadwell-EP의 개수에서 다이 면적은 450 제곱 mm 가량이 된다.

Intel의 서버 CPU의 다이 크기



 과거 최대 구성의 Intel 서버 CPU의 다이를 보면, 22nm 공정의 Haswell-E 계열이 18 코어로 662 제곱 mm. Ivy Town이 15코어로 541 제곱 mm. 높은 코어수의 서버 CPU로는 Broadwell-EP의 다이 크기는 Tulsa의 435 제곱 mm 이후의 소형 다이가 된다. Haswell-EP / EX와 비교하면 68%의 다이 면적이다. Intel의 14nm 공정의 트랜지스터 밀도는 높기 때문에, 더 작게 다이가 축소되어도 좋을 것 같지만 I / O 부분 때문에 그렇게는 되지 않는다. 현재의 공정 기술에서는 I / O 부분은 축소 비율이 낮기 때문에, 코어 부분의 크기가 축소되도 I / O가 그다지 작아지지 않는다.

Broadwell-EP 웨이퍼



 Intel은 현세대에서 서버 CPU의 다이 크기를 기존의 70% 전후로 축소했다. 그 배경에는 다이를 작게 할 수밖에 없는 경제적인 사정이 있다고 생각된다. 현재는 공정 세대마다 공정의 끝 웨이퍼의 비용이 상승하고 있다. 그것도 비용 상승률이 오르고 있어, 다이 면적 당 비용은 세대마다 점점 오르고 있다. 이것은 공정의 복잡도가 증가, 웨이퍼 처리량이 떨어지고 있기 때문이다. 급격히 증가하는 공정 개발 비용도, 비용 증가를 밀고 있다. 공정을 미세화하면 같은 정도의 다이 면적의 칩 비용은 상승해 버린다.


 Intel은 다이 면적 당 트랜지스터나 배선 밀도를 올리는 것으로, 이 문제를 해결하려고 한다. 즉, 보다 조밀한 칩으로 해서, 다이를 축소하고 다이 면적당 비용 상승을 상쇄하려고 한다. 따라서 Intel은 공정의 미세화를 진행하면서, 비용을 일정하게 억제하기 위해서는 각각의 제품의 다이를 축소하지 않으면 안된다. 이것이 Broadwell-EP에 발생하고 있는 것이라고 추측된다.

왼쪽의 차트가 비용 상승을 보인다



모듈러 설계 Broadwell-EP


 24 코어 (SKU는 22 코어)의 Broadwell-EP의 구성은 아래와 같다. 기본은 Haswell-EP와 마찬가지로 이중의 링 버스가 2계통 둘러있다. 각 링마다 CPU 코어와 LL 캐시 슬라이스가 링 스톱에 연결되어 있다. 2개의 링쌍끼리는 버퍼 스위치에 의해서 상호 연결되어 있다. 버퍼 스위치는 상하 2개소에 설치되어 있다. 외부 I / O와 메모리 인터페이스도 링 스톱에 연결되어 있다.


Broadwell-EP 24 코어의 다이어그램


 이 구조는 Haswell-EP / EX와 기본적으로 동일하다. 아래는 Haswell-EX의 구성도다. CPU 코어 수는 다르지만, 2 쌍의 링에 코어와 I / O가 배치되어 있는 점은 공통이다. 그림에서 QPI 인터페이스가 3 계통 있는 것은 EX 계통이기 때문이다 (EX = Xeon E7). 실제로 Broadwell-EP도 다이에는 3번째의 QPI 링크가 있고, EP 계열 제품으로 비활성화 되어 있는 것으로 추측된다.


Haswell-EP / EX 모듈 설계


 Intel은 CPU 설계에서 물리적 설계를 유용 가능한 모듈러 디자인을 채택하고 있다. 논리 합계 기반의 설계 방식과는 달리, 각 모듈의 물리적 설계를 조합하는 것으로, 복수의 CPU 제품 설계를 가능하게 한다. Broadwell-EP / EX계에서도, 이 모듈러 설계 수법이 활용되고 있다. 최대 규모의 구성부터 모듈을 삭제(절단)하는 것으로 소규모 구성의 칩을 설계 가능하다고 한다. 아래는 Haswell 세대에서 삭제에 의한 다이 파생이다.


Haswell-EP / EX의 다이 파생


 이 구조에 의해 Broadwell-EP에서도 기본 설계부터 다른 3 종류의 다이를 파생시키는 것이 가능하다. 최대인 HCC (High Count Cores)의 24 코어 다이는 각 링 쌍에 6 코어 × 2인 12 코어가 연결되어있다. 12 코어의 2 링으로 총 24 코어가 된다. MCC (Medium Core Count)인 15 코어의 다이는 각 링 쌍의 코어 수가 5 코어 × 2인 10 코어로 감소되어 있다. 게다가 오른쪽 열이 삭감된 15 코어가 된다. LCC (Low Core Count)인 10 코어 다이는 1 링 쌍에 5 코어 × 2의 10 코어 구성이 된다.


Broadwell-EP 제품군의 링 버스 구성


 조금 재미있는 것은, Broadwell-EP도 Haswell-EP도 2 개의 링 쌍의 코어 배치가 대칭이되어 있지 않은 점이다. 좌측의 링 쌍은 CPU 코어가 외향으로 LL 캐시가 오른쪽. 우측의 링 쌍은 CPU 코어가 오른쪽으로 배치되어있다. 또 Broadwell-EP의 구성은 코어 배치만을 보면 IvyTown과 같지만, 링 버스가 달라, 링이 단순화 되어있다.


IvyTown 링 버스


 CPU 아키텍처 면에서는, 이번 LL 캐시 제어가 확장되어, 가상 머신의 우선도에 따른 제어가 가능하게 되었다. "Intel Resource Director Technology"로 캐시의 할당이 가능하다. 이것은 캐시 QoS 모니터링에 더해서, 캐시의 태그로 우선도 비트를 확장해서 Hypervisor가 우선도 제어를 하는 것이 가능하도록 했다.


기존의 캐시 제어


Broadwell-EP 캐시 제어


 또 전력 제어에서 Broadwell-EP는 CPU 코어 단위의 전압 제어를 한다. 부하에 응해 CPU 코어마다 전압과 주파수를 최적으로 구성하는 것이 가능하다고 한다.



바뀌는 데이터 센터의 프로세싱 자원


 현재 대형 서버 CPU는(x86 서버 + 비x86 서버 전체)Intel이 지배적이며, 특히 x86 / x64에서는 압도적인 상황이다. 그러나, Intel의 서버 CPU가 싸우는 상대는 타사의 서버 CPU가 아니다. 현재 데이터 센터는 구조적인 변혁기를 맞이하고 있어, 서버 CPU의 역​​할 변화가 일어나고 있다. 데이터 센터에서 처리하는 데이터가 바뀌고 있기 때문이다.


 서버 CPU에 대형에 성능이 높은 CPU 코어가 요구되었던 것은 서버 워크로드가 스레드 부하가 무거운 것 뿐이었기 때문이다. 그런데 빅 데이터나 딥 러닝으로 시대가 바뀌기 시작해, 서버의 처리는 스레드 당 부하는 가벼우면서도, 데이터 양이 방대한 것으로 바뀌기 시작했다. 그렇게 되면, 워크로드에 따라서 프로세서에 요구되는 성능은 무거운 처리를 고속으로 처리하는 것 정도밖에 없게 된다. 특히 대량 데이터 처리에서 전력 당 효율을 생각하면, 대형 CPU 코어는 쪽이 나빠진다.


 기존의 서버 CPU는 성능은 높지만, 성능 당 전력소비가 크기 때문에 메모리나 I / O가 병목이 되는 워크로드의 경우는 전력 효율이 낮다. 반면 작은 프로세싱 코어를 (코어당 성능이 낮은 코어) 병렬화하면 각각의 CPU 코어가 메모리나 I / O 액세스를 기다리는 사이에 다른 CPU 코어가 처리 할 수​​ 있기 때문에 메모리 대역폭을 효율적으로 사용하는 것이 가능하다.


 이러한 흐름에서부터 작은 CPU 코어의 서버 CPU가 효율성에서 주목을 받았다. 또 GPU 처럼 효율이 높은 SIMT (Single Instruction, Multiple Thread) 유형의 병렬 프로세서는 특히 딮 러닝에서 떠오르고 있다. 또 고정 회로를 실​​현할 수 있는 FPGA (Field-Programmable Gate Array)도 Microsoft의 데이터 센터 채택 이후 주목받고 있다.


프로세서의 전력 효율과 응용 프로그램에 대한 유연성


 이러한 상황에서 데이터 센터에는 점점 GPU나 FPGA가 잠입하기 시작했다. 서버용의 대형 CPU로 결정했던 지금 까지와는 분명히 흐름이 다르다.


 Intel은 이러한 상황에도 대응하고 있어, 대 GPU에는 Xeon Phi 계 (Knights 패밀리)가 있어, 본명인 "Knights Landing"이 대기하고 있다. FPGA로의 흐름은 Intel이 인수한 Altera의 FPGA 제품군이 있다. Intel은 Xeon과 FPGA를 Multi-Chip Package (MCP)로 탑재한 제품을 계획하고 있으며, 미래의 데이터 센터에는 FPGA가 유용하다고 호소하고 있다.


 즉, Intel 자신의 데이터 센터용 프로세서 제품군의 확산을 보여주고 있다. 그 중에서 서버 CPU는 데이터 센터의 주역에서, 요소의 하나로 위치가 바뀌고 있다. 지금까지와는 다른 경쟁상대와, 지금까지와는 다른 제품 카테고리에서의 경쟁이 요구되고 있다.


 물론 스레드 성능이 높은 대형 CPU 코어도, 일관성의 트래픽을 경감시키는 대량 캐시 서버 CPU는 앞으로도 중요한 위치를 차지한다. 그러나 데이터 센터는 다양화의 시대를 맞​​고 있어, 서버 CPU만으로 억제하면 좋다는 상황은 없어진다. Intel의 강점은 이러한 변화에 맞춘 대응을 모두하고 있는 부분으로, Intel의 약점은 그것 때문에 Intel의 전략적 초점이 어디에 있는지 보이지 않는 점이다.


2016년 4월 1일 기사



https://youtu.be/9fmOMoBnt58



https://youtu.be/BzT6P6cVmAs



https://youtu.be/kZZO90zamAg



[분석정보] Intel 서버 전략의 핵심인 Xeon Phi와 FPGA



[벤치리뷰] 인텔 코어 i7-6950X 브로드웰-E 최초의 10코어 데스크탑 CPU



[분석정보] Intel 2 소켓용 Broadwell 프로세서 "Xeon E5 v4"



[분석정보] 인텔이 슈퍼컴퓨터 컨퍼런스에서 나이츠 랜딩을 정식발표



[분석정보] 호모지니어스 구성이 가능한 신생 Xeon Phi 나이츠 랜딩의 강함



[분석정보] 인텔 HPC 시스템 Scalable System Framework 소개



[분석정보] 드디어 등장한 최상위 x86 서버 프로세서, 아이비브릿지 세대 제온 E7 v2 시리즈




[분석정보] Intel, Ivy Bridge-EX Xeon E7 v2 패밀리.최대 15코어 CPU 메모리 용량은 최대 1.5TB



[분석정보] Intel 18 코어의 초거대 "Haswell-E" 패밀리를 발표




[분석정보] 인텔 최대 18코어 Haswell-EP Xeon E5-2600 v3




[분석정보] TSX 대응으로 약 6배로 성능 향상된 Xeon E7 v3




[분석정보] Intel, 기간 서버용 CPU 신제품 Xeon E7 v3발표




[분석정보] Intel이 ISSCC에서 15 코어 Ivytown과 Haswell의 FIVR 기술 등을 발표



[분석정보] 메인 테마는 "신 아키텍처" ~ 매니코어의 메모리 기술을 공개



[고전 1997.10.31] Intel과 DEC 전격 제휴 MPU의 판도가 바뀐다



[고전 2002.02.14] AMD 차기 CEO 헥터 루이즈 씨 방일




[분석정보] 반도체 제조사는 팹리스화로 진행




[분석정보] AMD가 바라보는 x86시장 점유율 50%의 전략




[분석정보] 메가화 노선을 유지하는 인텔과 팹리스를 목표한 AMD




[분석정보] 엘피다 메모리의 한계는 DRAM 종언의 상징?



[분석정보] 모바일에 최적화를 진행한 Intel의 14nm 공정