벤치리뷰·뉴스·정보/아키텍처·정보분석

[분석정보] IBM이 기술의 집대성 괴물 CPU Power8 발표

tware 2013. 8. 28. 19:30

 

 

다양한 기술을 담은 호화판 CPU

 

 

Hot Chips의 회장이 된 미국 스탠포드 대학의 Stanford Memorial Auditorium

 


 "수북이 담은 밥" 이라는 표현이 어울리는 것이 IBM의 차세대 서버 CPU "Power8 '이다. 12 코어 96 스레드, 96MB의 L3 캐시를 내장. 32 채널의 DDR 메모리 인터페이스 230GB/sec의 메모리 대역을 실현하고 트랜잭션 메모리와 통합 전압 레귤레이터 (iVRM)도 갖춘다. Power 시리즈는 모든 기술을 담은 럭셔리 CPU로 쓰레드 당 성능을 중시하는 CPU에서는 최첨단을 달려왔다. 차세대 Power8도 그 전통을 계승, 가능한 기술의 대부분을 담은 괴물 CPU가 됐다.

 

Power 시리즈의 진화


 IBM은 Power 시리즈의 최신 CPU "Power8" 을, 미국 스탠포드 대학에서 개최한 칩 컨퍼런스 "Hot Chips 25"(8 월 25 ~ 27 일, 현지 시간)에서 발표했다. IBM의 Power 시리즈가 중요한 것은 이 칩이 "기술 전시회"이기 때문이다. 비용이 들어도 기술을 추구하면 CPU가 어디까지 갈수 있을지 그 정점을 보여주고 있다. 즉, Power 프로세서의 미래의 길을 나타내며, 또한 동시에 현재의 한계도 보여주고 있다.

 Power8은 IBM의 22nm SOI (Silicon-On-Insulator) 공정으로 제조되며, 다이 사이즈 (반도체 본체의 면적)는 650 제곱 mm로 Intel의 서버 CPU도 넘는 크기이다. CPU 코어는 12 코어지만, 각 코어가 8-way의 SMT (Simultaneous Multithreading)를 지원하고 있다. 따라서 CPU 전체 96 쓰레드를 동시에 실행시킬 수 있다.

 

Power8 개요

 


16 실행유닛의 거대한 CPU 코어


 각 CPU 코어는 8 디스패치 10 이슈 16 실행 유닛으로 Intel의 x86 계열 CPU 코어의 최고봉 Haswell (하스웰)보다 더 규모가 크다. 정수 연산 유닛은 2 유닛이지만, 분기 유닛이나 컨디션 레지스터 액세스 등은 별도 유닛이다. Power7 CPU 코어의 흐름을 끌고 왔지만, Power7에 비해 단일 ​​쓰레드 성능은 1.6 배가 되었다. 또한 Power7에서는 코어 당 4 쓰레드의 병렬 실행을, 코어 당 8 쓰레드의 병렬 실행으로 확장했다.

 

Power8 코어

 

 

 

2010 년 Power7

 


 CPU 코어는 멀티 쓰레드 프로그래밍을 용이하게 하는 트랜잭션 메모리를 갖추고 있다. 트랜잭션 메모리 구현은 IBM을 포함하여 지금까지 눈에 띄는 성공을 한 CPU가 없었다. 참고로, Intel은 Haswell (하스웰) 이 트랜잭션 메모리를 지원하고 있다.

 Power8의 CPU 코어는 이 외에도 암호화 가속기나 10 진수 유닛을 가진다.

 Power8의 각 코어는 512KB의 L2 캐시를 가지는 것 외에 Power의 특징인 eDRAM L3 캐시를 칩 전체에서 96MB를 갖춘다. 메모리

 

밀도가 높은 DRAM을 CPU의 고속 로직 회로에 통합 기술을 개발한 것으로, 100MB 가까운 엄청난 캐시를 실현하고 있다. 추가로, 128MB 까지의 eDRAM 칩이 L4 캐시로 외부에 부착된다.

 

Power8의 온칩 캐시


 96MB의 L3 eDRAM의 구성은 각 CPU 코어마다 8MB의 L3 지역으로 나뉘어 있다. 하지만 IBM이 "NUCA (Non-Uniform Cache Architecture) '이라고 부르는 구조에서 공유되고 있다. 거대한 L3 양을 실현하는 eDRAM 이지만 32nm의 Power7 +의 L3 eDRAM이 80MB 였던 것에 비해 Power8는 96MB와 크게 늘지 않았다. eDRAM이 논리 회로처럼은 수축 될수 없기 때문으로 보인다. 캐시 대역도 강력하고 12 코어 전체 L2는 4TB/sec, L3는 3TB/sec (모두 4GHz 동작시)의 대역이다.

 

캐시 버스 폭


메모리 버퍼 칩을 사용 1TB의 메모리를 연결


 Power8는 메모리 인터페이스 Memory Buffer 칩을 사용하고 있다. 즉, Power8은 외부의 버퍼 칩을 통해 DRAM에 액세스 한다.

 Power8 자체는 버퍼 칩에 대한 인터페이스를 갖춘다. Power8에 연결된 8 개의 메모리 버퍼 칩이 각각 4 채널 DDR 인터페이스를 갖춘다. 메모리는 32 채널 전체에서 410GB/sec의 메모리 대역이다. 역산하면 메모리의 전송 속도는 DDR3의 800Mbps (DDR3 1600 = 12.8GB/s)가 된다. 메모리는 최대 1TB다.

 버퍼 칩과 Power8의 인터 커넥터는 9.6Gbps로 대역은 계속 전송시 230GB/sec 다. 각 버퍼 칩은 내부에 16MB의 캐쉬를 갖추고 있다. 이 역시 DRAM 메모리 모듈 전용이 된다.(칩 1개당 16MB의 캐쉬, 메모리 4채널 연결 x 칩 8 개 =  32채널 메모리, 128MB캐쉬) 이 아키텍처의 장점은 메모리 용량과 메모리 전송 대역을 벌 수 있을 것이다. 반면 메모리 지연 시간은 길어진다. IBM도 그 딜레마를 아직 해결하지 못하고 있다.

 

Power8의 메모리 관리

 

 

 

Power8 메모리 버퍼

 

 

 

DIMM 폼 팩터

 


 또한 Power8는 I / O로 PCI Express Gen3를 갖춘다. 지금까지 Power 시리즈는 자사특유의 I / O를 제공했다. 그러나 PCI Express Gen3는 충분한 성능에 이르렀기 때문에, 표준적인 PCI Express Gen3를 통합 하기로 했다. 또한 외부 가속기가 Power8과 같은 메모리 주소를 공유 캐쉬 일관성도(coherency)도 하드웨어 관리할 수 ​​있는 전용 인터페이스 "CAPI (Coherent Accelerator Processor ​​Interface) '도 갖추고 있다.

 

내장 PCI Expres Gen3

 

 

 

캐시 일관성을 관리 할 수​​ 있는 인터페이스 CAPI

 


전원은 전압 조종기를 통합


 전원은 전압 레귤레이터 모듈 (VRM)을 통합하여 코어 단위로 전압 제어를 가능하게 했다. 통합 VRM은 Intel이 Haswell (하스웰)에서 채택했다. 그러나 IBM이 실제로 VRM을 어떻게 통합하는지 자세한 내용은 밝혀지지 않았다.

 IBM은 Intel과 함께 통합 VRM 연구에 열심인 기업이다. 예를 들어, 작년 (2012 년) 2 월 ISSCC (IEEE International Solid-State Circuits Conference)에서 실리콘 인터 포저에 인덕터를 구현하고 CPU와 통합하는 것으로 통합 VRM을 실현하는 논문을 발표했다.

 

 

 

 

 

 

 

 

 

Power8 통합 VRM

 

 

[정보분석] Hasell(하스웰) 최강의 무기 통합 전압 조절기

 

 

[정보분석] Intel의 "Ozette"칩에서 Haswell(하스웰)까지의 전압 레귤레이터 통합​​의 길

 

 

[분석정보] IBM, Oracle, 후지쯔가 최첨단 프로세서를 선보이다