벤치리뷰·뉴스·정보/아키텍처·정보분석

[분석정보] AMD가 ISSCC에서 Steamroller 코어의 개요를 발표

tware 2014. 2. 14. 22:00

 

세밀하게 손을 쓴 Steamroller 코어

회장인 샌프란시스코 메리어트 호텔 (Marriott Marquis San Francisco)
 AMD는 미국 샌프란시스코에서 개최된 반도체 컨퍼런스 "ISSCC (IEEE International Solid-State Circuits Conference) 2014 '(2 월 8 일 ~ 2 / 13)에서 최신 CPU 코어"Steamroller (스팀 롤러)"의 개요를 발표했다. Steamroller 코어는 "Kaveri (카베리)"의 CPU 코어로 이미 시장에 나와 있지만, 아키텍처는 2012 년의 CPU 컨퍼런스 "Hot Chips "에서 소개가 발표된 이래 자세한 내용은 업데이트되지 않았다 .

 Steamroller는 CPU 코어를 2코어 융합시킨 "Bulldozer (불도저)"계의 CPU. Bulldozer 등장에서 처음으로 아키텍처의 메이저 업데이트가 된다. 가장 큰 차이점은 Bulldozer 계에서는 2정수 연산 클러스터에서 공유하는 명령 디코드 유닛이 2개가 된 것. 따라서 스레드 당 실효 IPC (Instruction-per-Clock)가 향상되었다. 디코더의 강화에 따라 L1 명령 캐쉬는 3-way의 96KB로 50 % 두배가 되었다.

 


 ISSCC는 다른 부분에서도 다양한 확장이 추가된 것으로 밝혀졌다. 브랜치 타겟 버퍼는 배인 10K 엔트리, 내부 명령 μOP 디스패치 큐는 32에서 40으로, 정수 연산 스케줄러는 정수 클러스터 당 40에서 48로 증가했다. 물리 레지스터도 정수가 112, SIMD 176으로 모두 강화되었다. 또한로드 / 스토어 큐도 강화되었다. Hot Chips에서 발표된 스케줄러의 강화나 스토어의 강화와 같은 사양이 구체적으로 어떻게 구현되어 있는지가 밝혀졌다.

 

 

Steamroller와 Bulldozer 스레드 실행의 측면에서 비교  

 

 

 

 

 

 

 

 

Hot Chips에서 발표된 Steamroller 사양


 또한 지금까지 부동 소수점 / SIMD 연산 파이프 "단순화"라고만 설명되던 공유 부동 소수점 / SIMD 연산 유닛 부분의 변경 내용은 실행 유닛의 수를 바꾸지 않고 실행 파이프의 수를 4에서 3에 줄인 것도 밝혀졌다. 명령 발행 포트의 공유가 진행된 것으로 보인다.

 

Steamroller 아키텍처

 


Steamroller 공정 기술이 변화


 Bulldozer 계열 아키텍처의 CPU는 Bulldozer와 "Piledriver (파일 드라이버)"가 GLOBALFOUNDRIES의 32nm SOI 공정에서 Steamroller에서 28nm 벌크 공정이 되었다. 특히 Steamroller는 지금까지 GLOBALFOUNDRIES의 로드맵에서 사라졌던 "28nm SHP"공정을 사용하고 있다. AMD는 SHP 공정은 AMD가 GLOBALFOUNDRIES와 협력하여 개발한 APU를 위한 공정으로 고성능 트랜지스터와 GPU를 위한 고밀도 배선을 모두 갖춘 과정이라고 설명했다.

 

 


 2코어에 해당하는 Steamroller 모듈 크기는 2MB의 L2 캐시를 포함하면 29.47 제곱mm. 이것은 동일한 28nm 공정의 AMD의 저전력 코어 "Jaguar (재규어)"의 4CPU 코어 모듈 (4CPU 코어 +2 MB L2)의 26.2 제곱 mm와 거의 같다. PlayStation 4 (PS4)는 Steamroller 2모듈 (4코어 상당)에서 Jaguar 2 모듈 (8 코어)로 전환한 것으로 보이는데 두 유닛의 다이 크기가 거의 같은 것을 보면 그 이유를 잘 알 수 있다.

 L2를 제외한 CPU 모듈 만의 면적은 약 18.6 제곱 mm, 이것은 32nm의 Bulldozer 모듈의 18 제곱 mm와 거의 다르지 않다. 즉, AMD는 32nm에서 28nm로 미세화 한 여유를 사용하여 Steamroller 아키텍처를 확장한 것이다.

 

AMD 프로세서의 코어 크기

 


 ISSCC는 32nm SOI와 28nm 벌크 공정의 차이와 그에 따른 물리적 디자인의 큰 변화가 설명되었다. 32nm 및 28nm를 비교하면, 배선층은 28nm 공정의 것이 아래쪽 피치의 좁은 배선이 많은 것을 알 수있다. 이것은 CPU보다 배선이 복잡한 GPU 코어에서 도움이 되었다고 한다.(코어가 많아 질수록 코어간의 상호 통신등을 위해서 복잡해 지겠죠. GPU쪽은 좀더 작은 단위의 코어들의 수가 매우 많죠.) 트랜지스터를 보면, 32nm SOI 에서는 HVT (High Threshold Voltage)와 RVT (Regular Threshold Voltage)으로 누설 전류가 크게 떨어졌다. 그러나 빠른 LVT (Low Threshold Voltage)는 반대로 누설 전류가 상승하고 있다. 따라서 Steamroller은 대부분이 일반 RVT 장치가 되고 있다. 또한 RVT의 3분의 2는 채널 길이가 긴 장치가 되고 있다. 또한 28nm 벌크에서는 소프트웨어 오류도 증가하기 때문에 대책도 필요했다고 한다.
 

 

 

 


 또한 Steamroller는 기존의 Bulldozer 계 보다 사용자 지정 매크로의 비율을 줄이고, 신디사이저블 매크로를 늘리고 있다. 파운드리 간 이식을 고려한 설계로 옮겨 가고있는 것으로 보인다.

 절전 회로 디자인도 Steamroller는 바뀌었다. 기존의 AMD CPU는 파워 게이트 링을 사용해 큰 입도로 파워 게이트를 행해왔다. Steamroller에서 세밀한 파워 게이팅을 도입했다. 그 결과, 예를 들어, L2 캐시는 Way 단위 (L2는 16way) 파워 게이트 한다. Intel과 같은 캐시 파워 게이팅이 가능하게 되었다. 클럭 공급은 이전 세대 Piledriver 코어에 이어 "Resonant Clock"과 전통적인 클럭을 병용하고 있다.

 


64-bit ARM 아키텍처 서버 CPU


 CPU는 ARMv8 아키텍처 기반의 서버 CPU도 ISSCC에 등장했다. Applied Micro는 서버용 플랫폼 "X-Gene"의 CPU 모듈 "Potenza processor ​​module (PMD)'에 대해 발표했다. PMD는 1개의 모듈에 2개의 CPU 코어와 256KB의 공유 L2 캐시를 갖춘 것이다.

 CPU 코어는 Applied Micro의 자사 설계 4-way 수퍼 스칼라의 아웃 오브 오더 실행 코어로 되어 있다. 모듈의 트랜지스터 카운트는 84M (8,400 만), 14.8 제곱 mm의 다이 (반도체 본체) 영역에서 평균 소비 전력은 4.5W 정도라고 한다. 첫 번째 X-Gene은 4 개의 모듈 (8 코어)과 8MB의 L3 캐시, 거기에 DDR4 메모리 채널을 4개 갖추고 있다. 공정은 40nm 로 0.9V시 3GHz 동작이 가능하다.

 

오른쪽이 PMD 모듈. 왼쪽이 PMD를 4 개 모아서 8 코어 클러스터 

 

 

 

 

 

 

 

 


IBM이 Power8 절전 기능 등을 발표


 IBM은 ISSCC에서 새 서버 CPU "Power8"의 절전 기술과 인터페이스 등을 발표했다. Power8은 12CPU 코어로 96MB의 L3 캐시를 내장하고 32 채널의 DDR 메모리 인터페이스로 230GB/sec의 메모리 대역을 실현 트랜잭셔널 메모리와 통합 전압 레귤레이터 (iVRM)도 갖춘다. 각 CPU 코어가 8-way의 SMT (Simultaneous Multithreading)를 지원하고 있기 때문에, CPU 전체 96 스레드를 동시에 실행시킬 수 있다. IBM의 22nm SOI (silicon-on-insulator) 공정으로 제조된 다이 사이즈 (반도체 본체의 면적)는 650 제곱 mm로 매우 크다. (인텔이 발표한 15코어 Ivytown은 541 제곱 mm)

 

Power8 개요

 

 

 

 

 

 

 Power8 온칩 전압 레귤레이터 모듈 (VRM)을 갖추고 있어 CPU 코어 단위의 전압 제어를 가능하게 하고있다. CPU 코어 수가 늘어 나면 개별 전압 제어가 선행되지 않으면 불필요한 전력 소비가 많아진다. CPU 코어 군 중에서 가장 동작 주파수가 높은 코어, 코어 군의 구동 전압이 이끌려 높아지고 버리기 때문이다. IBM은 Power8는 주파수뿐만 아니라 전압도 개별적으로 제어 할수 있게 함으로써 소비 전력이 크게 향상됐다고 설명한다.

 IBM은 ISSCC에서는 통합 전압 레귤레이터 CPU 코어 전압과 동작 주파수를 바꾸는 "DVFS (Dynamic Voltage and Frequency Scaling) "Resonant Clock을 사용한 새로운 클록 공급 시스템, 강력한 칩 인터페이스 등의 Power8 관련 발표를 하고있다. 5GHz 이상의 범위에서의 동작을 커버하는 클럭 시스템에 대해서도 발표되었다.

 

 

[분석정보] Intel이 ISSCC에서 15 코어 Ivytown과 Haswell의 FIVR 기술 등을 발표

 

[분석정보] Intel이 Haswell 디자인 정보를 Hot Chips에서 발표

 

 

[분석정보] IBM이 기술의 집대성 괴물 CPU "Power8"발표

 

 

[분석정보] IBM, Oracle, 후지쯔가 최첨단 프로세서를 선보이다

 

 

[분석정보] Intel의 "Ozette"칩에서 Haswell(하스웰)까지의 전압 레귤레이터 통합​​의 길

 

 

[분석정보] 드디어 밝혀진 AMD의 불도저 (Bulldozer)

 

 

[분석정보] AMD Kaveri의 메모리 아키텍처와 향후의 APU 진화