벤치리뷰·뉴스·정보/아키텍처·정보분석

[분석정보] IBM, Oracle, 후지쯔가 최첨단 프로세서를 선보이다

tware 2013. 8. 28. 20:00

 

 

기간 : 8 월 25 일 ~ 27 일 (현지 시간)

장소 : 미국 캘리포니아 주 팔로 알토

Stanford University Memorial Auditorium

 

Hot Chips 25 등록 접수 (8월 26일 오전 8시)

 

최첨단 고성능 프로세서에 대한 기술 강연회 "Hot Chips 25"에서는 대규모 서버 시스템을 위한 프로세서 기술에 대한 강연이 이어졌다. 미국 IBM이 Power 아키텍처의 차세대 프로세서 "Power8"의 개요를 발표했으며, 미국 Oracle이 SPARC 아키텍처의 차세대 프로세서 "SPARC M6"의 개요를 밝혔다. 또한 후지쯔는 SPARC 아키텍처의 최첨단 프로세서 "SPARC64 X"의 개량판인 'SPARC64 X +'를 발표했다.

 


IBM의 "Power8 '는 12 코어가 내장 된 8 쓰레드를 동시에 실행


 IBM은 20년 이상, Power 아키텍처의 고성능 프로세서를 개발해 왔다. 최근에는 2009년 Hot Chips 21에서 45nm 공정, 8코어 내장, 4 스레드 동시실행, 32MB 캐시 "Power7 '프로세서를 발표, 2012 년 Hot Chips 24에서는 향상된 버전인 32nm 공정, 8코어 내장 4 스레드 동시실행, 80MB 캐시 "Power7 + '프로세서를 발표했다.

 이번에 발표한 'Power8 "는 제조 공정을 22nm로 미세화 하고, 내장된 CPU 코어의 수를 12 코어로 늘리고 동시 스레드 수를 8스레드로 높였다. 최대 동시 실행 가능한 스레드 수는 Power7 / 7 + 32 쓰레드에서 Power8에서는 96 쓰레드로 약 3배로 증가해 있다. 그 결과 연산 성능이 크게 향상되었다.

 

IBM이 지난 몇년간 발표한 Power 프로세서와 그 개요

 

 

 

IBM이 지난 몇년간 발표한 Power 프로세서와 "Power8"의 개요

 

 

 

Power8의 주요성능. Power7 +를 기준으로 한 상대 값


 캐시는 L2 캐시가 CPU 코어 당 512KB, L3 캐시가 공유 96MB. 2 차 캐시는 Power7 +의 256KB에서 2 배로 강화했다. 3차 캐시는 Power7 + 가 80MB 였기에 증가는 그다지 크지 않다.

 CPU 코어는 앞서 말한 바와 같이 멀티 쓰레딩 쓰레드 수가 8 쓰레드로 두 배가 됐으며, 1 차 데이터 캐시가 64KB로 두 배. 또한 2 차 캐시에서 1차 캐시를 채우는 버스 폭이 64 바이트, 이것도 2 배가 되었다.

 

Power8의 주요 사양 및 실리콘 다이 사진

 

 

 

Power7 +의 주요 사양 및 실리콘 다이 사진

(2012 년 8 월에 개최된 Hot Chips 24의 강연 슬라이드에서)

 

 

 

Power8의 CPU 코어


 메모리 서브 시스템의 가장 큰 차이점은 외부 캐시 칩을 통해 기본 메모리의 DRAM과 연결하는 것이다. Power7 / 7 +에서는 메모리 컨트롤러를 내장하고 있어 외부 캐시는 준비되어 있지 않다. 이에 비해 Power8의 메모리 서브 시스템은 16MB의 캐시를 내장하는 칩 "Centaur Memory Buffer"가 프로세서에 연결된다. 1 개의 프로세서에 8 개의 Centaur Memory Buffer 칩을 연결 될수 있으므로, 외부 캐시의 최대 용량은 128MB이다.

 Centaur Memory Buffer 칩은 캐시라기 보다는 그 명칭에서 알 수 있듯이 실제 역할은 버퍼에 가깝다. DDR 컨트롤러를 4채널 내장하고 있으며, 총 32 채널의 DRAM 인터페이스를 구성한다. 소켓 당 DRAM 용량은 1TB다.

 

Power8 외부 ​​메모리 아키텍처. 외부 캐시를 겸할 메모리 버퍼 겸 메모리 컨트롤러

"Centaur Memory Buffer"를 통해 DRAM 칩 어레이와 연결

 

 

 

Centaur Memory Buffer의 개요와 실리콘 다이 사진.

16MB의 캐시와 4 채널 DDR 메모리 컨트롤러를 내장

 


Oracle의 "SPARC M6 '는 96 소켓의 대규모 시스템을 실현


 Oracle이 개발중인 자사 서버용 SPARC 프로세서 "SPARC M6 '는 최신 세대인 "SPARC M5'의 후속 제품이다. Oracle은 2011년 Hot Chips에서 "SPARC T4"2012 년 Hot Chips에서는 "SPARC T5 '를 발표했다.


 SPARC T5는 16 개의 CPU 코어를 내장하고 최대 128 스레드를 동시에 처리하는 고성능 프로세서다. 이에 비해 SPARC M5는 SPARC T5와 동일한 28nm 제조 기술을 채택하고 동일한 CPU 코어 (S3 코어)를 내장하지만, 코어 수가 6 코어 적다. 동시에 처리 할 수​​있는 쓰레드 수는 최대 48 쓰레드이며, 단독 프로세서로 성능은 SPARC T5에 비해 떨어진다.

 

Oracle (및 전신의 Sun Microsystems)의 SPARC 프로세서의 연혁

 

 

 

SPARC T4 및 SPARC T5, SPARC M5 요약


 SPARC M5의 특징은 3차 캐시 (모든 공유 캐시)와 시스템을 구성 할 때의 최대 소켓에 있다. 3차 캐시 용량은 48MB로 SPARC T5의 8MB에 비해 6배나 크다. 최대 소켓 수는 32 소켓으로 SPARC T5에 비해 4배의 소켓 수의 시스템을 구성 할 수 있다.

 SPARC M5의 차세대 제품인 SPARC M6는 내장된 CPU 코어 수를 2배인 12 코어 늘리고 시스템을 구성할 때의 최대 소켓 수를 96 소켓으로 3배로 확대했다. 3차 캐시 용량은 48MB로 SPARC M5와 같다. 소켓당 DRAM 주기억 용량은 1TB로 SPARC M5와 다르지 않다.

 제조 기술은 28nm의 CMOS로 이것도 SPARC M5와 동일하다. SPARC M6의 실리콘 다이 면적은 공표하지 않았지만, 추정은 가능하다. 먼저 SPARC M5의 실리콘 다이 면적이 511 제곱 mm 이므로 CPU 코어가 2배로 늘어난 SPARC M6는 더 큰 실리콘 다이로 되어 있다고 볼수 있다. 28nm 공정으로 제조한 S3 코어의 실리콘 면적은 15.7 제곱 mm 그래서 6개의 S3 코어 92.4 제곱 mm가 더해진다. 그러면 단순 계산으로는 603.4 제곱 mm가 된다.

 

차세대 SPARC 프로세서 개발 지침

 

 

 

SPARC M6 요약

 

 

 

SPARC M6의 주요 사양 및 실리콘 다이 사진

 

 

 

SPARC T5의 주요 사양 및 실리콘 다이 사진

(2012 년 8 월에 개최 된 Hot Chips 24의 강연 슬라이드에서)

 

 

 

CPU 코어 "SPARC S3 '개요. 2 명령어를 동시에 실행하며

아웃 오브 오더 실행기구를 갖춘다. 동작 주파수는 3.6GHz

 

 

 

SPARC M6의 내부 구성

 


주파수 향상 등의 개량을 더한 후지쯔의 "SPARC64 X +"


 후지쯔가 발표한 UNIX 서버를 위한 고성능 프로세서 "SPARC64 X +" 이 회사가 2012 년 Hot Chips에서 발표한 고성능 프로세서 "SPARC64 X"의 향상된 버전이다.

 SPARC64 X +와 SPARC64 X의 주요 차이점은 동작 주파수의 향상 (3.0GHz에서 3.5GHz 향상) 전용 하드웨어 강화, 1차 데이터 캐시의 전송 속도 향상, 프로세서 간 인터페이스의 전송 속도 향상 등이다. 개혁의 결과로 트랜지스터 수와 실리콘 다이 면적은 약간 증가했다. 실리콘 다이 사진을 비교하면 양자는 매우 유사하며 차이를 찾아내는 것은 어렵다. CPU 코어 수는 16코어 (2쓰레드 / 코어 멀티 스레딩 동작)이며 동일한 제조 공정으로 모두 28nm의 CMOS 기술, 2차 캐시 (공유 캐시)의 용량은 모두 24MB다.

 

후지쯔의 고성능 프로세서 개발의 역사

 

 

 

SPARC64 X + 실리콘 다이 사진과 주요 사양

 

 

 

 

SPARC64 X의 실리콘 다이 사진과 주요 사양

(2012 년 8 월에 개최 된 Hot Chips 24의 강연 슬라이드에서)

 


 전용 하드웨어의 강화는 암호화 회로와 10진수 부동 소수점 연산 회로의 성능을 높였다. 1차 데이터 캐시의 성능 향상은 3개의 포트가 동시에 움직이게 했다. 로드 (읽기)가 듀얼 포트, 스토어(쓰기)가 단일 포트다. SPARC64 X의 1차 데이터 캐시는 로드의 듀얼 포트 동작 또는 로드와 스토어가 각 단일 포트에서 작동 모드 였다.

 프로세서 간의 인터페이스 전송 속도의 향상은 SPARC64 X는 14.5Gbps 였던 전송 속도를 SPARC64 X +는 25Gbps로 높였다. 모두 4개의 프로세서를 상호 연결한다. 브리지 칩을 통한 것으로, 최대 64 소켓 시스템을 구성 할 수 있다. 또한 소켓당 DRAM 주기억 용량은 1TB.

 

SPARC64 X + 파이프 라인 구성. 빨간색으로 표시된 부분을 SPARC64 X +에서 강화

 

 

 

SPARC64 X의 전용 하드웨어 내장. "소프트웨어 온칩"라고 부르고 있었다.

암호화 회로와 10진수 부동 소수점 연산 회로, 데이터베이스 처리 회로를 실​​었다

 

 

 

SPARC64 X +의 전용 하드웨어 강화

 

 

 

 

1차 데이터 캐시의 성능 향상. 2개의 읽기 포트와 1 개의 쓰기 포트가 동시에 움직인다. 따라서 쓰기 작업과 복사 작업에서 성능이 크게 향상

 

 

 

 

프로세서 간 인터페이스의 전송 속도 향상과 64 소켓 시스템 구성

 


 Hot Chips 25에서 발표된 3개의 서버를 위한 프로세서를 다시 살펴 보자. CPU 코어 수는 IBM과 Oracle이 12 코어, 후지쯔가 16 코어. 제조 기술은 IBM이 22nm의 SOI CMOS, Oracle과 후지쯔가 28nm 벌크 CMOS. 실리콘 다이 면적은 IBM이 650 제곱 mm, Oracle이 603 제곱 mm (추정치), 후지쯔가 600 제곱 mm. 입출력 인터페이스는 IBM과 Oracle이 PCIe Gen3를 탑재. (CPU) 소켓 당 메모리 용량은 모두 1TB (4Gbit DRAM 환산으로 2,048 칩)이다.

 집적 밀도와 집적 규모는 22nm 공정을 채용한 IBM의 Power8이 머리 하나 빠진 집적도 이외에는 양자가 겹치는 항목이 적지 않다. 최첨단을 각각 추구하면서도 비슷한 부분이 존재한다. 이 기준은 흥미롭다.

 

 

[분석정보] IBM이 기술의 집대성 괴물 CPU "Power8"발표