벤치리뷰·뉴스·정보/아키텍처·정보분석

[분석정보] NVIDIA의 ARM 코어 Denver 등이 Hot Chips에서 발표

tware 2014. 8. 20. 08:00

 

동적 최적화를 수행하는 Denver 마이크로 아키텍처


ARM 아키텍처로 인텔의 PC 용 CPU의 Haswell (하즈웰,하스웰) 클래스의 퍼포먼스를 달성한다....... 다만 모바일 장치에 실리는 전력으로. 이것이 NVIDIA의 64-bit ARM 코어 "Denver (덴버)"의 컨셉이다. 그러면 어떻게 고성능과 절전력을 양립시킬 것인가? NVIDIA는 미국 쿠퍼 티노에서 개최되는 반도체 칩 관련 학회 "Hot Chips 26 (A Symposium on High Performance Chips)"(미국 시간 8월 10 ~ 12일)에서 Denver 아키텍처의 일부를 밝혔다. 간단히 요약을 보고한다.

 

 

 

 

 

 

Hot Chips에서 발표된 Tegra-K1의 Denver 코어


 Denver는 7 개의 실행 유닛을 가진 슈퍼 스칼라 CPU이다. 통상의 슈퍼 스칼라 CPU는 동적 스케줄링 기구에서 온 서플라이로 명령을 아웃 오브 오더로 정렬 시키고 병렬로 실행한다. 그러나 실행 가능한 명령은 명령 디코더가 디코딩 할 수 있는 명령 대역에 제한된다. 예를 들면, ARM의 Cortex-A15는 8실행 유닛을 갖추지만, 명령 디코더는 3명령 / 사이클로 피크 IPC (Instruction-per-Clock)는 3 IPC 이다.

 

 

 

Denver의 구성을 Cortex-A15와 비교


반면 Denver는 하드웨어 디코더로 디코딩 하고 실행하는 명령을 동적으로 최적화. 최적화 한 마이크로 명령을 최적화캐쉬에 저장한다. 그리고 동일한 경로를 실행할 때, 최적화 캐쉬에서 최적화 된 코드를 꺼내서 실행한다. Denver의 하드웨어 디코더는 2 명령 / 사이클이지만, 최적화 해서 병렬도를 높인 코드를 실행할 때는 피크로 7 이상의 IPC를 달성 가능하다.

 최적화를 수행하기 위해 옵티마이제이션 캐시는 명령 실행 경로를 조건 분기의 방향을 포함해 추적하고 보존하는 추적 캐시인 것으로 보이지만, NVIDIA는 밝히지 않았다. 또 최적화를 어떤 정책에서 행하는지, 단계적으로 실시하는지 등의 정보도 이번에는 밝히지 않았다.

 

 

 

 

 

 

 

 

Denver의 최적화 시스템의 구조


 Denver의 실행 유닛의 구성은 풍부해, 2개의 로드 / 스토어 유닛은 로드와 스토어 겸용으로 정수 연산 유닛은 4개나 있다. 2개의 로드 / 스토어 유닛과 단순 명령의 정수 연산 유닛이 명령 발행 포트를 공유하는 구조로 되어 있다. 파이프 라인은 분기 예측 미스에서 13 사이클로 Cortex-A15의 15 사이클보다 짧고, 그만큼 예측 미스 페널티가 적고 효율이 높다. 전력 제어는 새롭게 CC4라고 부르는 코어 클러스터의 유지 절전 스테이트가 추가 되었다.

 

Denver의 파이프 라인

 

 

Denver의 절전 스테이트

 


Transmeta의 Efficeon이나 Intel의 PARROT과 비슷한 아이디어


 NVIDIA가 공개한 성능 벤치에서는 2.5GHz의 Denver로 Haswell (하스웰) 기반의 Celeron 2955U (1.4GHz)와 경쟁하고 있다. 클럭에서 비교 계산하면 Denver는 Haswell의 60% 정도의 성능이다. Denver가 모바일 용도에 적용할 수 있는 코어임을 생각하면,이 비율은 높다. 다만 데스크톱 PC의 성능 범위도 생각하면, PC 프로세서 해당한다 주장은 조금 무리가 있을지도 모른다.

 

NVIDIA가 공개한 Denver의 성능 벤치


 재실행 하는 경로에 동적인 최적화를 걸쳐 병렬도를 올려 코드를 생성한다는 점에서 Denver는 한때 Transmeta의 "Efficeon"과 비슷하다. 실제로 NVIDIA는 구 Transmeta에서 관련 지적 재산권을 얻고 있으며, 구 Transmeta의 엔지니어도 흘러 왔다고 한다. 그러나 NVIDIA는 명령 디코더를 하드웨어로 구현해 넣어 다르다. 과거 이 코너에서 Denver의 소프트웨어 디코더라는 추정은 잘못이다. 현재 아는 범위에서는 Denver는 Intel이 10년 전에 발표한 'Power AwaReness thRough selective dynamically Optimized Traces (PARROT) "개념에 가깝다.

 

PARROT의 파이프 라인 개념

 


 참고로, Hot Chips의 프레젠테이션에 이름을 올리고 있는 NVIDIA의 개발 스탭을 보면 NVIDIA가 2006년에 인수한 Intel 계 인맥의 프로세서 설계 벤처 Stexar 직원이 핵심이 되는 것을 알 수 있다. Hot Chips에서 프레젠테이션을 행한 Darrell Boggs 씨는 원래 Pentium 4의 리드 아키텍트 1명으로 Stexar의 치프 아키텍트다. Stexar는 Pentium 4개발 팀의 엔지니어들이 빠져서 만든 벤처 기업으로 Pentium 4 개발 팀이 있는 오리건 기반이었다. NVIDIA는 이 회사를 즉시 인수해 NVIDIA의 오리건 사이트로 프로세서 엔지니어를 모아왔다. 인수 당시는 NVIDIA가 x86 CPU의 개발을 목표로 하고 있다고 보도도 되었다.

 

 

Denver 아키텍처를 담당하는 NVIDIA의 Darrell Boggs 씨

 


후지쯔와 NEC가 각각 고성능 CPU를 발표

 

Hot Chips에서는 성능 CPU의 발표도 연이었다.

 NEC는 벡터 슈퍼 컴퓨터 용의 벡터 프로세서 "SX-ACE Processor​​"를 발표했다. 멀티 코어 아키텍처로 원칩에 4코어를 탑재한다. 각 CPU 코어에 벡터 연산용의 "VPU (Vector Processing Unit)"와 스칼라 연산 용의 "SPU (Scalar Processing Unit)"를 1개씩과, 1MB의 캐시 "ADB (Assignable Data Buffer)"를 탑재한다. VPU는 16-way 병렬 유닛으로 16 사이클에 걸쳐 256 오퍼레이션을 실행하는 벡터 머신이다. 칩 단독의 벡터 성능은 피크 256GFLOPS, 메모리는 DDR3로 대역은 256GB / sec. 제조 공정 기술은 28nm에서 동작 주파수는 1GHz.

 

NEC의 SX 슈퍼 컴퓨터의 진화

 

 

SX-ACE 칩 다이

 

 

SX-ACE 칩 전체의 구성

 

 

SX-ACE의 CPU 코어 아키텍처

 

 

벡터 프로세서 제어 가능한 캐시를 탑재

 

 

SX-ACE 보드


 후지쯔는 포스트 K (京) 세대의 HPC (High Performance Computing)용 프로세서 "SPARC64 XIfx"의 개요를 발표했다. K 컴퓨터에 사용된 8CPU 코어의 "SPARC64 VIIIfx"에서 발전해 32 코어를 탑재. 각 CPU 코어의 SIMD (Single Instruction, Multiple Data) 유닛은 256-bit로 벡터 폭을 배로 늘렸다. 확장 SIMD 명령을 포함 HPC용의 새로운 명령 확장 "HPC-ACE2"를 더했다. HPC-ACE2에는 간접 로드 / 스토어 명령도 더해져 있다.

 메모리는 Micron Technology의 적층 메모리 HMC (Hybrid Memory Cube)를 채용, 메모리 용량은 32GB로 메모리 대역폭은 양방향으로 각 240GB / sec를 달성한다. 메모리 용량을 벌기 위해 HMC 인터페이스를 4 분할해 사용하고 있으며, 외부 인터페이스와 스택 내 인터페이스가 분리되어 있는 HMC의 특성을 살리고 있다. 칩의 피크 성능은 1.1TFLOPS. GPU를 통합한 소비자용 CPU 수준의 성능이지만, SPARC64 XIfx은 K 컴퓨터 같이 GPU 코어와 같은 가속기는 탑재하지 않는다. 제조 공정 기술은 20nm로 2.2GHz. 다이 크기는 아직 공개하지 않는다고 한다.

 

 

후지쯔 프로세서 개발 로드맵

 

 

SPARC64 XIfx 칩의 개요

 

 

SPARC64 XIfx 칩의 개요

 

 

SPARC64 XIfx에 더해진 새로운 명령어 세트

 

 

SPARC64 XIfx의 코어 파이프 라인

 

 

광대역 HMC (Hybrid Memory Cube)와 Tofu2 인터커넥트에 맞춘 버스

 


프로세서에 광대역 메모리를 제공하는 HBM


 칩 스택킹도 이번 Hot Chips의 중요한 테마 중 하나였다. SK Hynix는 JEDEC (반도체의 표준화 단체) 규격의 고성능 스택 DRAM의 HBM (High Bandwidth Memory)에 대한 프레젠테이션을 행했다. 그 중에서 SK Hynix는 몇 가지 새로운 기술 내용이나 미래에 대한 비전을 밝혔다.

 DRAM에서 데이터를 유지하기 위해 일정시간을 두고 데이터를 리프레시 하는 동작이 필요하며, 리프레시 모드에서는 액세스가 불가능 하다. 그러나 HBM에서는 리프레시를   뱅크 단위로 행하는 것으로, 리프레시 중에도 다른 뱅크에 읽기 / 쓰기 할 수 있도록 했다. 참고로, Intel의 Haswell eDRAM도 동일한 기능을 가지고 있다. 또한 HBM은 RAS와 CAS 명령 버스를 분리해 RAS와 CAS 명령을 병렬로 되도록 했다.

 HBM에서 필수가 된 베이스 인터페이스 다이에 관해서는, 미래 컨셉으로 DDR 계 DRAM 등의 인터페이스를 구현하는 등의 비전을 밝혔다. 또한 2020년 이후까지 HBM의 광대역 화와 대용량화를 진행하는 방향도 밝혔다. 덧붙여, DRAM에 관해서는 Samsung이 전주의 Flash Memory Summit 등으로 2020 년 이후까지 DRAM의 미세화를 계속하는 방향과 방법을 밝혔다.

 

HBM의 DRAM 스택의 개요

 

 

대역에서는 이점이 있는 HBM

 

 

HBM의 싱글 뱅크 리프레시

 

 

SK Hynix가 보여준 HBM의 인터페이스 칩의 미래 비전

 

 

2020년 이후도 대용량화와 고속화를 계속하는 HBM의 방향성

 


 HBM은 대역폭의 측면에서 매력이 크다. 그러나 TSV 인터포저와 인터페이스 다이가 필수가 되고 있으며, TSV 비용을 포함하면 고비용이며, 게다가 공급망의 변화가 필요해 장벽이 높다. Hot Chips 에서는 그에 대한 반대명제 제안도 ThruChip에서 열렸다. 다음 기사에서는 다른 Hot Chips 발표 개요를 리포트 하자.

 

2014년 8월 13일 기사 입니다.

 

[아키텍처] 전력 효율성에 초점을 둔 인텔 연구개발 (PARROT)

 

 

[분석정보] 드디어 베일을 벗은 Transmeta의 비밀 병기 Efficeon

 

 

[분석정보] IBM, Oracle, 후지쯔가 최첨단 프로세서를 선보이다

 

 

[분석정보] TOP500 슈퍼컴퓨터 순위 2014년 06월

 

 

[분석정보] Intel의 eDRAM 칩은 128 뱅크 구성에 읽기, 쓰기, 리프레시를 병렬

 

 

[분석정보] 하스웰의 고성능 그래픽의 열쇠 Intel 제조 eDRAM의 상세

 

 

[분석정보] ARM 코어의 다양한 라이센스 모델과 CPU코어의 설계 흐름

 

 

[분석정보] Apple iPhone 5s의 A7로 모바일 ARM 64bit 일번탑승

 

 

[분석정보] 총 출전하는 스마트폰용 64bit SoC

 

 

[분석정보] ARM버전 Windows로 시작된 x86 대 ARM의 CPU전쟁

 

 

[분석정보] ARM 코어와 x86 코어를 동등하게 다루는 AMD의 CPU 전략