벤치리뷰·뉴스·정보/아키텍처·정보분석

[분석정보] AMD와 ATI 프로세서는 하나로 융합한다

tware 2006. 7. 25. 21:00

 

Torrenza의 최후의 파트가 ATI의 인수

 

 

AMD의 Phil Hester (필 ·헤스터) CTO

 

 AMD의 차세대 프로세서 구상의 마지막 파트가 갖추어졌다. 그것은 그래픽 용 벡터 프로세서의 전문가 ATI Technologies를 인수한다는 발표이다.

 AMD + ATI 결합체는 CPU와 그래픽 "코 프로세서"를 통합한 차세대 프로세서를 실현하기 위해 달리기 시작한 것으로 보인다.

 AMD는 이미 코 프로세서를 AMD 플랫폼에 통합 계획 "Torrenza (토렌자)"를 발표했었다. Torrenza 목표로, AMD는 범용 프로세서 코어와 특정 용도의 보조 프로세서 코어를 원(1) 다이 (반도체 본체)에 통합한다. AMD는 범용 프로세서 코어는 (CPU) 당분간은 베이스 아키텍처를 쇄신 하지 않는다고 본다. 범용 프로세서 코어를 비대화 하는 것보다 응용 프로그램에 최적화 된 코 프로세서 코어의 (여기서는 GPU) 성능을 얻는 쪽이 상책이라고 판단했다. Torrenza는 이러한 AMD의 CPU 아키텍처의 방향성을 제시하는 중요한 전략이다.

 그러나 Torrenza의 발표는 AMD 자신의 코 프로세서 개발과 미디어 프로세싱 파트너의 이야기는 빠져 있었다. 그러나 이번 ATI 인수를 통해 이 부분이 채워져. Torrenza를 가정하면, 당연히 AMD는 ATI 프로세서를 동일한 다이에 통합한다. 그리고 PC 용 CPU에 통합되는 보조 프로세서 코어로는 GPU 코어가 되는 것이 분명해 졌다. Torrenza에서 당연히 나와야할 적절한 GPU가 Torrenza 발표 시점에서 누락되었던 수수께끼도 이것으로 풀렸다.

 

 

 

AMD CPU 아키텍처 이행도 최신 버전

 


벡터 프로세서 코어를 CPU에 통합으로

 

ATI Technologies의 David E. Orton (데이비드 E 오튼) 사장 겸 CEO

 

 Torrenza에 의하여 통합된 CPU와 GPU.

 무엇보다, CPU에 통합되는 시점의 ATI GPU는 범용성이 높은 "Programmable Shader (GPU의 프로그래머블 연산 유닛)"의 덩어리이며, 그 벡터 연산 유닛은 그래픽 용도뿐만 아니라 광범위하게 응용된다. 즉, 미래의 AMD CPU의 실태는 범용 스칼라 프로세서 코어 군 + 벡터 프로세서 코어 군의 " 헤테로지니어스 멀티 코어 (이종 멀티 코어 : Heterogeneous Multicore)" 프로세서가 된다. 즉, 'Cell'프로세서와 유사한 개념을 가진 CPU로 진화한다.

 AMD + ATI의 헤테로 지니어스 멀티 코어가 실현되면 1개의 CPU 안에 복수의 AMD 범용 프로세싱 코어와 다수의 Programmable Shader (GPU의 연산 코어)를 가진 ATI의 벡터 프로세서 코어가 내장된다 . 기존의 범용 컴퓨팅 애플리케이션은 AMD의 범용 코어로 달리고 그래픽과 데이터 중심인 컴퓨팅은 ATI의 벡터코어에서 달리게 된다 추정된다.

 

ATI Processor in Torrenza


 기술적 인 지향성으로 보면, ATI는 AMD의 목표에는 최적의 파트너이다. 현재 ATI는 GPU 메이커 중에서는 가장 프로세서 성향이 강하다. ATI의 차세대 GPU "R600"패밀리는 보다 유연하고 범용성 높은 "Unified-Shader" 아키텍처를 가진다. 이미 ATI는 타사에 앞서 Xbox 360에 탑재한 GPU "Xeos"에서 Unified-Shader 아키텍처를 채용하고 있다. Unified-Shader화 된 GPU는 진짜 벡터 프로세서라고 부르기에 어울리는 범용성을 가지고 CPU에 통합해 범용 컴퓨팅에 응용하기 쉽다.

 

 

Xeos (Xbox360 GPU) (일부 추정)

 


 "그래픽 프로세서는 점점 범용적인 벡터 프로세서가되어 간다"고 ATI의 Rich Heye (리치 하이) 씨 (Vice President & General Manager, Desktop Business Unit)는 말한다. Heye 씨는 원래 AMD의 부사장에서 ATI 부사장으로 변신한 인물로 이적한 이유에 대해 최상의 벡터 프로세서화를 들었다. 이미 AMD가 ATI와 교합 전부터 ATI는 AMD의 인재를 도입했다.

 


AMD + ATI 프로세서의 예상되는 모습

 그러면 AMD + ATI의 차세대 프로세서는 어떤 모습이 되나?

 ATI 제품의 AMD에 최적화 및 통합화는 여러 단계를 걸친다 추정된다. 첫 단계로서 확실한 것은 HyperTransport 네이티브 GPU 설계이다.

 ATI의 벡터 프로세서는 아마도 AMD CPU에 HyperTransport 또는 Coherent HyperTransport에 직접 연결할 수 있게 된다. 형태로 보면 그래픽 통합 칩셋을 강화하는 것과 같지만, HTX (HyperTransport 확장 슬롯 사양) 카드나 AMD CPU 소켓의 확장도 시야에 들어가는 것이다.

 다음 단계로 상정되는 것은 CPU 패키지에 통합이다. Torrenza는 AMD의 CPU 패키지에, 멀티 칩 모듈 기술을 사용해 코 프로세서를 통합하는 것을 계획하고 있다. 이 경우 ATI의 벡터 프로세서의 다이는 Coherent HyperTransport 로 CPU 다이와 온 모듈에 접속된다.

 그리고 최종 스테이지에서 온다이에 보조 프로세서의 통합된다. 이 페이즈에서는 ATI의 벡터 프로세서 코어는 인터널의 Coherent HyperTransport 로 AMD의 프로세서 코어 군과 연결된다. AMD는 CPU 설계에 빌딩 블록 접근법을 도입해 각 블록 간의 인터페이스를 청정하게 함으로써 코프로세서 등의 통합을 용이하게 한다.

 이러한 AMD + ATI의 밀접한 통합이 실현되면 원칩으로 범용 컴퓨팅과 그래픽과 데이터 중심 컴퓨팅을 실현할 수있게된다. 밸류 레인지이라면 AMD + ATI 원칩 + 사우스 브릿지 칩으로 PC를 실현되게 된다. 보다 고성능인 범위에서는 GPU를 외부 부착하여 CPU의 벡터코아는 물리와 같은 데이터 연산에만 사용하는 것도 있다.

 


늘어난 트랜지스터를 벡터 엔진에 주입

 공정 기술의 진보도 통합화를 드라이브한다. 공정이 미세화됨에 따라 AMD는 CPU에 다수의 코어를 올리게 된다.

 아래의 다이 크기의 차트를 보면 알 수 있듯이, AMD CPU의 die size (반도체 본체의 면적)는 듀얼 코어조차 65nm 공정 세대에 100 제곱 mm 이하로 시작했다. 45nm 세대에서는 듀얼 코어는 확실히 다이 영역이 남아 버린다.

 

 

 

AMD의 공정 기술 및 Fab 추정 로드맵

 

 

AMD CPU Die Size (일부 추정)

 


 AMD CPU는 DRAM 인터페이스를 통합하고 있기 때문에, CPU 주위에 어느 정도 패드의 면적이 필요하다 . 따라서 일정 이하의 다이 크기는 할 수 없다. 따라서 AMD는 무언가로 다이를 메우지 않으면 안된다. 게다가 AMD는 IBM과 공정 기술 개발 제휴로 공정 이행을 가속화하고 있으며, 65nm에서 45nm까지는 약 1년반에 이행하는 것이다. 즉, AMD는 급속하게 많은 코어를 올리는 것이 가능 하게 된다.

 그러나 범용 프로세서 코어를 2개에서 4개로 늘려도 성능 이점은 그리 크지 않다. PC의 소프트웨어 환경에서 범용 컴퓨팅 응용 프로그램이 멀티 스레드로 동시에 다수 달리지 않기 때문이다.

 PC에서 보다 멀티미디어 시스템 및 소위 RMS- "Recognition (인식)" "Mining (분석 & 추출)" "Synthesis (합성)"- 계 응용 프로그램의 성능이 요구된다고 알려져 있다 . 이러한 응용 프로그램은 데이터 중심으로 방대한 데이터 처리 능력이 요구된다. 즉, 컴퓨팅의 중요성이 범용 컴퓨팅에서 더 데이터 연산 중심으로 기울고 있다. 그에 대한 보다 나은 솔루션은 범용 컴퓨팅 코어의 증강이 아니라 데이터 처리에 특화된 보조 프로세서의 탑재라 AMD는 생각한 것으로 보인다.

 이것을 트랜지스터 예산, 즉, 사용할 수 있는 트랜지스터 수의 관점에서 보면 다음과 같다.

 무어의 법칙으로 1 공정 세대마다 동일한 정도의 다이 크기의 CPU에 실리는 트랜지스터 수는 배들이 된다. 그러나 예산 (자산)을 범용 코어에 쏟아 넣어도 성능 향상을 얻기 어렵다.

 범용 코어를 비대화 시켜도 단일 스레드 성능은 그다지 극적으로 오르지 않으며, 범용 코어를 늘려도 멀티 스레드화가 극적으로 진행하지 않으면 성능의 이익이 작다. 그렇게 되면,  늘어난 예산을 데이터 처리에 특화된 벡터 프로세서에 쏟아 부은 것이 더 효율적이다. 데이터 중심의 응용 프로그램은 멀티 스레드화도 쉽기 때문에, 딱 어울린다.

 이 개념은 기본적으로 Cell과 유사하다. Cell은 범용 프로세서 코어 "PPE (Power Processor ​​Element) "와 벡터 연산 프로세서 코어 "SPE (Synergistic Processor ​​Element)"의 헤테로 지니어스 통합이다. 게임에서는 데이터 중심 프로세싱이 필요하다 보고, 8 개의 SPE를 원칩에 올렸다. 덧붙여서, PLAYSTATION 3도 초기 계획은 Cell을 기반으로 한 아키텍처에서 그래픽을 처리하는 방안이 있었다.

 


서버용(HPC)의 64bit 벡터 프로세서는?

 

 

GPU로 물리 연산을 행하는 COMPUTEX에서 데모

 

 ATI의 기술은 PC 용 벡터 프로세서 코어로만 사용된다 생각되지 않는다. ATI의 개발 팀은 AMD의 서버 CPU 용의 부동 소수점 벡터 프로세서도 개발할 가능성이 있다. AMD는 빌딩 블록 접근법에 의해서, 서버와 데스크톱, 모바일 이라는 시장마다 다른 구성을 비교적 쉽게 만들 수 있게 되었다. 따라서 탑재하는 보조 프로세서도 시장별로 다를 것으로 추정된다.

 예를 들어, ATI가 관련 벡터 프로세서 분야에서는 서버용과 PC 용으로 요구되는 사양이 다르다. 따라서 AMD는 서버 CPU 및 클라이언트 CPU에서 서로 다른 사양의 벡터 프로세서를 통합을 통합하는 것으로 추측된다. 포인트 중 하나는 연산 정밀도이다.

 그래픽과 미디어 프로세싱, 게임 물리에서는 32bit 단 정밀도 부동 소수점 연산 (FP32)까지 밖에 요구되지 않는다. 따라서 GPU도 Shader Model 3.0/4.0 세대에서는 FP32에서 4way의 벡터 연산 능력 (128bit) 밖에 실장하지 않는다. 그러나 과학 기술계 등에서는 64bit 배정밀도 부동 소수점 연산 (FP64) 이나 그 이상이 요구된다. ATI Technologies의 David E. Orton (데이비드 E 오튼) 사장 겸 CEO는 6월 COMPUTEX 라운드 테이블에서 FP64에 대해 다음과 같이 대답했다.

 "FP64을 실장할지에 대한 몇 가지 의문이있다. 첫째, 범용 컴퓨팅 분야에서는 FP32로 해결할 수 없는 문제가 나온다. 좋은 예가 물리 연산이다. 게임 애플리케이션을 위한 물리에서는 FP64는 전혀 필요 없다. 이런 종류의 비주얼 경험에 영향을 주는 응용 프로그램에서는 FP32으로 충분하다고 생각하고 있다.하지만 (같은 물리 연산도) 오일과 가스의 채굴 또는 과학 기술 프로그래밍 에서는, 배정밀도의 지원과 예외 처리 지원이 필요하다.

 따라서 우리는 배정밀도와 예외 처리 방향도 계속 (연구하고)있다. 그래픽 엔진의 모든 자원 속에서 4 (Way)의 파이프 라인을 버리지 않고 배정밀도의 지원을 실현하는 방향이 적절하다고, 나는 생각한다. 그러기 위해서는 설계자가 창조적이지 않으면 안된다. 그러나 우리는 배정밀도와 예외 처리에 대해 연구하고 있다 "

 이미 AMD와의 대화가 상당히 진전되어 있었다고 보여지는 이 시점에서, Orton 씨는 FP64의 구현 방향에 대해 부정하지 않는다. 그래픽이나 게임 물리학에서는 FP64는 필요 없다고 말하며 범용 컴퓨팅을 위해 FP64을 검토하고 있다고 한다. AMD 산하가 된 ATI가 FP64의 범용 벡터 프로세서로 향하는 것은 자연스러운 흐름으로 보인다.

 


CPU와 GPU의 통합은 향후의 큰 트렌드


 CPU와 GPU의 통합, 즉 스칼라 프로세서와 벡터 프로세서의 통합은 아마도 향후 5 ~ 10년의 프로세서 업계의 큰 트렌드가 된다. AMD와 ATI뿐만 아니라 다른 CPU 업체도 결국이 흐름을 타고 온다 추정된다. 실제로 AMD와 ATI의 안건이 발표되기 전부터, CPU 업계 관계자는 제각기 CPU와 GPU의 통합에 대해 이야기했다.

 예를 들어, 어떤 CPU 제조사 관계자는 "CPU는 블랙홀처럼 무엇이든 삼켜 간다. 칩셋 ... 미래는 GPU도 삼키는 것"이​​라고 말했다. Intel 관계자조차 "CPU와 GPU가 통합되는 것은 당연한 흐름이다" 라고 말했다. Intel이 생각하는 헤테로지니어스 멀티 코어의 미래상도 Shader로 사용할 수 있는 벡터 연산 프로세서의 통합이 포함 된 것으로 추정된다.

 원래, GPU가 Shader 시대에 들어와서, CPU 제조사는 GPU에 높은 관심을 보이기 시작했다. 점점 범용화 하는 Shader의 아키텍처는 CPU 제조사에게 친숙함이 깊기 때문이다. 실제로 Intel은 GPU 코어 개발에 진심으로 몰두하고 있으며, Intel 965 Express (Broadwater-GC : 브로드 워터-GC)는 Unified-Shader 타입의 구현을 행한 것으로 보인다. 그 앞도 Intel은 여러 그래픽 코어의 프로젝트를 병행해 진행하고 있다고 말한다.

 다른 CPU 업체도 공식적으로 표명하는 것은 아니지만, 오프라인에서는 GPU 진출이 종종 화제에 오른다. 어느 CPU 제조사 관계자는 몇년 전 "CPU 제조사의 회로 설계 기술이 있으면 현재의 몇 배의 클럭으로 동작하는 GPU를 만들 수있다" 고 말했다. 또 어느 CPU 개발 업체는 사장 자신이 그룹 기업의 GPU의 넷리스트 (설계 데이터)를 가져와 확인하고 있다고 한다.

 이러한 물밑 움직임을 보면 CPU와 GPU의 통합화는 향후 큰 조류가 된다고 추정된다. GPU 또는 GPU가 가지고 있는 벡터 프로세싱 영역을 넣지 않으면, CPU는 그 의미를 잃기 때문이다.

 

 

2006년 7월 25일 기사 입니다. (AMD의 ATI인수는 7월 24일 발표)

 

 

[분석정보] AMD가 2009년의 CPU 코어와 통합 CPU의 개요를 발표

 

 

[분석정보] 메모리가 큰 벽이 되는 AMD의 퓨전 (FUSION) 프로세서

 

 

[분석정보] AMD가 확장판 K10 코어 기반의 APU Llano 를 첫 공개

 

 

[분석정보] 그리고 CPU는 DRAM 다이도 통합

 

 

[분석정보] Sandy Bridge와 Bulldozer 세대의 CPU 아키텍처

 

 

[분석정보] AMD의 차기 CPU 코어 "K9"는 2005 년에 등장인가?

 

 

[분석정보] K9는 DDR2 메모리와 차세대 HyperTransport에 대

 

 

[분석정보] K8 이후 크게 바뀐 AMD의 CPU 개발주기

 

 

[분석정보] 결정된 헤테로지니어스 멀티코어에 대한 기류

 

 

[분석정보] AMD가 발표한 메인 스트림 APU Llano의 아키텍처