벤치리뷰·뉴스·정보/아키텍처·정보분석

[분석정보] Rev.F의 다음 다음에 오는 AMD의 차세대 코어 Hound

tware 2006. 5. 31. 19:00

 

Rev. F 다음은 Hound에서 CPU 아키텍처를 확장

 

 새로운 세대의 K8 "Rev. F (Revision F)"를 발표한 AMD. 이전 이 코너에서 AMD가 다음의 65nm 공정 코어 Rev. G에서도 아키텍처 확장을 진행할 가능성을 보고했지만, 그것은 잘못 이었다. Rev. G는 거의 Rev. F와 같은 기능의 코어에 머물며, 그 다음 "Hound (하운드)" 제품군에서 K8 코어의 대규모 아키텍처 확장을 진행한다. AMD는 6월 1일 (한국 시간 6월 2일 심야)의 "AMD Technology Analyst Day" 에서 CPU 로드맵을 밝힐 예정인데, 그에 앞서 일본에서 개최 된 라운드 테이블에서 일부를 밝혔다.

 

 아래가 AMD의 CPU 코어 부분을 비교한 차트다. 이번에 밝혀진 것은 중앙의 코어는 제품화되지 않는 엔지니어링 샘플로 실제의 Rev. G와는 다른 것. 가장 아래의 Hound 코어에서 단숨에 아키텍처를 확장한다.

 

 

K8 Processor Cores

 

 

AMD의 Dirk Meyer (더크 메이어) 씨

 

AMD의 Dirk Meyer (더크 메이어) 씨 (President & COO)는 이 차트에 대해 다음과 같이 말한다.

 

 "그림 중 위 (의 CPU 코어)는 Rev. F다. 중간은 제조 프로토 타입으로 Rev. G는 아니다. 아래의 당신이 Rev. H 라고 부르는 것은, 우리가"Hound (하운드)"라고 ​​부르는 차세대 코어 중 하나다 "

 

 Meyer 씨는 AMD 코어가 기능적으로는 Rev. F에서 Hound 패밀리로 이행한다고 인정했다. 즉, 최초의 65nm 공정이 되는 Rev. G는, Rev. F에서 기능 확장은 없다. 어느 AMD 관계자에 의하면, Rev. G는 거의 광학 수축에 가까운 코어라고 한다. 지금까지 상정한 것 처럼 Rev. G에서의 명령어 페치 부분의 강화가 아닌, 다음 Hound 코어에서 모아서 CPU 코어 기능 강화가 진행될 전망이다. 참고로, 이전 AMD가 고객에게 Rev. H 라고 설명한 코어 세대는, 현재는 Hound가 된것 같다. 기능 확장의 결과, 이미 K8이 아니라는 위치인지도 모른다.

 

 

Hound 코어에서 SIMD 부동 소수점 연산 성능을 2 배로

 

이전 보고서에서도 설명한 대로, Hound 코어는 꽤 대폭적인 기능확장이 진행된다. 기능 확장의 개요는, Spring Processor ​​Forum에서 공개된 쿼드 코어 CPU로 설명되었다.

 

 

AMD의 Phil Hester (필 헤스터) 씨

 

 "쿼드 코어 (의 CPU 코어)는 기본적인 파이프 라인은 오늘의 (코어)와 비슷하지만, 보다 확장한다. 특정 사항에 특화된 마이크로 프로세서의 변경을 진행하고 있다. 예를 들면, 연산 유닛 수는 64bit 부동 소수점에서 128bit 부동 소수점으로 배로 증가한다. 이것은 우리가 고성능 컴퓨팅의 고객에게서 배운 결과를 반영시킨다. 또 SSE 명령도 몇 가지 사소한 명령 세트 확장도 진행한다. 이것은 특히 그래픽과 보안 암호화를 위한 것이다" 라고 AMD의 Phil Hester (필 헤스터) 씨 (Senior Vice President & Chief Technology Officer, AMD)는 설명한다.

 

 Hound 코어의 확장의 최대 중심은, 이 부동 소수점 연산 유닛의 확장이다. "더 큰 부동 소수점 유닛 덕분에, 2배 (연산 스루풋)이 된다"고 Meyer 씨는 말한다. Hound 코어에서는 기존의 부동 소수점 연산 파이프 옆에 또 1개의 부동 소수점 연산 파이프가 더해졌다.

 Meyer 씨에 따르면, 이 확장에 의해서 SSE의 SIMD 부동 소수점 연산 성능이 2 배가 된다고 한다. 배정밀도에서는 2 더하기와 2 곱하기의 합계 4 오퍼레이션을 1 사이클로 실행 할 수 있다고 한다. 다만 Meyer 씨는 "이것은 SSE 연산" 이라고 말해, 스칼라 연산의 확장이 아닌, SIMD 연산만 확장된다. 예를 들면, 128bit 부동 소수점 연산이 가능하게 된다는 뜻은 아니다.

 

 AMD와 Intel은 모두 128bit의 SIMD 오퍼레이션을 실제로는 64bit 연산 유닛을 2 사이클로 돌리는 것으로 실행했다. 그러나 Hound 코어는에서는 64bit 파이프를 더한 것으로, 128bit 폭의 SIMD 연산을 1 사이클 스루풋으로 실행할 수 있게 된다. 2 개의 64bit 배정밀도 연산을 팩화시켜 실행할 수 있기 때문에, 연산 논리 성능은 2 배가 된다. 단 정밀도의 경우도 마찬가지로 2 배가 된다.

 

 

CPU 코어는 서버와 모바일로 분화

 

AMD는 자사의 코어를 2 방향으로 분화시키는 것도 시사한다.

 

 "우리의 미래에는, 최적화 설계 스팟이 2 개 있다. 1 개는 서버 영역으로 성능, 성능 / 전력, 확장성을 노린다. 다른 하나는 모바일 기반으로, 이쪽은 특히 높은 전력 효율을 노린다. 이들 (2개)의 코어 기술로, 서버와 모바일의 두 영역 더해서 데스크톱 영역에도 대응할 수 있는 것이다. 데이터 센터와 모바일뿐만 아니라, 데스크탑에서도 2 개의 코어 설계를 사용할 수 있다고 생각한다. 전력 효율이 모든 범위의 제품에서 중요해져 간다고 생각하고 있기 때문이다 "라고 Hester 씨는 말한다.

 

 즉, CPU 코어 마이크로 아키텍처 자체는, 고성능이며 고전력 효율의 코어와, 모바일용의 매우 전력 효율이 높은 코어의 2 타입을 설계한다고 추정된다. Hound 코어는 틀림없이 서버용 코어다. 그 위에서 2 개의 코어를 데스크탑 시장에 반입해 간다라는 시나리오가 된다. 자세한 내용은 Analyst Day에서 밝혀질 테지만, 당연하게 생각하면, 서버용으로 기능 확장을 진행 성능을 끌어 올린 코어를 준비. 모바일용에는 성능 확장은 최소로 남긴 코어를 투입 할 가능성이 높다. 데스크톱은 어떤 구분이 될지 알 수 없지만, 두 코어가 혼재하는지도 알 수 없다.

 

 다만 코어가 공통이어도, 그 밖의 유닛은 다를 가능성이 있다. AMD는 CPU 유닛의 모듈화를 진행하고 있기 때문이다.

 

 "우리는 미래의 코어를 꽤 모듈화해서 설계하고 있다. 따라서 시장의 요구 변화에 응해 새로운 버전의 CPU를 비교적 쉽게 만드는 것이 가능하다"(Hester 씨)

 

모듈화에 의해서 변형상품을 늘린 새로운 코어의 등장은 "2007 ~ 2008 년의 타임 프레임부터 시작"(Meyer 씨)이라고 한다.

 

 

멀티 코어에서는 캐시 계층을 깊게

 

 또한 Hester 씨는 CPU 설계의 변형의 한 예로서, 쿼드코어에 L3 캐시를 더하는 것을 꼽았다. AMD는 향후, 멀티코어 화의 진전에 따라서 캐시 계층을 깊게, 캐시 효율을 올리는 것에 초점을 맞춘다고 한다.

 

 "우리가 앞으로 중요하다고 생각하는 사항 중 하나는 캐시 효율의 향상이다. 우리는 점점 코어를 더해 간다. 이에 따라 CPU의 메모리 대역의 요구는 병렬 메모리 채널의 대역 증가 페이스 보다도 빠른 페이스로 증가해 버린다. 따라서 우리는 메모리 계층의 향상을  진행할 필요가 있다. 그 경우, 핵심적으로 중요한 것은 캐시 구조의 효율 향상이다. 그래서 다양한 기술을 연구하고 있다. 또 이를 위해서도, 우리는 CPU 설계의 모듈화를 진행하고 있다. 어떤 메모리 기술을 C​​PU 내부에서 사용할 필요가 있어도 대응할 수 있도록 모듈러화 한다 "(Hester 씨) (코어가 훨씬 많은 서버용 제품이 코어당 캐시가 더 많거나, 램 채널이 3~4채널 이상인 이유. 반대로 저성능(저전력)에 저가형에서도 가장 최저가형은 램 채널이 1채널인 이유. 이쪽은 성능도 성능이지만, 완제품을 만드는 쪽에서의 제조 단가까지 낮출 수 있도록. 즉 최종 소비자가 싸게 살 수 있도록. 이런 이유로 데스크탑&노트북 수준은 보통 2채널이죠. 램채널이 많아지면 보드가 비싸 집니다.)

 즉, DRAM의 전송률의 향상 페이스는 느리기에, 멀티코어 화에 따라가지 못한다. 따라서 미래는 현재보다 대용량에 깊은 캐시를 취하지 않으면, 메모리 액세스가 병목이 되어서 성능이 오르지 않게된다. 따라서 캐시가 중요한 열쇠가 된다는 의미다.

 

또한 AMD는 Rev. F에서 CPU 소켓을 일신한다. AMD의 경우 CPU에 DRAM 인터페이스를 통합한 사정 상, CPU의 메모리 인터페이스를 확장 할 때마다 소켓도 바꿀 필요가 있다. 소켓 호환성은 "최소 2 세대"(Meyer 씨)라고 한다. 즉, Rev. F에서 도입한 새로운 소켓 군은 Rev. G까지는 보장된다.

 

 

CPU의 다이 크기를 거의 일정하게 유지

 

 AMD는 멀티 코어 화로 진행하지만, 다이 사이즈(반도체 본체의 면적)는 거의 같은 수준을 유지할 전망이다. 아래가 예상되는 AMD CPU의 다이 크기다. Rev. F의 다이는 ISSCC에서 발표시의 크기이므로 제품판에서는 다소 수축될 가능성이 있지만, 대략적인 크기는 변하지 않을 것이다.

 

 

AMD CPU Die Size (Partly Guesstimated)

 

Hester 씨는 회사의 다이 크기 전략을 다음과 같이 설명한다.

 

 "일반적으로 말하면, 업계에는 3 가지 다른 (다이 크기) 스위트 스팟이 있다. 우리의 과거 (의 CPU)를 봐도, 3개의 다이 크기가 있는 것을 알것이다. 당신의 그림으로 말하면, 가장 아래의 (작은) 다이는 엔트리 레벨로 성능은 최소이다. 비용이 중요한 시장용 이라는 것이 일반적인 경향이다. 중앙의 (중간 크기의 다이)는 우리가 가격 대비 성능 또는 메인 스트림이라고 부르는 것이다. 가장 위의 (최대 다이)는 성능 지향으로 수율이 제한된다. 이 3개의 밴드는 미래에 걸쳐서도 계속 될 것이다. 엄밀하게는 다양한 변형이 있지만, 일반적인 경향에서는 3 개의 스위트 스팟이 지속된다"

 

 즉, AMD는 CPU 코어의 크기를, CPU 타입마다 3 레벨로 유지하여, 그 중에서 성능을 향상시켜 나가는 전략을 채택. 이것은 Intel과 기본적으로 같다.

 

 최대의 다이는 200 제곱 mm 전후의 다이 크기로, 현재는 2MB L2 캐시 (1MB × 2)판의 듀얼 코어 K8 계가 그 크기에 위치한다. 그러나 다음의 65nm 공정에서는 쿼드 코어 Hound도 대충으로는 이 위치에 오는 것을 AMD는 인정한다.

 

 정리하면 새로운 아키텍처 또는 확장 아키텍처의 최초의 세대의 고성능 CPU는 200 제곱 mm의 다이 크기에서 시작한다. 최근의 패턴에서는 200 제곱 mm 클래스 다이의 CPU에서 파생으로, 캐시 량을 줄이는 등의 경량화를 도모한 버전이 120 ~ 140 제곱 mm의 메인 스트림 클래스에 온다. 그리고 저가 클래스는 일반적으로 1세대 전의 아키텍처의 CPU가 된다. 1세대 전의 아키텍처가 메인 스트림을 차지하는 경우도 있다. (신 아키텍처의 경우 그만큼 코어의 크기가 크기 때문에, 예전을 볼수록 각사의 신형 CPU는 최초에 고가, 기존 아키텍처가 보급형을 담당하는건 쭉 봐왔던 거죠. 당대의 초고성능(큰 다이)일 수록 그 자체로 생산량도 적지만, 다이가 커지면 수율 자체도 떨어 집니다.(그나마 2코어 이상이라면 불량 코어 끄고 1코어로 팔수도 있겠지만..) 재료값 2~3배 들어가니 가격도 2~3배가 아닌 훨씬 비싸게 되겠죠. 또한 공장의 생산능력은 정해져 있기 때문에 큰 코어로만 만들면, 공급이 따라갈 수가 없습니다. 쉽게 공장을 지으면 되지 라고 할수도 있지만.. 그게 맘대로 안되죠. 돈이 어마어마하게 들어가니까요. 또 IT 기기들은 현대에는 필수품이긴 한데 소모품은 아니죠. 이미 보급이 거의 다 된 상태에서는 결국 업그레이드 수요이고 (기존 사용 제품 대체), 이것은 하드웨어&소프트웨어 환경에 따라서도 영향을 받지만, 경제에서도 영향을 많이 받습니다. 경제가 나빠지면, 개인이나 기업이나 업그레이드 기간이 더 늘어나게 되죠 (스마트폰도 보급이 되면 될수록 이렇게 가고 있죠.). 돈이 여유가 있다고 해도 마구마고 지을 수가 없죠. 또 건설 기간도 있구요(허가 문제나). 하루 아침에 공장이 생기는 것도 아니고요. 소프트웨어 처럼 생산량을 걱정할 필요가 없는 것이 아니죠. 또 소프트웨어도 그렇지만, 아키텍처 연구&개발비, 공정 연구 및 개발비에 공장 건설비용이 추가로 붙죠. 윈도우즈 원가가 DVD값과 포장값 1,000원이 아니듯이요. 이래서 소프트 업체에 비해서 돈을 못 벌기도 하죠. 여기에 크게만 만든다고 그만큼 성능이 증가되지도 않죠. 단순히 코어수를 많게 해도 소프트 환경이 안되면 거의 대부분의 일반 사용자는 쓸모가 없게 되구요.)

 

 공정 세대로 보면 1 아키텍처가 2 ~ 3 공정 세대에 걸쳐 제조된 다음에 바톤 터치된다. 이 패턴은 답습되고 있어, 싱글 코어 K8, 듀얼 코어 K8은 이 코스를 걷고있다.

 

 "K8은 130nm 공정에서 만들어져, 그것에서 90nm로 축소한다. 다음으로 듀얼 코어를 90nm에서 더하고, 듀얼 코어 K8은 65nm로 향한다. 이것이 Rev. G다. 그리고 65nm에서 New Core가 등장한다. 이것이 Hound로, 다음에는 Hound를 45nm로 이행시킨다"라고 Meyer 씨는 설명한다.

 

 Hound도 싱글 / 듀얼 코어 K8과 같은 코스를 과정을 더듬어 가는 셈이다.

 또 Meyer 씨에 의하면 "CPU의 평균 다이 크기는 조금씩이지만 커져 갈 전망이다. 듀얼 코어의 요구가 높아지기 때문이다"라고 말한다.

 

 CPU 다이의 3 밴드는 유지하며, 보다 고성능 제품으로 수요 전환에 의해서 평균 크기는 점차 확대 될 것으로 보는것 같다.

 

 

새로운 Fab 38로 승부에 나오는 AMD의 제조 전략

 

 

 

"Fab 38"로 명칭 변경되는 Fab 30

 

AMD가 동일한 정도의 다이 크기를 유지, 그럼에도 평균 크기는 완만하게 늘린다는 것은 회사가 Fab 전략도 변경하는 것을 말한다. AMD가 발표한 "Fab 38"의 계획이 이것이다.

 

 AMD는 현재 독일 드레스덴에 있는 Fab 30에서 CPU를 제조하고 있으며, 인접해서 세운 새로운 Fab 36의 가동을 시작한다. AMD는 지금까지 CPU 제조용 첨단 Fab은 1 개소로 만으로 제한해 왔다. 즉, Fab 36이 궤도에 오르면, Fab 30는 CPU 제조에서 페이드 아웃하는 것이 일상이었다.

 

 새로운 Fab 36은 기존의 Fab 30의 약 1.5 배의 제조 능력을 갖는다. 그러나 회사가 목표로하는 2008년에 1억 개의 CPU 생산 능력 (그 중 자사 Fab 분은 약 8000 만개로 추정된다)을 달성하기 위해서는, 평균 다이 크기를 축소하지 않는 한 Fab 36 단독으로는 달성 할 수 없다. AMD가 다이 크기를 유지한다는 것은, 회사가 계속해서 2 Fab에서 CPU를 제조하는 것을 의미한다.

 

 AMD는 현상황에서 새로운 Fab을 건설하고 있지 않기 때문에, 생산 능력을 증강하려면, Fab 30을 65nm 공정으로 전환시킬 필요가 있다. 그런데 거기에는 몇 가지 장애물이 있다. 건설에서 6년이 지난 Fab 30의 시설에서는, 꽤 개량하지 않으면 장기적으로 미세화하는 공정에 따라가기는 어렵다. 또 Fab 30은 200mm 웨이퍼 Fab으로, Fab 36의 300mm 웨이퍼 설비와 호환성이 없다. AMD는 설비 도입이나 공정 개발의 비용을 절감하기 위해서는, Fab 30의 시설을 교체하고 300mm 웨이퍼 Fab 할 필요가 있다. 이러한 확장에는 막대한 비용이 필요하기 때문에, AMD가 거기까지 과감할지 어떨지는 의문이 있었다.

 

 그러나 결과부터 말하면, AMD는 도박에 나섰다​​. Fab 30 대개조하여, 300mm 웨이퍼 기반의 Fab 38로 신생한다고 한다. 따라서 25억 달러와, 실질 새로운 Fab 건설에 필적하는 투자를 진행 (여기에는 Fab 36 확장에 대한 투자도 포함된다).

 

 

AMD의 공정 기술 & Fab 추정 로드맵

 

이 계획이 나타내는 것은, AMD가 진심으로 Intel에 도전할 의도가 있다는 것이다. 아마 2008년에 1억개 라는 숫자는 통과 점에 지나지 않는다. 2개의 Fab이 풀 가동되면 제조량은 그것을 넘기 때문이다. Fab 36은 계산상으로는 현재의 다이 크기 CPU를 6천만개/년 이상 제조 가능한 능력을 갖춘다. 그것에 Fab 38을 더하고, 그 위에 파운드리 Chartered Semiconductor에 제조 위탁하는 분량을 포함하면 2009년 이후는 1억개를 초과할 것이다. 라고 하면, 목표는 시장 점유율 50% 확보라고 추정된다.

 

 그러나 AMD는 새롭게 25억 달러의 투자를 한다. 그것을 회수 가능한 만큼의 시장 점유율과 이익을 올려야 한다는 무거운 짐도 짊어지게 된다. AMD는 Fab 전략에 대해서도 Analyst Day에서 발표한다고 한다.

 

2006년 5월 31일 기사

 

 

[분석정보] AMD가 K8 코어의 부동 소수점 연산 유닛을 2배로

 

 

[분석정보] AMD가 쿼드 코어 CPU Barcelona의 상세를 발표

 

 

[분석정보] 대폭 강화된 AMD의 쿼드 코어 Barcelona

 

 

[분석정보] AMD "Barcelona"는 가장 빠른 Xeon 보다 50% 고속

 

 

[분석정보] 그리고 CPU는 DRAM 다이도 통합

 

 

[고전 2005.01.12] 암달의 법칙(Amdahl's law)을 둘러싼 Intel과 AMD의 싸움

 

 

[분석정보](암달의 법칙) 2010년대 100 코어 CPU 시대를 향해서 달리는 CPU 제조사

 

 

[분석정보] K8 이후 크게 바뀐 AMD의 CPU 개발주기

 

 

[분석정보] AMD가 2009년의 CPU 코어와 통합 CPU의 개요를 발표

 

 

[분석정보] 심플 코어로 향하는 차세대 CPU 아키텍처

 

 

[분석정보] 결정된 헤테로지니어스 멀티코어에 대한 기류

 

 

[분석정보] AMD가 K8 코어의 부동 소수점 연산 유닛을 2배로

 

 

[분석정보] 현실 노선으로 수정된 AMD의 FUSION

 

 

[분석정보] Bulldozer가 후퇴한 AMD의 로드맵의 의미

 

 

[분석정보] 인텔의 대항에 직면한 AMD의 서버 로드맵

 

 

[고전 1999.10.21] AMD 독일 드레스덴의 Fab30 개소식을 개최

 

 

[고전 2002.02.14] AMD 차기 CEO 헥터 루이즈 씨 방일

 

 

[분석정보] AMD Fab 36의 위험과 기회

 

 

[분석정보] 반도체 제조사는 팹리스화로 진행

 

 

[분석정보] AMD가 바라보는 x86시장 점유율 50%의 전략

 

 

[분석정보] 메가화 노선을 유지하는 인텔과 팹리스를 목표한 AMD

 

 

[고전 2003.03.10] Fab에서 예측하는 향후 인텔

 

 

[고전 2005.08.05] 새로운 공장 건설에서 보는 인텔의 Fab 변천

 

 

[분석정보] 2008년 중에 95%를 듀얼 코어로 하는 Intel CPU로드맵의 비밀

 

 

[분석정보] 20년 후인 지금도 곳곳에서 살아남은 펜티엄 아키텍처