벤치리뷰·뉴스·정보/아키텍처·정보분석

[분석정보] AMD 불도저 제품은 4GHz 이상.

tware 2011. 9. 29. 13:27


8.4GHz로 기네스 기록을 획득한 Bulldozer (불도저)


AMD의 차기 CPU 아키텍처 "Bulldozer"은 가장 빠른 CPU의 제목을 얻었다. AMD는 9 월 중순에 라이벌 Intel이 Intel Developer Forum (IDF) 미국 샌프란시스코에서 발표회를 가졌다. AMD는  Bulldozer가 오버 클럭에서 8.429GHz를 마크하고 기네스 월드 레 코즈로 인정​​ 된 것을 발표했다.

(인텔 IDF가 열리던 때에  AMD는 인텔 IDF 행사장 옆에 호텔을 얻어서 거기서 오버클럭 시현을 함)


액체 헬륨을 사용한 무리한 오버라고 해도 8GHz 넘은건 의미는 크다. AMD의 Eric Demers 씨(Chief Technology Officer & CVP, AMD Graphics, AMD)는 "이 결과는 32nm 공정의 우수성뿐만 아니라, Bulldozer 아키텍처에 의존적 부분이 크다"고 설명한다. 실제로 AMD는 Bulldozer의 제품 버전은 기존의K10 코어 제품보다 20% 이상 높은 동작 주파수에서 투입하려고하고있다. Bulldozer는 최근 AMD CPU에 드문 속도 데몬 (speed demon) 집합 아키텍처이다.


불도저 다이


오로치 블럭 다이어그램



제품 버전은 최고 4.2 ~ 4.5GHz로 등장


AMD가 기네스 기록에 도전에 사용한 "AMD FX-8150"은 오버 클럭 가능한 "Black Edition"의 제품이다. 8 개의 CPU 코어 (4 개의 Bulldozer 모듈), 8MB의 L2 캐시, 8MB의 L3 캐시를 탑재하는 "Orochi (오로치)" 다이 제품이다. 현재 출시시 가장 빠른 제품인 FX-8150은 125W TDP (Thermal Design Power : 열 설계 소비 전력)에서 기반 3.6GHz에서 터보시 4.2GHz의 작동 주파수로 투입 될 전망이라고 드러나 있다.

또한 FX 제품군은 내년 (2012 년)보다 높은 클럭의 FX-8170도 앞두고있는 것으로 알려져있다. 이쪽은 터보시 4.5GHz에서 기반 3.9GHz에 달할 것으로되어 있지만, 스펙은 변동 가능성도 있다. PC 용 Bulldozer 코어 제품은 모두 Orochi 다이 "Zambezi (잠베지)"제품군, AM3 + 소켓 CPU이다.

덧붙여서, Orochi 기반 서버 제품은 1 ~ 2 소켓 서버용가 "Valencia (발렌시아)"1 ~ 4 소켓 서버 전용 "Interlagos (인터라고스)"가 있다. Zambezi가 4 ~ 8 코어, Valencia가 6 또는 8 코어 Interlagos는 2 개의 다이를 넣은 MCM (Multi-Chip Module) 패키지로 12 또는 16 코어로 등장한다.Zambezi는 데스크톱 CPU를위한 AM3 소켓의 확장판 "AM3 +", Valencia 현재 6 코어 Opteron 4000 시리즈의 "C32"소켓, Interlagos 현재의 12 코어 Opteron 6000 시리즈의 "G34"소켓으로 제공 된다.


AMD3 + 소켓으로 구성


C32 소켓 구성


G34 소켓 구성


Bulldozer가 제품 사양 4.5GHz를 노린다면, 오버 클럭에서 8GHz 통과를 할 수있는 것도 납득할 수있다. 또한 4.5GHz라는 대상은 Bulldozer 아키텍처는 납득할 수있는 수치 다. 왜냐하면, Bulldozer는 기존의 K10 코어에 비해 아키텍처는 25 % 이상 높은 동작 주파수를 달성 할 수있는 사양이 되고 있기 때문이다.


AMD는 올해 (2011 년) 2 월의 ISSCC (IEEE International Solid-State Circuits Conference)에서 Bulldozer의 FO4 (Fanout-Of-4) Gates / Cycle 수가 기존의 AMD K10 (Hound) 계 코어보다 20 % 이상 적은 것으로 나타났다고 했다. 스테이지 당 딜레이가 20 % 적다고 하면 같은 트랜지스터 성능으로 작동 주파수는 25 % 높은 것을 의미한다.

현재 K10 계에서는 45nm시 동작 주파수의 상한은 3.7GHz 정도이다. Bulldozer 25 % 동작 주파수를 높일수 있다면, 4.6GHz를 이론적 달성 할 수있게된다. 제품 계획의 사양과 거의 딱 겹친다.



AMD CPU 주파수 비교


잠베지 라인업과 클럭



고클럭화로  정수 파이프의 감소를 커버


AMD가 Bulldozer 높은 클럭 설계를 잡은 이유는 단일 스레드 당 성능을 최대한 유지하기 위해서라고 추측된다. Bulldozer는 AMD는 클러스터 아키텍처라는 2 개의 CPU 코어를 융합시키는 아키텍처를 채용했다. 그 결과, 다이 크기를 너무 늘리지 않고 CPU 코어 수를 늘리는 데 성공했다. 같은 프로세스 세대 비슷한 다이 사이즈라면, 원리 적으로 Bulldozer 아키텍쳐가 더 많은 CPU 코어를 탑재 할 수있다. 하지만 이 방법의 단점으로 Bulldozer는 각 정수 코어는 실행 파이프 수가 적어졌다.


멀티 쓰레딩 아키텍처의 비교

(1 : 코어를 2개 넣음  2쓰레드 처리, 크기가 2배 커짐. 성능이 가장 좋음

2: 불도저 모듈식 구성 독립된 2개의 코어를 독립적으로 유지하면서 공유할 수 있는 부분을 공유

칩의 크기가 2배로 커지지 않는다. 2쓰레드 처리 가능 1과 같이 독립적 코어라 성능도 꽤나 좋음

3. 인텔 하이퍼 쓰레딩  최소한의 독립된 2개의 쓰레드가  하나의 코어 자원을  공유함.2개 쓰레드 처리가능 독립된 자원이 아닌 공유 자원을 나눠서 2쓰레드 처리방식이라  2쓰레드 성능이 떨어짐.

순수 방식에 대한 설명입니다. 인텔의 경우 1코어당 성능 자체가  넘사벽급 성능이라.

2코어 4쓰레드 i3가  1번과 같은 완전 4코어급 AMD제품 급 인걸 봐도 알 수 있죠.)





기존의 K10 아키텍처는 1 스레드를 실행하는 정수 코어는 3 연산 파이프와 3 주소 생성 파이프로 구성되어 있었다. 반면 Bulldozer 모듈의 2 개의 정수 코어는 각각 2 연산 파이프와 2 주소 생성 파이프가되고 있다. 최대 클럭 당 명령 실행 수 IPC (Instruction-per-Clock)가 떨어진 것이다. 하지만 K10에서 피크 6uOPs 병렬 실행이 가능한 경우는 제한되어 있기 때문에, Bulldozer의 성능이  3 분의 2로 떨어지는 것은 아니지만, 정수 성능에 미치는 영향은 불가피하다.


AMD 아키텍처 비교

(불도저는 K10대비 코어당 파이프가 2/3로 줄어들음.  밥켓과 비슷한 형태

이전의 K8도 콘로에 비해서 동클럭 성능이 떨어졌는데, 1코어당 구성이 K8보다 줄어든 구성이니.. 아무리 더 잘만들어도 K8을 동클럭 능가는 쉽지가 않겠죠. (K8 계열의 최종인 데네브(페넘2)나 라노가 켄츠와 요크필드 중간쯤, 요크에 가까운 정도죠.잘 해도 요크급)상식적으로 더 떨어진다는 얘기고.. 인텔은 콘로 -> 네할렘 -> 샌디브릿지로 가면 갈수록 1코어의 구성을 더욱 증가시켜서 클럭당 성능을 올리니까.. 당연히 더 차이가 날수박에 없겠죠.)


불도저 모듈


불도저 아키텍처


AMD가 Bulldozer의 동작 주파수를 20 % 이상 증가로 잡은 이유는, 정수 코어의 구조에서 오는 성능 저하를 커버하기 때문이라고 추측된다. 본래는 Bulldozer의 초점은 CPU당 처리량을 높이는 것으로, 싱글 스레드 (1코어당)성능은 어느 정도 희생 할 각오였던 것이다. 그러나, 클라이언트(개인용) CPU는 싱글 스레드 성능을 유지하는 것이 요구된다. AMD는 딜레마에 있었기 때문에, Bulldozer의 고클럭 설계는 당연한 방향이다.



작​​동시의 전력도 감소


구조적 FO4 지연을 저감하는 것으로 실제 작동 주파수의 상한을 인상 한 Bulldozer. 그러나 실제 제품의 동작 주파수를 올리기 위하여는, 소비 전력을 억제해야한다. 더 큰 CPU 다이에 더 많은 로직 트랜지스터를 탑재 한 Bulldozer는, 그대로는 더 많은 전력을 소비 해 버린다. 유휴 상태뿐만 아니라 작동시의 전력도 어느 정도 억제 할 필요가있다.


AMD CPU의 다이 크기


이 문제를 해결하기 위해, AMD는 설계 수준에서 Bulldozer 모듈 전체 전력의 최적화를했다. 설계 단계에서 전력을 모델링하여 성능을 유지하면서 최대한 전력을 깎았다고 말한다. 이렇게 처음부터 설계 한 덕에 Bulldozer는 K10보다 전력 최적화가 진행된 설계 되었다.


불도저의 클럭 활동


불도저 모듈의 소비 전력



일정이 늦어졌다 Bulldozer


개념은 명확한 Bulldozer. 하지만 제품화는 난제에 직면하고 있다.우선 일정 지연. AMD는 당초 여름에는 Bulldozer를 정식으로 발표 할지도 모른다 라고 했지만, 그 계획은 늦어졌다.  관례가 되고 있는 정식버전 교체다. AMD는 제품화 후보 버전에 문제가 발견되어 수정하고 제품화 하는 경우가 많았다. 수정 체인지를 행하면 최대 1 분기 지연이 생겨 버린다.

또 하나는 벤치 마크에서 성능이다. 아키텍처를 대담하게 개혁하고 클러스터드 형으로 전환Bulldozer는 기존 CPU 코어와 성능 특징이 다른 것으로 예상된다. 벤치 마크에서 PC 클라이언트 시장에 맞게 성능을 달성 할 수 있는지 여부를 시험 받는다.



[벤치리뷰] 3GHz 16 CPU 코어당 성능



[분석정보] 드디어 밝혀진 AMD의 불도저 (Bulldozer)



[아키텍처] 정수 연산 성능을 희생해서 효율성을 거둔 AMD 불도저


[벤치리뷰] 마침내 등장 불도저 아키텍처 잠베지 AMD FX-8150 3.6GHz


[벤치리뷰] AMD FX-8150 리뷰


[벤치리뷰] 6코어와 4코어 잠베지(불도저) FX-6100, FX-4100,FX-8150


[정보분석] AMD 2013년까지 로드맵 공개


pc watch