벤치리뷰·뉴스·정보/아키텍처·정보분석

[분석정보] 전면 개량이 아닌 부분 개량에 머문 Penryn

tware 2007. 4. 20. 20:00

 

드라이브 되는 Penryn 패밀리의 보급

 

 


 베이징에서 개최 된 Intel 개발자를 위한 컨퍼런스 "Intel Developer Forum (IDF) Beijing 2007 ". 이번 IDF에서는 PC용 CPU는 45nm 공정의 "Penryn (펜린)" 패밀리가 클로즈업 되었다. Penryn 패밀리의 동작 데모가 성행, 45nm 공정으로 제조되는 이 새로운 CPU의 준비가 진행되고 있는 것이 강조되었다.

 

 사실, Intel은 IDF 전후에 고객에 대한 로드맵을 변경. Penryn의 보급 계획을 더욱 가속화시켰다. 새로운 프로세스 CPU 임에도 불구하고 Penryn는 2008 년에 들어서면서 데스크톱과 모바일 메인 스트림 CPU로 단번에 침투한다. Intel이 Penryn의 완성에 대한 자신을 가지고 있는 것을 잘 알 수 있다. 또한 Penryn 패밀리의 데스크탑 용 CPU인 듀얼 코어 "Wolfdale (울프데일)"과 쿼드 코어"Yorkfield (요크필드) "를 위한 2008년 2분기에는 차 차세대 칩셋"Eaglelake (이글레이크)" 제품군도 등장한다.

 

 

Intel 데스크탑 CPU 로드맵

 

 

 

Intel 모바일 CPU 로드맵

 

 

Intel 데스크톱 용 칩셋 로드맵 (추정)


 Penryn은 45nm 공정으로 제조될 뿐만 아니라, SSE4 명령이 구현되고 L2 캐시도 듀얼 코어에서 6MB까지 강화된다. 또한 낮은 누설 전류 (Leakage)의 45nm 공정 덕분에, 동작 주파수도 어느 정도 향상된다 알려졌다.

 

 그러나 Penryn은 기본적으로 Core Microarchitecture (Core MA)의 개량판이며, 그 다음에 대기하는 "Nehalem (네할렘)"과 같은 대확장은 아니다. Core MA의 약점은 여전히​​ Penryn에서도 개선되지 않은 채 남아있다. 균형이 나쁜 확장으로 보인다. 그러나 한편 모바일에서 저 소비 전력화와 고 클럭화는 효율적인 개량이 더해지고 있다.

 

 그럼, 무엇이 Penryn에 더해지고, 무엇이 부족하다는 것인가? IDF에서 밝혀진 Penryn의 실태를 리포트 하자.

 

 이미 보도된 바와 같이 Intel은 Penryn에서 몇 가지 마이크로 아키텍처 수준의 확장을 구현했다. 특히 부동 소수점 / SSE 연산 파이프는 2가지 큰 확장을 했다. 하나는 SSE의 128-bit SIMD (Single Instruction, Multiple Data) 데이터의 교체나 시프트, 팩화 같은 작업을 고속화 하는 "Super Shuffle Engine ". 다른 하나는 정수, 단정밀도 / 배정밀도 부동 소수점 연산 등에서  나눗셈 작업을 고속화하는 "Radix-16 divider"다.

 

 개요는 이미 보도되고 있기 때문에 생략하지만, Penryn에서는 간단히 말하면 SSE 계 부동 ​​소수점 연산에 초점을 맞춘 성능 향상을 도모하고 있다. 정수 연산 성능을 높이기 보다는 부동 소수점 연산 성능을 높이는 방향에 트랜지스터를 할애한 확장이다.

 

 

향후 출시 예정 

 

 

Super Shuffle Engine

 

 

Fast Radix-16 Divider

 

 

 

High-k를 이용한 차세대 45nm 공정

 

 

SSE4를 위해 구현한 Super Shuffle Engine

 

 Penryn의 부동 소수점 / SSE 파이프에 더해진 두 종류의 확장은 그 목적이 다소 다르다. "Super Shuffle Engine"은 SSE4 명령 때문이라는 색채가 강하다.

 

 

Intel의 Stephen L. Smith (스티브 스미스) 씨


 "Super Shuffle Engine은 기존 SSE 명령을 포함하여 SSE 명령어 유형의 실행을 돕는다. 기본적으로 SSE4로 얻을 수 있는 성능은 Super Shuffle Engine 없이는 달성 할 수 없는 것이다 .Super Shuffle Engine은 SSE4 명령의 성능에 직접 공헌하고 있다. 그래서 우리는 Super Shuffle Engine과 SSE4 명령의 두 가지를 동시에 구현했다.

 

 한편, Radix-16과 SSE4 명령은 더욱 독립적 이라고 생각한다. 소프트웨어 (개발자) 측의 요청이 있어 구현했지만, SSE4 명령과의 관계는 (Super Shuffle Engine)보다 독립적인 것이다 " 라고 Intel의 Stephen L. Smith (스티브 스미스) 씨 (Vice President Director, Digital Enterprise Group Operations, Intel)는 설명한다.

 

 즉, Super Shuffle Engine은 SSE4 명령의 Penryn에 구현하는 필연성이 있다. 반면 Radix-16은 왜 Penryn에서 구현하는지 그 의도가 지금 하나 희미하다. 왜 Merom과 Nehalem 같은, 큰 마이크로 아키텍처 체인지 타이밍이 아닌 중간 세대의 Penryn에 Radix-16를 구현한 것인가?

 

 

Intel의 Shmuel (Mooly) Eden (무리 에덴) 씨

(예전 IDF에서 베니어스 출시전에 베니어스에 대해 설명했었죠)


 Intel의 Shmuel (Mooly) Eden (무리 에덴) 씨 (Vice President, General Manager, Mobile Platforms Group, Intel)은 다음과 같이 설명한다.

 

 "먼저 최초로 오는 것은 트랜지스터 예산이다. 45nm 공정에 이르면 2배의 트랜지스터 예산이 되며, 갑자기" 좋아, 필요한 곳​​에 트랜지스터는 계속 쓰자 "가 된다. (웃음).

 

 또 다른 이유는 설계상의 것이다. 병목을 찾아 그것을 손쓰기 시작했지만, 그 부분의 설계가 시간이 없는 것으로 나타났다고 하자. 그러면 (CPU 전체) 설계를 늦추거나, 그렇지 않으면 그 부분의 구현은 다음의 (CPU) 설계에 돌리거나 하는 선택이다. 이러한 때 우리는 항상 타협을하고 있으며, 구현에 시간이 맞는 것을 싣고 있다.

 

 Radix-16의 경우에 대해 실제로 어떠했는지는 모른다. 그러나 분명한 것은 45nm 공정에서는 트랜지스터 예산을 얻는 것이다. 그리고 일반적으로 말하면, (CPU) 설계에는 항상 타협이 따라다닌다. "

 

 제산기 (디바이더, 나눗셈 유닛)는 CPU의 연산 유닛 중에서도 트랜지스터 수를 먹는 유닛이다. 따라서 트랜지스터에 여유가 생기는 45nm까지 구현이 어려웠다 해도 이상하지 않다. (AMD는 스팀롤러에 와서야 Radix-8 디바이더를 넣었다고 합니다.)

 

 

Intel SSE4 Instructions (1)

 

 

Intel SSE4 Instructions (2)

 


파이프 라인 전반에는 손을 대지 않은 Intel

 

 이러한 Penryn의 마이크로 아키텍처의 개량 부분을 보면, 모두 파이프 라인의 후반임을 알 수 있다. 그런데 Core MA 아키텍처의 경우, 진정한 문제는 실은 파이프 라인의 프론트 엔드에 있다. 명령어 페치 / 명령 프리 디코드 / 명령 디코드가 Core MA의 큰 병목으로 있다.

 

 Core MA에서는 32KB의 L1 명령 캐시에서 명령어 페치 유닛 (Instruction Fetch Unit)이 16 bytes 단위의 배열로 명령을 페치한다. 이것은 32 bytes로 명령 페치를 확장한 AMD나 Centaur Technology의 다음 CPU와 비교하면 좁다. AMD와 Centaur는 32 bytes의 페​​치가 아니면  실행 파이프 라인에 충분한 명령 공급이 안되는 경우가 있다고 지적한다.

 

 또 Core MA에서는 프리 디코더가 페치한 명령 군에 대해서, 명령 구분을 마킹한다. 프리 디코더는 최대 6개의 x86 명령을 1 사이클로 마킹 할 수 있지만, 명령 길이나 주소 길이를 변화시키는 명령 접두어를 쓰면, 바로 효율이 악화된다.

 

 그위에 현재 Merom의 구현에서는, 64-bit OS의 동작 모드인 "EM64T Long Mode "의 때에  2개의 x86 명령을 1개의 CPU 내부 명령 (uOPs)으로 통합하는"Macro-Fusion'이 효과가 없다. Core MA의 성능을 올리는 키 기술의 하나이지만, 그것이 64-bit에서는 활동하지 않는다. (이 부분은 네할렘부터 64비트 모드에서도 마크로 퓨전이 작동 합니다.)

 

 Merom의 마이크로 아키텍처는 프런트 엔드 부분에 이러한 큰 "구멍"이 있기 때문에 Penryn에서 그것을 어디까지 개선 할지 주목되었다. 그런데 이번 Intel은 파이프 라인 전반의 이러한 부분은 거의 손을 대지 않았다. 명령 페치와 프리 디코드, 디코드에 대해서는 개선 됐다는 정보는 없다. 또 64-bit 때의 Macro-Fusion에 대해서도 "아키텍트에 확인해야 할 필요가 있는데, 그 부분에는 현저한 변경은 행하고 있지 않다고 생각한다"고 Intel의 Smith 씨는 말한다.

 

 

Core MA의 최대의 약점 개선은 다음으로

 

 이렇게 살펴보면 Penryn는 Core MA의 가장 큰 병목은 그대로 방치하며, 실행 파이프 라인 측을 집중적으로 개량한 것으로 보인다. Eden 씨는 그 이유를 다음과 같이 설명한다.

 

 "Penryn은 마이크로 아키텍처 수준에서 Merom에 아주 비슷하다 .Radix-16과 같은 한정된  조정을 행한 정도다. Merom보다 개선은 되고 있지만, 그것은 한정된 것이다.

 

 왜냐하면 만약 새로운 아키텍처로 전환한 경우, 여기에 더해서 45n​​m 공정으로 이행하는 것은 위험하기 때문이다. 새로운 공정 기술에 많은 위험 요소를 추가하는 것은 바람직하지 않다. Penryn에서의 개량은 훌륭하지만, 그것은 어디까지나 한정된 "성형 수술"과 같은 것이다. 모두를 재 아키텍쳐하는 "심장 수술"과 같은 큰 것은 아니다. 큰 변경은 Nehalem에서 진행된다.

 

 이것은 틱톡 모델이다. 새로운 마이크로 아키텍처를 도입하면, 다음에 그것을 새로운 공정 기술로 축소해 올린다. Penryn은 기본적으로 Merom의 축소판에 더 큰 캐시를 올린 것이다. 결코 Penryn을 가볍게 다루는 것은 아니지만, Penryn에 완전히 (Merom과) 서로 다른 아키텍처의 블록이 있는 것은 아니다 "

 

 즉, Core MA의 프론트 엔드에 손을 쓰려하면, 그것은 심장 수술 같은 재 아키텍처가 되는 것이다. 그만큼 프런트 엔드 건은 아키텍처에 깊이 의존되어 있다. 이에 비해 실행 파이프 라인에 대한 개선은 성형 수술 정도의 가벼운 것으로 끝난다. 그것은 개량을 더해도 파이프 라인의  구조에 큰 변화를 주지 않기 때문이라고 추측된다.

 

 Penryn에서는 이 외에도 캐시의 활용도를 높이기 위해 캐시 라인을 분할하여 사용할 수 있는  "Split Load Cache"와 Intel Virtualization Technology의 효율화도 구현되어 있다. 이들도 마이크로 아키텍처에 큰 영향을 미치지 않는 확장이다.

 

 Penryn에서는 Santa Rosa 플랫폼의 새로운 특징으로 소개된 "Enhanced Dynamic Acceleration Technology "도 약간 최적화 되었다. Enhanced Dynamic Acceleration은 무거운 단일  쓰레드 응용 프로그램을 실행 때에, 한쪽의 CPU 코어가 아이들 상태로 C3 스테이트에 들어간 경우, 액티브 CPU 코어 주파수를 부스트 하는 기능이다. 동일한 TDP (Thermal Design Power : 열 설계 전력)의 범위 내에서 단일 스레드 성능을 동적으로 끌어 올린다. Penryn에서는 중간의 P-State의 오퍼레이션 포인트를 변화시키지 않고 부스트시의 주파수를 올릴 수 있도록 버스와 CPU 코어 주파수의 비율을 조정했다. 이 개량도 마이크로 아키텍처에 영향을 주지 않는다.

 

 이렇게 보면 Intel은 Penryn에서 중요한 개선은 교묘히 피해, 영향이 작은 부분 정도로 좁혀 효율적으로 개량을 더하고 있는 것을 알 수 있다. 크며 작은 개량, 그것이 Penryn이다.

 

 

Penryn 패밀리와 향후의 전개

 

 

Virtualization Performance Impruvements

 

 

 

Penryn 계열 프로세서 군

 

2007년 4월 20일 기사

 

제목이 이렇긴 한데, 톡이 아닌 틱이니까 당연하죠.펜4나 P6처럼 몇년에 걸쳐서 개선을 하면야 마지막 버전쯤에는 최초와 크게 다를수도 있겠지만(또 크게 다를 정도면 톡이라고 하겠죠), 틱이 1년만에 나오고 1번뿐이니 당연한 얘기가 되죠.

 

[분석정보] 고속화를 가져오는 Radix-16 Divider와 shuffle Engine

 

 

[분석정보] IDF 2007 Penryn 벤치마킹 세션 리포트

 

 

[분석정보] Intel, 45nm공정의 차기 CPU Penryn 자세히 공개

 

 

[분석정보] 모바일 절전 기능을 강화한 펜린 (Penryn)

 

 

[분석정보] 인텔 45nm 공정 차세대 CPU Penryn(펜린) High-k 메탈게이트 성공

 

 

[분석정보] 고기능 고성능 + 에너지 절약 저비용을 양립시키는 Intel의 대처

 

 

[분석정보] 상변화 메모리 PRAM의 제품화, 2TFLOPS달성을 데모

 

 

[분석정보] 이스라엘에서 발신되는 인텔의 차세대 CPU 기술

 

 

[분석정보] 평균 소비전력을 크게 줄일 Penryn의 C6 스테이트

 

 

[아키텍처] 환경 조건을 이용하여 성능을 끌어 올리는 터보 모드(전압 레귤레이터 전압 조절기)

 

 

[벤치리뷰] 요크필드 벤치마크

 

 

[벤치리뷰] 비교적 저렴한 4코어 CPU 비교 테스트

 

 

[벤치리뷰] 184달러 코어2 쿼드 Q8400

 

 

[벤치리뷰] 저렴한 울프데일 E7200 리뷰

 

 

[분석정보] AMD가 확장판 K10 코어 기반의 APU Llano 를 첫 공개