벤치리뷰·뉴스·정보/고전 스페셜 정보

[고전 2003.02.20] Intel 차세대 CPU Prescott의 정체를 밝혀

tware 2005. 11. 2. 09:30

 

Pentium 4 아키텍처를 업데이트


 Intel은 마침내 차세대 데스크탑 CPU "Prescott (프레스캇)"의 개요를 밝혔다. Prescott은 차세대 공정 기술 90nm로 제조되는 CPU로 올해 4분기에 등장할 것으로 보인다. "NetBurst"라 Intel에서 부르는 Pentium 4 아키텍처를 "업데이트"한 마이크로 아키텍처를 갖추고있다. 1MB의 대용량 L2 캐시 두배로 된 L1 캐시를 갖추고, 클럭은 4 ~ 5GHz 범위를 대상으로 한다. 또한 Intel은 Prescott 다음에 내년에는 차 차세대 CPU "Tejas (테자스)"가 대기하고 있는 것도 공식적으로 밝혔다.

 

 

Prescott의 웨이퍼를 보인 In​​tel의 루이스 번스 (Louis Burns)

부사장 겸 사업 본부장 (Desktop Platforms Group)

 

 

Willamette / Northwood와 Prescott의 캐시 용량 등의 비교

 

 

 

Willamette / Northwood에서 Prescott까지의 마이크로 아키텍처의 진화

(이걸 보면 불도저의 형태와 비슷한걸 느낄 수 있죠. 많은 사람들은 불도저 시리즈의 파일드라이버,스팀롤러,엑스케베이터 등의 로드맵 그림을 보고 우앙 하기도 했지만, 또 많은 사람들은 본판이 있어서 큰 기대를 안했던 이유도 이런 겁니다. 저도 그중 하나.

넷버스트 아키텍처도 하이퍼쓰레딩 빼고나면 사실 성능 증가는 많이 없었죠. 프레스컷의 경우 SSE3를 쓰는 프로그램에서는 좀 차이가 나긴 했지만.. 기존 프로그램은 별 차이는 없었죠.)


 Prescott은 Pentium 4를 기반으로 하면서도 간단한 공정 축소판이 아니라 구조가 개선되고 있다. 그러나 구조 개혁은 "업데이트 (updated)"이며 "확장 (Enhanced)"가 아니다. 이 미묘한 표현은 1년 후에 더 큰 Pentium 4 아키텍처를 확장한 Tejas가 대기하고 있기 때문 이라고 생각된다. Tejas와 비교하면 어디 까지나 소폭 개량하는 것이다. 그러나 실제로는 Prescott의 구조 개혁은 다방면에 걸쳐 있어, 소폭 개량이라 말하기 어렵다. 바로 "업데이트 Pentium 4"이다.


수많은 Prescott의 개선 포인트


Prescott에서의 개선 사항은 다음과 같다.

CPU 아키텍처의 개선
 L2 캐시 1MB로 두배
 L1 데이터 캐시 16KB로 두배
 추적 캐시 (L1 명령 캐시)를 개선
 800MHz FSB (Front Side Bus)
 Hyper-Threading의 개선 (Improved Hyper-Threading Technology) (기존 HT는 일부 초구형 소프트에서 성능 저하 문제가 생길 수 있습니다. 대부분 구형 소프트에서 성능저하 문제가 없거나 있어도 미미한데, 일부 초구형 소프트에서 기존 HT는 성능저하 문제가 있고, 프레스컷은 없습니다. 신형 멀티스레드(멀티코어) 지원 소프트는 노스우드HT든 프레스컷HT든 당연히 성능이 증가되죠.)
 13개의 Prescott 새로운 명령어 추가 (Prescott New Instructions)(SSE3)
 LaGrande 기술 지원 (인텔 TXT)
 프리 페치와 분기 예측을 개선 (Improved Pre-Fetcher & Branch Predictor)
 보다 진보된 전력 제어 탑재 (Advanced Power Management)
 부호가 붙은 곱셈 명령의 레이턴시 개선 (Improved imul latency)
 Write Combining 버퍼의 추가 (Additional WC Buffers)

 

회로 설계의 개선
 클럭 디스트리뷰션 네트워크의 개선 (Improved Clock Distribution)
 CAD 도구의 개량에 의한 물리적 설계의 최적화로 성능 향상

 

공정 기술
 90nm 노드, 50nm 게이트 길이의 공정
 스트레인드 실리콘의 채용
 7층 배선, 저유전 (Low-k) 비율 (배선간 막) 재료

 


캐시는 L1 / L2 함께 두배로


 먼저 캐시의 증량은 CPU의 주파수의 향상에 따라, DRAM 메인 메모리와의 격차를 줄이는데 필수가 된다. DRAM 액세스 대기 시간의 증가를 캐시에서 은폐하기 위해서다.

 

Prescott에 더해진 13개의 새로운 명령. 부가적인 명령 추가가 주체


 여기서 눈에 띄는 것은 이번 Intel은 L2뿐만 아니라 L1도 증량한 것. Intel은 전통적으로 작은 L1 캐시 + 비교적 대용량의 L2 캐시 구성을 취한다. 좀처럼 L1은 늘리지 않는데, 이것은 고주파수 때에도 L1의 대기 시간을 최소로 억제하기 위함이다. 이번 L1도 증량한 것은 내장 SRAM도 그만큼 고속화 한것을 보여준다. 또한 그에 따라 추적 캐시도 향상된 것 같다.

 

 Hyper-Threading의 개선 내용은 자세히 밝혀지지 않았다. 그러나 Hyper-Threading 성능의 하부라인을 업 하는 개량이 되었다 한다. 13개의 Prescott 새로운 명령은 그림과 같다. Hyper-Threading을 위해 스레드 간의 동기화를 위한 명령이 추가되어있다.

 Intel의 보안 컴퓨팅 아키텍처 "LaGrande"의 지원은 생각보다 빨랐다. 자세한 내용은 밝혀지지 않았지만, 설명을 행한 Intel의 Justin Rattner 씨 (Senior Fellow and Director, Microprocessor ​​Research Labs)에 따르면 "특정 프로세스가 다른 프로세스에서 보호된 상태로 실생, 시큐어 트랜잭션이 가능하다" 한다. 그렇게 되면, Prescott은 보호된 실행 모드를 가지고 가상 보안 메모리 공간을 갖추는 것으로 보인다. Prescott에서 LaGrande를 구현하는 것은 Intel이 이미 2년이상 전부터 시큐어 컴퓨팅의 계획을 구체화시킨 것이다.

 전원 관리 개혁은 새로운 확장보다는 Prescott에는 필수 였다고 생각된다. 라고 말하는 것은 이번 90nm에서는 트랜지스터의 누설 전류(리크)가 증가하기 때문이다. 트랜지스터 자체의 누설 전류의 저감 책이 지연됐기 때문에, 특히 고속 동작하는 CPU는 파워 메니즈먼트를 강화해야 한다.

 


공정 기술도 고주파수화를 위해 튜닝


 클럭 디스트리뷰션 네트워크의 개선은 Intel이 CPU 아키텍처를 업데이트 할 때 사용하는 표준적인 수법의 하나. 이것에 따라 클럭 스큐를(Clock skew) 억제해 보다 높은 주파수화가 용이하게 된다. (클럭 신호 도달의 타이밍 차이 발생. 같은 상태에서 클럭이 높을 수록 어긋나기 때문에 클럭을 높일 수가 없습니다.)

 재미있는 개량으로는 CAD 툴의 향상에 의한 물리적 설계의 개량이 있다. 데이터 흐름 방향에 맞게 도구가 블록의 배치를 최적화해 경로의 단축을 도모하고 있는 것 같다. CAD 도구의 지능을 향상시키는 것으로 성능의 향상을 도모 할 수 있다는 것이다.

 Prescott은 Intel의 90nm 공정 "P1262"에서 생산된다. 이 공정에서는 트랜지스터의 게이트 길이는 노드의 90nm보다 훨씬 짧은 50nm이다. 게이트 길이를 짧게하는 것은 트랜지스터를 더 빠르게 하기 위함이다. 이에 따라 Intel 공정은 이행 때 비슷한 고속화가 되었다.

 

 

클럭 디스트리뷰션 비교. Prescott 쪽 Skew가 매우 억제되어 있다

 

 

90nm 공정 트랜지스터의 구조

 

 

7층의 90nm 공정의 단면도

 

 

Intel의 내부 제작 CAD 툴의 개량에 의해 성능이 향상


 그러나 0.13μm → 90nm에서는 지난 3 공정 세대와 비교하면, 게이트 길이의 단축 비율은 계속 떨어지고 있다. 이것은 물리적인 한계에 가까워지고 있기 때문이다. 따라서 Intel은 이번 90nm에서는 "스트레인드 실리콘"기술을 채용하는 것 같다. 이것은 트랜지스터의 채널 영역의 실리콘 막에 변형을 더해, 채널의 이동량을 향상시키는 기술이다. 요컨대, 트랜지스터의 성능을 더욱 향상하는 기술로,이를 통해 성능 향상 곡선을 유지 하자는 것이다.

 이렇게 보면, Prescott 마이크로 아키텍처는 설계 공정의 전 영역에서 상당한 개선이 더해진다. 그 결과, 고속화와 고효율화가 진행될 것으로 보인다. 우선 주파수는 지금까지의 향상 곡선을 유지할 가능성이 높다. 0.13μm 판 Pentium 4 (Northwood : 노스우드)의 상한이 3.2GHz 이말은 Prescott는 그 1.6 배의 5.2GHz 달성 할 수있게 된다.

 또한 캐시의 증량이나 아키텍처 개선으로 클럭 당 성능의 향상도 어느 정도 도모할 것이다. 이것은 아직 어느 정도가 될지는 알 수 없다. 특히 Hyper-Threading 성능 개선 등은 아직 불분명 하다. 하지만 어쨌든 Prescott의 1년 후에는 Hyper-Threading 성능 향상에 집중을 것으로 추측되는 Tejas가 대기한다.

 

 

 

https://youtu.be/yJw3h0klahM

펜티엄4 3.2E 프레스캇에서 H.264 영상 재생.

720p30은 프로파일 관계없이.1080p 30은 베이스라인 프로파일 까지는 잘 돌아 갑니다.

 

 

https://youtu.be/hl0jV6DLXXk?t=2134

HT를 끈 윈도우 98SE 프레스캇 3GHz도 H264 영상은 잘 돌아갑니다.

 

 

2003년 2월 20일 기사 입니다.

 

인텔의 망한 CPU의 대표격인 프레스컷, 이렇게 여러가지가 조금씩 개선 됐는데도 성능에 대한건, 파이프라인이 노스우드 20단계에서 31단계로 늘어난 것을 대표적으로 꼽습니다. 망힌 이유는 전력/발열이구요(거기에 성능도 떨어지고).모 불도저도 그렇지만.. 둘다 IPC가 떨어지지만 클럭을 5~6기가 이상으로 해서 성능을 내서 다른 CPU보다 성능이 좋고, 그러면서 전력/발열을 낮게 하는게 가능 했다면 안망했겠죠 망하는게 아니라 오히려 성공했을지도.... 불도저의 경우는 AMD식 말로는 8코어인데 4코어와 비교되며 클럭도 더 높은데도 떨어지니.. 인텔과 IPC 차이가 더 크지만.. 어쨌든.. 클럭을 6GHz라도 달성해서 전력/발열을 잡았다면 성능으로도 인텔을 이겼을 테니 성공할 수 있었겠죠. 다만 프레스컷은 제품 자체로는 망인데, 판매량은 망까지는 아닙니다. 이건 어쩔 수 없는게, AMD의 공장에서 만들 수 있는 능력이 매년 팔리는 CPU의 20% 가량 밖에 생산을 못하기 때문이었죠. AMD가 추가 공장 지어서 출시할 때에는 콘로도 만들고 있을 때구요. 인텔 VS AMD 전체로 보면 더욱 커지는 노트북 시장 + 배니어스가 있어서 AMD가 생각처럼 더 많이 점유하지를 못했구요. 물론 이전에 비하면 특히 데스크탑 분야에서는 AMD가 시장을 많이 먹고 많이 성장했죠. 예를 들면 전체 x86시장에서 AMD가 10% 였다가 15%가 되면... 전체에서 보면 5% 성장이지만, AMD 자체의 성장률은 50% 추가 성장이 되니까요.

 

참고로 프레스컷 2M 제품들은 전력/발열이 좀더 괜찮습니다. 테스핑 개선판이라서요.

 

 

 

 

표준/ 고화질/ 최고화질 인코딩. 프레스컷 3.2E, 노스우드 3.2C 비교.

SSE3 온 / SSE3 오프 / 노스우드

최고화질 인코딩시에는 노스우드 대비 프레스컷 SSE3 사용이 23% 정도 빠르죠.

 

 

[분석정보] Intel 차세대 하이퍼 쓰레딩 (Hyper-Threading) 기술 공개

 

 

[아키텍처] 폴락의 법칙에 찢어지고 취소된 테자스(Tejas)

 

 

[고전 2002.09.12] Hyper-Threading Technology를 지원하는 HTT Pentium 4 3.06GHz

 

 

[고전 2001.08.30] 인텔 하이퍼 쓰레딩 펜티엄4 계획, 인텔 투기 (Spectulative) 스레드 실행

 

 

[고전 2003.02.27] Prescott,Tejas는 5GHz대, 65nm Nehalem은 10GHz이상

 

 

[고전 1998.10.8] MPEG-2 인코딩까지 실현 가능한 Katmai의 신명령

 

 

[분석정보] IDF 2007 Penryn 벤치마킹 세션 리포트

 

 

[벤치리뷰] 요크필드 벤치마크