벤치리뷰·뉴스·정보/고전 스페셜 정보

[고전 2002.09.12] Hyper-Threading Technology를 지원하는 HTT Pentium 4 3.06GHz

tware 2005. 10. 9. 05:30


기간 : 9월 9일 ~ 12일 (현지 시간)

장소 : San Jose Convention Center

 

 

오텔리니의 기조 연설에서 HT 기술 데모

 

 

 IDF 2002 Fall의 기조 연설에서 Intel 사장 겸 COO인 폴 오텔리니는 Hyper-Threading Technology (이하 HT 기술)를 지원하는 HT 기술 지원 Intel Pentium 4 프로세서 (Intel Pentium 4 Processor with HT Technology 다음 HTT Pentium 4) 3.06GHz를 4분기에 출시 할 것을 밝혔다. (FSB 133Mhz (QDR 533 전송) 노스우드B 제품으로 유일한 HT 지원 제품 입니다. 이후 얼마 지나지 않아 출시된 노스우드C 제품은 FSB가 200 (800)으로 오르고 기본적으로 모두 HT를 지원 합니다. 865 칩셋 보드 이후에(또는 동시기에) 845E 칩셋에서 오버클럭으로 노스우드C를 지원하는 후기형 일부 845E 보드의 경우 말고, 기존에 출시 되었던 845E에서 HT를 쓰면서도 3Ghz대를 쓰고자 하면 이것이 유일 합니다.)

 HT 기술은 하나의 물리적 CPU를 논리적으로 2개로 보이게 하여 CPU 리소스의 효율을 높이고, CPU의 처리 능력을 높여 나가는 방법이다. 본 보고서에서는 IDF 회장에서 밝혀진 HTT Pentium 4 3.06GHz 대한 자세한 내용과 정보통으로부터 누설되어 전해진 HT 기술의 성능에 대한 보고서를 제공한다.

 


여러 개의 스레드를 동시에 하나의 CPU에서 실행할 수 있도록 하는 것이 HT 테크놀로지

 HT 테크놀로지는 결국 Pentium 4가 사용이 꺾이지 않게 연산 유닛 등의 자원을 뼈까지 빨아 쓰자 라는 방법이다.

 Pentium 4의 마이크로 아키텍처인 NetBurst 마이크로 아키텍처는 20단계로 세분화 된 파이프 라인 구조를 취하고 있다. 이 20 스테이지 구성의 파이프 라인은 높은 클럭을 달성하기 위해 유리한 것이지만, 분기 예측이 실패했을 경우에는 큰 패널티가 있고, 캐시 미스 히트한 경우에는 마찬가지로 패널티가 커진다. 예를 들어, 캐시 미스 히트한 경우 파이프 라인은 거기에 한 번 중지하고 메모리에서 데이터가 로드 될 때까지 스톨하게 된다. 그렇게 되면 파이프 라인에는 처리가 가득차지 않은 상황이며, 즉, CPU 리소스가 남아 있는 상황이다. (파이프 라인 스테이지는 수퍼스칼라 에서 말하는 다수의 파이프 라인이 아닙니다. 파이프 라인이 길다는 얘기 입니다. 길게 함으로써 클럭을 보다 쉽게 올릴 수 있습니다. 다만 적당히 길어야지, 너무 길면 성능이 저하 됩니다. 분기예측 실패시 다시 시작해야되는 단계가 너무 많음 (물론 반대로 분기예측력을 더 높이는 쪽으로 보강하는 방법도 있죠). x86에서 20단계 이상인 아키텍처는 인텔은 넷버스트 계열, AMD는 불도저 계열. 양사의 IPC 자체가 낮은 CPU만 예로 들었는데, 길다고 무조건 IPC가 낮다는 아닙니다. 파이프 라인 자체를 많이 가지면 길면서도 IPC는 높을텐데, 인텔은 IPC 증가를 멈추고 길게 해서 클럭빨로, AMD는 코어의 IPC를 기존보다 낮추고(소형화) 클럭빨 + 인텔보다 더 많은 멀티코어로 만들어서 그렇습니다. 그리고 단순히 파이프라인이 길면 무조건 HTT가 더 유효한게 아니고, IPC 자체를 높이는 쪽으로 만들어도 마찬가지 입니다. 최대 IPC를 항상 달설할 수 없는 경우가 더욱 많아지기 때문이죠. 또 이것들이 아니어도 (파이프라인이 짧고, IPC도 높지 않은 CPU라도) 메모리 레이턴시에 의해서도 내부가 노는 순간이 계속 생기기 때문에 HT (SMT)는 역시 유효 합니다.)


 그래서 HT 기술은 논리적으로 CPU가 2개 있는 것처럼 가장하여 이 남아있는 자원을 활용하려고 한다. 구체적으로는 동시에 두가지 작업을 실행 시켜서 하나의 작업이 사용하지 않는 자원을 다른 작업을 이용하여 연산 유닛 등 자원의 활용도를 높인다.

 

HT 기술의 장점을 설명하는 슬라이드


 예를 들어 왼쪽(블로그에서는 위) 슬라이드로 설명하면 일반적으로 단일 스레드 CPU로 멀티 태스킹 OS를 이용하면 그림의 중간처럼 두개의 스레드가 교대로 실행되는 이미지가 된다. 이것을 HT 기술을 도입하면 하나의 스레드가 사용하지 않는 리소스를 다른 스레드가 사용할 수 있게 되어, 결과적으로 2개의 스레드를 교대로 처리하는 경우에 비해 처리 시간이 단축된다 (즉 처리 능력이 향상한다). (각각의 스레드의 명령을 혼합해서 동시에 실행. 절대 번갈아 가면서 처리하는 방식이 아닙니다. HT가 없을때 항상 CPU 내부 유닛을사용할 수 없기 때문 입니다. 노는 유닛이 반드시 생기는데, 각각의 스레드 명령을 혼합해서 동시에 실행해서 내부 유닛 이용률을 높임. 결론 노는 유닛이 적어지고, CPU 성능이 증가.)


 그러나 여기에는 조건이 있다. 무엇보다 소프트웨어 쪽이 멀티 스레드로 사용할 수 없으면 의미가 없다. 첫 번째 조건은 OS가 멀티 스레드를 지원하는 것이다. 이것에 관해서는 Windows XP가 이미 대응하고 있다. 따라서 Windows XP에서 여러 응용 프로그램을 동시에 어떠한 처리를 할 경우에는 어떤 성능 향상을 기대할 수있을 것이다. 두 번째는 응용 프로그램 자체에서 지원하는 것인데, 이것에 관해서는 약간의 장애물이있다. 지금까지 멀티 스레드에 (흔히 말하는 멀티코어 지원) 대응해 온 애플리케이션은 서버, 워크 스테이션이 대부분으로, PC 용에서 멀티 스레딩 처리에 대응하는 응용 프로그램은 매우 적어,이 점을 어떻게 해결하는지가 HT 기술 보급의 열쇠가 된다. (듀얼, 멀티코어도 마찬가지. 역설적이게도 HT가 먼저 보급 되면서, AMD의 듀얼코어가 나올 때 혜택을 봤죠. 그냥 쭉 HT 없는 싱글 코어 였다가 AMD의 듀얼코어가 나왔다면, 일반 사용자용 프로그램들이 그제서야 부랴부랴 곧 지원 합니다 라고 하던가, 이제 막 만들어지고 있었겠죠.)

 

 

 

https://youtu.be/a3DTGWNvWNU

HT 지원 펜티엄4 프레스캇 윈도우98SE. 바이오스 HT Disabled 설정.

 

 


플랫폼 측에서도 대응이 필요, 마더 보드는 FMB2 지침 준수가 조건

 HTT Pentium 4 3.06GHz는 소식통에 따르면 Pentium 4 2.80GHz와 같은 C 스텝의 Northwood 코어를 이용해 생산하게 된다고 한다. 시스템 버스는 533MHz (133MHz의 QDR), L2 캐시는 512K 바이트, L1 캐시는 12K Micro Ops + 8KB 데이터 캐시로 구성된다. 그러한 의미에서는 HT 기술이 활성화 되는 것 이외는 지금까지의 Pentium 4와 큰 차이는 없다.

 하지만 열 설계와 메인 보드와 케이스의 대응이라는 점에서 주의가 필요하다. 가장 큰 변화로 HTT Pentium 4는 메인 보드가 Northwood에 대응한 설계 가이드 (FMB, Flexible MotherBoard) 중 더 엄격한 사양의 FMB2에 대응하고 있는 것이 조건이 된다. Northwood의 FMB는 FMB1 (TDP가 64W, Icc가 60A, Tcase가 섭씨 70도)과 FMB2 (TDP가 76W, Icc가 70A, Tcase가 섭씨 64도)가 있지만, HTT Pentium 4를 이용하는 경우 후자에 대응할 필요가 있다.

 왜? 라고 말하면, HTT Pentium 4는 HT 기술은 자원의 이용 효율이 오르기 때문에 그만큼 트랜지스터가 어느 때보다 바쁘게 일하게 되고, 소비 전력은 HT 기술이 무효인 경우에 비해 증가하기 때문이다. 이 때문에 소비 전력이 증가하면 전류가 늘어나 전류 용량을 나타내는 Icc는 FMB1의 60A에서 70A로 증가하고 있다.

 OEM 업체에게는 FMB2를 충족하는 마더 보드를 사용하면 되기에 문제가 없지만, 자작 사용자에게 현재의 메인 보드가 사용할 수 없을지도 몰라, 신경이 쓰이는 곳이다. 하지만 메인 보드를 보는 것만으로는 FMB1의 사양에 따르고 있는지 FMB2 인지는 모르고, 마더 보드 업체들도 정보를 공개하지 않았다. 마더 보드 제조업체가 대응 상황을 밝힐때 까지는 기존의 메인 보드에서 HTT Pentium 4를 사용할 수 있는지 여부는 전혀 알 수 없는 상황이다.

 또한 HTT Pentium 4는 케이스도 새롭게 할 필요가 있을지도 모른다. 왜냐하면 HTT Pentium 4의 사양은 Ta 내지 Tair라는 케이스 내부의 온도가 기존 섭씨 45도에서 섭씨 42도로 낮춰있다. 일반적으로 열 설계의 지표가 되는 열 저항 값은 Tc (CPU 온도) -Ta (케이스 내의 온도) ÷ TDP 구할 수 있다. 열 저항이 낮을수록 열 설계는 어렵기 때문에, 열 설계의 난이도를 낮추려면 분자인 TDP를 낮추거나 분모를 크게하기 위해서 Tc가 증가하고 Ta을 내리면 된다.

 이번에는 Ta를 낮추는 방식이 채택 되었다지만,이 결과는 케이스 내부의 온도는 이전보다 섭씨 3도 낮춘 상태를 유지해야 하게 되었다. 따라서 경우에 따라 대형 팬을 설치, 혹은 바람의 흐름을 연구해 온도가 내려가게 바람의 통로를 확보하는 등의 배려가 필요하다. 그래도 케이스 내부 온도 섭씨 42도를 실현하지 못하면 케이스 자체를 바꾸는 수밖에 없다.

 이 밖에 HTT Pentium 4를 이용하려면 마더 보드의 BIOS가 HT 기술을 지원하고 있을 필요가 있다. 먼저 BIOS 레벨에서 HT 기술의 유효/무효를 선택하는 것을 허용 할 필요가 있다. 기존의 OS (Windows 9x)를 이용하거나 HT 기술과 호환되지 않는 응용 프로그램을 사용하는 경우에는 이러한 옵션이 필요한 경우가 있기 때문이다. 또한 ACPI와 MP 테이블에의 대응 등 멀티 스레드를 지원하여 영향을 받는 부분에 대한 대응등도 BIOS 수준에서 행할 필요가 있다. 이들은 향후 마더 보드 업체들에서 제공되게 될 것이다.

 

 

케이스 내부 온도는 지금까지 섭씨 45도에서 섭씨 42도로 낮추고, 2003년 하반기에는 섭씨 38 도의 라인도 검토되고 있다

 

 

   Icc는 60A에서 70A로 높아진다. 이것은 소비 전력이 오른데 대응하기 위해

 

 

HT 기술은 BIOS의 지원도 필요하다

 

 

멀티 스레드를 지원하는 응용 프로그램은 15 ~ 22% 정도의 성능향상을 OEM 메이커에 설명

 그런데 궁금한 HT 기술의 효과이지만, 이번 IDF에서는 공식적으로는 "최대 25%의 성능 향상을 기대할 수 있다"(오텔리니) 설명된 것 정도로 실제 응용 프로그램에서 어느 정도 성능 이득이 있는지 설명되지 않았다.

 소식통에 의하면, Intel은 이미 OEM 업체에 HT 기술의 성능에 대해 설명하고 그에 의하면 Adob​​e After Effects를 이용한 경우 15% 정도, Windows XP Movie Maker에서 17% 정도 Magix MP3 Maker에서 20% 정도 XMPEG with DivX에서 22% 정도의 성능 향상이 인정된다고 설명이 이루어지고 있는 것으로 보인다. 이 외에도 2개의 응용 프로그램을 동시에 처리시켜 성능을 측정하면 더 큰 효과를 얻을 수 있다는 설명이 이뤄졌다고 한다.

 이미 언급한 바와 같이, HT 기술 보급의 핵심은 뭐니 뭐니해도 멀티 스레드를 지원하는 응용 프로그램이 늘어나는 것이다. 물론, 여러 응용 프로그램을 멀티 태스킹으로 실행할 경우에도 장점이 있지만 단일 작업으로 사용하는 경우도 아직 적지 않다. 하지만 원래 HT 기술은 2003년 Prescott 에서 활성화 될 예정 이었기 때문에, ISV(소프트웨어 벤더) 측의 준비는 아직 충분하다고는 말할 수 없고, 다중 스레드 응용 프로그램이 늘었나 라고 하면 아직도 라는 것이 현실이다. 이 부분을 앞으로 어떻게 할지가 하나의 열쇠가 될 것이다.

 그리고 또 하나 중요한 것은 벤치 마크 프로그램의 존재다. HT 기술과 같이 응용 프로그램 측이 갖추어지지 않으면 성능 향상을 확인할 수 없는 기술은 등장까지 벤치 마크 프로그램이 제대로 준비되었는지도 중요하다. Intel은 이미 아픔을 당한적이 있다. 예를 들어, Intel820 + Direct RDRAM의 때다. 그 당시 RDRAM의 장점을 발휘시키는 벤치 마크는 거의 없고, 미디어의 평가도 나빴다. 이러한 사태를 반복하지 않기 위해서라도 HTT Pentium 4의 출시까지 벤치 마크 소프트 벤더의 준비가 될 것인지 여부 HT 기술의 향방을 좌우하게 될 것이다. (초기 램버스와 SDR램이 있었는데, 램버스 쪽이 성능이 훨씬 좋기 때문에 램버스를 채택. 다만 메모리 성능에 영향이 적은 소프트라면 이득이 별로 없겠죠. 게다가 램버스 제조를 하는 메모리사의 물량이 나오지 않아 가격까지 크리로 망. 결국 SDR 이후의 DDR 계로 전환.)

 

2002년 9월 12일 기사 입니다.

 

[고전 1998/10/09] AMD, Direct RDRAM 라이센스 취득

 

[분석정보] 그리고 CPU는 DRAM 다이도 통합

 

 

 

(혹 아래의 영상이 브라우저에 따라 안보일 수 있는데, 위와 같은 영상 입니다.

 위는 유튜브, 아래는 카카오 영상)

펜티엄4 3.06 (3.059Ghz)탐스 하드웨어 영상.

싱글스레드/싱글태스크 일때는 당연히 3.6Ghz가 더 빠르지만,

멀티태스크/멀티쓰레드가 되면 3.06 + HTT가 훨씬 좋은 성능을 발휘.

클럭만 계산하면 3.6Ghz는 3.06Ghz보다 17.6% 더 높은 성능.

 

3.06Ghz는 하이퍼쓰레딩을 25% 성능증가로 계산하면 3.82Ghz에 상당.

하이퍼쓰레딩 30% 성능증가로 계산하면 3.97Ghz에 상당.

(물론 하이퍼쓰레딩이 모든 프로그램에서 고정된 성능 증가가 아니기에

단순한 계산으로.. 멀티시 여유로운 실행 이런건 별개로)

 

 

[고전 2003.03.10] 하이퍼 쓰레딩 대응 게임 엔진이 등장 GDC 2003

 

 

[고전 2002.06.24] 인텔이 오로지 메모리 대역의 확대에 집착하는 이유

 

 

[분석정보] AMD의 차세대 CPU Bulldozer의 클러스터 기반 멀티 스레딩

 

 

[고전 2001.08.29] IDF에서 보이는 새로운 방향 IA-32의 장래를 담당하는 하이퍼 쓰레딩

 

 

[정보분석] 모든 CPU는 멀티 스레드로, 명확하게 된 CPU의 방향

 

 

[분석정보] Many-Core CPU로 향하는 Intel. CTO Gelsinger 인터뷰 1/2부

 

 

[분석정보] 멀티 코어 + 멀티 스레드 + 동적 스케줄링으로 향하는 IA-64

 

 

[분석정보] intel의 듀얼 코어 CPU 1번타자 Montecito

 

 

 

[분석정보] CPU 고속화의 기본 수단 파이프라인 처리의 기본 1/2

 

 

[분석정보] CPU 고속화의 기본 수단 파이프라인 처리의 기본 2/2

 

 

[분석정보] 슈퍼 스칼라에 의한 고속화와 x86의 문제점은

 

 

[분석정보] 명령의 실행 순서를 바꿔 고속화 하는 아웃 오브 오

 

 

[분석정보] x86을 고속화하는 조커기술 명령변환 구조

 

 

[분석정보] CPU와 메모리의 속도 차이를 해소하는 캐시의 기초지식

 

 

[분석정보] 캐쉬 구현 방식으로 보는 AMD와 인텔이 처한 상황