SSE4 대응 DivX에서 Penryn의 효과가 가장 명확
이번 테스트에 이용한 3대의 PC. 왼쪽부터 듀얼 코어 Penryn, 쿼드 코어 Penryn, Core 2 Extreme QX6800을 탑재. CineBench 10을 실행하는 동안 촬영한 것인데,이 순간에도 중앙의 PC가 가장 많은 처리가 진행되고 있음을 알 수있다
기간 : 4월 17일 ~ 18일 (중국 시간)
장소 : Beijing International Convention Center
Intel 975X 탑재 마더보드에서 펜린이 작동
이번 IDF에서는 45nm 공정으로 제조되는 차기 프로세서 "Penryn"이 큰 화제인데,이 제품의 벤치 마크 측정을 할 수 있는 세션이 보도 관계자 전용으로 행해졌다. 이 세션에서는 다음에 보이는 쿼드 / 듀얼의 각 Penryn 코어 제품과 Kentsfield 코어 제품을 탑재한 PC가 준비되어 실제로 벤치 마크를 하고 점수를 비교할 수 있었다.
Penryn 쿼드 코어 (3.33GHz, 1,333MHz FSB, 12MB L2 캐시)
Penryn 듀얼 코어 (3.33GHz, 1,333MHz FSB, 6MB L2 캐시)
Core 2 Extreme QX6800 (2.93GHz, 1,066MHz FSB, 8MB L2 캐시)
주요 환경은 다음과 같다.
메인 보드 : Intel D975XBX2 (Rev.505)
메모리 : Corsair TWIN2X2048-8500C5 (1GB × 2 / 5-5-5-15)
비디오 카드 : GeForce 8800 GTX (ForceWare 100.65)
HDD : Seagate Barracuda 7200.10 (320GB)
OS : Windows Vista Ultimate
여기서, Intel 975X를 탑재한 메인 보드를 이용하고 있는 점이 신경이 쓰인 사람도 있을지도 모른다. Intel 975X는 본래, 1,333MHz FSB를 지원하지 않기 때문이다. 그러나 이번에 이용된 Intel D975XBX2의 Rev.505는 1,333MHz 동작이 가능하도록 수정 된 제품이라는 것.
그러나 1,333MHz FSB는 공식적으로 지원되는 것은 아니라고 말하고 있어 Intel D975XBX의 Rev.303이 DDR2-800 동작은 가능하지만 공식적으로 지원되지 않았던 것과 비슷한 상황이 발생한 것 같다. Penryn은 Intel 3 시리즈 칩셋과 조합하는 것이 원칙이라고 할 수 있다. (참고로 975 칩셋은 965 칩셋 보다도 먼저 나온 칩셋 입니다. 965 칩셋 보드가 콘로 판매 때 동시에 출시된 보드라면, 975 보드는 콘로 출시 이전에 이미 존재하던 보드 입니다.)
덧붙여서, CPU-Z의 화면도 확인할 수 있었는데, CPU-Z 측이 Penryn에 대응하고 있지 않는 버전이기 때문에, CPU 정보에서 확인할 수 있었던 것은 동작 클럭 정도에 머무르고 있다.
Penryn 탑재 PC 내부.CPU 쿨러는 지금까지의 Core 2에서도 이용되고 있던 유형의 것으로, 특별히 큰 것은 아니다. 전원은 650W를 이용
메인 보드는 Intel D975XBX2의 Revision.505. Penryn 이용을 위해 변경한 것이라 한다
마더 보드에 관해서이지만, CPU-Z의 결과를 보면 칩 세트 측의 개정에 특수성이 아니라 마더 보드 측에 어떠한 변경이 더 해지고있는 것 같다. 또한 BIOS도 공개되지 않은 것이 적용
쿼드코어 Penryn의 CPU-Z의 결과.
동작 클럭과 캐쉬 용량은 올바르게 인식하고 있는 것 같다
이쪽은 듀얼 코어 Penryn의 CPU-Z 결과
SSE4의 우위성을 나타내는 DivX의 결과에 주목
자 그러면 Penryn의 벤치마크 결과를 소개한다. 이번 세션은 3대의 PC에 미리 몇 가지 벤치 마크가 설치되어 있으며, 그것을 이용해 Intel 직원이 측정. 점수를 보도 관계자가 취득 할 수 있다는 것 (세션에는 타 매체의 관계자도 동석).
다만 시간의 제약도 있고, 일부 벤치마크 소프트가 실시되지 않았기 때문에, 여기에서는 Intel에서 배포된 자료에 게재되고 있는 수치도 인용해 그래프화 한다. 또한 그래프를 게재하는 벤치마크 소프트는 아래와 같으며 ※ 표시를 붙인 것은 Intel의 자료 데이터를 인용한 것이다. 또한 그래프 1~4는 길수록 좋은 성능인 것을 나타내며, 그래프 5 ~ 6은 짧을수록 성능이 좋은 것을 나타내므로 주의하자.
[그래프 1] 3DMark06 Build 1.1.0 (※)
[그래프 2] CineBench 9.5
[그래프 3] CineBench 10
(이건 그래프 잘못 그린거 같은데..... 펜린 쿼드하고 듀얼하고 바뀐 듯..)
[그래프 4] Half-Life2 Lost Coast Build 2707
[그래프 5] MainConcept H.264 Encoder
[그래프 6] DivX 6.6 Alpha (프론트 엔드는 VirtulDub 1.7.1 사용)
우선, Core 2 Extreme QX6800과 쿼드코어 Penryn과 비교해 보면, 그래프 1 ~ 5로 그렇게 큰 차이는 없다. 안정되게 20 ~ 30% 전후의 점수 향상을 볼 수 있다. 소프트웨어 적으로는 CineBench 10를 제외하고 기존의 응용 프로그램이며, 소프트웨어 측의 대응이 필요한 SSE4 관련 영향은 없다. 이 스코어의 성장을 가져온 것은 클럭 향상, FSB 대역폭, Radix-16 Divider, L2 캐시 용량 등 부분인데, 우선 클럭 업이 큰 영향을 미치고 있는 것은 틀림 없다.
다만, 쿼드코어 Penryn 코어 3.33GHz라는 동작 클럭은 QX6800의 2.93GHz보다 13.5% 정도 높아, 클럭 대비 더 양호한 스코어 성장을 나타내고 있는 것이다. 그 이상의 점수의 증가는 다른 아키텍쳐의 개량에 의해 초래된 것이 된다. 그렇지만 이번 테스트 결과만으로는 어느 것이 어느정도 영향을 이번의 스코어가 되는지를 판단하는 것은 어렵다. 단지, FSB 대역폭에 관해서는 메모리에 DDR2-800을 이용한 환경이라는 것도 있어, 그다지 영향은 없는 것이 아닐까 생각된다.
한편, 듀얼 코어 Penryn은 Core 2 Extreme QX6800에 못 미치는 점수가 대부분으로,이 부분의 테스트에서는 멀티 쓰레드 대응 응용 프로그램에서 코어 수의 뒤떨어짐을 역전 할 수 있을 정도의 우위는 보이지 않았다. 단, 그래프 1 ~ 5 중 유일하게 Half-Life2 Lost Cost는 Core 2 Extreme QX6800을 웃돌았다. 이것은 클럭이 향상 있다는 장점이 발휘 된 것일 것이다. 게다가 30%를 넘는 FPS의 성장을 보이고 있어 게임에 대해 Penryn의 마이크로 아키텍쳐가 유효한 가능성을 느끼게 하는 결과가 되었다.
DivX 6.6 Alpha 버전에는 "SSE4.1 Advanced Motion Serach (AMS) "라는 설정 항목이 준비되어 있었다. 물론, 활성화 한 상태에서 측정이 이뤄졌다.
마지막으로 보여준 DivX 인데, 낯선 버전을 사용하고 있다. 이것은 SSE4에 대응하는 알파판인 것으로, 인코딩 설정 화면에서도 그럴듯한 설정 항목이 준비되어있다. 일반적으로 멀티 쓰레드를 지원하는 인코딩 소프트웨어는 아키텍처나 클럭이 같으면 코어 수가 많은 편이 유리하고, 클럭 차이 이상으로 코어 수 쪽이 속도에 미치는 영향은 크다. 먼저 보인 MainConcept의 H.264 Encoder 등은 그 전형적인 예라 해도 좋다.
그러나 이번 SSE4를 이용한 DivX는 듀얼 코어 Penryn이 Core 2 Extreme QX6800를 웃도는 속도로 인코딩을 마치는 결과를 보였다. 준비되어 있던 샘플 동영상이 짧은 것이었기 때문에 몇 초의 차이가 있지만, 일반적인 길이의 동영상이면 몇 분 수십 분의 차이가 될 정도의 큰 차이를 내고있다 .
왜 SSE4를 이용하면 동영상 인코딩이 고속으로 되는가에 대해서도 설명이 있었다. 그 큰 이유로 꼽힌 것이 SSE4에서 추가된 "MPSADBW" "PHMINPOSUW" 두개의 명령이다. 전자는 복잡한 SAD 연산을 행하는 것, 후자는 레지스터의 값에서 가장 작은 UWORD을 빼내는 것. 이러한 명령이 준비된 것으로, MPEG 인코딩에 시간이 걸릴 이러한 처리를 적은 명령 수로 실행할 수 있다고 한다.
처리를 가볍게 하기 위해서 수평 / 수직 방향만의 움직임 검색을 행하고 있던 것 같은 알고리즘을 짜고 있는 경우, 대각선 방향의 이동이 발생하면 올바르게 압축이 되지 않는 것도 있다. 하지만 128bit 레지스터와 위의 명령을 이용하면 이러한 접근 방식을 채용하지 않아도, 넓은 범위의 픽셀을 이용한 움직임 검색을 고속으로 처리 할 수 있다는 것이다. 이 밖에 Super Suffle Engine의 탑재에 의해, 이 128bit 레지스터의 고쳐쓰기 등이 1 클럭으로 끝낼 수있을 것으로, 이것도 영향을 주고 있을 가능성은 높다.
이상 몇 가지 벤치마크 테스트 결과를 소개했는데, 시험한 응용 프로그램의 대부분은 클록 비율 이상의 점수 향상을 보인 점에 주목해야 할 것이다. Penryn에 대한 최적화가 이루어지고 있지 않은 어플리케이션에서도 높은 성능 향상을 누릴 수 있다는 것이기 때문이다.
또한 이번에 이용한 DivX는 아직 알파 버전이기 때문에 얻을 수 없다. 애초 SSE4를 탑재한 CPU가 시장에 나와 있지 않기 때문에 현재로서는 대응하는 어플리케이션이 없는 것도 당연한 것이지만, Penryn 등장 후에 SSE4를 이용하는 어플리케이션이 얼마나 등장 할지도 궁금한 곳이다. SSE4를 이용한 성능 개선에는 소프트웨어 측의 대응이 빠져서는 안되는데, 그 효과는 DivX의 테스트 결과만으로도 충분히 기대할 수 있는 것이다.
2007년 4월 19일 기사
[분석정보] Intel, 45nm공정의 차기 CPU Penryn 자세히 공개
[분석정보] 모바일 절전 기능을 강화한 펜린 (Penryn)
[분석정보] 인텔 45nm 공정 차세대 CPU Penryn(펜린) High-k 메탈게이트 성공
[분석정보] SSE4 명령어와 가속기에서 보이는 Intel CPU의 방향성
[분석정보] 고기능 고성능 + 에너지 절약 저비용을 양립시키는 Intel의 대처
[분석정보] 임베디드 시장에 IA 침투를 목표로 하는 Intel
[분석정보] 이스라엘에서 발신되는 인텔의 차세대 CPU 기술
[분석정보] 평균 소비전력을 크게 줄일 Penryn의 C6 스테이트
[아키텍처] 환경 조건을 이용하여 성능을 끌어 올리는 터보 모드
[분석정보] 연내에 투입되어 45nm에서 보급을 노리는 Inte의 쿼드코어
[분석정보] 왜 인텔은 샌디브릿지에 AVX를 구현하는가?
[분석정보] 고속화를 가져오는 Radix-16 Divider와 shuffle Engine
[분석정보] 전면 개량이 아닌 부분 개량에 머문 Penryn
[고전 1998.10.8] MPEG-2 인코딩까지 실현 가능한 Katmai의 신명령
[고전 2003.02.20] Intel 차세대 CPU Prescott의 정체를 밝혀
'벤치리뷰·뉴스·정보 > 아키텍처·정보분석' 카테고리의 다른 글
[분석정보] 또 하나의 초저소비 전력 CPU Silverthorne (0) | 2007.04.25 |
---|---|
[분석정보] 모바일 절전 기능을 강화한 펜린 (Penryn) (0) | 2007.04.23 |
[분석정보] AMD "Barcelona"는 가장 빠른 Xeon 보다 50% 고속 (0) | 2007.04.23 |
[분석정보] 전면 개량이 아닌 부분 개량에 머문 Penryn (0) | 2007.04.20 |
[분석정보] 상변화 메모리 PRAM의 제품화, 2TFLOPS달성을 데모 (0) | 2007.04.18 |
[분석정보] 고기능 고성능 + 에너지 절약 저비용을 양립시키는 Intel의 대처 (0) | 2007.04.18 |
[분석정보] Intel, 45nm공정의 차기 CPU Penryn 자세히 공개 (0) | 2007.03.29 |
[분석정보] CeBIT에서 보는 UMPC의 현재와 미래 (0) | 2007.03.20 |