벤치리뷰·뉴스·정보/고전 스페셜 정보

[고전 2001.02.08] 서버용 CPU는 멀티 CPU 온 다이, PC용은 통합화? Intel 겔싱어 CTO ISSCC강연

tware 2005. 9. 2. 03:30


CMP는 가장 쉬운 솔루션

 CPU를 어떻게 전력 소비 측면에서 볼 때 효율적인 아키텍처로 하는가? 지난 칼럼에서는 Intel의 팻 겔싱어 부사장겸 CTO (Intel Architecture Group)가 "ISSCC (International Solid-State Circuits Conference 2001) 2001"에서 보여준 해결책 중 멀티 쓰레딩에 대해 보고 했다. 그러면 그 이외의 해결책은?


Multiple CPU on Die


 겔싱어씨가 다음으로 지적한 것은 "멀티 CPU on-Die"다. 이것은 "칩 멀티 프로세서 (CMP : Chip MultiProcessor) "라고 불리기도 하지만, 아주 간단한 이야기​​로, 단일 칩에 여러개의 CPU를 탑재하는 것이다. 즉, CPU의 다이가 점점 작아지고 있기에, 그러면 2CPU를 모아 원칩으로 한다는 얘기다. 그래서 공유되는 대용량 L2 캐시도 거기에 통합하면 CMP의 완성이다.

 CMP의 효능은 여러 쓰레드를 두 CPU가 각자 실행시키는 것으로 효율이 오르는 것. 겔싱어에 따르면, 2개의 CPU 코어가 동시에 맥스 파워가 될 확률은 매우 낮기 때문에 결과적으로 성능에 대한 전력 소비를 누를 수 있다고 한다. 또 L2 캐시도 대용량을 2CPU에서 공유하는 쪽이 분산된 L2 캐쉬를 갖춘것 보다 효율이 좋다고 겔싱어는 설명한다. CMP는 이미 IBM의 "Power4"와 Sun의 "MAJC-5200" 등이 채택하고 있다.

 CMP의 장점은 멀티 쓰레드 프로세서보다 CPU의 디자인이 쉬운 것으로, 기존 CPU 코어에 약간 손보는 것만으로 그대로 탑재 할 수 있다. 개발 기간도 개발 리소스도 적다. 아마 Intel에서도 비교적 빠른 단계에 CMP 디자인의 프로세서는 등장 할 것이다. 가장 간단하게 전력 밀도의 문제를 해결하는 수단이기 때문이다.

 예를 들어, Intel은 2002년에 2세대인 IA-64 프로세서 "McKinley (매킨리)"의 0.13μm 판 "Madison (매디슨)"을 내놓을 예정이지만,이 Madison에 CMP 구성 버전이 등장해도 놀랍지 않을 것이다. 하이엔드 서버 및 워크스테이션용 CPU가 되면, 1개를 수십만 엔으로 팔기에 다이 크기는 커져도 상관 없다. 오히려 멀티 프로세서 시스템 구성이 용이하게 되므로, (시스템) 전체로 보면 비용이 싸게 될지도 모른다. 그래서 가장 큰 문제인 전력 밀도 (Power Density)를 줄일 수 있다면 괜찮은 것이다.



SIMD는 성능 / 면적비로 보면 유리


 한편, 데스크탑 CPU에서는 CMP는 채용하기 어렵다. 데스크톱 PC용 CPU는 거기까지 정말 다이의 여유가 없고 소프트웨어 환경도 생각하면 선형적인 성능 향상이 계속(앞으로도) 기대하기 어렵기 때문이다. 오히려 이쪽은 멀티 쓰레드 프로세서가 되어, 투기 멀티 쓰레딩을 구현하는 것이 있을 수 있는 시나리오다. 물론 투기 멀티 쓰레딩을 사용한다면 밸류 예측도 세트라는 것이된다.

 그러나 Intel이 어느 시점부터 설계를 시작했는지​​ 모르지만, 그런 대폭적인 구조 개선을 한 CPU는 바로 (0.13μm 세대 = 130nm)는 낼 수 없다고 생각된다. 나온다고 해도 다음 다음 (0.10μm 세대 또는 0.07μm 세대? 실 인텔 공정은 0.09μm (90nm), 0.065μm(65nm) 제품으로도 데스크탑 듀얼코어는 90나노 스미스필드) 근처에서는 아닐까? 참고로, 서버 & 워크스테이션 용도 CMP에 더해서 멀티 쓰레딩을 지원하는 방향으로 향할 것으로 보인다.

 그러면 지금까지의 해답은 어떻게 되는가? 겔싱어는 특정 용도의 성능을 향상시켜 가는 것이 중요하다고 지적한다. 무엇보다, 이것은 Intel이 이미 해온 것으로, MMX, SSE, SSE2의 각 명령과 그 연산기를 CPU에 실장해 왔다. 이러한 1 명령으로 복수의 팩화된 데이터에 대해 동일한 작업을 동시에 수행하는 "SIMD (Single Instruction, Multiple Data)"의 정수 연산 / 부동 소수점 연산은 다이 면적당 성능, 즉 MIPS / 제곱 mm가 높아진다고 한다. Intel에 의하면, 10% 정도 다이를 늘리는 정도에서 1.5 ~ 4배의 성능 향상이 있다고 한다. 아래가 그 표다.



다이 면적

소비 전력

성능

범용 연산기

2배

2배

 ~ 1.4배

멀티미디어 연산기

<10%

 <10%

1.5 ~ 4배


 이것이 보여주는 것은, Intel은 향후, 점점 SIMD 연산의 성능을 높여간다는 것이다. Intel에 따르면 향후 응용 프로그램이나 사용자 인터페이스에서는 이러한 연산이 필요하기 때문에 사용 모델에 맞다고 한다.



통합화는 데스크톱 / 모바일에서는 유망?

 또 겔싱어씨는 CPU에 다른 코어를 통합하는 것도, 전력 밀도를 낮추는데 효과가 있다 설명했다. 예를 들면, 메모리 컨트롤러나 그래픽 코어, 또는 프로그래머블 로직이나, 특정 용도의 로직, CPU와는 다른 프로그래머블 엔진이나. 이러한 CPU 코어 이외의 요소로 다이 면적을 할당하는 것으로, 결과적으로 전력 밀도는 내려가고, CPU는 멜트다운  위기를 벗어날 수 있다.

 Intel은 지난해 그래픽과 메모리 컨트롤러를 통합한 "Timna (팀나)"를 취소한 즈음. 이러한 시스템 온칩의 방향과는 반대로 향하고 있다고 생각했지만, 대단히 다른 흐름이다.

 즉, 장기적으로 보면 증가하는 트랜지스터를 이런 방향으로 쓰지 않을 수 없는 것이다. 그렇지 않으면, 열 밀도의 문제를 해결할 수 없다. Timna는 메모리 인터페이스에서 벽에 부딪쳤지만, 큰 흐름에서는 통합화에 향해있는 것 같다. 바로는 아니더라도.

 또한 통합은 성능면에서도 유리하게 된다. 그것은 지금의 CPU 에서는 외부 액세스가 성능의 병목이 되고 있기 때문이다. 시스템 버스에 동기시켜 칩셋에 엑세스하고 거기에서 메모리 및 그래픽과 I / O에 액세스 한다. 이 지연 시간은 GHz 시대의 CPU에 있어서 너무 크다. 메모리에 관해서 말한면, 메모리 컨트롤러를 통합하는 것만으로 지연 시간을 상당히 줄일 수 있다. 또 칩 수를 줄이면 마더 보드를 작게 할 수 있고, 비용도 낮출 수 있다. PC 전체로 보는 경우에도 좋은 것이다.


 이러한 주변 로직이나 특정 용도 로직의 취합은 아마 IA-32의 데스크톱 / 모바일 CPU에서 시작되는 것이다. 즉, Timna 타입의 CPU는 언젠가 멀지 않은 기간내에 부활 할 가능성이 높다. Pentium 4 코어가 0.10μm 될 무렵에는 전력 밀도를 생각하면 통합화가 되어도 이상하지 않다.



2010년의 CPU는 1TIPS의 성능에

 그럼, 겔싱어씨는 향후 CPU의 장벽으로 소비 전력과 전력 밀도의 상승을 지적했는데, 이러한 접근법을 최대한 쓰면 계속 무어의 법칙대로 CPU를 진화시킬 수 있다고 한다. 법칙대로 라면 2010년이 될 무렵에는 10억개 이상의 트랜지스터를 CPU에 통합 할 수 있게 된다고 한다. 그리고 성능은 말하면, 2010년에는 1TIPS (Tera instructions per second)에 이른다고 한다. 이렇게, MIPS가 아닌 TIPS다.

 그런 성능을 어떻게 할 것인가 생각하지만, 겔싱어에 따르면 미래의 응용 프로그램은 필요하다고 한다. 예를 들어, 자연 언어 처리 및 제스처 인식 등의 네츄럴 휴먼 인터페이스만으로도 엄청난 연산이 필요하게 된다고 한다. 즉, CPU의 성능을 더욱 10년간 향상시켜 나가는 이유는 있다는 것이다.

 그런 의미로, Intel은 성능 요구로 인해 10억 트랜지스터 이상을 쌓은 CPU까지 돌진한다. 클럭은 10 ~ 30GHz에 달하고 성능은 1TIPS에 달한다. 그러나 ISSCC에서 겔싱어의 설명에서 예상하면 그 때의 CPU는 하이엔드는 멀티 쓰레딩 기능을 구현하고 그 위에 CMP에 이르고, 대용량 L2 캐시를 탑재, 또 풍부한 SIMD 연산기를 탑재하게 될 것이다. 또 PC 용에서는 CMP가 없는 대신 주변 로직 등의 통합으로 향하고 있을 가능성이 높다. 즉, 지금까지와는 CPU의 모습과 아키텍처 트렌드는 변해 있을 것이다.




[고전 2001.02.06] 2010년 CPU 전력은 600W?



[고전 2001.02.07] 인텔 폴락의 법칙이 등장 Intel 겔싱어 CTO의 ISSCC 강연



[고전 2001.02.08] Intel은 멀티 쓰레드 CPU로 향한다. Intel 겔싱어 CTO ISSCC강연



[고전 2000.08.25] 그래픽 통합 CPU 팀나(Timna)의 개요를 분명히-극적인 다이 크기 축소를 실현



[고전 2001.01.17] 10GHz CPU를 실현하는 Intel 0.03μm 트랜지스터 기술



[고전 2001.11.27] 인텔 테라 헤르츠 트랜지스터 기술 발표



[고전 2003.02.27] Prescott,Tejas는 5GHz대, 65nm Nehalem은 10GHz이상



[아키텍처] 폴락의 법칙에 찢어지고 취소된 테하스(Tejas)



[분석정보] 더 밝혀진 Yonah의 모습 확장된 C4스테이트



[분석정보] 폴락의 법칙을 깨뜨리기 위한 멀티 코어



[분석정보] Pat Gelsinger 부사장 기조 강연 리포트 새 로드맵과 코드 네임 다수 등장


[분석정보] 듀얼코어 CPU Smithfield 내년 3분기에 등장


[분석정보] 심플 코어로 향하는 차세대 CPU 아키텍처


[분석정보] AMD가 Hot Chips에서 Richland에서 확장한 전력 제어 장치 등을 발표


[분석정보] SSE4 명령어와 가속기에서 보이는 Intel CPU의 방향성


[분석정보] x86에서의 탈피를 도모 Intel의 새로운 로드맵


[분석정보] 인텔의 대항에 직면한 AMD의 서버 로드맵



[분석정보] 왜 인텔은 샌디브릿지에 AVX를 구현하는가?



[분석정보] Sandy Bridge와 Bulldozer 세대의 CPU 아키텍처



[분석정보] AMD와 ATI 프로세서는 하나로 융합한다



[분석정보] 범용 컴퓨팅을 강화한 Sandy Bridge의 그래픽



[정보분석] CPU와 GPU의 메모리 공간을 통일하는 AMD의 hUMA 아키텍처



[분석정보] AMD의 차세대 APU Kaveri (카베리)는 아키텍처의 전환점



[분석정보] 인텔 데스크탑 eDRAM 버전을 포함한 브로드웰 패밀리 설명



Haswell과 Broadwell, DirectX 12관련의 중요한 차이가 있다



[분석정보] 라라비 (Larrabee)의 비장의 카드 공유 가상 메모리



[분석정보] 고기능 고성능 + 에너지 절약 저비용을 양립시키는 Intel의 대처