벤치리뷰·뉴스·정보/고전 스페셜 정보

[고전 2004.11.12] Many-Core CPU로 향하는 Intel. CTO Gelsinger 인터뷰 1/2부

tware 2005. 12. 11. 05:30

 

멀티 코어 선언 이후 크게 바뀐 Intel의 CPU 전략. 도대체 Intel CPU는 어디로 향하는 것인가? Intel의 연구 부문을 총괄하는 Patrick P. Gelsinger (팻 · P · 겔싱어) CTO 겸 수석 부사장 (CTO & Senior Vice President)에게 향후 CPU 개발의 방향성을 들었다. 10월의 일본 방문시 인터뷰를 베이스로, 9월의 Intel Developer Forum (IDF)시의 내용도 약간 추가되어 있다.


예상대로의 부분과 실망한 부분

 

 

 

Patrick P. Gelsinger 씨

 

[Q] 당신은 2001년 ISSCC의 키 노트 스피치에서 열이 프로세서의 혁신을 막는 벽으로 가로막고 있다고 지적했다. 대조적으로, 멀티 코어 등 다양한 수준에서 솔루션을 보여 주었다. 지금 현실에서 열은 가장 큰 문제가 되고, 멀티 코어 등이 현실화 되고있다. 이 현상을 당신은 어떻게 보고 있는가?

 

[고전 2001.01.17] 10GHz CPU를 실현하는 Intel 0.03μm 트랜지스터 기술

 

 

[고전 2001.02.06] 2010년 CPU 전력은 600W?


[Gelsinger] 그로부터 3년 반, 기대 그대로의 면과 실망하고 있는 양면이 있다. 첫째, 모든 서브 시스템 수준에서 많은 대책이 진행되고 있다. 트랜지스터 레벨 플랫폼 레벨, 멀티 코어화 등 내가 ISSCC 연설에서 말했던 모두가 지금 진행되고 있다. 그 문제에 관해서는 잘됐다고 생각한다.

 그러나 잘 되지 않았다 느끼고 있는 부분도 있다. Intel도 업계도 모두 더 빨리 회전하는 것이었다. 방향은 옳았지만, 전체로 보면 더 빠르게 했어야 했다고 생각한다.

 일부는 좋았다. 예를 들어, 우리는 Centrino와 같은 훌륭한 제품을 만들어 냈다. 높은 전력 / 성능 효율 새로운 폼 팩터의 창조 등 Centrino는 의심없이 최고의 제품이라고 생각한다. 그리고, 서버 제품은 Itanium 그룹도 훌륭한 일을 달성했다. 그러나 잘 가지 않았던 것도있다. 좋은 결과와 나쁜 결과 모두이다.

[Q] 특히 데스크톱 CPU는 잘하지 않은 것 같습니다. NetBurst 아키텍처는 열은 한계에 이르고 있다.

[Gelsinger] 이해해 주었으면, 이것은 Intel 만의 터닝이 아니라 업계 전체의 터닝인 것이다. Dell, HP 및 IBM 등이 우리에게 특정 수준의 제품을 만들도록 압력을 가한다. Intel은 그러한 요청에 부응해야 한다.

 노트북 PC의 경우 시장은 명확하게, 더 작고, 더 얇고, 더 가벼운 제품의 방향으로 (CPU를) 밀고 있었다. 그래서 우리는 좋은 제품으로 보답했다. 서버에서 블레이드 서버에서 더욱 더 전력 효율 (Power Efficiency) 좋은 디자인을 요구했다.

 그러나 데스크톱 PC는 시장의 방향은 그다지 명확한 것은 아니었다. 업계는 큰 인클로저에서 더 높은 열 설계 범위 (Thermal Envelope)로 향하고 있었다. 그러한 방향이 Intel에 그만한 압력을 가하고 있었다. 사실, 난 이 ISSCC에서 저런 연설을 행한 이유 중 하나는 Intel 보다 오히려 업계 전체에 영향을 주려고 했기 때문이다.

 그 의미에서는 (작은 폼 팩터 데스크톱이 주류) 일본이라는 시장은 매우 예외적이다. 일본은 세계에 미래의 방향성을 나타내는 좋은 지표라고 생각하고 있다.

 


1개의 CPU 코어로 모바일에서 서버까지 대응

[Q] CPU의 멀티코어화에 의해 하나의 CPU 코어 아키텍처에서 다른 열 설계 범위에 해당하는 것이 용이하게 되는 것은 아닌가?

[Gelsinger] 마이크로 아키텍처의 구축은 시스템 측에 제한된다. 데스크탑의 열 설계 범위 (Thermal Envelope)는 약 100W, 한편 모바일의 그것은 40W 정도 까지다.

 이상적으로는 이 두 틀에 맞는 프로세서를 디자인하고 싶다. 따라서, 이전에 전압 및 주파수 스케일링을 실시해 왔다. 하지만 100W 범위에 프로세서를 최적화하면 모두 만족이 어렵다. 예를 들어, 클럭 주파수를 빨리하기 위해서는 파이프 라인 스테이지 수를 늘려 더 예측 (실행)을 행하게 된다. 이러한 설계는 일정한 열 설계상의 특징 (소비 전력이 높은 것)을 낳는다.

 따라서 우리는 미래에 더 저전력 코어를 복제하여 다른 시장 세그먼트에 해당하는 것을 생각하고 있다. 예를 들어, 우리가 10W 정도의 저전력 CPU 코어를 개발하면, 2 개 또는 3 개의 코어를 (원칩으로) 모아 40W 노트북 PC 용 CPU를 만들 수 있다. 더 많은 코어를 정리하면 하이 엔드 데스크탑 및 서버용이 된다.

[Q] 멀티 코어 화는 "폴락의 법칙"(CPU의 성능을 늘려 다이 크기의 제곱근 분 밖에 향상하지 않는다는 법칙)을 깨고 CPU의 성능을 늘릴 수 있다.

 

[아키텍처] 폴락의 법칙에 찢어지고 취소된 테자스(Tejas)


[Gelsinger] 지금까지 몇 년 동안, 우리는 무어의 법칙에 따라 성능을 올려 왔다. 무어의 법칙은 2년에 트랜지스터 수가 2배가 된다, 그래서 성능도 2년에 2배를 목표로 해왔다. 이것은 사실은 꽤 어려웠다. 모두가 성능을 떨어 뜨리는 방향으로 작동하기 때문이다. 메모리 레이턴시 프로그램의 병렬성 양 등 ...... 엔지니어는 이러한 어려움을 헤쳐 무어의 법칙에 따라 잡아왔다.

 그러나 멀티 코어 및 멀티 스레드 성능 수준이 본질적으로 변화한다. 아마도 무어의 법칙을 웃도는 페이스로 성능을 향상시킬 수 있을 것이다. 이러한 경험은 내 25년 이상 업계 경험에도 거의 없었다. 매우 흥분 된다.

 지금까지는 CPU의 주파수가 3.2GHz를 3.6GHz 되어도 애플리케이션 성능은 그다지 크게 성능이 향상하지 않았다. 그러나 멀티 코어는 3.2 대 3.6 같은 비율보다는 2배 3배 4배 같은 속도로 성능이 뛰어 간다. 미래는 10배라는 성능을 얻을 수 있게도 된다.

 


차세대 애플리케이션을 위한 CPU

[Q] 하드 병렬 처리를 활용하기 위해서는 소프트웨어에서 동시성이 높아야 한다. 그렇게되면, "Amdahl의 법칙"에 의한 병렬성의 제약이 성능의 벽이 되는 것은 아닌가?

 

[정보분석] 암달의 법칙(Amdahl's law)을 둘러싼 Intel과 AMD의 싸움

 

 

[분석정보](암달의 법칙) 2010년대 100 코어 CPU 시대를 향해서 달리는 CPU 제조사


[Gelsinger] 암달의(Amdahl law) 법칙은 순서대로 실행 (해야 할 부분)의 비율이 전체 작업의 실행 시간을 제한하는 것이다. 이 법칙을 적용할 경우에는 주의 할 필요가 있다.

 만약 어떤 작업의 80%가 순차적으로 실행에 20%가 병렬 실행 (이 가능한 부분)이라고 쓰면 아무리 20%를 0%로 할 수있다 해도 작업 전체로 보면 20%의 성능 밖에 향상 하지 않는다. 그런데 20%가 직렬 80%가 병렬화 가능하다고 하면 훨씬 많은 성능 향상이 가능하게 된다. 그러면 문제는 작업에서 얼마나 직렬 실행 부분에서 얼마나 이 병렬화가 가능한가 라는 점이다.

 지금 응용 프로그램은 직렬 스트림의 실행을 전제로 알고리즘이 개발되고 있다. 이러한 응용 프로그램을 병렬 실행하는 것은 확실히 어렵다. 그러나 미래의 어플리케이션의 알고리즘은 더 병렬 실행에 적합한 것으로 될 것이다.

 우리가 목표로 하고 있는 오늘날의 애플리케이션을 위한 아키텍처는 아니다. 오늘의 응용 프로그램에 대해 이미 답을 제공했다.

[Q] 응용 프로그램 자체가 크게 변해가는 것을 전제로하고 있는 것은 있습니까?

[Gelsinger] 아마 오늘의 프로그램에서도 2열 또는 4열 병렬성은 얻을 수 있을 것이다. 일부 응용 프로그램에서는 더 좋은 결과가 있겠지만, 그래도 10배의 성능은 되지 않을 것이다.

 우리는 미래의 응용 프로그램에 사용되는 것으로 보이는 수백 알고리즘과 커널 병렬 시스템에서의 동작을 시스템적으로 분석해 왔다. 그 결과 발견한 것은 데이터 집합의 큰 작업의 대부분은 고성능이 필요한 작업이라는 것이다. 즉, 성능이 요구되는 큰 클래스 (데이터 세트) 정도로 매우 병렬화가 가능하다.

 알고리즘 안에는, 256,500, 경우에 따라서는 1,000 스레드로 확장되는 경우가 있다. 일례로, Intel Developer Forum (IDF)에서 레이 트레이싱 (광선을 물리 시뮬레이션 리얼한 음영 처리를 행하는 CG 기술)을 보였다. 레이 트레이싱은 광원으로부터의 광속의 추적 각각 매우 낮은 의존성에 독립적이며, 거의 완전 병렬이다. 레이트 레이싱과 같은 수천 스레드가 있는 응용 프로그램에서는 거의 완전한 확장성을 제공한다.

 레이 트레이싱 정도가 아니라도 32에서 100 (스레드)의 확장성은 다양한 애플리케이션에서 얻을 수 있다. 예를 들어, 인식 관계의 알고리즘은 매우 좋은 확장성을 얻을 수있다. 따라서 우리는 매우 익사이트하고 있다.

 


매니 코어 CPU로 테라 플롭을 목표로

[Q] 소프트웨어 측면에서 엄청난 수의 스레드로 병렬성을 추출 할수 있게되면, 프로세서 또는 코어의 병렬성을 높일 수 있다.

[Gelsinger] 그렇다. 우리가 지금 연구하고 있는 많은 코어를 사용하는 병렬 처리 시스템이다. Intel은 듀얼 코어 및 멀티 코어를 발표했지만, 내가 몸 담고있는 것은 더 CPU 코어의 수가 많다 "매니 코어 (Many-Core)"이다 (웃음). 노리는 것은 메인 스트림 컴퓨팅의 세계에서 최초의 테라 플롭 시스템을 실현하는 것이다.

[Q] 테라 플롭 프로세서는 소니 컴퓨터 엔터테인먼트 (SCEI)가 IBM, 도시바와 공동 개발하고 있는 Cell 프로세서의 목표이기도 하다.

[Gelsinger] 이것은 단순한 의견이지만, Cell과 우리의 멀티 코어 / 매니 코어의 차이는 무엇인가? 그것은 호환성이다. 소니 Cell은 혁신적인 새로운 아키텍처이지만, 왠지 호환성이 없다. 대조적으로, 우리는 미래의 아키텍처에서도 수십년의 가치가 있는 소프트웨어 호환성을 유지한다. 그것이 우리의 사업 모델의 본질이며, 우리가 제공해온 가치이다. 우리의 멀티 코어 및 매니 코어 시스템에서는 Windows도 Linux도 부팅하고 모든 도구가 움직인다. 새로운 사양과 새로운 명령을 추가해도 호환성은 유지한다.

[Q] SMT (Simultaneous Multithreading) 기술인 Hyper-Threading은 멀티 코어와 공존하며 구현되어 가는지. Hyper-Threading의 개량도 계속해서 하는 것인가?

[Gelsinger] 간단한 대답은 '그렇다. 그러나 Hyper-Threading 및 멀티 코어 모두가 모두 필요하다고 단정하지 말라. 양자는 다른 설계상의 절충이 있기 때문이다.

 예를 나타내면 만약 1.5 코어분 만큼 충분한 메모리 대역 밖에 없다고 하면 4개의 CPU 코어를 싣는 것은 말도 안된다. 그 경우에는 Hyper-Threading의 것이 적당하다. Hyper-Threading 으로 하나의 코어 성능을 1 / 3 ~ 1 / 2 개선하면, 메모리 대역과 맞기 때문이다. 반대로, 다른 시스템 요소가 저해하지 않는다면 Hyper-Threading을 듀얼 코어에 놓아야 하는 경우도 생각할 수 있다.

 우리가 Hyper-Threading 기술을 지속적으로 향상하는 것은 확실하다. 예를 들어, 지금 Hyper-Threading는 싱글 코어 2스레드 이지만, 4스레드 / 코어도 생각하고 있다. 그러나 모든 아이디어는 각각의 (CPU의) 설계 및 시스템에 의존한다.

[Q] SMT는 메모리 레이턴시를 은폐하고 파이프 라인을 바쁘게 하는, 듀얼 코어와는 다른 장점이 있다. 서로 보완한다고 생각 하죠?

[Gelsinger] 그렇다. 그것에 대해 당신에게 2년 전에 이야기를 했다. 당신은 좋은 학생이다 (웃음).

 


에너지 효율적인 CPU 아키텍처 연구 "PARROT"

[Q] 멀티 코어 시대의 CPU 코어의 관건은 전력 효율이다. Intel의 연구원이 발표한 "PARROT"이라는 CPU 아키텍처의 논문을 읽었다. PARROT은 전력 / 성능 효율을 높이는 점에서 매우 효과적인 접근이라고 생각한다.

[Gelsinger] PARROT에 보이는 아이디어는 우리의 현재 연구 활동 전체를 지배하고 있는 것이다. 그것은 전력 효율이다. 과거에는, 우리는 맥시멈 성능을 목표로 프로세서를 설계했다. 그러나 이제는 옵티멈 성능을 위해 설계를 한다. 모든 것이 변화했다. PARROT은 그 일례이다.

 PARROT의 기본이 되고있는 관점은 긴 프로그램 중 실제로 중요한 부분은, 실은 적다는 사실이다. 80 / 20 규칙이 여기서도 적용 극소수의 명령이 모든 머신의 실행을 대폭 둔화시키고 있다. 따라서 현명한 방법은 그들을 구분하여 수행하게 된다. PARROT에서는 이를 콜드 파이프 (Cold Pipe)와 핫 파이프 (Hot Pipe)라고 부르고 있다. 80% (중요하지 않은) 명령은 낮은 성능과 낮은 전력을 타겟으로 한 콜드 파이프에 보낸다. 한편, 20% (중요한) 명령은 고성능 고전력 뜨거운 파이프에 보낸다. 이제 효율적으로 성능을 향상시킬 수 있다.

 우리는 PARROT 대해서는 아직 어떤 결정도 내리지 않는다. PARROT내 부서 이스라엘의 스탭에 의한 연구이다. 하지만 아직도 연구소에서 연구단계다. 그래서 PARROT 만 너무 강조하고 싶지는 않다. 또한 PARROT은 하나의 생각, 우리가 가진 아이디어의 전부는 아니다 (웃음)

 전력 절감의 연구에서, 예를 들어 더 나은 전력 소비 모델링을 돕는 도구도 제공하고있다. (CPU의) 설계는 전력 예측이 매우 어렵다. 왜냐하면 전력 (트랜지스터) 스위칭의 발생 횟수에 따라 그 동적 움직임을 예측해야 하기 때문이다. 우리는 높은 소비 전력 회로 및 저전력 회로를 명령 (를 수행하는 논리)마다 구분. 따라서 전력의 견적이 어려우면 디자인도 어렵게 되어 버린다. 더 전력 효율이 높은 새로운 마이크로 아키텍처 모델을 만들뿐만 아니라 전력 특성을 분석하기 위한 도구도 제공하고 있다.

[Q] Processor Forum에서 Transmeta의 David R. Ditzel (데이비드 R · 디첼) 씨 (Co-Founder, Vice-Chairman and CTO)와 이야기를 했다. 그는 PARROT는 자신의 아이디어와 매우 비슷하다고 지적했다. Intel은 (PARROT에서 최적화) 하드웨어에서 구현하려고 하고 있지만, 그들은 소프트웨어로 구현하고, 그것이 장점이라고 Ditzel 씨는 설명하고 있다. PARROT의 경우 트랜지스터 카운트가 증가, 전력 소비는 불리하게 된다고.

[Gelsinger] 기본적으로는 데이브 (Ditzel 씨)에는 동의하지 않는다. 나의 의견은 심플하다. 우리는 하드웨어와 소프트웨어 모두를 매우 중요하다고 보고 있으며, 양자의 협조를 항상 생각하고 있다. 하드웨어 쪽이 소프트웨어 보다 (구현) 적합한 부분과 소프트웨어가 적합힌 부분이 있다. PARROT은 핫 실행과 초기 실행을 대비 전력 효율이 높은 마이크로 아키텍처이다. 이 기법과 협조하여 소프트웨어 스케줄러와 컴파일러가 훨씬 파워풀 하게 될 것이다. 어떤 의미에서 데이브는 유연한 하드웨어를 그가 가지지 않은 것을 정당화 하려고 하는것 같다.

 

 

2004년 11월 12일 기사 입니다.

 

 

[분석정보] 시리얼이 되는 FSB와 메모리. CTO Gelsinger 인터뷰 2/2부

 

 

[고전 2001.01.17] 10GHz CPU를 실현하는 Intel 0.03μm 트랜지스터 기술

 

 

[고전 2001.02.06] 2010년 CPU 전력은 600W?

[정보분석] 모든 CPU는 멀티 스레드로, 명확하게 된 CPU의 방향

 

 

[정보분석] Penryn의 1.5 배 CPU 코어를 가지는 차세대 CPU "Nehalem"

 

 

[아키텍처] 전력 효율성에 초점을 둔 인텔 연구개발 (PARROT)

 

 

[정보분석] 암달의 법칙(Amdahl's law)을 둘러싼 Intel과 AMD의 싸움

 

 

[분석정보](암달의 법칙) 2010년대 100 코어 CPU 시대를 향해서 달리는 CPU 제조사

 

 

[분석정보] 인텔 슈퍼컴퓨터용 가속기 Xeon Phi 5110P 발표

 

 

[분석정보] Intel, HPC 전용 보조 프로세서 Xeon Phi 2013년 1월부터 일반용으로 출시

 

 

[아키텍처] IDF 2012에서 주목한 한가지, 매니 코어 "Knights Corner"

 

 

[분석정보] Intel 매니코어 MIC 와 Atom SoC Medfield 를 발표

 

 

[정보분석] IDF 2011 Justin Rattner 기조연설 매니코어 시대가 다가옴 1/2부

 

 

[정보분석] IDF 2011 Justin Rattner 매니코어 시대가 다가옴 2/2부

 

 

[분석정보] 5W 이하의 저전력 프로세서의 개발로 향하는 Intel

 

 

[분석정보] 고속화를 가져오는 Radix-16 Divider와 shuffle Engine