Patrick (Pat) P. Gelsinger 씨 (패트릭 겔싱어 오른쪽)와 Rajesh Kumar 씨 (왼쪽)
IDF에서 Nehalem의 새로운 특징을 공개
Intel은 지난주 미국 샌프란시스코에서 개최된 기술 컨퍼런스 "Intel Developer Forum (IDF)"에서 발매가 다가온 "Core i7 (Nehalem)" 아키텍처에 대한 업데이트를 진행했다. Nehalem의 새로운 형상인 다단계의 "터보 모드 (Turbo Mode)"와 전력 소비를 억제하는"파워 게이팅 (Power Gating)"등의 절전 기능을 소개. 또 내년 (2009년) 후반에 등장하는 보급판 Nehalem 인 쿼드 코어 "Lynnfield (린필드)"와 듀얼 코어 "Havendale (헤븐데일) " 모바일 쿼드 코어 "Clarksfield (클락스필드)"와 듀얼 코어 " Auburndale (오번데일)"에 대해서도 일부 정보를 공개했다. (2코어+GPU 제품인 데스크탑 헤븐데일과 모바일 오번데일은 취소 됐습니다. 대신 CPU코어가 32나노인 데스크탑 Clarkdale, 노트북 Arrandale 이 출시 됩니다. 2코어 제품이 4코어 린필드 보다 일단 늦게 출시되는 스케줄인데다, 아마도 TDP 등의 문제인지.. 조금 늦춰지고 결국 취소되고 32나노 제품으로 출시 됩니다. 만약 45나노로 내놨다면 32나노 출시랑 간격차가 크기 않기 때문에.. 32나노를 늦게 내놓으면 이제는 샌디브릿지랑 가까워지고... 그 덕에 32나노 2코어 클락데일 제품은 45나노 4코어 린필드는 지원하지 않는 32나노 네할렘에(웨스트미어) 추가된 AES 암호화 가속을 지원 합니다. 단 i5-6xx 에 한함. i3-530 같은 i3 모델은 안됩니다.)
Intel은 Nehalem을 데스크톱 PC뿐만 아니라 모바일 PC에 배포한다. 그것을 가능하게 하는 것은, Nehalem에 구현된 지금까지 이상으로 고급 저전력 기술이다. 세부 사항을 보면 Nehalem의 초점은 CPU 코어의 마이크로 아키텍쳐 확장뿐만 아니라 이 절전 기술에 있었다는 것을 잘 알수 있다.
새로운 절전 기술은 Nehalem을 위해 새로 개발된 기술도 있지만, 기존의 Core 2 (Core Microarchitecture)와 Atom (Silverthorne : 실버쏜)을 위해 개발된 기술을 발전시킨 것도 많다. Intel CPU의 절전 기술이 현시점에서의 집대성이 Nehalem라고 해도 좋을 것이다.
Intel은 모바일 PC뿐만 아니라 데스크톱 PC와 서버에서도 저소비 전력의 다수를 유효화 (Enable)한다. 게다가 데스크톱 PC와 서버의 전력절약 화의 방향은 기존의 CPU와는 크게 다르다.
Intel Core Microarchitecture (Nehalem) Energy Efficiency Features
전력공급을 on / OFF하는 파워 스위치
Nehalem은 기존의 Intel CPU와 비교하면, CPU 코어가 아이들 전력을 더욱 효과적으로 억제 할 수 있다. 그것은 클럭 게이팅 뿐만 아니라 파워 게이팅을 행하고 있기 때문이다. 종래의 Intel CPU는 클럭 게이팅을 통해 아이들 CPU 코어 등 특정 블록에 대한 클럭 공급을 중지했다. 클럭을 정지하면 액티브 전력을 멈출수 있기 때문에 과거에는 전력을 거의 차단 할 수 있었다.
그러나 공정 기술의 진보와 함께 트랜지스터의 누설 전류 (Leakage)가 증가. 클럭 게이팅으로 전력 소비 중 활성 성분만을 차단해도 나머지 정적 성분을 억제 할 수 없기 때문에 절전 효과가 떨어지고 말았다. 아래가 IDF에 표시된 Intel CPU의 전력 소비 분석에서 누설 전류가 1 / 3을 차지하고 있는 것을 알 수 있다.
CPU Core Power Consumption
"(트랜지스터의) 스위칭 전력과 누설 전류를 모두 깎지 않고는 전력을 삭감 할 수 없다. 그래서 파워 게이팅을 채용했다"고 Nehalem의 전력 절약 설계를 담당한 Rajesh Kumar 씨 (Intel Fellow, Director, Circuit and Low Power Technologies, Intel)는 말한다.
Nehalem에서는, 각 CPU 코어마다 파워 스위치가 스위치를 끄기 (턴 OFF)하여 전원을 OFF한다. 스위칭 전류뿐만 아니라 누설 전류 차단되므로 CPU 코어의 소비 전력은 거의 제로가 된다고 한다. 이 파워 게이팅은 시스템 측면에서 투명이기 때문에 OS 등을 변경할 필요가 없다고 한다. 즉, 하드웨어에서 자동으로 수행된다.
Integrated Power Gate
Intel Core Microarchitecture (Nehalem) : Integrated Power Gate
공정 기술 개발에 전력 스위치를 가능하게
CPU는 외부의 전압 레귤레이터 (VR)에서 CPU 코어의 전력이 코어 전압 "Vcc"로 공급된다. VR로 부터 전력은 4개의 CPU 코어에 분배되지만, Nehalem에서는 각 CPU 코어에 전원 스위치가 설치되어 있다. 이 스위치를 on / OFF하는 것으로, CPU 코어의 전력을 on / OFF 한다. 이 방식의 장점은 빠른 스위칭을 가능하게 할 수 있다는 점 이라 한다.
다른 실현 방법은 전압 레귤레이터에서 각 CPU 코어 각각 다른 계통으로 전력을 공급, 각각의 전력을 외부 전압 레귤레이터로 on / OFF 할 수 있다. 그러나 그 경우에는 외부 전압 조정기의 전압 램프까지 시간이 걸리기 때문에 빠른 on / OFF가 어렵다. 또한 레귤레이터 비용도 올라간다. (왜 하스웰에서 통합 전압 레귤레이터를 넣은지 알수 있겠죠. 보드측에서 구현하면 속도도 느리고, 비용도 상승, CPU에 통합해서 구현하면(통합을 한다고 무조건 되는건 아니지만.. 그만큼 통한된 것의 속도가 매우 빠르게 만들어 져야) 해결이 되기 때문이죠. 며칠전 기사와 비교해서 보시면 좋을 것 같습니다.)
[분석정보] Haswell 절전 기능의 열쇠 "FIVR" 과 그 이후
파워 게이팅 자체는 특별한 기술이 아니다. 임베디드에서는 유사한 기술을 구현하는 예도있다. 고성능 PC와 서버용 CPU는 새롭다는 얘기다.
왜 PC와 서버용 CPU는 지금까지 파워 게이팅을 할 수 없었던 것일까? 그것은 전력이 크기 때문에 공정 기술의 개발이 필요했기 때문이라 한다.
"우리는 완전한 전원 스위치를 만든다는 아이디어를 위해 완전히 새로운 공정 기술을 개발해야 했다. 전원 on시에는 매우 낮은 저항일 것, 이것은 M9 층에 그것과 OFF시에는 매우 높은 저항일 것, 이것은 초저 누설 전류 트랜지스터이다. 그것이 우리가 만들어 낸 것 "이라고 Kumar 씨는 말한다.
45nm 공정으로 파워 스위치를 실현한 Intel. 그러나 Kumar 씨는 이 기술이 향후에도 그대로 통용되는 것은 아니라고 지적한다. "22nm 공정에서 같은 일을 하는 것은 어렵고, 22nm에서는 완전히 다른 솔루션이 필요할 것"이라고 Kumar 씨는 말한다.
Power Gates : Enabled by In-house Design & Process Technology
C6 스테이트 용의 SRAM에 CPU 코어의 스테이트를 대피
CPU 코어의 전력을 OFF로 하면, 당연히 CPU 코어의 내부의 아키텍처르 스테이트는 잃어 버린다. 이 문제를 해결하기 위해 Intel은 45nm 판 Core 2 (Penryn : 펜린)과 Silverthorne을 위해 개발한 "Deep Power Down C6"스테이트 기술을 사용한다. C6은 CPU의 다이 (반도체 본체)에, C6시의 스테이트 보존을 위한 온다이 SRAM "State Storage"를 구현한다. 이 C6 용 SRAM은 CPU 코어와는 다른 전압이 공급되어 CPU 전체가 C6 스테이트에 들어가 전압이 캐시 항목이 유지 수준 이하로 떨어졌을 때도 내용이 유지된다. 항상 on 되어있는 대피 구역이다.
Penryn의 C 스테이트 제어
CPU 코어는 C6 스테이트에 들어가기 전에 모든 CPU 스테이트를 이 대피용 SRAM에 저장한다. CPU 스테이트에는 모든 IA 아키텍처의 스테이트와 CPU 마이크로 아키텍처의 스테이트, 즉 마이크로 코드의 스테이트의 대부분이 포함된다. CPU 스테이트가 C6 SRAM에 들어가면 CPU 코어의 전력을 OFF 하는 것이 가능하게 된다. Nehalem에서는, 각 CPU 코어가 별도의 C6 SRAM 영역을 가진다.
C6에서의 복귀는 어느 정도의 시간 (CPU에 따라 다름)이 소요된다. 그러나 CPU 외부 오프 칩 메모리에 스테이트를 저장하는 경우와 비교하면 현격히 복귀 지연 시간은 짧다. 따라서 성능 손실은 매우 적다 말한다. 그러나 응용 프로그램은 대기 시간이 매우 중요이거나 자주 C6에 너무 들어가 성능이 꺾이게 되거나 하는 경우가 나올 수 있다. Nehalem에서는, 새롭게 탑재한 "PCU (Power Control Unit)"가 그러한 소프트웨어의 동작을 모니터링 하고 최적화를 한다.
C-State Exit Latency
PCU는 복잡한 전력 제어를 위해 탑재된 전용 마이크로 컨트롤러이다. 기존 CPU에서는 하드웨어로 행하고 있던 제어를, Nehalem에서는 전용 프로세서로 달리는 펌웨어로 전환했다. PCU는 100만 트랜지스터 이상 규모의 컨트롤러로 기존의 절전기구에서는 불가능했던 치밀한 작업을 수행한다. CPU에 탑재된 수많은 센서 모니터 결과를 바탕으로, 전력 절약 제어를 행한다. Kumar 씨에 따르면, Nehalem에서는 절전 제어가 매우 복잡하기 때문에 규모가 큰 버그가 생기기 쉬우므로 컨트롤러의 소프트웨어 제어로 전환한다. 소형 CPU 클래스 규모의 PCU의 트랜지스터 만큼, Nehalem의 소비 전력은 증가해 버리지만, 그래도 전력 제어로 억제되는 장점이 더 크다고 한다.
(네할렘 PCU가 100만 트랜지스터 라고 하면 감이 쉽게 안오죠. 486DX의 트랜지스터 수가 120만개 라고 합니다.)
Power Control 유닛
Nehalem 에서는 Penryn의 C6 스테이트 기술을 더욱 확장
C6 스테이트 자체는 Penryn에서 구현되어 있었지만, Nehalem에서는 구현이 크게 다르다. Penryn의 경우 2개의 CPU 코어 각각이 CPU 코어 단위로 C6 스테이트에 들어가는 수도 있지만, 2개의 CPU 코어가 C6으로 갖추어지지 않는 한, 전압은 C6 수준으로 내려가지 않는다. 따라서 Nehalem 정도로 치밀하게 전력을 세이브 할 수 없다. 예를 들어, 1 코어가 액티브이고, 또 다른 코어가 아이들의 경우는 아이들 CPU 코어는 쓸데없이 누설 전류를 소비해 버리고 있다.
C6 Support on Interl Core 2 Duo Mobile Processor (Penryn) [1]
C6 Support on Interl Core 2 Duo Mobile Processor (Penryn) [2]
C6 Support on Interl Core 2 Duo Mobile Processor (Penryn) [3]
C6 Support on Interl Core 2 Duo Mobile Processor (Penryn) [4]
C6 Support on Interl Core 2 Duo Mobile Processor (Penryn) [5]
C6 Support on Interl Core 2 Duo Mobile Processor (Penryn) [6]
대조적으로, Nehalem에서는 CPU 코어 각각 C6 스테이트에 들어가 개별적으로 전원을 OFF 할 수있다. 따라서 매우 효율적으로 치밀 전력을 제어 할 수있다. 예를 들어, 2 개의 코어가 활성화되어 2 개의 코어가 유휴 상태면 유휴 CPU 코어는 낭비 누설 전류를 소비하지 않는다.
C6 on Intel Core Microarchitecture (Nehalem) [1]
C6 on Intel Core Microarchitecture (Nehalem) [2]
C6 on Intel Core Microarchitecture (Nehalem) [3]
C6 on Intel Core Microarchitecture (Nehalem) [4]
C6 on Intel Core Microarchitecture (Nehalem) [5]
Nehalem에서는 모든 CPU 코어가 C6 스테이트에 들어가면, CPU 전체가 C6 스테이트에 들어가 전력이 더욱 억제된다. 먼저 CPU 안에 CPU 코어 이외의 "언 코어 (Uncore)"부분의 전력이 중단되고 I / O가 저전력 스테이트에 들어간다. 언 코어 부분의 클럭 그리드가 중지되고 남는 것은 언 코어 부분의 누설 전류 등 극히 일부가 된다.
Core C States vs. Package C States
Intel Core Microarchitecture (Nehalem)-기반 Processor
Intel Core Microarchitecture (Nehalem) Package C-State Support [1]
Intel Core Microarchitecture (Nehalem) Package C-State Support [2]
Intel Core Microarchitecture (Nehalem) Package C-State Support [3]
Intel Core Microarchitecture (Nehalem) Package C-State Support [4]
Atom 절전 기술을 가져온 Nehalem
Nehalem의 절전 기능은 C6 스테이트와 파워 게이팅 만은 아니다. 회로 설계로 다양한 전력 절감을 하고 있다. Kumar 씨에 따르면, CPU의 저소비 전력화의 앞에 가로막고서는 벽은 "물리"라고한다. 물리적인 이유에서 CPU의 전원 소모를 줄이고 성능을 향상하는 것은 점점 어려워지고 있다.
CPU는 최고의 성능을 얻고 싶은 경우는 허용 한도 상한 전압 "Vmax"으로, 전력 소비를 가장 내리고 싶은 경우에는 허용 한도 하한 전압 "Vmin" 으로 설정합니다. 그런데 공정 세대가 진행 트랜지스터가 소형이 되면 게이트 산화막 두께가 얇아져 신뢰성 면에서 고전압으로 구동 할수 없게 된다고 한다. 결과 Vmax를 낮추지 않으면 안된다.
한편, 트랜지스터가 작아지면 메모리 셀의 용량이 줄어들기 때문에 전압을 낮추면 소프트 오류 (방사선 등의 영향으로 의한 메모리 오류)의 발생률이 증가한다. 그때문에 Vmin을 낮추지 못하고 반대로 올릴 수 밖에 없는 경우도 있다.
Vmax가 내려가고, Vmin가 오르기 때문에 공정이 진행되면 전압 스케일의 마진이 점점 좁아져 버리는 문제가 발생한다. 아래의 슬라이드 위가 130nm 공정, 아래가 45nm 공정의 차트이다.
Scalable Core Challenges [1]
Scalable Core Challenges [2]
이런 상황에서 Intel은 CPU의 동작 전압의 하한을 낮추기 위한 기술을 연구했다. Kumar 씨에 따르면, 문제는 메모리 회로에 있기 때문에 메모리 오류를 막기 위한 대책을 강구한다.
하나는 메모리 오류 정정 회로를 더 정교한 것으로 한다. Nehalem에서는 '트리플 디 텍트 / 더블 콜렉트 "을 행하고 있다고 한다. 또한 CPU 코어 이외의 캐시에는 전력 공급을 분리. CPU 코어 전압을 낮춰도 캐시의 전압은 데이터를 가능하게 높게 유지하도록했다. 이것은 이전의 CPU에서 행하고 있다.
CPU 코어 내부의 메모리에 대해서는 종래의 6 트랜지스터 SRAM (6T SRAM) 셀에서 8 트랜지스터 SRAM (8T SRAM) 셀로 전환한다. L1 명령 캐쉬와 L1 데이터 캐쉬 같은 코어 메모리는 8T SRAM이 되었다. 8T SRAM이, 6T SRAM 보다 저전압시 소프트 에러율 (SER)이 낮고, 결과적으로 CPU 코어를 더 저전압으로 구동 할 수 있게한다.
하지만, CPU 코어 내부의 메모리의 8T SRAM 화는 Nehalem이 최초는 아니다. Intel은 Silverthorne 과 같은 모양으로, CPU 코어의 메모리를 8T SRAM 화 함으로써 저전압 구동을 실현했다. 즉, Nehalem는 Silverthorne의 저전력 기술을 가져온 셈이다.
8T SRAM 이나 풍부한 메모리 오류 정정 회로의 대가는(Trade off) 더 많은 트랜지스터가 필요하며 더 많은 면적을 CPU에 취하는 것이다. 그만큼 CPU가 살찌는데, 이러한 장단점을 고려해서 저전압 화를 도모하는 것이 이익이 있다고 Intel은 판단한 것 같다.
Low Voltage For Better Efficiency
풀 정적 회로화의 동향을 타는 Nehalem
프로세서는 일찍이 바이폴라 (Bi-Polar) 트랜지스터로 만들어졌다. 그러나 빠르지만 전력 소비가 매우 큰 바이폴라는 70 년대가 되면 현재 CMOS가 직면하고 있는 것과 유사한 전력의 벽에 부딪혀 버렸다. 거기에서 프로세서 벤더 긱사는 바이폴라에서 정적 CMOS로 기술을 전환, 전력 소비를 한번에 끌어내린 역사가 있다.
그러나 CMOS 공정의 프로세서는 저속이 되기 때문에, 프로세서의 성능 향상의 요구로인해 보다 고속이지만 보다 전력 소비가 커지는 방향으로 회로나 트랜지스터의 기술을 기울여 갔다고 Kumar 씨는 설명한다. CPU 에서는 90년대 무렵부터 고속 동적 회로가 고속성을 필요로 하는 중요한 통로로 쓰이게 되었다. Intel도 도미노 회로를 도입하고, Pentium 4 에서는 도미노 보다 빠른 Intel이 발표한 'LVS (Low-Voltage Swing) "로직을 채용했다.
하지만 전력 효율을 중시하는 Nehalem에서는 다시 풀 정적 CMOS로 리턴한다. 종래의 Intel CPU에서 도미노 데이터 통로가 Nehalem에서는 완전히 정적 회로로 변했다. 이것은 Intel의 고성능 CPU에 있어서 20년 만에 처음이라고 한다.
하지만 풀 정적 CMOS 화는 Nehalem이 처음이라는 것은 아니다. 다른 CPU 벤더도 같은 길을 걷고 있으며 Intel도 그 물결을 타고 있다. 예를 들면, IBM의 최신 CPU "Power6"은 역동적 회로를 배제하고 정적 회로로 구성되어 있다. Cell Broadband Engine (Cell BE)의 45nm 판도 가능한 CMOS가 사용되고 있다고 한다. 원래 고성능 CPU 이외의 임베디드 용의 CPU 에서는 정적 CMOS는 당연하다. Intel은 왕도를 타고 전력 절감을 행한 것이 된다.
대가는 물론 속도로, 동일한 공정 세대에서 도미노 회로를 사용한 CPU와 비교하면 중요한 통로가 더 느려지고 결과적으로 동작 주파수가 낮아지는 것 이다. 그러나 미세화로 트랜지스터의 스위칭 자체는 어느 정도 고속이 되었기 때문에 주파수를 끌어올리지 않는 경우는 정적 CMOS 화에서도 문제는 없다고 판단했다고 추측된다.
Low Power Chip Design
이렇게 바라보면 Nehalem 에서는 절전 기술에도 힘이 들어가 있는 것을 잘 알수 있다. 그러나 이만큼의 절전 기술을 투입하고도 규모가 큰 Nehalem의 전력을 TDP 테두리 안에 넣는 것은 어렵다. (실제 그만큼 클럭을 낮춰서 나옴. 물론 터보가 있어서 터보로 보면 안그렇지만, 4코어 전체 클럭은 약간 낮죠. 모 클럭이 낮은 만큼 대신 본 클럭 대비로 오버는 꽤 되는 장점이 있긴 하지만요. 4코어 3.6 ~ 3.8 정도는 아주 쉽게 국민오버 라고 하니까요.)
2008년 8월 25일 기사입니다.
[벤치리뷰] 인텔 코어 i5-750 코어 i7 870 프로세서
[분석정보] Intel, 3차원 트라이 게이트 트랜지스터 제조 기술을 확립
[분석정보] Intel 래트너 CTO에게 듣는 Atom 탄생 비화
[정보분석] 인텔의 2013년 CPU 하스웰로 이어지는 네할렘 개발 이야기
[정보분석] 같은 무렵에 시작된 Nehalem과 Larrabee와 Atom
[아키텍처] Nehalem(네할렘)으로 볼 수 있는 인텔 CPU 마이크로 아키텍처의 미래
[정보분석] Merom(메롬) 이후인 Nehalem(네할렘) 과 Gilo(길로)
[정보분석] Penryn의 1.5 배 CPU 코어를 가지는 차세대 CPU "Nehalem"
[아키텍처] Intel의 차기 CPU "Nehalem"의 설계 개념은 "1 for 1"
[분석정보] Intel, 3차원 트라이 게이트 트랜지스터 제조 기술을 확립
[분석정보] Intel, 30nm 트라이 게이트 트랜지스터가 개발 단계에
[고전 2001.11.27] 인텔 테라 헤르쯔 트랜지스터 기술 발표
[고전 2002.09.19] Intel, 3 차원 구조의 "트라이 게이트 트랜지스터 ' 발표
[고전 2001.02.06] 2010년 CPU 소비 전력은 600W?
[고전 2001.01.17] 10GHz CPU를 실현하는 Intel 0.03μm 트랜지스터 기술
[고전 2001.01.11] Intel의 0.13μm 공정 P860/P1260에서 CPU는 어떻게 바뀌나
[정보분석] 인텔 45nm 공정 차세대 CPU Penryn(펜린) High-k 메탈게이트 성공
[분석정보] Intel, 45nm 공정의 153Mbit SRAM 제조 성공
[분석정보] IDF에서 공개된 "Nehalem"의 내부 구조
'벤치리뷰·뉴스·정보 > 아키텍처·정보분석' 카테고리의 다른 글
[분석정보] SSE와는 근본적으로 다른 Larrabee의 벡터 프로세서 (0) | 2008.10.31 |
---|---|
[분석정보] 2010년 이후의 Intel CPU가 보이는 Larrabee 신 명령 (0) | 2008.10.17 |
[정보분석] 팀스위니 미래의 게임 개발 기술. 소프트웨어 렌더링으로 회귀 (0) | 2008.09.11 |
[분석정보] IDF 2008에서 본 Intel의 가상화 대응 방안 (0) | 2008.09.05 |
[분석정보] IDF 2008 저스틴 래트너 CTO 기계 지능이 인간을 넘을때 (0) | 2008.08.23 |
[분석정보] 정식 발표된 라라비(Larrabee) 아키텍처 (0) | 2008.08.22 |
[분석정보] 가상 머신에서 직접 I / O 매핑이 가능한 VT-d. 미 Intel과 미 VMware가 데모 (0) | 2008.08.20 |
[아키텍처] 베일을 벗은 인텔 CPU & GPU 하이브리드 라라비(Larrabee) (0) | 2008.08.04 |