[정보분석] IDF 2011 인텔 하스웰(Haswell)의 다이와 절전 기술

벤치리뷰·뉴스·정보/아키텍처·정보분석

[정보분석] IDF 2011 인텔 하스웰(Haswell)의 다이와 절전 기술

tware 2011. 9. 30. 21:30

더 길어진 하스웰의 다이

Intel은 "Intel Developer Forum (IDF)"에서 2013 년의 새로운 아키텍처 CPU "Haswell (하스웰)" 칩을 공개 했다. 아래는 그 때의 칩 사진이다. 또한 기조 연설에서도 Haswell 칩의 사진이 공개됐다. 이들을 보면 Haswell의 다이가 아주 길쭉한 모습을 하고있는 것을 알 수 있다. (순수한 개발은 기간은 원래 좀더 짧습니다. 셈플이 나와도 정상작동이 안되는 경우도 있고, 또 된다고 해도 여러 테스트를 통해서 버그가 있는지 테스트 해야 하며, 설계상, 공정상의 튜닝을 거쳐야 합니다. 또 다시 셈플이 나오고 테스트 하고.. 등등 완전하다고 판단되면 양산 준비에 들어가죠. 양산에 들어가도 몇달에서 1년정도 이후에나 출시가 되죠. 또 기초 연구는 실제 CPU 설계보다 선행 연구하구요.)

2013년의 새로운 아키텍처 CPU 하스웰

이는 Haswell이 Sandy Bridge(샌디브릿지)와 Ivy Bridge (아이비브릿지)와 마찬가지로, 링 버스로 가로로 CPU 코어와 GPU 코어와 노스 브릿지를 연결 한 구조를 가지고 있다는 것을 시사하고 있다. Intel의 현재 링 버스를 사용한 연결은 CPU의 형상 단위가 증가함에 따라 가로로 길쭉한 경향이 있다.

아래는 Sandy Bridge와 Ivy Bridge의 다이로, Ivy Bridge는 GPU 코어와 시스템 에이전트가 대형화 한층 더 가로로되어 있는걸 알 수 있다. Haswell에도 이러한 경향은 계속 될 것으로 보인다. 그리고 Ivy Bridge 보다 더 옆으로 홀쪽 하게 된것은, Ivy Bridge보다 GPU 코어와 노스 브릿지의 기능이 더욱 강화 된 것을 보여주고 있다.

샌디브릿지와 아이비브릿지의 다이

Haswell의 다이 크기는 190 평방 mm 이하?

아래는 IDF에서 공개 된 Haswell 칩의 슬라이드와 실제 칩의 비교이다. 양자는 거의 같은 형상을 하고 있으며, 슬라이드의 Haswell 칩이 가짜가 아니라 실물임을 시사하고있다. 만약이 패키지가 37.5mm 길이 라면 Haswell의 다이 면적은 약 180 ~ 190 평방 mm 정도라는 것이다. 만약 그렇다고 하면 Haswell은 최근 Intel 메인 스트림 CPU로서는 비교적 작은 다이 크기의 CPU라는 것이된다.

하스웰

CPU die size

Intel은 메인스트림 CPU 다이의 CPU 코어수를 지금까지 1 코어에서 2 코어(Merom), 4코어(Nehalem) 늘려 왔다. 또한 CPU 코어에 주변기능 통합을 노스브릿지 (Nehalem)와 GPU 코어(Sandy Bridge)로 진행해왔다.

그러나 CPU 코어수를 여기쯤 와서 4 코어에서 멈출 기미를 보이고있다. Nehalem → Sandy Bridge → Ivy Bridge → Haswell과 메인스트림이 쿼드코어 인채 지연 될 전망 이다.

대신 GPU 코어를 비롯한 주변 기능이 더 강화 되거나 새롭게 추가되는 경향이있는 것 같다. 메인 스트림 CPU는 마침내 범용 CPU 코어 수의 증가가 멈추고 대신 GPU 코어등 보다 성능/전력 효율적인 코어의 강화로 향할 것으로 보인다. AMD는 이미 그 방향을 나타내고 있지만, Intel도 같은 노선으로 향한다. 아래는 Haswell 블록의 추정 그림에서 아마 GPU와 노스 브릿지가 대폭 강화 될 것으로 보인다.

샌디블릿지 구성도

아이비브릿지 구성도

하스웰 구성도

대기 전력 소비를 20분의 1로 줄이는 하스웰 세대 울트라북

Intel의 Mooly Eden 씨 (VP, General Manager PC Client Group, Intel)

Intel의 2013 년 Haswell은 기존보다 압도적으로 배터리 구동 시간의 긴 노트 PC를 만들려고 하고있다. 따라서 2013 년의 Ultrabook은 대기 전력을 현재의 20 분의 1로 줄인다.

"차세대 CPU Haswell에서는 20 배의 전력 향상을 도모한다. 올 데이 배터리 수명을 제공 할 수있는 무선 연결 상태(필요시 곧바로 통신을 행하는)의 대기 상태에서 10 일 이상 배터리를 유지할 수도 있다. 전원에 접속 해둘 필요는 없다. 이것은 Intel 전력 최적화 실현이다. 전력 최적화는 우리는 에코 시스템(장치 업체)과 협력해야 한다. 하지만 나를 믿어라. 당신들이 보는 것을 여러분들이 분명 좋아할 것이다. PC의 P는 개인에서 오고 있지만, C는 이제는 창조성과 소비:소비(전력)을 의미하게 될 것이다. "

Intel의 Mooly Eden 씨 (VP, General Manager PC Client Group, Intel)는 기술 컨퍼런스 "Intel Developer Forum (IDF)"에서 이렇게 선언했다.그러면 어떻게, Intel은 그만큼의 저전력 화를 실현하는 것인가. IDF에서 그 개요가 밝혀졌다.

전압 조정기의 통합

이전 보고서 대로 Haswell의 노트 PC 버전은 메모리로, 낮은 대기전력인 LPDDR3을 지원한다. 또한 화면에 변화가 없으면 LCD 패널 쪽에서만 화면 재생을하여 CPU 측에서 화면 데이터 전송을 하지 않는 패널 자가 리프레시(SPR)의 도입도 추진한다. 또한 전압 레귤레이터(VR)를 온 또는 온 패키지에 통합하는 개혁도 행한다고 볼 수있다.

그러나 이러한 장치 자체의 저전력화 이외에, Haswell 세대에서는 "CPPM"라는 플랫폼 전력 관리를 도입한다. Intel의 Eden 씨는, CPPM 이야말로 20 분의 1의 대기 전력을 실현하기 위한 열쇠라고 설명한다.

"전체 개념은 CPU를 가능한한 잠을자는 것으로, 배터리 구동 시간을 늘릴 수있다" "오늘의 주변기기는 CPU를 비정기 적으로 일으켜 버린다.우리는 주변 장치에서 인터럽트를 압축한 것으로, CPU를 더 긴시간 동안 대기(스테이트)에 두고 전력을 줄이기 위해 노력하고 있다.이 방법으로 20 분의 1의 전력을 달성 할 수있을 것이다 ""하지만 그러기 위해서는 많은 주변 장치 협력이 필요하다. 우리는 CPPM이 모든 길을 개척을 업계

전체에 전달하고자 한다 "(Eden 씨).

Shark Bay 기반 시스템 전체의 전력을 제어하는

전력 최적화라고도 불리는 CPPM은 Haswell 플랫폼 인 'Shark Bay "전체 전력 제어 프레임 워크이다. Haswell을 탑재 한 플랫폼 전체의 전력을 절감한다. Haswell과 "LynxPoint PCH"에 연결하는 장치들 사이의 전력 관리를 할. Haswell과 LynxPoint는 전력 최적화를 위한 플랫폼 전력 관리 컨트롤러가 탑재 될 것으로 보인다.

CPPM 프레임 워크의 기본 컨셉은 "Intel 이외의 구성 요소의 절전을 아울어야 하는"것이다. Intel은 자사가 제공하는 CPU와 칩셋 부분은 이미 상당한 수준까지 전력 절감을 달성했다고 보고있다. 문제는 Intel CPU와 칩셋 이외의 부분, 그곳에서 개혁하지 않아서 노트 PC 전체의 전력 최적화가 이루어지지 않은 경우를 Intel은 문제로 보고있다. 아래의 슬라이드는 Intel이 IDF에서 나타낸 블루가 CPU의 전력, 레드가 시스템 전체의

전력을 보여주고 있다.

CPU의 소비전력 및 시스템 전체의 소비전력(CPU 파란색, 시스템 붉은색)

그리고 CPU 자체의 대기시 유휴전력도 주변 장치의 최적화로 아직도 낮출 수있다. 위의 그림을 보면 CPU의 전력도 일정 수준으로 낮추 멈춰있는 것을 알 수있다. 모바일 워크로드에서의 시간의 대부분을 차지하는 유휴 CPU와 칩셋의 전력은 시스템 전체의 협조가 없으면 낮출 수 없다. CPPM 프레임 워크의 초점은 여기에 있다. Intel은 주변 장치가 CPU에 자주 인터럽트와 DMA 액세스를 건 덕분에 CPU가 오랫동안 절전 모드

에 들어간 채로 있을 수없는 것에 문제가 있다고 보고있다.그래서 CPPM에서 이 문제를 해결 하려고 하고 있다.

CPPM에서 문제를 해결

장치와 OS에서 인터럽트가 절전을 방해

Intel의 Eden 씨는 장치와 OS에서 인터럽트가 전력에 얼마나 큰 영향을 미치는지 다음과 같이 설명한다. "오늘의 OS는 '틱 (tick) OS'이다. 일정주기(tick)마다 OS가 인터럽트를 건다. OS가 인터럽트를 걸 때 CPU가 절전(스테이트)에 있는 경우, OS는" 자고있어? "라고 CPU에 얘기해 CPU를 슬립에서 일으킨다. 또한 주변 장치, 예를 들면 프린터와 무선 LAN 등 모든 장치도 마찬가지로 인터럽트를 걸어 CPU를 일으킨다.

이러한 인터럽트가 CPU를 슬립(스테이트)으로 부터 깨어나기 때문에, 배터리 구동 시간이 짧아져 버린다"

아래의 슬라이드는 CPU(와 칩셋)에 인터럽트와 DMA 액세스를 나타내고 있다. 가로축은 시간축으로 수직으로 뻗어있는 화살표가 인터럽트와 DMA 액세스이다. 아래의 슬라이드 그림이 현재의 플랫폼에서 본대로 수시로 인터럽트와 액세스를 나타내는 화살표가 들어있다.

이러한 인터럽트와 DMA 액세스는 PCI Express 및 USB, SATA 등 인터페이스에 연결된 장치에서 들어간다. 각각의 인터럽트와 DMA 액세스는 동기화하지 않고, 시간 축에서 완전히 분산되어 있다.각 인터럽트와 DMA 액세스마다 CPU 측의 일부 유닛은 절전 모드에서 활성화로 돌려 버린다. 복잡한 인터럽트와 DMA를 위해, CPU의 유휴 시간은 가늘게 컷되고 불연속 짧은 유휴 시간이 되어 버린다.

인터럽트 및 DMA 접근

절전 스테이트는 깊으면 깊을수록 전력을 줄일 수 있지만, 대신 복귀 지연 시간이 길어진다. 따라서 깊은 절전 스테이트를 충분히 활용하려면 어느정도의 대기 시간이 지속되지 않으면 어렵다. 유휴 시간이 나뉘어 있으면 CPU 전체에서 깊은 절전 스테이트에 들어갈 수있는 기회가 매우 제한되어 버린다. CPU 측이 깊은 절전 스테이트의 전력을 기술을 보유 하고도 이를 통해 전력을 절감 할 수있는 기회가 상당히 손실 된 상황

이다.

인터럽트를 함께 처리함으로써 유휴 시간을 길게

그래서 아이디어로 인터럽트와 DMA 액세스를 정리해 분출해 버리는 방법이 떠오른다. 인터럽트와 DMA 액세스 중에는 사실 타이밍이 중요하지 않은 것이나, 장치측에 버퍼함으로써 지연시킬 수있는 것이 존재한다. 위의 슬라이드 중에서 화살표는 인터럽트와 DMA 액세스 유형으로 분류되고 있다.

위의 슬라이드 블랙의 화살표는 OS의 인터럽트이지만, 이것은 주기적으로 움직일 수 없다. 오렌지는 중요한 인터럽트, 이것도 타이밍을 늦출수 있는 것이 없다. 보라색은 중요한 데이터 트래픽, 이것도 타이밍을 움직일 수 없다. 반면 블루는 타이밍을 뒤로 늦추는 것이 가능한 인터럽트, 그린 역시 연기 할 수있는 데이터 트래픽을 나타내고 있다. 그림에서는 타이밍을 지연시킬 수 있는 화살표가 상당수 나타나고 있다.

그래서 중요한 인터럽트와 액세스 타이밍 그대로 지연이 가능한 인터럽트 및 액세스를 중요한 타이밍에 맞춰(정렬)하여 정리해 처리한다.

이러한 조정을 행한 것이 위의 슬라이드 중 아래의 그림이다. 각 인터럽트와 DMA가 어느 정도의 입도의 버스트로(한번에 분출)정렬되어 있다. 그 결과 인터럽트 사이의 완전한 유휴 시간을 이전보다 훨씬 오래 가지고 있는 것을 알 수있다. 이 "아이들 윈도우"가 충분히 넓은지면 CPU는 깊은 절전 스테이트에 들어가 전력을 크게 줄일 수있게 된다. 아래의 슬라이드는 인터럽트와 DMA 액세스를 정렬하여 유휴 창을 넓히는 개념을 나타낸 그림이다.

인터럽트 버스트 그림

인터럽트와 DMA 액세스를 정렬하는 구조 만들기

각 장치의 인터럽트와 DMA 액세스를 정렬하기 위해서는, 지금까지없는 구조가 필요하다. CPU/칩셋측 CPPM 컨트롤러가 각 장치마다 인터럽트와 DMA 액세스를 얼마나 지연시켜도 괜찮은지를 파악해 사로 잡을 필요가 있다. 장치가 허용되는 시간이상 지연시켜 버리면, 안전한 동작을 할 수 없게되거나 성능이 쇠퇴해 버린다. 어디 까지나 각 장치가 허용 할 수있는 범위에서 인터럽트와 DMA 액세스를 정렬해야 한다 Eden 씨는 다음과 같이 비유한다.

"우선, CPU와 시스템은 각 장치에 최대 지연시간, 즉 인터럽트를 걸고 응답까지 기다릴 최대 시간을 요구한다. 장치는 각각 허용 할 지연을 예를들어 400us(마이크로 초)또는 500us, 600us 라고 대답하고, 다음 칩셋이 인터럽트를 받으면, 칩셋은 "CPU는 슬립 상태로 앞으로 400us는 복귀해 일을 시킬 수 없다"고 장치에 전한다. 그리고 일정 시간이 지난 후 CPU를 복귀시켜 모든 인터럽트에 대한 응답을 동시에 행한다 "

Intel은 지연 전달 등을 위해 장치와 CPU 사이에 새로운 버스 및 프로토콜을 개발했다. 지연 허용치를 동적으로 컨트롤러에 전달하기 위한 "Latency Tolerance Reporting (LTR)"나 "Latency Tolerance Messaging (LTM)"을 정의. PCI Express 및 USB 등의 업계 표준 규격에 그 스펙을 도입하도록 장려 해왔다. 또한 지연을 허용 할 수있게 하기위해 보다 지능적인 버퍼시스템을 장치 칩 측에 탑재하는 것도 요구하고 있다. 또한

버퍼링을 처리하기 위한 "Opportunistic Buffer Flush / Fill (OBFF)"도 정의 되었다.

지연 허용치를 동적으로 컨트롤러에 전달하기 위한 프로토콜을 개발

5 년이 걸릴 CPPM 전력 최적화 실현

사실, Intel은 CPPM 방식을 몇 년 전에 이미 제안하고있다. 이 기사에서 사용하는 슬라이드의 대부분은 2008 ~ 2009 년의 IDF의 것이다. 같은 시기에 이 기술을 알리기 위해 "Energy-Efficient Platforms"라는 백서를 내고있다. 관련 특허도 같은 시기에 출원되고 있다. 즉 기술의 기본적인 골격은 사실 3 년 전부터 할수 있던 것이다. 하지만 실제로 구현하는 것은 구상부터 5 년 후인 2013 년부터 시작된다.

그만큼의 기간이 필요한 것은 것이 Intel 1사에서 처리되는 문제가 아니라 업계 전체가 뛰어들게 할 필요가 있기 때문이다. PCI Express 및 USB 등 모든 인터페이스의 연결 장치가 CPPM의 전력 최적화의 개념에 따라 달라고 할 필요가있다. 역으로 말하면, 계몽 활동을 계속해 5 년만에 간신히 프레임 워크를 완성시키는 요소가 갖춰지고 있는 것 같다.

그러면 CPPM 프레임 워크 Haswell은 어디까지 낮출 수 있을까. 아래는 LTR을 사용하여 CPU / 칩셋에게 지연 허용 시간을을 늘려 갔을 경우, 유휴 전력을 비교 한 슬라이드다. 이것을 보면, 110us를 지난 근처에서 확실히 소비전력이 떨어지는 것을 알 수 있다. 백서는 유휴 시간에 대한 지연 시간은 적어도 300us 바람직 하다고 한다.

지연 허용 시간을 늘려갔을 경우 아이들시 소비전력

Intel의 CPPM 구상이 실현되면, 노트 PC의 유휴 시간의 평균 소비 전력은 현재보다 크게 떨어질 가능성이 크다. 이에 패널 셀프 리프레쉬나 LPDDR3이 더 해지면, Ultrabook의 평균 전력은 극적으로 낮출 수 있을것 이다. 대기 전력을 낮출 수 있기 때문에 휴대 전화처럼 하루 종일 작동시킨 상태에서 무선을 통해 이메일 등을 수신하면서 장시간 구동시키는 것이 가능하게 된다.

또 다른 견해로 이것은 전력에 대하여 일체의 고려가 없었던 시대에 만들어진 인터럽트 아키텍처에 대한 개혁의 첫 걸음이기도하다.

pc watch

[정보분석] IDF 2005 저스틴 래트너 미래의 기술

[정보분석] 하스웰 (Haswell)의 GPU 코어 아이리스(Iris) 왜 강력한가

[정보분석] 배터리로 20일간 아이들 상태로 가능한 차세대 Ultrabook

[정보분석] IDF 2013 Beijing에서 공개 된 하스웰(Haswell)의 절전 & 오버 클러킹 기능

[정보분석] CES 2013 Intel, Haswell을 탑재한 레퍼런스 하이브리드 PC 공개

[아키텍처] IDF 2012 인텔 차세대 주력 CPU Haswell(하스웰) 공개.

[정보분석] Hasell(하스웰) 최강의 무기 통합 전압 조절기

[정보분석] Intel의 "Ozette"칩에서 Haswell(하스웰)까지의 전압 레귤레이터 통합의 길

[정보분석] 인텔의 2013년 CPU 하스웰로 이어지는 네할렘 개발 이야기

[정보분석] Intel의 차기 CPU 하스웰(Haswell) eDRAM의 수수께끼

[아키텍처] IDF 2012 인텔 차세대 주력 CPU Haswell(하스웰) 공개.

[정보분석] IDF에서 보다. Google, Microsoft, Intel의 줄다리기

'벤치리뷰·뉴스·정보 > 아키텍처·정보분석' 카테고리의 다른 글

[분석정보] 8 코어 AMD FX가 쿼드 코어로, MS의 불도저 아키텍처 최적화 패치 (0)	2012.01.16
[정보분석] CES 2012 인텔 폴 오텔리니 기조연설. 인텔 스마트폰 출시 (0)	2012.01.11
[분석정보] JEDEC이 "DDR4"와 TSV를 사용 "3DS" 메모리 기술의 개요를 밝힌다. (0)	2011.11.07
[분석정보] Intel의 메모리 로드맵에 DDR4가 없는 이유 (0)	2011.10.05
[분석정보] AMD 불도저 제품은 4GHz 이상. (0)	2011.09.29
[정보분석] IDF 2011 에서 보다. Google, Microsoft, Intel의 줄다리기 (0)	2011.09.26
[정보분석] IDF 2011 Justin Rattner 매니코어 시대가 다가옴 2/2부 (0)	2011.09.24
[정보분석] IDF 2011 Justin Rattner 기조연설 매니코어 시대가 다가옴 1/2부 (0)	2011.09.24

현재글[정보분석] IDF 2011 인텔 하스웰(Haswell)의 다이와 절전 기술

tware 리뷰/벤치마크/뉴스

아이테니엄, 아톰, 시장, CPU 시세, 매니코어, Xeon Phi, amd, 제온파이, 브로드웰, 시세, 라라비, IDF, CPU 가격, 월드 오브 워크래프트, CPU 조사, World of Warcraft, 인텔, 가격, CPU 시장, 가격조사,

tware 리뷰/벤치마크/뉴스