벤치리뷰·뉴스·정보/아키텍처·정보분석

[분석정보] Intel 또 하나의 차세대 CPU LPP

tware 2006. 10. 23. 20:00


최초의 목표는 UMPC (Ultra Mobile PC)


 Intel은 "LPP (Low Power Processor)"또는 "LPIA (Low Power Intel Architecture)"라 부르는 IA-32 계열 명령어 세트 아키텍처의 초 저전력 CPU를 프롬 스크래치 (제로부터)에서 개발하고 있다. 이 새로운 CPU는 PC용 CPU와 기본적으로 같은 수준의 특징을 갖추면서 0.5 ~ 1W 클래스의 소비 전력이 된다고 한다. 기존의 IA-32 계열 CPU와 비교하면 극단적으로 소비 전력이 낮고 전통적인 PC가 아닌 모바일 장치를 주요 타겟으로 하는 프로세서다. 전력 및 TDP (Thermal Design Power : 열 설계 전력)을 내림으로써 휴대 기기에서 임베디드 시스템, 이머징 시장 컴퓨터 등 다양한 신시장을 개척한다.

 Intel은 이 LPP / LPIA를 먼저 "UMPC (Ultra Mobile PC)"용으로 투입한다. LPP / LPIA를 제품화 하는 사업부 "Ultra Mobility Group"가 Intel 내부에 만들어졌다. 담당 임원은 원래 Intel의 모바일 부문을 담당하고 있던 Anand Chandrasekher (아난드 찬드라세커) 씨 (Senior Vice President, General Manager, Ultra Mobility Group)이다.

 9월에 열린 Intel Developer Forum (IDF)에서 Paul S. Otellini (폴 S 오텔리니) 씨 (President & CEO)가 키 노트 스피치에서 UMPC 등 휴대기기용 제품의 간략한 로드맵을 보였다.

 

 

Otellini 씨 (왼쪽), Chandrasekher 씨 (오른쪽)

 

 

IDF에 나타난 차세대 UMPC


 "올해 (2006년)를 기준으로 하면 5W의 ULV 마이크로 프로세서가 베이스 라인이다. 내년 (2007년)에는 우리는 전력을 절반으로 실장 면적을 1/4로 한 것을 출시한다. 2008년에는 오늘날의 제품보다 1 / 10로 전력을 줄이고 1 / 7로 크기를 줄이려는 우리의 목표에 도달할 것이다. 이어 2008년부터 이후로는 단일칩 통합으로 이행할 계획이다 "(Otellini 씨)

 간단히 말하면, 3단계로 Intel은 x86 CPU의 초 저전력화를 추진한다. (1) 뛰는 것이 2007년 전반기로 TDP가 2.5W 클래스에 패키지 크기가(다이크기 아님) 17.5mm 변의 길이로 추측되는 제품. (2) 단계가 2008년에 TDP가 0.5W 클래스에 패키지가 13mm 변의 길이로 추측되는 제품. (3) 점프가 그 이후로, 먼저 아마도 2010년 전후로 CPU에 주변 회로를 통합한 시스템 온칩 (SoC) 제품이다. SoC에 이르면 외부 버스의 감소 등으로 총 소비 전력이 낮아지고, 패키지 개수가 줄어드는 것으로 보드 설치 면적이 크게 줄어든다. 즉, 더 낮은 소비 전력, 더 작은 설치 면적으로 한결같이 향하는 계획이다.

 

 

Accelerating Products to Deliver

 

 

10 × Lower Power

 

 

next Generation Mobility

 

 Intel은 현재 모바일 PC용 CPU로 ULV (초 저전압) 버전을 5W의 TDP로 제공하고 있다. 5W가 메인 스트림의 Intel x86 CPU의 최저 TDP 라인이었던 것이다. 그러나 현재 Intel이 5W 아래의 TDP 범위의 CPU를 UMPC와 그 종류의 휴대용 컴퓨팅 장치 용으로 개발하고있다. TDP 계층으로 5W에서 35W 대가 Mobility Group으로 그 아래가 Ultra Mobility Group의 담당이 될 것으로 추측된다.

 


2년 전부터 시작된 프로젝트

 Intel은 2년 전인 2004년 가을 무렵부터 0.5 ~ 1W의 CPU의 개발을 행하고 있는것을 밝히고 있었다. 그러나 LPP / LPIA는 2004년 후반 단계에서는 아직 연구 단계로 Intel의 Systems Technology Lab이 담당하고 있었다. 2005년 들어서는 사업부로 옮겨 개발 태세에 들어갔다고 한다. LPP는 코어가 작기 때문에 개발은 비교적 쉬운 것이지만, 그래도 CPU 개발 사이클로 계산하면 제품으로 등장하는 것은 2008년이 될 것이다.

 따라서 Intel의 UMPC를 위한 3단계 로드맵 중 2007년 상반기는 기존 아키텍처 CPU의 전압을 빠듯하게 떨어트린 CPU가 될 것으로 추측된다. 새로운 LPP 코어를 채택하는 것은 2008년의 스텝이 된다고 생각하는 것이 타당 할 것이다. SoC는 LPP 코어에 각종 인터페이스와 그래픽 컨트롤러 등을 통합하는 것으로 보인다.

 LPP는 2004년 당시 Systems Technology Lab을 이끌었던 Intel의 Justin R. Rattner (저스틴 R · 래트너) 씨 (현 Intel Senior Fellow, Director, Corporate Technology Group)에게 소개를 들은적이 있다. 2004년 가을의 인터뷰에서는 Rattner 씨는 다음과 같이 말했다.

 "우리는 Intel 아키텍처 (IA)를 가장 로우파워 (저소비전력)의 공간까지 가져오는 것을 생각하고 있다. 즉, Intel 아키텍처와 풀 호환 장치를 5W 이하의 수준으로 가져간다. 미래 아주 작은 기기에도, Intel 아키텍처 프로세서를 탑재 할 수 있게 될 것 "

 참고로, Rattner 씨는 이때 LPP의 기능에 대해서도 설명했다.

 "저전력해도 특징은 희생하지 않는다. 우리는 모든"T (Technology)", 즉 HT (Hyper-Threading), VT (Vanderpool), LT (LaGrande), 또한 CT (Clackamas)로 부르고 있는 64bit 기술까지 모두 저전력 프로세서에 탑재 할 수 있다고 생각하고 있다 "

 실제 제품 계획으로, 이러한 기술을 모두 실현할지 어떨지는 모른다. 현실문제로 아직 중요도가 낮은 기능이 있어, 실현한다고 해도 단계적으로 될 것으로 예상된다.

 또한 Rattner 씨가 풀 호환이라 말하는 것은, 특징뿐 아니라 성능 수준인 면도 포함하고 있다고 본다. 실제, Intel은 LPP를 포함하는 UMPC 전용의 프로세서에 대해 일반 Windows가 작동 할 성능이라고 설명하고 있다. PC용의 로우엔드 CPU와의 성능 차이는 최소화 할 계획 같다.

 

Justin Rattner 씨. 2006 년 IDF Fall Research & Development Keynote

 


유지되는 XScale에서의 레슨

 휴대 기기용의 로우파워 프로셋에서는 기존에는 ARM 계와 MIPS 계, SH 계 등이 주류를 이루고 있었다. 즉, RISC (Reduced Instruction Set Computer)계 명령 세트 아키텍처 (ISA : Instruction Set Architecture)가 점유하고 있었다는 뜻이다. 일반적으로 RISC 계열 아키텍처 쪽이 저소비 전력화에 유리하다고 생각됐다. x86 같은 CISC (복합 명령 세트 컴퓨터) 아키텍처는 CPU가 복잡하게 되기 때문에 불리하다는 의견이 많았다.

 사실, Intel 자신도 한번은 ARM 아키텍처의 "XScale (구 StrongARM2 계)"로 이 시장을 노렸다. 그러나 현재의 Intel은 방향을 전환, IA-32 아키텍처에서 언더 1W의 범위도 노리기로 했다.

 "고성능 프로세서에서도 CISC는 절대 RISC에 경쟁 할 수 없다고 말했다. 그런데 Pentium Pro (1995년 출시)가 등장하며, 당시의 어떤 RISC 프로세서보다 빨랐다. 현재 업계의 많은 사람들은 Intel 아키텍처가 로우 파워 분야에 들어갈 수 없다고 생각하고 있다. 그러나 고성능 분야에서 이룬 것과 같은 것을 이번에도 달성 할 수 있다고 생각한다. 적어도 Intel 아키텍처 자체는 저전력 프로세서 (LPP) 에 들어가기 위한 구현상의 벽은 없다. 우리는 XScale을 개발하고 저전력 프로세서 (LPP)의 설계상의 문제점은 충분히 이해했다"고 Rattner 씨는 말했다.

 

 ARM의 라이선스를 받았을 때는, Intel이 타사 명령 세트의 CPU를 만든다고 화제가 됐다. 그러나 결국 x86으로 돌아오는 것으로 Intel 답다. 그러나 Intel은 저소비 전력에서의 CISC의 불리함을 커버 할 수 있는 길을 발견한 것일까?

 

CISC 아키텍처의 유리함과 불리함

 소비 전력에서 CISC의 제 1의 약점은 복잡한 명령어 세트에 의한 디코딩의 오버 헤드이다. Core Microarchitecture (Core MA 콘로) 에서도, 명령 디코드에 많은 자원을 할애하고 있다. 이에 대해 Rattner 씨는 다음과 같이 말했다.

 "확실히, (CISC인 IA 명령 세트의) 가변 길이 명령어 디코더는, (고정 길이 명령어의 RISC의 디코더)보다 전력을 소비한다 .Intel이나 AMD 프로세서의 써멀맵(온도 분포도)을 보면 칩의 가장 뜨거운 지역이 디코더 부분임을 알 수있다.

 여기에서 중요한 것은 프로세서의 성능은 평균 소비 전력으로 제한되는 것이 아니라 최고 온도로 제한되는 것이다. 따라서 핫스팟인 디코더가 CPU의 동작 주파수를 제한한다. 왜냐하면 그 부분의 접합 온도가 (Tjmax) 기본값을  초과하지 않도록 해야하기 때문이다. 그런 의미에서는 ISA (차이)는 제로 비용이 아니다. 디코더의 전력 효율에 관해서는 고정 길이 명령어 세트 아키텍처 쪽이 아무래도 유리하게 된다.

 또 하나의 요소는 캐시 액세스이다. Intel 아키텍처는 더 캐시 집중된다. 레지스터 파일이 적기 때문으로, 그것은 데이터 캐시에 부담을 준다. 이에 비해 (RISC 계열 CPU처럼) 레지스터 파일이 크면, 데이터 캐시에 대한 부담은 적아진다. 그쪽이 전력 소비 측면에서 유리하다. 여기에도 단점이 있다.

 이것들의 패널티는 전력 & 면적 효율의 면에서 아마 10 ~ 20%의 범위라고 생각한다. 정확한 숫자를 내는 것은 어렵지만 제로 비용이 아닌 것은 확실하다 "

 명령 세트 아키텍처의 차이로 x86 계가 다이 (반도체 본체) 면적이나 전력에 불리하다고 인정하고 있다. 다만 그 차이는 10 ~ 20% 정도로 지적한다. 또한 디코더가 핫스팟이되는 것으로, 주파수를 올리기 어려운 문제도 발생할 수 있음을 인정하고 있다. LPP와 같은 CPU는 전력 자체는 적어도 소형이 되기 때문에 전력 밀도가 높아지기 쉬우므로 이것도 영향을 주는 것으로 보인다. 그러나 Rattner 씨는 반대로 CISC가 유리한 점도 있다고 말한다.

 "성능면을 보면 재미있는 역전이 있다 .CISC는 RISC보다 더 많은 명령을 실행할 수 있기 때문이다. 이것은 CISC 쪽이 코드 밀도 (프로그램 사이즈당 오퍼레이션 수)가 높기 때문이다. 이 문제를 해결하기 위해 ARM 아키텍처는 Thumb 명령어 세트 (16bit의 하위 명령)을 개발하고 있지만 일반적으로 CISC 쪽이 유리하다.

 전력 효율로 보면, (같은 일을 하는데 있어)실행하는 명령은 되도록 적은 것이 유리하다. 그에 따라 여기에서는 반대로 가변이 유리하다. 이러한 주고 받음의 결과로 로우파워의 고정 길이 명령어 세트 프로세서에 대해서 로우파워의 Intel 아키텍처 프로세서도 경쟁 할 수 있는 것이다. 다이 사이즈는 약간 (RISC보다) 늘어나지만 충분히 경쟁 할 수 있는 범위라고 생각한다."

 CISC 쪽이 같은 처리를 하는 경우에도 명령 수나 프로그램의 크기를 줄일 수 있다. 따라서 보다 적은 메모리,보다 적은 페치폭, 클럭 주파수 등으로 끝난다. 그에 따라 CISC의 불리가 어느정도 상쇄된다고 지적하고 있는 것이다.

 


아웃 오브 오더나 딥 파이프 라인 등이 초점

 그러면 Intel은 어떻게 해서 IA-32 프로세서를 0.5W의 공간에 넣을 의도인 것이다. Intel CPU가 비대화 시키고 소비 전력이 늘어난 것은 성능을 높이기 위해 아웃 오브 오더 (out-of-order) 형 실행의 슈퍼 스칼라 아키텍처를 발전시켰기 때문이다. 명령을 동적으로 정렬해서 실행하는 아웃 오브 오더는 비용이 높고 CPU를 비대화 시킨다. 또한 고클럭 화를 위해 파이프 라인 단수도 깊어진 것도 비대화와 전력 소비 증가의 원인이 된다. 파이프 라인 단수가 느는 것으로 회로 수가 늘어나, 재차 CPU의 리소스도 더 많이 필요하게 되었다. 고클럭화에 의한 메모리 격차를 채우기 위해 대용량의 캐시와 고도의 분기 예측 기능도 필요하게 되었다.

 이러한 확장에 의해 CPU 성능은 상승했지만, 퍼포먼스 / 소비 전력과 성능 / 트랜지스터는 급격히 악화되었다. 즉, 성능은 상승했지만, 비효율적인 CPU가 되어 버렸다. 따라서 논리적으로 반대 코스를 찾아서, CPU를 심플하게 하면 CPU의 효율을 높여 성능에 비해 소비 전력 트랜지스터 수가 적은 CPU를 만들 수 있다.


 우선 제 1의 포인트는 아웃 오브 오더 그만두는 것인가? 아웃 오브 오더는 비용이 높고, CPU 효율을 떨어뜨리는 가장 큰 원인이다. 이것을 삭제하면 효율이 크게 오르는 것은 틀림없지만, 정수 연산 성능은 나름대로 떨어진다.

 제 2의 포인트는 파이프 라인 단수를 어디까지 얕게 하는가? 고전적인 4 ~ 5 스테이지의 파이프 라인으로 되돌리면 소비 전력은 상당히 억제된다. 래치 회로 감소만큼 전력 소모는 적어지고, CPU내의 자원도 최소로 끝난다. 동작 주파수가 낮아지는 만큼 캐시 메모리의 감소나 분기 예측기구의 간소화 등의 여지가 있다. 논리적으로는 인오더 형의 4 ~ 5 단계의 CPU를 만들면 가장 효율이 좋은 것이 된다.

 

 

중시하는 애플리케이션으로 바뀌는 아키텍처 선택

 그러나 거기까지 경량화하면 CPU 코어의 성능은 크게 약화 된다. Intel이 목표로 하고 있는 Windows가 정상적으로 사용될 레벨의 성능을 유지 하기에는 충분하지 않을 가능성이 높다. 그에 따라 어느 정도의 성능을 목표로 하느냐에 따라 아키텍처의 단순화 정도도 달라진다.

 또한 어떤 성능을 중시하는지에 따라서도 달라진다. 미디어 프로세싱 성능을 중시한다면, CPU 코어는 간단하고도 고클럭 설계하는 것이 생각된다. 예를 들면, 최근의 고성능 CPU에도 게임기용 CPU는 Xbox 360과 PLAYSTATION 3 모두 아웃 오브 오더을 버리고있다. CPU의 제어 계통의 트랜지스터를 대폭 절감해서, CPU 코어의 소형화와 효율화를 도모하고 있다. 한편, 파이프 라인 깊게해 고클럭 작동을 가능하게 하고, 미디어 프로세싱 성능을 올리고 있다. 인오더 실행이기에 컴파일러에 의한 스케줄링에 의해서 성능을 올리게 된다.

 그렇지만, 이것은 게임기라는 성격상 소프트 측이 최적화 해주는 것을 전제로 하고 있다. 레거시 소프트웨어를 많이 가지고 있으며 또한 프로그래밍 커뮤니티가 넓은 x86 세계에서는 채용하기 어려운 접근법이다.

 반대로 정수 연산 성능을 중시한다면, 파이프 라인 단수는 억제하고, 그 한편으로 분기 예측을 강화하고 아웃 오브 오더형 실행을 채용하는 쪽이 성능 / 소비 전력이 오를 가능성이 있다. LPP가 Windows를 소형 장치에서 쾌적하게 사용하는 것만을 생각한다면 그쪽이 접근로는 적합할 가능성이 있다.

 이렇게 보면 지향하는 방향이나 접근법에 의해 Intel이 취할 수 있는 아키텍처는 상당히 달라진다. Intel이 어떤 구조를 취하나가 큰 갈림길이 될 것 같다.

 

2006년 10월 23일 기사

 

[고전 2000.08.28] 휴대전화에 1GHz 프로세서가 들어간다? Intel의 새로운 CPU XScale 아키텍처

 

 

[분석정보] Intel 모빌리티 사업부 가디 싱어 씨 인터뷰 초소형 PC Ultra Mobile PC의 현장

 

 

[분석정보] Intel TDP 3W x86 CPU 출하 Intel Turbo Memory도 시현

 

 

[분석정보] 5W 이하의 저전력 프로세서의 개발로 향하는 Intel

 

 

[분석정보] x86을 고속화하는 조커기술 명령변환 구조

 

 

[분석정보] 명령의 실행 순서를 바꿔 고속화 하는 아웃 오브 오더

 

 

[분석정보] 스마트폰과 비슷한 사용법을 실현하는 Intel의 S0ix구현

 

 

[분석정보] Intel 버튼 크기의 웨어러블용 모듈 Curie

 

 

[분석정보] Skylake는 제6세대 Core프로세서로 2015년 후반에 투입

 

 

[분석정보] Intel의 UMPC는 이륙 직전

 

 

[분석정보] 임베디드 시장에 IA 침투를 목표로 하는 Intel

 

 

[분석정보] Intel 울트라 모빌리티 기조 강연