벤치리뷰·뉴스·정보/아키텍처·정보분석

[분석정보] 인텔이 추진하는 32코어 CPU Larrabee

tware 2007. 6. 11. 18:30


32코어에 이어서 48코어 버전도 계획


 Intel은 매니 코어 (Many-core) CPU의 제 1탄 "Larrabee (라라비)"의 제품화를 향해 나아가고 있다. Intel에서는 수십개 규모의 CPU 코어를 올린 멀티 코어 CPU를 매니 코어라고 부른다. Larrabee는 "하이 스루풋 컴퓨팅"용에 특화한, IA (Intel Architecture) 프로세서로, 다수의 CPU 코어에서 병렬 처리를 한다.


 업계 관계자에 따르면, Intel은 우선 Larrabee의 32코어 버전을 투입, 그 1년 후 48코어 공정  미세화 버전을 투입 할 예정이다. 또 32코어 버전에서 파생으로 24코어 버전 (불량 코어를 비활성화 한 버전)도 출시 할 예정이다.


Intel의 Larrabee의 예상 로드맵


덧붙여서, 코어 수는 무엇을 코어로서 생각 하는가에 따라서 달라질 수 있다. 32코어 라는 숫자는 여러 정보 소스에서 확인 할 수 있지만, 다른 코어 수도 전해지고 있기 때문이다. 그러나 Larrabee가 어느정도 GPU와 비슷한 벡터 형 구조를 가지고 있다고 하면, GPU와 마찬가지로 코어 수는 정의에 따라 달라진다. 벡터 형의 명령 제어를 행하는 단위가 "코어"인가, 그 아래의 프로세서 요소가 "코어"인가, 정의에 따라서 세는 방식은 다르다.


What the Cores will look like

 

Larrabee의 CPU 코어 수는 많지만, 각 코어는 "부동 소수점 연산에 특화한 인 오더 형 마이크​​로 아키텍처로 매우 작기 때문에 경제적인 다이 사이즈 (반도체 본체의 면적)로 수습된다. 코어는 각각 4way 멀티 스레딩도 지원한다 "(업계 관계자) 라고 한다. 인 오더에서 부동 소수점 연산에 특화하면 CPU 코어 크기는 현재 CPU의 몇분의 1로 하는 것이 가능하다.



NoC Die Overview (라라비가 아닌 다른 연구 칩 입니다. 아래 링크 참고.)

[분석정보] Intel CPU의 미래가 보이는 80코어 TFLOPS 칩


Small cores for high power efficiency


Increasing Throuput through Parallelism


Patrick (Pat) P. Gelsinger 씨


 Larrabee의 개발은 이미 상당히 진행되고있어 "2008년에는 Larrabee의 동작 데모를 공개한다"고 Intel의 Patrick (Pat) P. Gelsinger (패트릭 · P · 겔싱어) 씨 (Senior Vice President and General Manager, Digital Enterprise Group)는 설명했다. 제품 투입시기에 관해서는 "2008년 말 ~ 2009년의 타임 프레임. 경우에 따라서는 차세대 CPU "Nehalem (네할렘)"보다 앞이 될지도 모른다" 라고 어느 업계 관계자는 말한다. 다만 최초에 등장하는 것은 "말하자면"연습판 " 아직 본격적인 제품이라고 말할 수 없다"(업계 관계자) 한다. 이것은 당연한 것으로, Larrabee의 경우 GPU 처럼 출시 즉시 사용할 응용 프로그램이 있는 칩이 아니기 때문이다.



CPU 아키텍트 팀이 개발을 담당


 오랫동안 독립 GPU로 예상되었던 Larrabee는 실제로 GPU는 아니다. 많은 데이터를 병렬로 처리하는 스트림 컴퓨팅에 특화된 매니 코어 CPU 다. Gelsinger 씨는 다음과 같이 표현한다.

"Larrabee는 하이 스케일 병렬 머신이다. 매우 다수의 코어를 탑재하고 있으며, 우리의 매니 코어 (Many-core)의 첫 번째 제품이다 "


Jim Held 씨


 Larrabee는 Intel의 매니 코어 CPU 연구의 최초 성과라는 자리를 잡았다. Intel의 매니 코어 프로젝트를 이끄는 Jim Held 씨 (Intel Fellow & Director of Intel Tera-scale Computing Research, Intel)에 따르면, Larrabee는 이미 Held 씨 속한 리서치 부분을 떠나 개발 페이즈가 진행되고 있다고 한다.


 개발을 주도하는 것은, Intel 그래픽 부문이 아닌 CPU 부문이라 한다. 그것도 Core Microarchitecture를 개발한 Intel 이스라엘이 아닌, P6 / Pentium 4 계 아키텍처를 개발해온 Intel 오리건팀이라고 말한다. "아키텍트 팀은, CPU 측의 아키텍트 진. Pentium 4의 팀 중 절반이 Nehalem에 절반이 Larrabee에 간듯한 분위기다" 라고 업계 관계자는 말한다. 오리지날 계획의 Nehalem 아키텍트 Dong Carmean 씨 (2002년 보고서 "Intel이 새로운 아키텍처의 CPU "Nehalem (네할렘)"을 2004년에 투입"을 참조)가 메인 아키텍트로 보도되고 있다. (오리지날 네할렘은 취소. 개념설계와 실제설계를 다시 시작해서 콘로 이후에 출시.)



x86 명령 세트 아키텍처를 고집한 Larrabee


 Larrabee의 최대의 포인트는, IA (x86 계) 명령 세트 아키텍처를 확장한 고병렬 프로세서인  점이다. 그부분이 독자적 명령 세트 아키텍처인 GPU나 다른 스트림 프로세서와는 크게 다르다.


Larrabee의 코어는 IA 명령 세트 호환이다. 이것은 매우 중요한 특징이라고 생각한다. 다만, 명령 세트에는 부동 소수점 명령이 확장되었다. 고병렬 워크로드를 위해 특화된 명령 세트 확장이다. 또 코어에 걸친 형태로 캐시 일관성을 가진 (공유) 캐시를 갖춘다. 이것은 (cache coherency) 프로그래머빌리티를 감안할 때 매우 중요하다. 더해서, 특수 용도 유닛과 I / O를 탑재 한다.


 Larrabee는, 결코, GPGPU (범용 GPU)의 공간의 전통적인 그래픽 파이프라인은 아니다. 보다 범용 프로세서, 즉 IA 프로그래머빌리티가 중요한 용도를 위한 프로세서이다. 그러나, 명령 세트의 확장에 의해, 특정 워크로드에 답하는 것이 가능하다 "(Gelsinger 씨)


 GPU 처럼, 그래픽 파이프라인을 범용도 용으로 개혁한 제품이 아닌, 더 범용성이 높은 접근 방식을 취한 것이 Larrabee이다. 이를 위해 IA (x86 계) 명령세트 아키텍처에 대한 하위 호환성을 갖는다. 범용 CPU인 IA 코어로 부터 출발해서, 부동 소수점 연산 스트림 형 컴퓨팅을 향한 마이크로 아키텍처로 확장한 프로세서이다.


 사실, Intel은 Intel 그래픽 코어 팀의 독립(외장) GPU 계획도 존재한다. 이쪽은 Larrabee와는  전혀 아키텍처 구현도 다른, Intel 그래픽 독립(외장) 버전이라 한다. CSI 세대의 그래픽 통합 칩셋은 독립 GPU를 파생시키기 쉽기 때문에 이것은 자연스러운 흐름이다. Intel은 이전부터 이 프로젝트를 진행하고 있었는데, 구체적인 제품 로드맵은 들리지 않기에, 사라졌을 가능성도 있다.



Larrabee가 타겟으로 삼는 병렬 컴퓨팅 시장


 Larrabee가 타겟으로 삼는 워크로드는, 데이터 병렬성이 강한 태스크이다. Intel은 과학 기술 컴퓨팅, RMS로 총칭되는 Recognition (인식), Mining (분석 및 추출), Synthesis (합성), 시각화, 재무 분석, 의료 등 응용분야를 꼽는다. " 이것들의 워크로드는 매우 병렬성이 높다. 따라서 Larrabee 같은 머신에서 성능을 올리는 것이 가능하다고 생각한다"(Gelsinger 씨).


 Larrabee의 응용분야에는 그래픽도 포함되지만, 보다 범용인 것을 Intel은 강조한다.

 "우리는 아직 (Larrabee의) 제품의 목표를 어디에 두는가 정확히 명확하지 않다. 일반적으로  우리가 아키텍처와 기능을 결정하는 단계에서는, 어느 시장에 최초의 제품을 전개하는가는 그리지 않았다. (Larrabee가 대상으로 하는 어플리케이션) 목록에는 그래픽을 포함한 시각화도 포함되어 있다. 그래서 (그래픽 시장을 겨냥한) 잠재력은 있지만, 아직 노리는 특정 시장 세그먼트는 발표하지 않았다 "(Gelsinger 씨)


 Larrabee에서는 그래픽 처리도 가능하지만, 거기에 특화된 아키텍처는 아니다. Intel은 Larrabee를 먼저 PCI Express Gen2 카드로 제공한다 예상되지만, GPU로서 밀어부칠지 어떨지는 알 수 없다. Larrabee 아키텍처의 강함을 살리면서 비 그래픽 어플리케이션, 어느쪽인가로 말하면 고 성능 컴퓨팅 (HPC) 등을 최초의 목표로 할 가능성이 높다.


 "Larrabee가 등장하면, 고성능 컴퓨팅 벤치마크를 휩쓸 가능성이 있다" 라고 어떤 업계 관계자는 기대를 말한다.


 Larrabee의 목표 응용 프로그램은 한눈에 보고 알 수 있듯이, GPU가 GPGPU (또는 GPU 컴퓨팅)에서 목표로 하고 시작하는 영역과 완전히 겹친다. 즉, Larrabee는 Intel에 의한 GPGPU의 움직임에 대한 답변이다. Intel과 GPU 벤더는 고성능 부동 소수점 연산 성능이 필요한 병렬 컴퓨팅의 영역에서 정면에서 맞서게 된다.



 GPU와는 다른 방식의 병렬 프로세서


 그래픽 처리에서의 Larrabee의 성능은 미지수다. 그래픽 처리는 쉐이더 프로그램의 실행 성능에 점점 접근하고 있기 때문에, Larrabee 형의 아키텍처가 장점이 될 가능성은 높다. 그러나  그래픽 파이프라인에는, 래스터라이즈 처럼 완전히 고정된 기능 유닛 쪽이 효과적인 처리나,  필터링이나 래스터 연산과 같이 반 고정적인 유닛이 효과적인 처리가 많이 포함되어 있다. 이것들 모두를 프로세서에서 처리하면 낭비가 많아 성능/전력을 올려 버린다.


 따라서 그래픽의 효율은 Larrabee가 얼만큼 GPU적인 하드를 가지고 있는가에 따라 달라진다. 회로 규모가 작은 유닛은 전용 하드를 가지고 있을 가능성도 있다.


 현재의 Larrabee는 그래픽에 촛점을 맞춘 것이 아니라, 비 그래픽에 상당히 접근한 아키텍처 인 것은 명백하다.


 "Larrabee에 대해서는 매우 장기간의 연구가 진행됐다. 개발팀의 편성도 바뀌어, 아키텍처도 몇번이나 재검토 되었다. 명령 세트에 대해서도 다양한 검토가 이뤄진 것 같지만, 최종적으로  x86 아키텍처의 확장에 정착" 이라고 어느 업계 관계자는 말한다.


 명령 세트가 IA의 상위 호환이 된 것으로, Larrabee는 GPU와는 꽤 위치가 다른 프로세서가 되었다.


 애초, GPU와 CPU는 명령 세트 아키텍처 (ISA)에 대한 생각이 크게 다르다. CPU에서는 하드웨어의 네이티브 명령 세트 아키텍처를 프로그래머에게 공개한다. 명령 세트에 대해서는 일반적으로 CPU 세대간에 걸쳐 장기적인 지원을 한다. 따라서, CPU 하드웨어의 신세대가 되어도 동일한 바이너리 코드의 동일한 명령이 통한다. 명령 세트의 계승성은 CPU의 중요한 요소이다.


 반면, GPU의 네이티브 명령 세트는 제조사에 따라 다를뿐만 아니라 같은 메이커에서도 GPU 세대에 따라 다르다. 예를 들어, GeForce 8 (G8x) 계와 GeForce 7 (G7x)는 완전히 네이티브 명령 세트 아키텍처가 다르다. 또한 GPU 메이커마다도 명령 세트 아키텍처가 다르다. 그 대신 GPU는 소프트웨어 계층에서 랩해서, 런타임 컴파일러가 네이티브 명령 세트로 변환을 행한다. 따라서 GPU에서는 네이티브 명령 세트 아키텍처는 일반적으로 공개하지 않는다. 공개하는 경우도 GPU 세대 간의 명령어 세트의 계승성은 현재는 보장되지 않는다.


 반면 Larrabee는 당연히 명령어 세트는 공개. 게다가 그것이 메인 CPU 코어와 공통성을 갖는다는 방식이다.



Intel의 강점은 IA (x86) 명령 세트의 자산


 Intel이 Larrabee에 IA 아키텍처를 가져온 이유는 명확하다. 그것은 Intel의 강점을 살리기 위해서다.


 "Gelsinger 씨는"Intel의 강점은 IA 명령어 세트와 제조 공정 기술이다. 그래서 그것을 살리는 길을 선택" 이라고 사내에 항상 말했다. Larrabee도 그 결과"라고 어느 Intel 관계자는 말한다. Intel 간부의 강한 의지에서 IA 아키텍처가 추진되고 있는 것이다.


 "IA 명령어 세트와의 호환성은 매우 중요하다. 왜냐하면, 소프트웨어 툴, 라이브러리 등 기존의 모든 자산을 살릴 수 있기 때문이다"라고 Gelsinger 씨는 강조한다.


 눈에 보이는 자산뿐만 아니라 IA 명령 세트에 익숙함도 포함한 소프트웨어 측의 자산을 살리 겠다는 전략이다. 따라서 Larrabee에 한정이 아닌, Intel의 매니 코어계 프로세서 전체 전략의 근본은, 응용 프로그램 소프트웨어 측에서, 명령 세트가 균질하게 보이도록 하는 것에 있다.


Bringing IA Programmability and Parallelism to High Throughput Computing


Intel의 매니 코어 프로젝트를 이끄는 Jim Held 씨는 5월에 개최된 Microprocessor ​​Forum에서의 프레스 미팅에서 다음과 같이 말했다.


 "프로그래머는 대칭 구조의 심플함을 선호한다. 소프트웨어 커뮤니티는 프로그램의 복잡함이 증가하는 것은 원하지 않는다. 헤테로지니어스 (Heterogeneous : 이종 혼합) 형은 일시적으로 유효 할지도 모른다. 그러나 (CPU 측의) 구조가 변해가면 상속하는 것이 어렵다. 따라서 우리의 연구는 가능한 한 호모지니어스 (Homogeneous)가 되도록 한다."


여기서 주의가 필요한 것은, 이 논의의 호모지니어스인가 헤테로지니어스인가 라는 점은 주로 명령 세트 아키텍처에 있는 점이다. 명령 세트를 균일하게 유지하면, 소프트웨어 측에서 수용이 쉽고, 또 CPU 마이크로 아키텍처를 바꿔도 같은 바이너리 코드를 계승 할 수있다. 명령 세트를 리셋하지 않고, 계승하는 형태로 데이터 병렬 컴퓨팅을 도입해 가자는 것이 Intel의 전략이다.



Larrabee도 CPU로의 통합을 확인


 실제로 미래의 프로세서 하드 자체는, 헤테로지니어스화 되어 갈 가능성이 높다. Held 씨도  프로세서의 구현 자체는 소비 전력과 성능의  교환관계부터, 다른 유형의 혼합이 유효화 될 가능성을 인정하고 있다. Intel의 Justin R. Rattner (저스틴 R · 래트너) 씨 (현 Intel Senior Fellow, Director, Corporate Technology Group)도 이전, 다음과 같이 설명했다.


"우리는 호모지니어스인 (동종) 명령어 세트 아키텍처 (ISA)에 집중하고 있다. 명령 세트가 혼합된 아키텍처는, 이미 병렬 프로그램화를 위해 복잡한 상황이 되어 있는 프로그램 측에 한층  쓸데없는 복잡성을 더해버린다고 생각하고 있다. 다만 호모지니어스 (ISA) 프레임 워크 속에서 특수화와 최적화를 해간다. 어쩌면 단일 명령 세트 아키텍처의 믹스드 (이종 혼재) 프로세서 코어가 되는 것이다 "


Larrabee 카드를 장착한 시스템은, 시스템 레벨에서 헤테로지니어스인 IA 시스템이라고도 할 수 있다. 또한 미래에 Larrabee와 Intel의 범용 CPU 코어를 1CPU에 통합한 경우에는, CPU 하드웨어적으로 헤테로지니어스 멀티코어가 된다. Intel이 Larrabee에 IA 명령 세트를 선택한 것은 CPU로의 통합도 시야에 넣은 것이라고 추측된다.


 시스템 또는 칩 속에, 헤테로지니어스인 코어가 혼합되도, 명령 세트는 가능한 한 호모지니어스로 유지, 어플리케이션에서는 가능한 한 은폐한다. 그것이 Intel의 정책 같다. 다른 코어 유형의 제어를 한다고 해도, 그것은 OS나 Hypervisor 층이 핸들한다는 구상이다.


 그러면 Intel의 Larrabee에 대해 경쟁하는 AMD와 NVIDIA는 어떻게 나올까?


2007년 6월 11일 기사


[고전 2004.11.12] Many-Core CPU로 향하는 Intel. CTO Gelsinger 인터뷰 1/2부



[분석정보] 시리얼이 되는 FSB와 메모리. CTO Gelsinger 인터뷰 2/2부



[고전 2004.11.30] 5W 이하의 저전력 프로세서의 개발로 향하는 Intel



[고전 2005.01.12] 암달의 법칙(Amdahl's law)을 둘러싼 Intel과 AMD의 싸움



[고전 2005.03.05] 2015년 컴퓨터 플랫폼 IDF Spring 2005



[고전 2005.11.10] 보이는 인텔의 5~10년 후 CPU 아키텍처



[분석정보] 래트너 CTO 기조 강연 보고서 차세대 데이터 센터 기술을 소개



[분석정보] Intel CTO 래트너 Tera-Scale Computing에 대해 설명



[분석정보] Intel CPU의 미래가 보이는 80코어 TFLOPS 칩



[분석정보] Intel의 Larrabee에 대항하는 AMD와 NVIDIA



[분석정보] 9년전의 아이디어에서 태어난 아톰. 리서치 @ 인텔



[아키텍처] 베일을 벗은 인텔 CPU & GPU 하이브리드 라라비(Larrabee)



[분석정보] 정식 발표된 라라비(Larrabee) 아키텍처



[정보분석] 팀스위니 미래의 게임 개발 기술. 소프트웨어 렌더링으로 회귀



[분석정보] 2010년 이후의 Intel CPU가 보이는 Larrabee 신 명령



[분석정보] SSE와는 근본적으로 다른 Larrabee의 벡터 프로세서



[정보분석] Intel 힐스보로가 개발하는 CPU 아키텍처의 방향성



[분석정보] GDC 2009 드디어 소프트 개발자 정보도 나온 "Larrabee"



[분석정보] 인텔 GDC에서 라라비 명령 세트의 개요를 공개



[분석정보](암달의 법칙) 2010년대 100 코어 CPU 시대를 향해서 달리는 CPU 제조사



[분석정보] Sandy Bridge와 Bulldozer 세대의 CPU 아키텍처



[분석정보] Larrabee는 SIMD와 MIMD의 균형 - Intel CTO가 말한다



[분석정보] 인텔의 스칼라 CPU + 라라비의 이기종 CPU 비전



[분석정보] 라라비 (Larrabee)의 비장의 카드 공유 가상 메모리



[분석정보] Intel 48 코어 IA 프로세서를 개발



[분석정보] 다시 처음부터 시작된 라라비 무엇이 문제였나?



[분석정보] Intel은 Larrabee 계획과 아키텍처를 어떻게 바꾸나?



[분석정보] Intel 48코어 매니코어 연구 칩 기술 공개



[정보분석] 같은 무렵에 시작된 Nehalem과 Larrabee와 Atom



[분석정보] Intel 래트너 CTO에게 듣는 Atom 탄생 비화



[Research @ Intel 2011] 인텔 HD Graphics로 오픈CL 시현 및 저전력 회로 설계



[정보분석] IDF 2011 Justin Rattner 기조연설 매니코어 시대가 다가옴 1/2부



[정보분석] IDF 2011 Justin Rattner 기조연설 매니코어 시대가 다가옴 2/2부



[분석정보] Research @ Intel 2012 리포트



[분석정보] Intel 매니코어 MIC 와 Atom SoC Medfield 를 발표



[아키텍처] IDF 2012에서 주목한 한가지, 매니 코어 "Knights Corner"



[분석정보] 인텔 슈퍼컴퓨터용 가속기 Xeon Phi 5110P 발표



[분석정보] 2013년에 출시되는 Intel의 새로운 서버용 프로세서



[정보분석] 인텔 60코어 매니코어 "Xeon Phi" 정식발표



Intel Xeon Phi 새로운 폼 팩터 채용 포함 5모델 추가



[분석정보] TOP500 슈퍼컴퓨터 순위 2013년 6월



[분석정보] 4만 8000개의 제온파이로 중국 톈허2 세계에서 가장 빠른 슈퍼 컴퓨터



[분석정보] 매니코어 프로세서로 손바닥 슈퍼 컴퓨터를 실현



[분석정보] IDF13 San Francisco에서 보는 2014년의 서버용 프로세서



[분석정보] TOP500 슈퍼컴퓨터 순위 2013년 11월



[분석정보] 전환기를 맞이한 2014년 인텔의 서버 프로세서



[분석정보] TOP500 슈퍼컴퓨터 순위 2014년 06월



[분석정보] TOP500 슈퍼컴퓨터 순위 2014년 11월



[분석정보] TOP500 슈퍼컴퓨터 순위 2015년 6월



[분석정보] TOP500 슈퍼컴퓨터 순위 2015년 11월



[분석정보] 인텔 HPC 시스템 Scalable System Framework 소개



[분석정보] 메인 테마는 "신 아키텍처" ~ 매니코어의 메모리 기술을 공개