벤치리뷰·뉴스·정보/아키텍처·정보분석

[분석정보] 다시 처음부터 시작된 라라비 무엇이 문제였나?

tware 2009. 12. 9. 20:00

 

Intel Larrabee 제품 계획을 다시 처음부터


 Intel은 "Larrabee (라라비)"를 그래픽스 제품으로 투입하는 것을 포기했다. 왜?

 Intel은 Larrabee 제품 계획을 크게 바꿨다. 그래픽 용도는 45nm 공정의 Larrabee도 그리고 아마도 32nm 프로세스의 Larrabee 2로 불리고 있던 제품도 나오는 일은 없을 것 같다. HPC (High Performance Computing) 등 일부 고객은 Larrabee를 제공​​하지만, 볼륨이 나오는 그래픽용으로 발매를 Intel은 포기한 것 같다. 아키텍처를 변경한 Larrabee 3의 동향은 아직 보이지 않지만, 사실상 Larrabee 전략을 다시 처음부터라 말해도 좋다.

 이 변화는 무엇을 의미하는 것인가. 무엇이 바뀌는지, 그리고 무엇이 변하지 않는 것인가?

 물론 바뀌는 것은 개별 제품으로서의 Larrabee와 그리고 아마도 개별 그래픽 제품으로 Larrabee를 보급시키는 전략 자체. 한편, 변하지 않는 것은 Intel이 CPU에 통합하는 데이터 병렬 중시 형 프로세서 코어의 아키텍처를 긴급하게 필요로 하고 있다는 점이다.

 Intel에 있어서 마이너스는 개발비를 들인 Larrabee 칩이 결국 제품화 되지 않고 끝난 것. 이에 따르면, 범용 데이터 병렬 코어 침투 계획의 후퇴. 반대로 플러스는 Larrabee를 대대적으로 시장에 내고, 결과적으로 영업으로 대 실패를 할 가능성이 없어진 것. 범용 데이터 병렬 아키텍처 자체가 안된다 라는 부정적인 이미지를 심어 버리는 위험을 없앴다.

 향후의 전개로 매우 가능성이 높은 것은 데이터 병렬 코어를 먼저 개별 그래픽으로 보급 시킨다는 전략을 다시 시작. 또한 Intel이 Larrabee의 ISA (Instruction Set Architecture)와 마이크로 아키텍처를 개선할 가능성도 높다. 후술하는 이유로 더욱 컴퓨팅 효율을 중시하는 방향으로 향할 것으로 추측된다.

 반면 가능성이 낮은 것으로 추측되는 것은 기존 그래픽에 최적화된 칩으로 다시 시작하는 것. 래스터 라이저와 같은 비용이 낮은 기능 추가 가능성은 있지만, 범용성이 높은 데이터 병렬 코어라는 근본적인 아키텍처를 변경할 가능성은 낮을 것이다. 왜냐하면 Larrabee의 진정한 목적은 그래픽에 최적인 개별 칩을 만들어 개별 GPU 시장을 취하는 것은 아니기 때문이다.

 


Larrabee의 목적은 CPU에 통합하는 데이터 병렬 코어의 선행


 제품으로서의 Larrabee가 본래적인 목적으로 하고 있는 것은, CPU에 통합하는 데이터 병렬 코어의 테스트 차량인 것. 어떻게 하면 유연하고 높은 효율과 프로그램 가능한 아키텍처가 될수 있는지, 그것을 추구하는 것이다. 그리고 결국에는 통합 그래픽 코어와 같이 CPU (지금은 아직 칩셋)로 통합하는 것으로 보인다.

 이 방향성은 x86 명령어 세트의 연장으로 구현한 Larrabee의 명령어 세트를 보면 알 수 있다. CPU에 통합하는 것을 생각하지 않는다면, CPU의 명령 세트 공간에 매핑 할 필연성은 얇다. Intel은 Larrabee New Instruction (LNI)를 x86의 확장으로 구현한 것으로 어떤 x86 코어와도 결합 할 수 있다.

 그 의미에서는 Larrabee의 실체는 제품 자체가 아니라 명령어 세트 확장인 LNI이다. 또한 Intel의 간부들도 Larrabee와 같은 범용 데이터 병렬 코어를 CPU로 통합하는 것을 전망하고 있다. 많은 사람들이 Larrabee = 그래픽으로 보지만, 그래픽은 범용 데이터 병렬 코어의 보급 전략으로 나온 것으로 짧게 말하면 "수단(목적이 아닌)"에 불과하다.

 그럼 왜, Intel은 그렇게 까지 범용 데이터 병렬 코어를 고집하는 것인가. 그것은 CPU 아키텍처의 발전 방향이 거기에 있기 때문이다. CPU 메이커는 서버 이외에서 대형 슈퍼 스칼라 CPU 코어를 CPU 다이 (반도체 본체)에 많이 넣는 방향 원하지 않는다. 클라이언트는(개인용PC) 호모 지니어스 (동종) 멀티 코어 구성은 워크로드에 대해 얻을 수있는 성능 효율이 높아지지 않기 때문이다.


 효율성으로 말하면, 대형 슈퍼 스칼라 코어와 소형 데이터 병렬 특화형 코어의 조합의 헤테로 지니어스 (이종) 구성이 바람직하다. 왜냐하면 앞으로 성능을 늘리고 싶은 것은 데이터 병렬 부동 소수점 연산 중심의 작업이기 때문이다. 싱글 스레드의 정수 연산 성능을 점점 높이는 것은 아니다. 그러나 암달의 법칙은(Amdahl law) 여전히​​ 살아 있기 때문에, Intel은 대형 슈퍼 스칼라 코어를 버리는 수 없다. 필연적으로 이기종이 된다.

 그리고 Intel과 AMD 등 x86 계 CPU 메이커는 이런 경우, 데이터 병렬 코어를 슈퍼 스칼라 CPU 코어와 보다 밀접하게 연계 할 수 있는 아키텍처로 가지고 가고 싶다. GPU와 같은 다운로드 모델에서는 프로그래밍 적용 할 수 있는 응용 프로그램에 한계가 있다고 생각하고 있기 때문이다 (이 점은 논의도 있다). 그리고 명령어 세트를 확장 할 수 있다는 x86 CISC를 활용할 수 있다.

 이러한 배경이 있기 때문에 Intel은 제품으로서의 Larrabee를 다시 시작해 기본적으로 같은 방향으로 데이터 병렬 코어를 개발해 나갈 것이다. 본질적인 부분에서는 Larrabee 배후의 기술 방향성은 변하지 않고 있다고 본다.

 

Intel의 미래 CPU의 예측

 

 

 

Intel 명령 세트 아키텍처의 진화

 


Larrabee는 무엇이 문제였는가?


 Intel은 훨씬 이전부터 일부 고객에 대해 Larrabee의 샘플을 배포. 평가를 해달라 의견을 얻고 있었다. Intel이 Larrabee 전략을 다시 시작하기로 하게 된 큰 원인의 하나는 그래픽의 피드백 결과가 매우 나빴던 것에 있다고 추측된다.

 실제로 유출되 나오는 Larrabee 그래픽계의 평가는 매우 나빴다. 특히 기존의 그래픽스 태스크에서는 성능 효율이 매우 나빴다 한다. DirectX와 같은 기존 그래픽 API 기반에서 성능은 하이 엔드 GPU의 "반될지 안될지"어떤 업계 관계자는 말하고 있었다. 물론, 성능 평가는 응용 프로그램에 따라 크게 치우침이 있기 때문에 통틀어는 말할 수 없지만, 효율성에 문제가 있었던 것은 확실한 것 같다.

 특히 GPU와 비교할 경우 소비전력당 성능이 매우 낮다. 따라서 GPU로서는 경쟁력은 가질 수없는 것으로 이야기 된다. "성능 / 전력이 너무 나쁜" 이라는 목소리가 있었다.

 이러한 평가는 아키텍처 상으로도 쉽게 상상된다.

 Larrabee는, 텍스처 필터링 외에는 모두 소프트웨어 처리로 한다. 따라서 기존 그래픽 API로 최적화된 고정기능 하드웨어도 갖춘 GPU를 효율로 이기기 어렵다. 데이터 패스도 ATI R6xx 계와 NVIDIA Fermi 이외의 GPU는 그래픽스 태스크에 최적화된 상하 비대칭의 내부 버스 구조를 가지고 있었지만, Larrabee는 일반 링 버스로 모든 것을 흘리는 구조다. 그래서 버스의 전력 효율이 나쁜, 텍스처 전송이 많은 워크로드에서 버스 병목이 있다. 라고 추정된다. 실제 링 버스를 사용하던 R600는 효율의 문제가 있었다.

 

RV770의 내부 버스 구조


 GPU는 내부 버스에 부담을 주지 않도록 그래픽 파이프 ROP (Rendering Output Pipeline)는 메모리 컨트롤러에 직결되는 하드웨어로 되어 있다. ROP는 메모리상의 깊이 (Z)와 알파 (α) 등의 데이터 참조가 빈발하고 데이터 대역폭을 먹기 때문이다. 비교되는 Larrabee는 ROP도 CPU 코어의(라라비) 소프트웨어 처리이다. 그때문에 버스에 대한 부담을 피하기 위해 기본은 온칩 메모리에서 진행한다. 온칩 메모리는 각 코어 256KB로 제한되어 있기 때문에, 코어 단위에서의 타일링 기반 그래픽 처리를 기본으로하고 있었다. 그러나 렌더링면을 구분하여 처리하는 타일링은 그래픽에서는 제약이 된다.

 쓰레드와 명령 제어도 크게 다르다. 크게 얘기하면, 기존의 GPU는 전통적인 그래픽 API에 최적화된 제어를 행하는 것에 비해 Larrabee는 CPU 적인 자유도가 높은 제어를 행하고 있다. 예를 들어, Fermi 이전의 GPU는 GPU 전체 1개의 커널 프로그램을 실행시키는 구조이지만, Larrabee는 16개의 코어 각각 다른 프로그램을 가동할 수 있다. 이것은 명령과 쓰레드 제어를 각 코어 단위로하는 것을 의미하며 그만큼 제어장치가 복잡해 진다. (지포스 400 대가 페르미 입니다. 2010년 11년에 쭉 팔렸죠.)

 이렇게 보면, Larrabee는 자유도가 높기 때문에 효율성을 희생하고 있다는 것을 알 수 있다. Larrabee는 아키텍처상의 필연적으로 전통적인 그래픽 API 기반의 프로세스는 전력 효율이 GPU보다 나빠진다. 추가로 첫 Larrabee의 실리콘은 대부분 전력 절약 기구를 가지고 있지 않아 아이들 때도 전력 소비가 크다고 한다. Intel의 자랑인 전력 절약 기구의 기술이 활용되고 있지 않은 것이다.

 

Larrabee의 텍스처 샘플러의 구조 (추측)

 

 

Larrabee 전체 구조

 

 

소프트웨어의 변화를 기대한 Larrabee 아키텍처


 Larrabee의 강점은 기존 그래픽 API를 빼고, 소프트웨어로 자유롭게 렌더러를 작성하는 경우에 살아난다. 기존 GPU는 그래픽 API에 최적화되어 있으므로 자유도가 제한되는 부분이 있기 때문이다. 또한 고정 하드웨어 병목 현상 또는 오버 헤드가되고 있는 부분이 있다. 그 때문에 GPU보다 자유도가 훨씬 높은 Larrabee 쪽이 유리하게 작용되는 그래픽 처리도 있다.

 예를 들어, Intel이 "IEEE Visualization 2009 '에서 발표한 공동 논문'Mapping High-Fidelity Volume Rendering for Medical Imaging to CPU, GPU and Many-Core Architectures"에서는 기존 그래픽 API를 사용하지 않는 의료용 볼륨 메트릭 렌더링 테스트를 하고 있다. 이에 따르면, NVIDIA의 GeForce GTX 280 (GT200)에 비해 16 코어 Larrabee는 스펙상의 피크 성능은 절반임에도 불구하고 볼륨 메트릭 렌더링에서는 1.5 배의 성능을 달성한다.

 따라서 Larrabee 등장에 따라 그래픽 소프트웨어 업계가 모두 기존 그래픽 API를 버리고 소프트웨어 렌더러로 옮긴다면, Larrabee의 상황은 변화한다. 그 경우는 아마 Larrabee가 최강이고 NVIDIA Fermi가 그 다음, AMD R800 계가 3 번째가 될 것이다. 그러나 소프트웨어 측면이 거기까지 급진적으로 이동할 수 없기 때문에 Larrabee는 강점을 발휘하지 못한다.

 참고로, AMD의 현재 GPU 아키텍처는 기존 API에 대한 최적화에 꽤 기울어 있다. 그에 비해 NVIDIA Fermi가 노리는 것은 기존 그래픽 API에 새로운 수단을 포함시킨 하이브리드 그래픽. NVIDIA는 Intel과 AMD의 정확히 중간 지점에 있다. 즉, AMD는 그래픽 소프트웨어가 급격하게 변하지 않는다고 보고 있으며, NVIDIA는 어느 정도 바뀐다고 보고 있으며, Intel은 급격하게 변화할 것으로 기대했다.

 소프트웨어 업계의 움직임은 Larrabee가 발표된 당초에는 소프트웨어 렌더러에 대한 기대로 뜨거웠다. 예를 들어, 미국의 최고 개발자의 한사람 Tim Sweeney 씨 (CEO, Founder, Epic Games)가 2008 년 CEDEC에서 "그래픽 API로 통하지 않는 새로운 시대가 온다"고 상정했다. 그러나 올해 (2009 년)의 CEDEC에서 최고의 개발자 패널 토론 등을 보면 거기에는 시간이 걸린다는 시각이 더 많았다. Larrabee 열기가 식은 후에는 아마 그것이 업계의 일반 통념인 것이다.
 이렇게 보면, 원래 Intel이 조립한 Larrabee를 둘러싼 그래픽 소프트웨어의 비전 자체에도 무리가 있었다고 말할 수 있다. 그러면 Larrabee를 다시 시작하면, Intel은 전략과 아키텍처를 어떻게 바꿀까? 다음은 그것을 생각해보고 싶다.

 

그래픽 렌더링 파이프 라인의 변화

 

 

2009년 12월 9일 기사 입니다.

 

 

[분석정보] 4만 8000개의 제온파이로 중국 톈허2 세계에서 가장 빠른 슈퍼 컴퓨터

 

 

[분석정보] TOP500 슈퍼컴퓨터 순위 2013년 6월

 

 

[제품뉴스] Intel Xeon Phi 새로운 폼 팩터 채용 포함 5모델 추가

 

 

[정보분석] 인텔 60코어 매니코어 "Xeon Phi" 정식발표

 

 

[분석정보] 인텔 슈퍼컴퓨터용 가속기 Xeon Phi 5110P 발표

 

 

[분석정보] Intel, HPC 전용 보조 프로세서 Xeon Phi 2013년 1월부터 일반용으로 출시

 

 

[분석정보] IDF 2012에서 주목한 한가지, 매니 코어 "Knights Corner"

 

 

[정보분석] 엔비디아 세계 최다 트렌지스터 칩 GK 110 공개

 

 

[정보분석] IDF 2011 Justin Rattner 기조연설 매니코어 시대가 다가옴 1/2부

 

 

[정보분석] IDF 2011 Justin Rattner 기조연설 매니코어 시대가 다가옴 2/2부

 

 

[정보분석] 같은 무렵에 시작된 Nehalem과 Larrabee와 Atom

 

 

[분석정보] Intel은 Larrabee 계획과 아키텍처를 어떻게 바꾸나?

 

 

[분석정보] 라라비 (Larrabee)의 비장의 카드 공유 가상 메모리

 

 

[분석정보] 인텔의 스칼라 CPU + 라라비의 이기종 CPU 비전

 

 

[분석정보] Larrabee는 SIMD와 MIMD의 균형 - Intel CTO가 말한다.

 

 

[정보분석](암달의 법칙) 2010년대 100 코어 CPU 시대를 향해서 달리는 CPU 제조사

 

 

[분석정보] GDC 2009 드디어 소프트 개발자 정보도 나온 "Larrabee"

 

 

[분석정보] 그래픽 및 DirectX 로드맵을 정리

 

 

[정보분석] Intel 힐스보로가 개발하는 CPU 아키텍처의 방향성

 

 

[정보분석] 팀스위니 미래의 게임 개발 기술. 소프트웨어 렌더링으로 회귀

 

 

[분석정보] 정식 발표된 라라비(Larrabee) 아키텍처

 

 

[아키텍처] 베일을 벗은 인텔 CPU & GPU 하이브리드 라라비(Larrabee)

 

 

[정보분석] 암달의 법칙(Amdahl's law)을 둘러싼 Intel과 AMD의 싸움

 

 

[정보분석] 모든 CPU는 멀티 스레드로, 명확하게 된 CPU의 방향