벤치리뷰·뉴스·정보/아키텍처·정보분석

[분석정보] 인텔 슈퍼컴퓨터용 가속기 Xeon Phi 5110P 발표

tware 2012. 11. 13. 20:30



Xeon Phi 5110P. 지난 6월  Intel은 최초의 Xeon Phi인 "50기 이상의 x86 코어와 용량 8GB의 GDDR5 메모리가 결합된 '이라는 대략적인 정보와 Xeon Phi에 통합된 x​​86 코어 기술 개요 밖에 밝히지 않았지만, 드디어 전모가 밝혀졌다


2013 년 1 월 23 일 이후 국내외 대기업에서 Xeon Phi 5110P 탑재 서버 및 워크 스테이션이 국내 시장에 등장한다.



일본(한국) 시간 2012년 11월 13일 11:00, Intel은 슈퍼 컴퓨터 (≒ HPC, High Performance Computing) 용 가속기 "Xeon Phi"(제온 파이)의 제 1탄 제품 "Xeon Phi Coprocessor 5110P"(국내 제품 이름 : Xeon Phi 코 프로세서 5110P 이후 Xeon Phi 5110P)를 2013 년 1월 28일에 발매한다고 발표했다. 소매 시장 단독 판매의 예정은 없고, OEM용 가격은 1000 개당 단가로 2650 달러(약 21만엔)이다.
또한 "Xeon Phi Coprocessor 3100"(국내 제품명 : Xeon Phi 코 프로세서 3100 이후 Xeon Phi 3100) 시리즈의 2 제품을 2013년 제 1분기 중에 출시에 맞추어 동시에 발표하고 있다.

Xeon Phi 브랜드 및 아키텍처 개요는 지난 6월 밝혀지고 있었지만 ( 관련 기사 ) 드디어 최종 제품 이름 및 출하시기 등을 발견한 셈이다.

참고로 Xeon Phi 5110P는 미국 유타 솔트 레이크시에서 현지 시간 10일부터 개최되는 슈퍼 컴퓨터 관련 국제 회의 ' SC12 '에 맞춰 발표된 것. Xeon Phi 5110P의 등장으로 Intel은 자사 최초로 슈퍼 컴퓨터용 가속기 시장에 진입하게 된다.
제품의 성격상, 4Gamer 독자에게 즉시 직접 관계해 있는 것은 아니지만, 그 개발 경위에서 대해 흥미있는 사람은 적지 않을 것이다. 또한 Xeon Phi에서 축적된 기술이 미래의 그래픽 기능 통합형 CPU에 활용되지 않는 것은 아니다.

4Gamer에서는 국내 보도 관계자를 위한 설명회에 참가했기 때문에, 그것을 기본으로 Xeon Phi의 특징을 정리하면서 지금 무슨 일이 일어나고 있는지를 생각해 보기로 하자.



60개의 x86 코어를 구현
피크 배정밀도 연산 성능 1 TFLOPS 이상을 달성


2009년 Intel Developer Forum 2009 San Francisco에서 동작 데모 전시된 Larrabee. 8 +6 핀 보조 전원 구성을 채택하고 2 슬롯 사양 파란 (덮개) 쿨러를 채택했다

자, 우선 Xeon Phi 란 무엇인가를 복습 해주고 싶다.
Intel이 한때 "Larrabee"(라라비)라는 개발 코드명으로 x86 아키텍처 기반 코어를 대량으로 탑재하는 독특한 디자인의 GPU를 개발하려고 했다지만, 여러 가지 이유로 결국 제품화를 포기했다.
그러나 "x86 아키텍처의 코어를 대량으로 탑재하는 제품"개발 자체는 계속해 그것이 "MIC"(Many Integrated Core, 마이크)라는 아키텍처 이름을 주고, 궁극적으로 슈퍼 컴퓨터를 향해 제품화 하는 방향으로 방향타를 돌린 것이다. 6월까지 개발 코드 네임 "Knights Corner"(나이츠 코너)라고 했던 Xeon Phi는 그런 MIC 아키텍처를 채택하는 최초의 최종 제품이다.

Xeon Phi 5110P 및 Xeon Phi 3100 시리즈는 양쪽 모두 PCI Express x16에 연결하는 타입의 카드 제품이다. Intel은 Xeon Phi을 일반적으로 사용되는 "가속기"라는 호칭이 아니라 Xeon (= CPU) 이하 작동하는 '코 프로세서 "라고 평가하고 있지만"슈퍼 컴퓨터의 연산 능력을 강화하는 PCI Express 확장 카드 '라는 의미에서는 NVIDIA의 Tesla와 같은 자리에 위치하는 제품이라고 이해해도 상관 없다.


Xeon Phi 5110P와 Xeon Phi 3100 시리즈의 개요가 정리된 슬라이드. 발매일은 정해져 있지만 개별 판매 예정은 없다


이번 스펙 정보가 공개 된 것은 2012 년 1 월 28 일에 발매되는 Xeon Phi 5110P만 이므로 이후 이 제품을 중심으로 살펴 보지만, 3 차원 트라이 게이트 (3D Tri- Gate) 트랜지스터를 이용한 22nm 프로세스 기술을 이용하여 집적되는 x86 코어 수는 60개로 코어의 동작 클럭은 1.053GHz. 배정밀도 부동 소수점 연산의 최고봉 성과는 1.011 TFLOPS에 이른다고 한다.



또한 탑재되는 메모리 총용량 8GB의 GDDR5 SDRAM, 이는 6월에 예고된 것으로 변함없이. 피크 대역폭은 320GB / s로 되어있다. 설명회에서 직접적인 언급은 없었지만, Intel에서 보도 관계자에게 배포한 스펙 표에 따르면 메모리의 전송 속도는 5GT / s (= 메모리 클럭 5GHz 상당)이므로, 메모리 인터페이스 폭은 512bit 추정된다.

아래에 나와있는 사진은 설명회 장소에 전시되어 있던 Xeon Phi 5110P의 실기이다. 냉각 팬이없는 패시브 냉각형 제품이기 때문에 냉각 시스템이 완비된 서버 및 워크스테이션용 제품임을 알수 있다.



설명회에서 전시되고 있던 Xeon Phi 5110P의 실기. Xeon Phi 5110P는 냉각 팬을 탑재하지 않은 패시브 냉각형 제품이다


PCI Express 보조 전원 커넥터는 8 핀 +6 핀 구성. 설계상 최대 300W를 공급할 수 있는 계산이 되지만 전체 카드의 TDP (Thermal Design Power, 열 설계 전력)는 225W로 상당히 억제된 느낌이다. 전력 효율은 나쁘지 않을 것 같다.

카드 뒤에 설치된 PCI Express 보조 전원 커넥터는 8 핀 +6 핀



브라켓 부분은 소위 후방 배기 용 큰 구멍이있다


Xeon Phi 3100 시리즈의 활성 냉각형 모델 (번호 미정)

또 다른 Xeon Phi 3100 시리즈 이지만, 아래에 나와있는 스펙표에 따르면 이곳은 패시브 냉각형뿐만 아니라 팬의 활성 냉각형 제품도 등장할 전망이다.
메모리 용량은 Xeon Phi 5110P보다 2GB 적은 6GB이며, 메모리의 전송 속도는 5GT / s 로 Xeon Phi 5110P와 같지만 메모리 버스 대역폭이 240GB / s에 낮춰 있으므로, 메모리 인터페이스는 384bit로 되어 있다고 생각된다. 한편, 카드 수준의 TDP는 300W로 증가하고 있으므로, 동작 클럭이 인상될 가능성은 있을 것이다.

Xeon Phi 3100 시리즈의 판매 형태는 미정이지만, Xeon Phi 5110P와 다른 점은 단독 판매 될 가능성이 부정되지 않는 것. Xeon Phi 3100 시리즈의 1000개 단가는 2000 달러 이하라고 하고, Xeon Phi 5110P보다는 낮은 가격이 될 전망이지만, 그래도 매장에서 판매된다고 하면 가격은 20만엔을 넘는 것이라는 이야기다. 부담없이 구입할 수 있는 제품이 되지 않는 것 같다.


발표 당초의 Xeon Phi 스펙 표



그런데, 위의 슬라이드에서 "스페셜 에디션"(special edition)라고 적힌 제품 "SE10P" "SE10X"이 나란히 있는 것을 눈치챈 사람도 있다고 생각한다.
자세한 내용은 밝혀져 있지 않지만, 이들은 Xeon Phi 5110P에 비해 x86 코어 수가 하나만 많고 동작 클럭을 끌어 올려 카드 수준의 TDP도 300W에 달하고 있는 것이 특징이다. 인텔에 따르면, "특정 고객을 위한 특별 에디션을 일반 판매할 예정은 없다"는 것이므로, 고성능을 필요로 하는 고객에게 발송된다 (또는 배송) 말 그대로 특별한 버전 제품일 것이다.


Xeon Phi 5110P의 스펙을 자세히 보기
가장 큰 장점은 프로그램의 용이성 여부



Xeon Phi 5110P를 4개 탑재하는 서버의 예. 호스트 CPU  "Xeon E5-2690/2.9GHz"× 2와 함께 4.4 TFLOPS 된다고 하는데, 사용되는 서버 케이스의 냉각기구는 4개의 Xeon Phi 5110P에 충분하지 않은 인상이다. 어디 까지나 참고 전시로 봐야 할 것이다

스펙 부분을 좀 더 파고 들어 보자.
Xeon Phi 5110P에 집적된 60기의 x86 기반 코어는 2개의 파이프 라인을 가진 간단한 슈퍼 스칼라 (Superscalar) 형식이지만, 하드웨어에서 최대 4스레드의 실행에 대응된다. 즉 Xeon Phi 5110P는 1장으로 최대 240 스레드를 동시에 실행할 수 있는 셈이다.

NVIDIA에서 "20년전 Pentium을 묶은 제품"이라고 야유한 x86 코어, 실제로 2 개의 파이프 라인을 가진 간단한 설정은 20년전 Pentium 많이 비슷하다. 그러나 물론, "진짜"20년전 CPU 코어를 60개 묶은 것으로 의미가 아니라 Xeon Phi 핵심은 당시 Pentium 없었던 기능이 추가되어 있다.

그것이 512bit 벡터 연산 기능이다. 현재 Core i 프로세서는 AVX (Advanced Vector eXtentions)라는 256bit 벡터 연산 기능을 가지고 있지만 그 2배의 벡터 길이의 연산을 지원하는 것이다. Xeon Phi 성능면에 x86 명령어 세트와의 호환성 보다는 오히려 벡터 연산기가 키가 된다.


2012년 9월 개최한 고성능 LSI에 관한 국제 회의 "Hot Chips 2012"에서 공개된 자료보다 Xeon Phi의 x86 코어 블록 다이어그램. "pipe0 '와'pipe1"두 파이프를 가지고 있다. pipe0에서는 512bit 벡터 연산을 지원한다. 그림 중 "VPU 512b SIMD"라고 되어있는 블록이 그것이다

Xeon Phi 벡터 연산기는 1클럭당 최대 2번의 연산이 - 적화연산(FMA)시라고 생각되지만 - 가능하게된다. "512bit = 64bit 배정밀도 × 8"이므로, Xeon Phi 5110P의 경우 동작 클럭 1.053GHz × 60 (코어 수) × 2 (1 클럭 당 연산 횟수) × 8 (64bit 배정도 부동 소수점 연산의 수) = 1010.88 GFLOPS가 최대 연산 성능인 셈이다. 32bit 단정라면 그 2 배에 달하는 것으로 보면 좋다.

공개된 다이 사진도 흥미 롭다. 2012년 6월에 공개된 사진과는 약간 다른, 핵심으로 생각되는 같은 모양의 블록이 총 62개 있는 것을 확인할 수 있다. 아마 Xeon Phi 5110P는 수율 향상을 위해 코어 2개 분의 불량이 허용되는 것이다. 특별판으로 하는 SE10P 및 SE10X에서는 허용되는 불량이 1 개라고 하는 것이라고 생각된다.



Xeon Phi 5110P의 다이로 한 사진. 같은 모양의 블록이 모두 62개 있다. Xeon Phi 5110P는 코어 2개 분의 불량을 허용하고 있다(≒ 62기 중 2기가 비활성화 된) 것이다


프로그래밍 모델의 우위를 무기로
시장에서 선행하는 NVIDIA에 도전하는 Intel



오카자키 씨 (인텔 클라우드 컴퓨팅 사업 본부 사업 개발 본부 본부장)


보도 관계자를 위한 설명회에서는 Intel의 일본법인인 인텔의 오카자키 씨가 슈퍼 컴퓨터 시장의 장래성이 높은 것을 인용 Xeon Phi의 중요성을 강조하면서, Xeon Phi 5110P의 성능을 대표적인 벤치마크에서 보여주고 있었다.

제출된 각종 벤치 마크 점수는 아래에 표시된 슬라이드다. 예를 들어 대표적인 벤치마크 테스트인 'Linpack Benchmark'에서는 722 GFLOPS (0.722 TFLOPS), 행렬 계산을 할 "DGEMM '에서는 833 GFLOPS (0.833TFLOPS )이라는 점수가 나왔다.


Xeon E5-2670/2.6GHz의 2-way 구성에 대해 Xeon Phi 5110P가 얼마나 빨른지 보여 주는 슬라이드

Tesla K20 시리즈의 발표 즈음 NVIDIA가 공개한 자료. "Xeon E5-2687w/3.1GHz"2-way에 Tesla K20X를 탑재한 시스템에서 DGEMM에서 1.22 TFLOPS를 실현할 수 있다고


이 숫자가 무엇을 의미하는지, 적어도 Tesla K20 시리즈의 상위 모델 "Tesla K20X"보다 낮다고 말하는 것 같다. Tesla K20X는 DGEMM에서 1.22 TFLOPS로 표시되어 응용 프로그램 수준에서의 실효 성능은 Tesla K20X에 도착해 있지 않은 것을 알 수 있다.

그러나 Xeon Phi이 가진 장점은, 사실, 성능뿐만 아니다. 뛰어난 프로그래밍 모델 이야말로 큰 어필 포인트가 되고 있는 것이다.
구체적으로 무슨일 일까 라고 하면, 설명회에서 필자가 "Xeon Phi는 단지 60 코어 x86 프로세서 라고 생각해도 좋은 것인지"라고 물었다 대한 오카자키 씨의 답변이 "512bit 벡터 연산을 제외하고 그것은 같습니다 "라는 점이 시사적이다. 즉, 현재의 Sandy Bridge와 Ivy Bridge 등 기존의 Intel 제 CPU와 거의 같은 감각으로 프로그램을 쓸 수 있다는 것이 Xeon Phi이 가지는 큰 특징이 된다.



데모에 사용된 Xeon Phi 5110P 탑재 서버. Sandy Bridge-EP 코어 "Xeon E5-2690/2.9GHz '가 2기에 Xeon Phi 5110P 카드 1장으로 총 1.4 TFLOPS가 되는 구성이다

Xeon Phi 프로그래밍 모델이 어떤 것인지 회장에서 나타난 데모를 보면 이해할 수 있다. 조금 어려울지도 모르지만, 일부 데모의 모습을 사진으로 나타내면서 소개 해본다.
앞서 언급했듯이 Xeon Phi는 PCI Express 확장 카드로 되어 있지만 내부는 독립형 Linux를 실행하고, 호스트에서 SSH를 사용하여 로그인 할 수 있다. 그리고 데모는 호스트 OS로 Linux가 사용되며, 원주율을 계산하는 간단한 샘플을 Xeon Phi에서 코드 실행이 이루어졌다.

샘플 프로그램은 Intel의 컴파일러에서 지원하는 멀티 프로세서용 프로그래밍 기초 "OpenMP"를 사용하여 작성된 것. Xeon 시리즈는 물론, 4Gamer 독자 PC에서 실행되는, 극히 표준 멀티 코어 코드이다.


데모의 흐름. 먼저 Intel의 컴파일러 (icc)에서 코드를 컴파일. icc에 "-mmic"옵션을 선택하면 Xeon Phi를 위한 바이너리 코드를 출력하도록 되어 있으므로, 그것을 SSH를 통한 파일 복사 명령인 scp 의해 Xeon Phi에서 Linux로 전송. 마지막으로 실행시키는 것이된다


그래서, Xeon Phi에서 실행중인 Linux에 실행 코드를 복사하여 Xeon Phi에서 직접 실행하는 예가 아래의 사진이다.


실제로 데모 기에서 작업하고있는 모습. 컴파일 실행 후 ssh mic0라는 명령을 실행 Xeon Phi에 로그인 한


Xeon Phi에 로그인후 프로세스 목록을 표시 시켰는데. 60코어 분의 커널 스레드 (Linux 커널 내부의 스레드)가 줄줄이 표시되고 있다. Xeon Phi은 독립적으로 움직이는 60코어 x86 프로세서인 것이다


Xeon Phi에서 원주율 계산을 실행합니다. 약 0.88 초라고하는 결과가 표시된다

UNIX 계 OS에 익숙하지 않다고 투덜될수 있지만 쉽게 설명하면 Xeon Phi를 탑재한 PC는 독립적으로 움직이는 60코어의 다른 PC를 한대를 더 가지고 같이 다룰 수 있다. Xeon Phi에 로그인하여 명령을 실행하거나 코드를 실행 시키거나 할 수 있는 셈이다.

이러한 동작은 독립적인 OS가 동작 할 수 없는(현재)GPU는 불가능 하다. Xeon Phi 만의 장점이다. 물론 Xeon Phi에서는 코드의 일부를 Xeon Phi에 오프로드시켜 실행 또는 GPGPU와 같은 형태의 오프로드 실행을 지원하고 호스트 CPU와 협력하면서 계산을 수행 할 수 있는 사양 이다.



Intel이 공개하고 있는 제품 카탈로그에는 4종류의 "실행 모델 '이 적혀있다. 그림의 녹색이 Xeon Phi을 가진 경우 왼쪽부터 호스트 CPU에서만 실행, 일부 병렬화 된 코드를 Xeon Phi에 오프로드하여 실행, 호스트 CPU와 Xeon Phi에서 동시에 실행, Xeon Phi 만 실행하는 식이다. 일부 코드를 오프로드 하여 실행할 수 밖에 없는 GPU에 대하여 그 유연성의 깊이가 강점이 된다


GPU의 경우, CUDA 및 OpenCL 같은 언어를 사용하여 "GPU로 오프로드 코드"를 작성하여 CPU 측 코드를 다른 컴파일러 용으로 쓰는 등의 작업이 필요하고, 익숙해 지는 것에 그만한 장애물이 있다. 그것보다. OpenMP를 사용하여 Intel 제 컴파일러 용으로 작성된 코드인 Xeon Phi에서 바삭 바삭 실행할 수 있다는 것은 필자가 볼때 매우 매력적으로 보인다.

Intel이 제공하는 개발 도구의 하나 "Advisor XE"를 이용한 데모. Advisor XE는 코드의 실행 효율성을 확인하고 병렬화하기 위한 방향성을 제시해 주는 도구로 PC용 개발 환경에서 이용되고 있는 것이다. 이러한 기존의 Intel 제 x86 용 도구를 사용할 수 있는 것도, Xeon Phi 큰 이점이 된다


위의 Advisor XE 이외에도 슬라이드에 표시된 같은 Intel의 도구가 Xeon Phi에서 사용할 수 있다. 또한 "Xeon Phi 전용 모니터링 도구가 필요할 것"(오카자키 씨)이라는 것으로, 이것도 Intel에서 제공 예정되어 있다고 한다



하지만, 512bit 벡터 연산을 사용하지 않으면 Xeon Phi의 진가를 발휘 할 수 없다. 그리고 그 부분도 쉽게 프로그램 할 수 있는지 판단하려면 현재 아직 정보 부족하다. NVIDIA는 Xeon Phi 벡터 연산에 대해 "마치 어셈블러 코드를 쓰도록 어렵다. 우리의 GPU라면 CUDA에서 쉽게 쓴다"고 지적하고 있기도 하지만, 그 점을 평가하려면 좀 더 많은 정보를 얻을 필요가 있을 것이다.

참고로, NVIDIA는 CUDA 및 OpenCL뿐만 아니라 호스트 CPU와 GPU 쪽을 하나의 코드로 작성할 수 "OpenACC '라는 프로그래밍 언어 - 현재 C 언어와 Fortran의 - 확장 사양을 미루어 있다.

OpenACC를 Intel이 지원하면, GPU에서도 Xeon Phi에서도 똑같이 수행할 수 있는 코드를 쓸 방법이 있는데, 오카자키 씨는 필자의 질문에 "적어도 현재 버전에서 OpenACC을 지원하는 것은 아니다"라고 단언했다.


그 이유는 현재 OpenACC가 "너무 GPU에 특화가 너무나 많기 때문"(오카자키 씨)이라고 한다. 이후 버전 지원은 포함을 떠나 있었지만, 당분간은 OpenMP의 것으로 보인다. NVIDIA에서 Tesla 제품의 제너럴 매니저인 Sumit Gupta 씨는 이전 필자의 취재에 대해, Intel이 OpenACC을 지원해 줄것을 기대하는 발언을 했었지만, 적어도 당분간은 그 기대는 실현되지 않을것 같다.

어느쪽으로 봐도 Xeon Phi는 60코어 싱글 카드 컴퓨터 같은 제품이었다 것으로, 매니아적으로는 정말 재미있을 것 같은 아이템이라고 할 수 있다. 필자도 설명 회장에서 보고 난뒤 갖고 싶어져 버렸지만, 단독 판매 될 것 같은 Xeon Phi 3100 시리즈도 카드 단독의 가격이 20만엔 초과하면, 탑재 제품을 놀이로 사는 것은 과연 조금 어려운 느낌이 든다.
단, 실물을 입수 여부를 떠나서, 이후의 전개를 주시해 나갈 생각이다.





[분석정보] TOP500 슈퍼컴퓨터 순위 2013년 6월



[분석정보] 4만 8000개의 제온파이로 중국 톈허2 세계에서 가장 빠른 슈퍼 컴퓨터



[제품뉴스] Intel Xeon Phi 새로운 폼 팩터 채용 포함 5모델 추가



[정보분석] 인텔 60코어 매니코어 "Xeon Phi" 정식발표



[분석정보] Intel, HPC 전용 보조 프로세서 Xeon Phi 2013년 1월부터 일반용으로 출시



[분석정보] IDF 2012에서 주목한 한가지, 매니 코어 "Knights Corner"



[정보분석] 엔비디아 세계 최다 트렌지스터 칩 GK 110 공개



[정보분석] IDF 2011 Justin Rattner 기조연설 매니코어 시대가 다가옴 1/2부



[정보분석] IDF 2011 Justin Rattner 기조연설 매니코어 시대가 다가옴 2/2부



[정보분석] 같은 무렵에 시작된 Nehalem과 Larrabee와 Atom



[분석정보] Intel은 Larrabee 계획과 아키텍처를 어떻게 바꾸나?



[분석정보] 다시 처음부터 시작된 라라비 무엇이 문제였나?



[분석정보] 라라비 (Larrabee)의 비장의 카드 공유 가상 메모리



[분석정보] 인텔의 스칼라 CPU + 라라비의 이기종 CPU 비전



[분석정보] Larrabee는 SIMD와 MIMD의 균형 - Intel CTO가 말한다.



[정보분석](암달의 법칙) 2010년대 100 코어 CPU 시대를 향해서 달리는 CPU 제조사



[분석정보] 인텔 GDC에서 라라비 명령 세트의 개요를 공개



[분석정보] GDC 2009 드디어 소프트 개발자 정보도 나온 "Larrabee"



[분석정보] 그래픽 및 DirectX 로드맵을 정리



[정보분석] Intel 힐스보로가 개발하는 CPU 아키텍처의 방향성



[정보분석] 팀스위니 미래의 게임 개발 기술. 소프트웨어 렌더링으로 회귀



[분석정보] 정식 발표된 라라비(Larrabee) 아키텍처



[아키텍처] 베일을 벗은 인텔 CPU & GPU 하이브리드 라라비(Larrabee)



[정보분석] 암달의 법칙(Amdahl's law)을 둘러싼 Intel과 AMD의 싸움



[정보분석] 모든 CPU는 멀티 스레드로, 명확하게 된 CPU의 방향