벤치리뷰·뉴스·정보/아키텍처·정보분석

[분석정보] Intel, HPC 전용 보조 프로세서 Xeon Phi 2013년 1월부터 일반용으로 출시

tware 2012. 11. 13. 19:00


Knights Conner의 코드 네임으로 알려져왔다 Xeon Phi 코 프로세서 5110P의 다이


미국 Intel은 "Knights Conner"의 개발 코드 네임으로 개발 해왔던 HPC (High Performance Computing)를 위한 보조 프로세서 'Xeon Phi "(파이)를 2013년 1월 28일 (미국 시간) 일반용으로 발매를 시작하는 것을 밝혔다.

 HPC 시장은 GPGPU (General Purpuse GPU)이라고하는 GPU를 연산에 사용하는 방식이 일반적이 되고 있지만, Intel의 Xeon Phi는 그래픽 표시에 필요한 기능 (래스터 라이저 엔진 및 디스플레이 출력, 비디오 재생 엔진 등)은 포함되어 있지 않고, 순수하게 HPC 용 연산기에 특화한 형태로 개발되고 있는 것이 라이벌이 되는 NVIDIA의 Tesla 시리즈와 큰 차이이다.

 GPU를 무기로 선행하는 NVIDIA의 Tesla는 새로운 프로그래밍 모델인 CUDA를 이용하는 반면, Intel의 Xeon Phi은 x86 프로세서가 60개 가까이 내장된 멀티 코어 프로세서로 현재 x86 프로그램을 약간의 변경만으로 쉽게 해당 프로그램을 만들 수 있는 것이 큰 특징이다.



전용 프로세서 x86, 그리고 GPGPU로 변화한 HPC 시장


 HPC는 과학 연산이나 의료 시뮬레이션, 유전 개발 시뮬레이션등 엄청난 연산 능력을 필요로 하는 프로세스의 총칭이다. 매우 많은 양의 데이터를 처리하는 벡터 연산이 가능한 프로세서에서 여러 스레드를 병렬로 처리하는 방법으로 연산이 수행된다.

 예를 들어 자동차의 개발에는 공기 역학적 효과의 확인 등에 풍동이라는 특수 시설에서 바람의 흐름을 연구하고 몸의 모양을 결정하지만 풍동을 이용한 개발에는 막대한 비용과 시간이 소요된다. 하지만 현재는 대부분의 시뮬레이션으로 개발하고 어느 정도의 후보를 만들어 풍동에 반입하는 단계를 겪고있다. 이러한 시뮬레이션에 HPC용 컴퓨터가 이용되고 있다.

 최근에는 "빅 데이터"라는 말을 들을 기회가 증가하고 있다. 빅 데이터는 기존의 데이터베이스라는 개념이 규정할 수 없는 방대한 데이터가 증가하고 있어 이를 보다 상세하게 분석하여 새로운 시장 동향 연구에 사용되고 있다. 그러한 데이터의 처리는 물론 엄청난 처리 능력이 필요하기 때문에, 여기도 HPC에 의한 처리가 기대되는 분야이다.

 이렇게한 HPC는 원래 슈퍼 컴퓨터와 총칭되는 같은 벡터 연산을 잘하는 프로세서를 탑재한 대형 컴퓨터가 이용되고 있었다. 예를 들어, IBM의 POWER, Intel의 Itanium, Sun Microsystems (현재 Oracle)의 SPARC 등이 그 대표적인 예이다. 모두 PC 등에 사용되는 프로세서와는 가격의 자리수가 다른 비싼 프로세서이다.

 그러나 2000년대 들어 이른바 x86 프로세서의 성능이 올라서,서버용 x86 프로세서 (Intel의 Xeon 및 AMD의 Opteron) 등으로 바뀌어 채택되고 x86 프로세서를 탑재한 컴퓨터를 클러스터(집합체)로 상호 연결하여 슈퍼 컴퓨터처럼 이용하는 것이 일반적이 되었다. 이유는 물론 비용으로 PC 및 PC 서버용 x86 프로세서는 슈퍼 컴퓨터용 프로세서에 비하면 압도적으로 저렴했기 때문이다.

 그리고 최근 주목을 끌고 있는 것이 GPGPU 솔루션이다. GPGPU는 본래 그래픽 처리에 사용하는 GPU 내부 연산기의 벡터 연산 성능이 고성능임을 주목해 그것을 HPC 용도로 사용하려는 시도가 2000년대 후반 무렵부터 일반화 되어 갔다. NVIDIA의 CUDA와 같은 GPGPU를 사용할 수 있는 새로운 프로그래밍 모델이 등장하고 Xeon 및 Opteron에 비해 GPU의 벡터 연산 성능이 높았던 것도 있어,이 방식이 급속하게 보급되어 갔던 것이다. NVIDIA에서 출시한 Tesla 시리즈는 순식간에 HPC 시장에서 많은 시장을 얻었갔다.



GPU의 Larrabee에서 HPC 전용 보조 프로세서의 Knights Ferry,

그리고 Xeon Phi로


 Intel도 이러한 시장 변화에 수수 방관보고 있던 것은 아니지만, 이미 하이 엔드 단독(독립형) GPU라는 무기를 가지고 있는 NVIDIA와 AMD와 달리 Intel 프로세서 내장용 메인 스트림용 GPU만 가지고 있고, GPGPU에 전용 가능한 독립형 GPU를 가지고 있지 않았기 때문에 이 시장에 대한 대응은 약간 늦었다.

 Intel이 HPC 시장에서의 GPGPU의 대응책을 공식적으로 내보인 것은 2008년 봄에 베이징에서 열린 Intel Developer Forum 2008이다. 이때 Intel은 개발 코드 네임 "Larrabee"(라라 비)라는 GPU로 전용 될 수 있는 다중 코어 프로세서 계획을 발표했다. Larrabee의 특징은 Pentium 클래스의 스칼라 연산기와 벡터 연산기를 가진 코어가 다수 포함되어 있어 x86 명령어 세트에 고성능 병렬 연산을 행할 수 있고, 심지어 그래픽 처리가 가능한 하드웨어 (래스터 라이저 및 디스플레이 엔진)을 탑재하고 있었던 것이다. 그리하여 멀티 스레드된 x86 명령어 처리 및 벡터 연산기를 이용한 그래픽 처리 등이 가능하게 되었다. 즉, NVIDIA 및 AMD의 하이 엔드용 독립(단독형=외장형) GPU와 충돌 최대한의 성능과 기능을 제공한다는 것이다.

 그러나 Larrabee는 개발지연 등 결과적으로는 시장에 출하되지 않고 끝난다. 또한 시장 환경 자체도 단일 GPU가 존재할 수 없는 방향으로 이행하고 있다. 사실, Intel도 AMD도 메인 스트림 전용을 GPU 통합 프로세서로 대체해 나갈뿐만 아니라 세상 전체가 Windows / Mac PC에서 태블릿이나 스마트 폰으로 축이 옮겨가는 가운데, 1 칩 SoC ( System on a Chip)로 이행해 가는 것이 흐름이 되고 있다. 따라서 향후 단체 GPU 시장이라는 것이 커져 간다는 것은 상상할 수 없는 상황이다.

 그런 가운데 단독(외장형)GPU와 그리고 HPC 전용 모두에 사용할 수 있는 제품으로 계획된 Larrabee가 제품화 되지 않고 끝났다는 것도 납득할 수 있는 이야기일 것이다. 다만, 단독형 GPU로는 소멸한 Larrabee 이지만 HPC 전용의 프로세서로 시장은 여전히​​있다. NVIDIA가 이제 GeForce만큼 Tesla 시장을 중시하는 것과 마찬가지로 Intel에게도 매우 HPC 시장이 중요한 것은 여전히​​ 변함이 없기 때문이다.

 따라서 Intel은 2011년부터 개발 코드 네임 "Knights Ferry"(나이츠 페리)라는 PCI Express 확장 카드를 파트너가 될 소프트웨어 개발자에게 제공하기 시작했다. Knights Ferry은 Larrabee를 베이스로 개발된 (즉 Larabee 이지만 그래픽 기능을 사용하지 않고 그래픽 부분을 생략한 형태) 멀티 코어 프로세서가 된다 "Aubrey Isle"를 탑재한 확장 카드가 된다. 소프트웨어 개발자는 Xeon 기반 HPC에 Knights Ferry를 추가하여 연산이 가능하게 되어, HPC 애플리케이션 처리 능력을 향상시키고 있다. 또한, Intel은 이Knights Ferry 이후 이러한 병렬 처리 아키텍처를 MIC (Many Integrated Core,)라고 부르고 있다.

 그러나 Knights Ferry 프로그램은 어디 까지나 소프트웨어 개발자를 위한 파트너 프로그램으로 실제로 Knights Ferry의 판매는 이루어지지 않았다. 예를 들어 대학등 HPC 연구를 수행하는 연구자에게 제공되는 경우가 많은, 비즈니스 기반 이라기 보다는 선행 개발 프로그램 이라는 것이 Knights Ferry의 위치였던 것이다. 그리고 그 Knights Ferry의 후계로서 계획되고 있던 것이, "Knights Conner"(나이츠 코너)의 개발 코드 네임으로 불려져 왔던 Xeon Phi 코 프로세서 (이하 Xeon Phi)이다.



Xeon만을 이용한 것에 비해 큰 성능 향상을 기대할 수 있는 Xeon Phi


 Xeon Phi를 Intel은 "Coprocessor"(보조 프로세서)로 위치 시키고 있다. 코 프로세서는 메인 프로세서 (일반적으로 CPU) 이외에 가속기 역할을 하는 프로세서인 것이다. Xeon Phi는 PCI Express 확장 카드의 형태를 취하고 있어 Xeon 등의 x86 프로세서가 작동하는 시스템의 PCI Express 슬롯에 삽입하여 사용할 수 있다. PCI Express 카드에는 OS 부팅용 BIOS 등이 탑재되어 있지 않기 때문에, 어디 까지나 메인 프로세서와 함께 사용하는 형태가 된다.

 Xeon Phi에는 2개의 라인 업이 준비되어 있으며, 5110P 및 3100 시리즈가 그에 해당한다. 5110P는 60개의 프로세서 코어에서 코어 당 4개의 스레드를 실행할 수 있고, 클럭 주파수는 1.053GHz, 30MB 캐시, 8GB의 GDDR5 메모리 (5GHz, 320GB/sec)를 탑재. 피크시의 TDP (열 설계 전력)는 225W 방열기구는 패시브 (팬이없는 히트 싱크 만)를 채용하고 있고, 배정밀도 피크 성능은 1.011TFLOPS을 실현하고 있다.

 반면 3100 시리즈는 방열기구가 패시브 및 액티브(팬 있음)의 두 가지가 준비되어 있으며, 28.5MB 캐시, 6GB의 GDDR5 메모리 (5GHz, 240GB/sec), TDP는 300W이다. 현재 코어 / 스레드 수 등은 발표되지 않았지만, 배정밀도의 피크 성능은 1TFLOPS을 초과하고있다. 모든 제품은 Intel의 22nm 프로세스 룰로 제조되어 PCI Express x16 (Gen2) 시스템과 연결된다.


   방열
기구
배정밀도
피크성능
최대
코어수
클럭
GDDR5
속도
피크
메모리
대역
메모리
용량
캐쉬
TDP
판매
시작
5110P
패시브
1.11
TFLOPS
60
1.053
GHz
5GT/
sec
320GB
/sec
 8GB 30
MB
225W
2013
01월
28일
 3100
시리즈
패시브
액티브
 1TFLOPs
이상
 미
공표
 미
공표
 5GT/
sec
 240GB
/sec
 6GB  28.5
MB
 300W  2013
상반기

 
 Intel은 5110P를 먼저 2013년 1월 28일에 발매하고 3100 시리즈에 대해서는 2013년 상반기 중 출시를 계획하고 있다. 1,000 개의 상정 가격은 5110P가 2,649 달러, 3100 시리즈는 2,000 달러 이하의 가격이 예상되고 있다.

 Intel은 Xeon Phi를 이용한 경우의 벤치 마크 결과도 공표하고 있다. 듀얼 소켓 Xeon E5와 비교하면 단정밀도 행렬 연산의 SGEMM 2.7 배, 배정 밀도 행렬 연산의 DGEMM 2.7 배, 수학 연산의 Linpack에서 2.5 배, 메모리 대역폭 STREAM Triad 2배라는 결과를 낳았다고 한다. 또한 이 결과는 모두 Xeon Phi 단독으로 사용했을 경우의 결과로 실제 사용 환경에서 Xeon E5 동시에 연산에 사용할 수 있기 때문에 더 수치가 높아지는 경우가 있다고 Intel에서는 설명하고 있다.

Xeon Phi 5110P   


Xeon Phi 3100 시리즈의 팬들과 판



Xeon Phi에는 2 개의 SKU가 준비되어있다. 1월 28일에 5110P가 출시 된다. 3100 시리즈에 대해서는 2013년 상반기의 투입이 예정되어있다 (출처 : Intel)


Intel이 공개한 Xeon Phi 벤치 마크 결과. Xeon E5과 Xeon Phi 단독으로 연산했을 때의 성능으로, Xeon E5를 동시에 이용하면 성능은 더욱 향상 (출처 : Intel)


실제 애플리케이션에서 성능 향상. LosAlamos와 Acceleware 등에서 2.x 배의 성능 향상을 실현하고 있으며, 금융 공학의 응용 프로그램에서는 10 배가 넘는 성능 향상을 실현 (출처 : Intel)



x86 프로그래밍 모델을 그대로 이용할 수 있는 MIC 소프트웨어 개발


 Intel의 MIC 아키텍처의 가장 큰 특징은 프로그래머가 익숙한 x86 프로그래밍 모델을 그대로 이용할 수 있는 것이다.

 GPGPU의 세계에서도 예를 들어 NVIDIA의 CUDA를 이용하면, C 언어 등을 이용하여 프로그램을 작성할 수 있다. 하지만 여전히 CUDA 대해서는 어느 정도 공부를 해야하기 때문에 그 장애물은 결코 낮은 것은 아니다.

 그러나 MIC의 경우에는 이미 어느 정도 병렬 처리가 가능한 프로그램의 소스 코드가 있으면, 거기 MIC를 사용하는 코드를 2~3줄만 추가하면 즉시 작업을 행할 수 있다. Intel이 보여준 프로그램의 소스 코드 예제에서는 프로그램에 병렬 실행 지침을 추가하고 Xeon Phi에서 연산하도록 컴파일을 다시 수행만 하면 된다고 한다. 또한 필요에 따라 기본 Xeon뿐만 아니라 Xeon Phi을 함께 이용하는 지시를 추가하고 역시 재 컴파일 만 하면 이라고 한다. 현재 x86의 경험을 바탕으로 그대로 HPC를 지원하는 응용 프로그램을 만들 수 있는 점이 MIC의 장점 중 하나다.

 Intel은 이러한 소프트웨어의 개량을 보다 쉽게​​하기 위한 도구로 "Intel Parallel Studio XE 2013 '를 이미 출하하고, 현재의 소스 코드를 병렬화 처리에 대응시키고, Xeon Phi에 대응한 응용 프로그램에 다시 컴파일하거나 하는 작업이 용이하게 된다. 또한 Xeon Phi에 대응한 클러스터 시스템을 위한 개발 도구로 "Intel Cluster Studio XE 2013 '을 동시에 출시, Xeon Phi을 다 채용한 클러스터 시스템에서 프로그램 최적화를 보다 쉽게​​한다.

 또한, Intel에 따르면 이외에도 gcc, python 같은 오픈 소스 개발 도구도 Xeon Phi에 대한 대응이 예정되어 있어 향후 점차적으로 대응 제품이 증가할 전망이라고 한다.

기존 소스 코드에 병렬화를 지시하는 지시문을 넣는 것만으로 된다 (출처 : Intel)


이 예제에서는 연산을 Xeon Phi로 던져 처리한다 (오프로드) 지침을 추가하고 있다. 이렇게 소스 코드의 변경은 최소한으로 끝난다 Intel은 주장하고있다 (출처 : Intel)


Intel 자신이 제공하는 Intel Parallel Studio XE 2013뿐만 아니라 오픈 소스 개발 도구도 Xeon Phi에 대응 예정 (출처 : Intel)


일본 국내 Xeon Phi을 탑재한 시스템을 제공하려는 OEM, Cray, Dell, 후지쯔, 히타치, HP, IBM, NEC, SGI가 출하 예정 (출처 : Intel)



국내(일본) 연구 기관에 제공, 미국 텍사스 대학교 슈퍼 컴퓨터를 구축


 Intel은 Xeon Phi을 이미 일부 대학 등의 연구 기관에 제공하는 선행 개발 프로그램을 실행하고 있다. 국내에서는 도쿄 대학, 쓰쿠바 대학, 교토 대학, 이화학 연구소 등에 제공하고 있으며, 이미 프로그램 연구 등이 행해지고 있다고 한다.

 또한 미국에서는 보다 본격적인 노력도 이루어지고 있으며, 텍사스 오스틴시에 있는 텍사스 대학교 오스틴 캠퍼스 텍사스 첨단 컴퓨팅 센터 (TACC)에서 Xeon Phi를 이용한 슈퍼 컴퓨터 구축이 진행되고 있다. 발표에 앞서 진행된 견학회 에서는 Dell의 PowerEdge 시리즈 Xeon Phi가 탑재되어 그것이 클러스터링 되어 있는 슈퍼 컴퓨터가 공개 되었다. Strampede의 개발 코드 네임이 부여된 그 시스템은 182 대의 랙에 6,400 개의 Xeon E5 수천 개의 Xeon Phi, 14P (페타) 바이트의 스토리지 250TB의 메모리 등이 제공된다.

 완공 예정 2013년에는 무려 약 10P (페타) FLOPS의 처리 능력을 실현하는 것이라고 한다. 이것은 세계에서 가장 빠른 이화학 연구소 "경"에 가까운 수치 다. 이 중 Xeon E5에 의한 것이 2PFLOPS 이상 Xeon Phi에 의한 부분이 7PFLOPS 이상으로 총 약 10PFLOPS가 된다는 것이다.


Xeon Phi 대한 국내 연구 기관에서 기대의 목소리 (출처 : Intel)


텍사스 주 오스틴시에있는 텍사스 대학교 오스틴 캠퍼스 텍사스 첨단 컴퓨팅 센터 (TACC)


현재 설치가 진행되는 Strampede


각각의 랙은 Dell의 PowerEdge 시리즈가 포함된다


취재시에도 설치가 진행되고 있었던 Xeon Phi. 앞으로 랙 서버에 내장되어 실행


GPU처럼 8 핀과 6 핀 외부 전원 커넥터도 포함되어있다. 따라서 외형은 팬들과 디스플레이 출력이 없는 하이 엔드 비디오 카드로 보인다.





[분석정보] TOP500 슈퍼컴퓨터 순위 2013년 6월



[분석정보] 4만 8000개의 제온파이로 중국 톈허2 세계에서 가장 빠른 슈퍼 컴퓨터



[제품뉴스] Intel Xeon Phi 새로운 폼 팩터 채용 포함 5모델 추가



[정보분석] 인텔 60코어 매니코어 "Xeon Phi" 정식발표



[분석정보] 인텔 슈퍼컴퓨터용 가속기 Xeon Phi 5110P 발표



[분석정보] IDF 2012에서 주목한 한가지, 매니 코어 "Knights Corner"



[정보분석] 엔비디아 세계 최다 트렌지스터 칩 GK 110 공개



[정보분석] IDF 2011 Justin Rattner 기조연설 매니코어 시대가 다가옴 1/2부



[정보분석] IDF 2011 Justin Rattner 기조연설 매니코어 시대가 다가옴 2/2부



[정보분석] 같은 무렵에 시작된 Nehalem과 Larrabee와 Atom



[분석정보] Intel은 Larrabee 계획과 아키텍처를 어떻게 바꾸나?



[분석정보] 다시 처음부터 시작된 라라비 무엇이 문제였나?



[분석정보] 라라비 (Larrabee)의 비장의 카드 공유 가상 메모리



[분석정보] 인텔의 스칼라 CPU + 라라비의 이기종 CPU 비전



[분석정보] Larrabee는 SIMD와 MIMD의 균형 - Intel CTO가 말한다.



[정보분석](암달의 법칙) 2010년대 100 코어 CPU 시대를 향해서 달리는 CPU 제조사



[분석정보] GDC 2009 드디어 소프트 개발자 정보도 나온 "Larrabee"



[분석정보] 그래픽 및 DirectX 로드맵을 정리



[정보분석] Intel 힐스보로가 개발하는 CPU 아키텍처의 방향성



[정보분석] 팀스위니 미래의 게임 개발 기술. 소프트웨어 렌더링으로 회귀



[분석정보] 정식 발표된 라라비(Larrabee) 아키텍처



[아키텍처] 베일을 벗은 인텔 CPU & GPU 하이브리드 라라비(Larrabee)



[정보분석] 암달의 법칙(Amdahl's law)을 둘러싼 Intel과 AMD의 싸움



[정보분석] 모든 CPU는 멀티 스레드로, 명확하게 된 CPU의 방향