[분석정보] 인텔은 기계학습에서 패권을 잡는가?
Xeon Phi. 오른쪽은 Omni-Path 지원하지 않는 모델
인텔 재팬은 14일, HPC (High Performance Computing) 사업에 관한 기자를 위한 라운드 테이블을 실시했다.
올해 (2016년) 6월에 발표한 Xeon Phi를 중심으로 Intel의 기계학습 (머신러닝)에 관한 향후의 대처나 도입 메리트 등을 설명하는 내용이 되어, Intel 본사에서 HPC 사업에 종사하고 있는 휴고 살레 씨를 불러 개최되었다.
또, 이날 오후 13시 ~ 18시까지 도쿄 아키하바라의 아키하바라 UDX 세미나 실에서 "인텔 HPC 및 기계 학습 세미나"라는 세미나가 개최되고 있으며, 도쿄 대학 정보 기반 센터 장 나카무라 히로시 씨의 세션과 파트너 기업들의 강연 등이 진행되고 있다.
16GB의 내장 메모리를 가지고 부팅에 대응하는 Xeon Phi. 연말까지 10만개가 세계의 연구자를 향해 출하
Xeon Phi
먼저 살레 씨는 지금까지 HPC가 생명 과학이나 정부 등 대규모 시스템 용으로 사용되어 온 반면, 오늘날은 일반 산업에 널리 침투하고 있는 역사적 경위를 회고했다.
미 Intel 코퍼레이션 데이터 센터 사업 본부 HPC 플랫폼 사업부
HPC 부문 마케팅 디렉터 휴고 살레 씨
특히 자동차 산업에서는 설계의 모든 단계에서 HPC가 사용되고 있으며, 디자인뿐만 아니라 연비를 향상시키기 위한 계산, 정숙성을 높이기 위한 공력 해석, 안전 충돌 시험 등 온갖 부분에서 HPC가 필요한 현 상태를 지적. 그리고 자동 운전과 같은 기계 학습의 활용이 다양한 곳에서 진행되고 있으며, 사회에 변화가 초래되고 있다고 한다.
그러한 HPC에 의한 기계 학습을 하기 위한 수단으로 최근 출시한 'Xeon Phi'가 가장 적합한 프로세서 라고 말했며, 부팅 가능하며, 지금까지의 보조 프로세서의 영역을 초월한 Xeon Phi가 기계 학습 장면을 싹 바꾼다고 발언했다.
살레 씨는 Xeon Phi 특징으로 먼저 PCI Express에서 가속기에 해당하는 병목 현상이 해소 된 것, 16GB의 메모리를 내부에 탑재 한 것, HPC 패브릭 "Omni-Path"의 구현에 의한 시스템의 대역폭 향상 등을 꼽는다.
또한 Xeon Phi는 기존의 x86 프로세서에 의한 워크로드를 실행할 수 있기 때문에, 지금까지의 Xeon에서 움직이던 것이 Xeon Phi에서도 이용 가능, 그 범용성의 높이도 도입의 장점이 되었다. 이를 통해 ROI (Return on Investment)를 단기 달성 할 수 있는 것에 더해, TCO (Total Cost of Ownership)을 크게 개선 가능한 점을 강조했다.
부팅 대응, 코프로세서가 아닌 Xeon Phi
내부 구조. 16GB의 메모리를 통합했다
현재의 Xeon Phi 라인업은 4가지로 최상위 7290은 최고의 성능을 발휘하기 위해, 7250은 전력 소비를 중시하며 성능을, 7230은 균형 잡힌 성능에, 가장 하위의 7210에 관해서는 Xeon과 가까운 가격을 실현. 고객마다 다른 요구를 충족 하도록, 각각 명확한 목적을 상정한 포진이 되었다. 각 CPU 모두 내장 메모리는 동일한 16GB이며, 외장 메모리 DDR4를 탑재 가능한 용량도 384GB와 동일이며, 이 점은 고객의 평가를 바탕으로 필요한 요구를 도입했기 때문이라 한다.
이미 Xeon Phi의 출하수는 3만 개를 넘었으며, Intel의 추산에 따르면 2016년 말까지 10 만개 넘는다는 예측이 나왔다고 한다. 세계 각지에서 채용이 진행되고 있으며, 일본에서는 쯔쿠바 대학 계산 과학 연구 센터와 도쿄 대학 정보 기반 센터에 의한 "JCAHPC"나 교토 대학 등에서 운용이 시작되고 있는 것 같다.
Xeon Phi 라인업
Xeon Phi 관련 시설
NVIDIA의 GPGPU에 비교해 Xeon Phi 장점
살레 씨는 Xeon Phi에서 기계 학습의 성과에 대해서도 설명. Xeon Phi 1 노드와 128 노드에서는 심층 학습인 AlexNet 토폴로지에서 트레이닝에 50배 이상 차이가 난다고 한다.
그리고 뉴럴 네트워크의 Word2Vec에 의한 처리를 Xeon Phi 7250과 NVIDIA Titan X와 비교하면, Xeon Phi는 노드 수가 증가해도 선형으로 처리 능력이 올라가는 반면, TitanX는 상승률이 낮은 점과 20까지 밖에 스케일 업 할 수 없는 것을 지적. 또 기계학습 k nearest neighbor algorithm에서 4 노드의 Xeon Phi가 4카드의 Titan Z에 2.1 배 이상의 성능 차이를 내는 것 등을 보였다.
1노드 비해 128 노드에서 50배의 성능
Word2Vec에서 Xeon Phi 7290과 TitanX 비교. Xeon Phi는 노드 수를 증가할수록 선형으로 성능이 늘어나기 때문에 초 병렬화의 장점이 있다
k 근방 법을 TITAN Z와 비교. 4노드의 Xeon Phi에서 4카드 TITAN Z에 2.1배 이상의 성능을 낸다
기계 학습에서 GPU보다 빠르고, 확장성이 높은 점을 강조
또한 살레 씨는 Pascal 등의 최신 GPU가 비교에 사용되지 않은 이유로 NVIDIA가 현재 공개적으로 공개하고 있는 데이터를 이용했기 때문이라며, Pascal에 비해 어느 정도의 차이가 나올지는 밝혀지지 않았다.
살레 씨는 GPGPU에 대한 Xeon Phi의 장점으로, 지금까지의 Xeon가 HPC 시장의 90% 이상의 점유율을 가지고 있으며, 근본적으로 소켓에서 부팅 가능하기 때문에, 환경 이행의 용이성이나 GPU 이상으로 대규모 병렬화로 성능을 올리는 것, PCI Express 병목 현상이 없는 것 등을 꼽았다.
이에 의해서, 운영 효율이 향상, 시스템의 성능도 상승, 소비 전력이 낮아지는 점을 어필. 또 내장 메모리를 갖추고 있는 것에 더해, 널리 유통되고 있는 DDR4 메모리도 사용할 수 있다. GPU에서 메모리를 많이 필요로 하는 경우는, CPU를 통해 메모리에 액세스하는 오버 헤드가 발생하는 등 GPGPU의 단점에 대해서도 언급했다. 이 밖에 FPGA도 갖추고 있기 때문에, FPGA에 필요한 특정 알고리즘에도 Xeon Phi로 대응 할 수 있는 등 유연성의 높이도, Intel만의 특색의 하나라고 설명했다.
Intel은 현재 HPC를 위한 오픈 소스 커뮤니티 "OpenHPC"를 전개하고 있으며, 오픈 소스의 심층 학습 프레임 워크에 최적화 된 라이브러리 등을 제공하며, 대응하는 프레임 워크 늘려 간다고 한다. 설명회에서는 Cafe에 최적화를 말했지만, 이 외에도 TensorFlow, Chainer에도 대응 해 나갈 예정이라고 한다.
오픈 소스 커뮤니티의 "OpenHPC '을 전개 중
오픈 소스의 심층 학습 프레임 워크 용 라이브러리의 제공 등을 행한다
살레 씨는 Xeon Phi를 통해서 HPC 커뮤니티의 발전에 전력해 간다고 Intel의 기계 학습에 대한 자세를 말해 주었다.
2016년 7월 14일 기사
[분석정보] Intel 서버 전략의 핵심인 Xeon Phi와 FPGA
[분석정보] 호모지니어스 구성이 가능한 신생 Xeon Phi 나이츠 랜딩의 강함
[분석정보] 인텔이 슈퍼컴퓨터 컨퍼런스에서 나이츠 랜딩을 정식발표
[분석정보] TOP 500 슈퍼컴퓨터 순위 2016년 6월
[분석정보] Intel 실리콘 포토닉스 광 트랜시버. IDF 16
[분석정보] 인텔 HPC 시스템 Scalable System Framework 소개
[제품정보] 후지쯔 Xeon Phi 프로세서을 탑재한 HPC용 x86서버 PRIMERGY CX600 M1을 발표