[분석정보] Intel 서버 전략의 핵심인 Xeon Phi와 FPGA
Xeon Phi 기반 시스템 구축을 위한 레퍼런스 개발
Intel은 14nm 공정 세대의 새로운 멀티 코어 프로세서 "Knights Landing (KNL 나이츠 랜딩)"을 공식 발표했다. PCI Express 카드 기반의 코프로세서인 기존의 Xeon Phi (Knights Corner 나이츠 코너)와는 달리, Knights Landing은 자가 부트 가능한 메인 CPU의 버전이 투입 됐다. 또한 Knights Landing은 Intel이 개발한 HPC 패브릭 "Omni-Path"를 패키지에 통합한 버전이 제공된다.
Intel 확장 시스템 프레임워크 (SSF : Scalable System Framework)
Intel SSF 파트너
HPC 시스템의 구축을 용이하게 하는 Intel SSF
Intel은 Knights Landing 프로세서를 제공할 뿐만 아니라 시스템 구축의 기준이 되는 프레임워크도 제시한다. 호스트 CPU로서 부팅 가능하고, 패브릭으로 상호 연결 가능한 Knights Landing에 맞는 프레임워크이다. "Intel 스케러블 시스템 프레임워크 (SSF : Scalable System Framework)"는 Xeon Phi 시스템뿐만 아니라 Xeon Phi + Xeon 또는 Xeon 만의 구성도 포함한 시스템의 레퍼런스가 된다. Intel의 Hugo Saleh 씨 (Director of Segment Marketing, DCSG Technical Computing Group, Intel)는 다음과 같이 설명한다.
"10년 가량 전까지는, 슈퍼 컴퓨터라고 말하면 적용과 스케일이 어려운 것으로 악명 높았다. 고성능 시스템을 구축하거나 또는 하나의 시스템을 스케일 (업 또는 다운)하는 것은 매우 어렵다. 그래서 우리는 Knights Landing에서는 적용과 확장을 쉽게하는 SSF를 제공하기로 했다.
이것은 HPC 시스템을 쉽게 도입하거나 스케일 가능하도록 하는 프레임워크다. SSF를 사용하면, HPC 시스템을 간단하게 효율 좋게 쉽게 적용 가능하다. 중규모부터 소규모의 시스템의 경우에는 도입의 부담을 줄이고, 매우 좋은 솔루션이 될 것이다. 하지만 그것만이 아닌, HPC 업계의 큰 이름도 채용하고 있다.
SSF는 Broadwell 기반의 Xeon에서 설계를 시작해, Knights Landing의 Xeon Phi을 뒤에 더했다. 우리는 엔지니어링 노력을 들여서, Xeon Phi 및 Xeon의 양방, 또는 어디에서 구성하는 시스템의 프레임워크에 대해서 설계와 평가를 실시해 왔다. 양 프로세서 시스템에서 소프트웨어 호환성에 대해서도 검증을 하고 있다.
호환성은 다른 시스템 사이나, 다른 시스템 세대 사이에서도 계속 유지할 수 있도록 한다. 또 OEM 공급 업체에 제공하는 검증 도구를 개발해 왔다. SSF는 Intel이 권장하는 레퍼런스의 Xeon Phi 시스템 솔루션을 2 종류 연내에 제공할 예정이다. 벤더의 경우에는 시스템을 구축할 때 지침이 된다"
Hugo Saleh (Director of Segment Marketing, DCSG Technical Computing Group, Intel)
Knights Landing 다이
기계 학습을 목표하는 Intel
Intel은 Knights Landing (KNL)과 스케러블 시스템 프레임워크 (SFF)에서는, 특히 기계 학습을 목표로 삼았다. 그것은 기계 학습의 파이프 라인 전체에 대해 Intel의 접근이 유효하기 때문이라 한다.
"Xeon Phi와 Xeon에 대응하는 SSF는, 기계 학습에서도 강점을 발휘한다. 기계 학습의 경우에는, 인식 페이즈를 (트레이닝과) 같은 아키텍처에서 실현 가능하기 때문이다. 따라서 인식의 오류를 줄이는 것이 가능하다.
또 기계학습 알고리즘이 IA (Intel Architecture)위에서 스케일 가능한 것은, 기계학습의 연구에서도 강점이 있다. 예를 들면, 기계학습의 연구자가 자신의 노트북 PC의 단일 노드에서 움직이는 알고리즘을, 그대로 큰 시스템의 Xeon Phi 수백 노드에서 움직이는 것이 가능하다. "
Xeon Phi에서 기계 학습 훈련을 커버
기계 학습을 가속화하는 Xeon Phi
기계 학습 도구 / 라이브러리 등에도 주력
기계 학습에는 방대한 데이터부터 신경망을 학습하는 "트레이닝"의 페이즈와 트레이닝에 의해서 구축된 신경망 의해서 인식하는 "인퍼런스 (추론) "의 두가지 페이즈가 있다. 트레이닝에는 방대한 컴퓨팅 성능이 필요하며, Xeon Phi나 GPU 처럼 병렬 연산 성능이 중요하다. 그 반면 인퍼런스는 상대적으로 처리가 가볍다. Intel은 자사의 아키텍처 기원에는, 기계학습의 양 페이즈를 동종의 아키텍처로 통합하는 것으로, 기계 학습을 쉽게 높은 정밀도인 것으로 한다고 주장한다.
HPC용 기술이 기계 학습으로 데이터 센터에 유입
Intel이 HPC용으로 개발한 Xeon Phi에서, 기계 학습도 목표로 하는 것은 기계 학습이 급속히 부풀어 오르는 시장인 데다, 필요한 기술이 HPC에 가깝기 때문이다.
Saleh 씨는 "많은 사례에서 기계학습 알고리즘은 HPC 워크로드와 유사 기술, 유사 성능, 유사 확장성, 유사 대역을 요구한다. HPC와 기계 학습은 기술적으로 매우 가까다. 그 때문에 HPC용 자사의 SFF는 기계 학습에도 적용 가능하다고 생각한다.
기계 학습 자체는 클라우드 서비스 등에서 매우 중요해져 가고 있다. 그에 따라 현재 Intel은 기계 학습 시장에 초점 맞추고 있다. 기계 학습 도구나 라이브러리에 방대한 투자를하고있다 "고 말했다.
기계 학습이 필요로 하는 기술과 HPC의 친화성에 대해서는, 많은 HPC 관계자가 동의한다. ISC에서도 "Deep Learning goes HPC"(Janis Keuper, Competence Center High Performance Computing, Fraunhofer ITWM, Kaiserslautern, Germany)로 바로 정확한 제목의 강연을 했다.
현재의 "딥 러닝 (Deep Learning) "또는 "딥 뉴럴 네트워크 (Deep Neuronal Network)"라 부르는 기계 학습에서는, 고속 매트릭스 계산이나 고속 인터커넥트, 광대역 메모리 등이 필요하게 된다. 이들은 HPC 시스템이 추구해온 방향이다. 따라서 기계 학습은 HPC의 응용 분야의 하나로서 급속히 성장하고 있다.
그 한편에서, HPC 카테고리는 아닌 데이터 센터에서도 기계 학습을 돌리기 위해 시스템을 변혁하려고 한다. 그리고 기계 학습용 시스템을 구축하려고 하면, 기업 데이터 센터도 클라우드 데이터 센터도 HPC적인 기술로 향하게 된다. 바꿔 말하면, 기계 학습에 의해서. 지금까지 분리 되었던 HPC와 데이터 센터가 기술적으로 근접하고 있다.
Knights Landing은 GPU 클래스의 벡터 연산 성능, 광대역 메모리,
광대역 인터커넥트를 갖춘다
현재의 HPC 기술 트렌드인 벡터 프로세서 (Knights 나 GPU 등)에 의한 가속, 광대역 메모리, 광대역 패브릭, 노드의 확장성, 소프트웨어 인프라 스트럭쳐, 이들은 모든 기계 학습에 유용하다. 기계 학습에 의해서 지금까지 HPC의 세계에 갇혀 있던 기술이, 일반적인 데이터 센터에도 침투해 간다.
이 경향은 어제 오늘 시작된 것이 아닌, 빅 데이터가 외쳐지기 시작한 때부터 예언되었다. 빅 데이터의 시대에 이르면, 데이터 센터와 슈퍼 컴퓨터의 컨버전스가 일어날 것이라는 분석은 도쿄 공업 대학의 마츠오카 사토시 교수 등이 주장했다. 지금에는 그 인식은 널리 침투하고 있다.
슈퍼 컴퓨터와 데이터 센터의 컨버전스를 Intel도 상정
빅 데이터를 해석하는 기계학습에 의해서 돌파구가 열리면, HPC 용으로 지금까지 개발해온 기술이 더 넓은 시장으로 개방된다. 프로세서 비즈니스의 이야기가 되면, 더 고가격인 프로세서가 더 많이 팔리게 되고, HPC 측에서 보면 시장의 확대에 의한 비용 절감이 기대된다. 데이터 센터 측에서 보면 시스템의 대전환기다. Intel은 그러한 전개를 생각해서, Knights Landing을 홍보하고 있다.
Xeon Phi 패키지
웨이퍼
서식지를 분리하는 Xeon Phi와 FPGA 가속기
Intel은 기계학습 시대를 향해, 서버용 제품 라인업의 두께를 늘리고 있다. 멀티코어 Xeon과 매니코어 Xeon Phi에 더해서, FPGA (Field-Programmable Gate Array)도 Altera의 인수로 라인업에 더했다. 그러나 그 때문에, Intel의 전략은 지금 전혀 초점이 좁혀져 있지 않은 것이 된다.
프로그래머블로 하드 로직을 바꾸는 것이 가능한 FPGA는 원리적으로는 다양한 애플리케이션에 적용 가능하다. 애플리케이션에 최적인 로직을 하드웨어로 짜는 것으로 FPGA는 효율적으로 가속 가능하다. FPGA는 Microsoft가 데이터 센터에 기본 요소로서 조합한 것으로 주목도가 높아졌다. 그리고 애플리케이션을 가속하는 FPGA는 병렬성으로 가속하는 Xeon Phi와는 부분적으로 경합 할 것으로 보인다.
Saleh 씨는 Intel의 전략 속에서 FPGA의 위치부여에 대해 다음과 같이 설명한다.
"우리는 Xeon, Xeon Phi에 더해서, FPGA도 (서버용 제품의) 라인업에 갖추고 있다 .FPGA와 Xeon Phi는 공존해 간다. 애플리케이션 안에서 자주 쓰이는 특정 알고리즘을 FPGA에 가져가는 것으로, 성능을 대폭 올리기 때문이다.
업계에서는 전통적으로 ASIC (Application Specific Integrated Circuit : 특정용도 IC)가 가속기로서 쓰여 왔다. 맞춤형 ASIC을 설계 가능한 정도의 자금이 있고, 가속하는 알고리즘이 정해져 있으면, ASIC는 좋은 해결책이다. 그러나 기계학습 처럼, 알고리즘을 업데이트하지 않으면 안되는 경우는 FPGA 쪽이 적합하다. FPGA라면 유연성과 ASIC적인 성능을 양립 할 수 있다.
FPGA는 데이터 센터의 특히 클라우드형 서비스에서 도움이 될 것이다. 대규모 클라우드 공급자가 하나의 어플리케이션의 성능을 향상하고 싶을 경우이다. 그 어플리케이션에서 성능을 필요로 하는 특정 알고리즘을 FPGA에서 실행하면 전체 성능이 올라간다. FPGA는 기계학습 처럼 전문화 된 워크로드의 일부에서 큰 이점을 갖는 것이다.
그러나 현재에서 FPGA의 단점은 쓰는 것이 어려운 것이다. FPGA 프로그래밍에서는 통상의 코드를 작성하는 것이 아닌, VHDL (VHSIC Hardware Description Language) 등의 지식이 필요하기 때문이다. 그러나 일단 FPGA를 프로그램 해 버리면, FPGA에서 달리는 부분은 가속이 가능하다. 그래서 반복해서 사용되는 부분을 FPGA로 가져가는 것이 바람직하다. "
Intel은 Altera을 통합
이 설명에서 Intel에서의 FPGA 위치부여가 잘 보인다. FPGA 프로그래밍은 통상의 프로세서 프로그래밍과 달리 난이도가 높다. 프로그래밍을 용이와 하는 도구가 제공되고 있지만, 그럼에도 최적화에는 FPGA 하드웨어와 하드웨어 기술 언어에 대한 지식이 어느 정도 필요하다. 따라서 애플리케이션 로직을 전부 FPGA로 가져 가려고 하면 대단한 수고가 되어 버린다.
그러나 어플리케이션 중에서 특히 컴퓨팅 성능을 필요로 하는 특정 알고리즘 부분이라면 수고를 들여서 FPGA로 프로그래밍해도 합당하다. 병목이 되는 부분이 FPGA 하드웨어에서 실행되는 것으로, 성능이 대폭 오르기 때문이다. 그리고 FPGA라면 맞춤형 ASIC 처럼 칩 개발 비용을 들이지 않고 이용할 수 있다.
CPU로의 통합이 진행되는 Intel의 FPGA
Intel은 FPGA의 활용을 이처럼 보고 있다. FPGA는 범용으로 쓰이는 Xeon이나 Xeon Phi와는 서식지를 분리, ASIC을 대체한다는 구상이다. 프로그래밍의 어려움 때문에 FPGA가 Xeon Phi 처럼 프로세서로 대체해 가는 것은 없을 것이라고 본다. 물론 장기적으로는 그 상황도 바뀌어 갈 가능성이 있다고 시사한다.
"앞으로 몇 년 동안, 기술에 의해 FPGA 프로그래밍은 쉽게 되어가는 것이다. 현재의 문제도 경감되어 가는 것이다.
또 이와 함께 FPGA는 프로세서에 통합된 솔루션이 되어 간다. Intel은 2종류의 다른 FPGA 솔루션을 준비한다. 하나는 개별 FPGA로, Intel의 CPU 소켓에 장착 가능한 것으로, QPI에 의해 CPU와 연결한다.
또 하나는 FPGA를 Broadwell CPU와 함께 하나의 소켓에 통합한 제품이다. 프로세서와 FPGA가 하나의 패키지에 담겨진다. 이 FPGA 통합 버전은 아직 출시하지 않았지만, 개발 매체를 이미 고객에게 제공하고 있다. 두 가지 다른 솔루션을 다른 어플리케이션에 대해 준비하고 있다.
그러면 CPU와 FPGA를 같은 다이 (반도체 본체)에 통합하는 것은 어떤가? 그것에 대해서는 미래에는 많은 가능성이 있고, 우리는 다양한 조합을 예상하고 있다고 밖에 말할 수 없다" (Hugo Saleh 씨).
Intel은 작년 (2015년) FPGA 제조업체 Altera 인수 때에, FPGA를 CPU에 통합하는 솔루션을 제시하고 있다. Altera는 Intel CPU 소켓에 대응한 개별제품이 이미 제공하고 있었지만, Intel과의 통합을 의해서 CPU와 FPGA를 통합한 패키지 제품이 예고되어 있었다. Broadwell-EP과 통합한 제품에 대해서는 "Open Compute Project US Summit 2016 '에서 발표 되었다. 한층 그 앞으로는 CPU와 FPGA를 완벽하게 통합한 제품도 그리고 있다.
Intel이 Altera 인수시 나타낸 로드맵
Intel의 서버용 제품 포지셔닝
QPI 기반 개별 FPGA 솔루션
Intel은 특정 용도의 가속을 행하는 ASIC 형의 가속기에는 그다지 긍정적이지 않다. 그러나 클라우드 서비스 가장 큰 손인 Google은 기계학습을 가속화하는 전용 프로세서 "Tensor Processing Unit (TPU)"를 자체 개발하여 도입했다. 매니코어보다 한층 어플리케이션에 접근한 솔루션이다. 이러한 움직임은 어떻게 보고 있는가?
"먼저 일반론으로 말하면, 업계는 혁신을 계속 이어갈 것이다. 그리고 Google의 TPU에 관해서는 우리는 매우 맞춤화된 워크로드의 어플리케이션용이라 보고있다. 매우 ASIC 적인 접근이라고 생각한다.
물론 Google은 Intel에 있어서 가장 중요한 고객의 하나이며, 지속적으로 그들이 원하는 개혁에 맞는 것을 제공해 간다. 그들은 Xeon Phi도 가지고 있고, 우리가 협력 가능한 기회가 있다고 생각한다"
Google 애플리케이션 특화형 프로세서 TPU, Microsoft의 FPGA, 현재 데이터 센터는 아키텍처의 전환기에 있어, 크게 흔들리고 있다. Intel은 그 거센 파도를 복수의 솔루션으로 분산하는 것으로 극복하려 한다.
2016년 7월 6일 기사
[분석정보] 인텔이 슈퍼컴퓨터 컨퍼런스에서 나이츠 랜딩을 정식발표
[분석정보] 호모지니어스 구성이 가능한 신생 Xeon Phi 나이츠 랜딩의 강함
[분석정보] 14나노 공정 세대의 서버 CPU 브로드웰-EP의 모듈러 설계
[분석정보] Intel 2 소켓용 Broadwell 프로세서 "Xeon E5 v4"
[분석정보] 인텔 HPC 시스템 Scalable System Framework 소개
[분석정보] Larrabee를 2014년 메인 CPU로 통합까지 Intel의 전략
[분석정보] TOP 500 슈퍼컴퓨터 순위 2016년 6월