[분석정보] 호모지니어스 구성이 가능한 신생 Xeon Phi 나이츠 랜딩의 강함
긴 도움 닫기를 거쳐 마침내 정식 발표된 Knights Landing
Intel은 매니코어 프로세서 "Xeon Phi"의 신제품 "Knights Landing (나이츠 랜딩 : KNL)"을 공식적으로 출시했다. 1칩에 최대 72를 코어를 탑재, 각 코어가 512-bit 폭의 벡터 유닛을 2기 갖춰, 32-bit 단 정밀도 부동 소수점 연산에서 6TFLOPS 이상 성능의 CPU이다.
발표의 장은 6월 후반에 독일에서 개최된 "ISC (International Supercomputing Conference) 2016". Intel은 Knights Landing 기술 개요를 지금까지 단계적으로 공개했으며, 일부 얼리 고객에게는 제품을 제공했다. 그러나 제품으로의 정식 발표나 다양한 고객을 위한 발매는 행하고 있지 않았다. Intel의 Hugo Saleh 씨 (Director of Segment Marketing, DCSG Technical Computing Group, Intel)은 다음과 같이 설명한다.
Hugo Saleh 씨 (Director of Segment Marketing, DCSG Technical Computing Group, Intel)
"이번에는 Xeon Phi 공식적인 론칭이다. 결국 일반적인 가용성이 있음을 발표했다. 사실, Intel은 지난 몇 달 동안 얼리 고객에 Knights Landing을 제공해 왔다.하지만 조기 고객 요구도 강했기 때문에 그동안 Knights Landing은 늘 매진 상태였다. 조기 고객 중에는 탑 500 후보 시스템이 8개 포함되어 있다.
현재는 Knights Landing을 원하는 폭 넓은 고객에게 제품을 제공해 가는 것이 가능하다. 전 세계에서 올해 (2016년) 동안 10만개의 Xeon Phi 출하를 예상하고 있다. 이미 3만 4,000 ~ 3만 5,000 유닛은 고객의 곁에 닿아 있을 것이다. 조기 고객으로 부터 이미 의견이 있고, 높은 평가를 얻고 있다. 또한 OEM 및 ISV에서도 폭 넓은 지지도 받고있다. "
지금까지는 Intel과 협력하여 일부 슈퍼 컴퓨터센터 밖에 Knights Landing을 도입하지 못했다. 그러나 지금은 그 외의 HPC (High Performance Computing)의 고객이나 시스템 공급 업체가 Knights Landing 기반의 Xeon Phi를 주문할 수 있다. Intel은 최종 제품 사양과 SKU (Stock Keeping Unit = 아이템)도 밝혔다.
Knights Landing 제품 SKU
Knights Landing 파트너
"Knights Landing 제품은 4 SKU로 각각 패브릭 통합 버전과 통합하지 않은 버전이 있다. 최고 성능의 Xeon Phi 7290에서 좋은 가격의 Xeon Phi 7210까지 다른 성능과 전력, 가격의 조합 중에서 고르는 것이 가능하다.
한 가지 중요한 점은, 위에서 아래까지 16GB의 온칩 메모리를 유지한 것이다. 메모리 대역폭이 중요하다는 것을 이해하고 있기 때문에 거기에는 차이를 내지 않았다. 5,000 달러 이하의 저가격으로 싱글 Xeon Phi 노드의 개발자 시스템을 제공하는 것을 목표로 하고 있다 "(Hugo Saleh 씨)
Knights Landing은 온 패키지로 Micron Technology의 HMC (Hybrid Memory Cube) 기술을 기반으로 하는 광대역 메모리 "MCDRAM"을 탑재하고 있다. Intel의 SKU는 최상위 제품에서 다시 하위 제품까지, 이 MCDRAM의 양이 다르지 않다. DRAM의 데이터 전송율은 상위 3 SKU가 7.2Gbps인 반면 로우엔드 SKU는 6.4Gbps로 메모리 대역에는 차이가 있지만, 치명적인 정도의 차이는 아니다. (지금까지의 제온 시리즈는 4채널 이었지만, 메모리 대역폭을 위해서 나이츠랜딩은 6채널을 사용하며 최대 384GB DDR4 메모리 장착 가능. 메모리 모드는 1: MCDRAM 캐시모드, 2: MCDRAM + DDR4 플랫모드, 3: MCDRAM이 1과 2로 작동하는 하이브리드 모드로 사용가능)
아키텍처 일신으로 다시 태어난 Xeon Phi
Intel은 전 세대의 Xeon Phi "Knights Corner (나이츠 코너 : KNC)"를 HPC 시장에 투입했지만, HPC 시장을 석권까지에는 이르지 못 했다. HPC 시장에서는 여전히 GPU를 가속기로 사용하는 시스템이 눈에 띈다. Intel의 Hugo Saleh 씨는 이번 Knights Landing이 Knights Corner와 크게 다른 점을 강조, 더 우수한 제품이 되었다고 호소한다.
"Knights Landing에는 "처음"이 많다. 우선 Knights Landing은 처음으로 부팅 가능한 Xeon Phi다. 지금까지의 제온 파이나 가속기 처럼, 부트하는 호스트의 Xeon 프로세서를 필요로 하지 않는다. 또 HPC 패브릭을 통합한 최초의 제품이다 .Ethernet을 통합한 제품은 있었지만, Knights Landing의 경우는 HPC 패브릭이며, 여러 노드를 교차시켜 확장 시스템을 구축 할 수 있다. 게다가 Knights Landing은 광대역 메모리를 통합했다. 많은 애플리케이션에 제약이 되는 메모리 대역폭을 크게 넓히는 것이다.
성능도 매우 높다. 싱글 소켓에서 SPECfp_rate 2006 벤치 마크에서 최고의 기록을 가지고 있다. GPU 시스템에 비해서도 장점이다. 현행 GPU에 비해서는 생화학에서 5배, 시각화에서 최대 5.2배 (Kepler Tesla K80과 비교)의 성능 우위를 갖는다 "
부팅, HPC 패브릭 통합, 광대역 메모리의 통합이 Knights Landing의 큰 장점이라 Intel은 강조
NVIDIA의 기존 GPU와의 성능 비교
기존의 Xeon Phi (Knights Corner)와 GPU는 부팅하여 OS를 돌리기 위해 호스트 CPU를 필요로 한다. 반면 이번의 새로운 Xeon Phi (Knights Landing)는 스스로 부팅해서 스탠다드 OS를 실행시킬 수 있다. 이것이 이번 Knights Landing의 최대의 매력 포인트가 된다. Intel은 코 프로세서 형의 (기존과 같은 PCI-E 카드형) Knights Landing도 제공하지만, 주안점은 셀프 부팅형에 두고 있다.
스칼라 성능을 늘린 Knights Landing의 코어
Knights Landing이 부트로 되는 이유 중 하나는 각 CPU 코어의 벡터 성능뿐만 아니라 스칼라 성능도 올랐기 때문이다. Knights Corner의 스칼라 파이프는 Pentium 기반의 인 오더 실행 2-way 수퍼 스칼라였다. 그렇지만 Knights Landing은 22nm Atom (Silvermont) 기반의 아웃 오브 오더 실행 2-way 수퍼 스칼라가 되었다. 따라서 코어 당 단일 스레드 성능은 크게 늘었다. Intel은 3배의 스칼라 성능이라 설명하며, 호스트 OS를 달리게 하는 것에 견딜 수 있는 성능이다.
오른쪽이 Knights Corner의 CPU 코어, 왼쪽이 Knights Landing의 CPU 코어
Knights Landing 마이크로 아키텍처
또 다른 이유는 Intel의 메인 스트림 CPU와 명령 세트 호환이 된 것이다. 기존의 Xeon Phi (Knights Corner)에서는 스칼라 파이프의 레거시 명령 세트에도 차이가 있어 스칼라 코드도 재 컴파일이 필요했다. 그러나 Knights Landing에서는 레거시 명령도 호환되어, 레거시 바이너리가 원칙적으로 재 컴파일 없이 그대로 달리게 되었다. 따라서 OS도 그대로 부팅시킬 수 있다. 참고로 향후 Xeon은 512-bit 벡터 명령에 대해서도 베이스는 호환이 된다.
Knights Landing 과 메인 스트림 CPU의 명령 세트 비교
다음 Xeon은 AVX-512 명령도 기본은 호환이 되는
Intel의 AVX / SSE 레지스터 구성
성능에 관해서는 Intel은 신중한 비교를 하고 있다. 비교 대상으로 하는 것은, NVIDIA의 현재 HPC 전용 GPU 아키텍처인 Kepler 계. 그러나 실제 GPU 세대는 NVIDIA의 차세대 아키텍처 "Pascal"기반 "Tesla P100"와 Knights Landing은 부딪치게 된다. 이 부분은 Pascal P100이 본격적으로 등장해 오지 않을 경우 정확한 비교는 할 수 없을 것이다.
코 프로세서형 솔루션과는 다른 접근
GPU 시스템은 호스트 CPU 측에서 부팅해서 호스트 CPU 측에서 커널을 GPU에 다운로드 해서 실행한다. Intel은 GPU에 대한 Knights Landing의 장점으로 앞서 말한 셀프 부팅과 함께, Intel의 메인 스트림 CPU와 명령 세트 호환을 강하게 내세우고 있다. Intel은 이러한 특성 으로 Knights Landing이 진정한 범용 프로세서이면서 HPC 워크로드에 적응한 최초의 프로세서라고 설명한다.
"Knights Landing은 보기 힘든 종류인 것 (one of a kind)이 아닌, 지금까지 없었던 종류의 처음 (최고)인 (first of its kind) 프로세서이다. Knights Landing의 강함은 진정한 범용 아키텍처 이며, 많은 종류의 애플리케이션을 지원할 수 있는 점이다. 특정 용도로만 강점을 발휘하는 맞춤형 아키텍처와 큰 차이이다. 이 점에 관해서는, Intel 자신보다 당사의 고객이 증명해 주는 것이다.
특히 중요한 점은 Knights Landing이 자가 부트 가능한 Xeon Phi 인 것이다. Xeon Phi 자체로 부팅 할 수 있기 때문에 호스트가 되는 Xeon을 필요로 하지 않고, 단독 프로세서로 동작 할 수 있다. 이것은 사용 편리성 측면에서 매우 가치가 있다.
또 Xeon과 Xeon Phi 명령 세트의 호환도 중요하다. Xeon에서 달리는 어떠한 응용 프로그램도 Knights Landing 기반의 Xeon Phi 위에서 달린다. 자기 부팅과 명령의 호환성은 보조 프로세서나 가속기에서 실현 될 수 없는 것이다. 보조 프로세서형 솔루션과 비교하면 Knights Landing은 훨씬 간단하고 쉽다" (Hugo Saleh 씨)
바이너리 호환성과 스칼라와 벡터 양쪽의 성능 향상이 Knights Landing의 특징
Intel의 주장의 포인트 하나는 Knights Landing 이라면, 벡터 연산 워크로드와 스칼라 워크로드를 동일한 CPU 코어에서 실행 가능한 점이다. 더 폭 넓은 어플리케이션에 대응할 수 있다고 하는 것은, 벡터와 스칼라가 뒤섞인 어플리케이션에서도 성능을 발휘하기 때문이라고 추측된다.
또 GPU 프로그래밍의 장애물이 되는 최적화에 관해서도, Intel CPU 최적화 수법의 연장에 있는 Knights Landing이 유리하다고 Intel은 설명한다. Intel 메인 스트림 CPU와의 명령 세트 호환이 높은 것은 코드의 이식성 측면에서 강점이 된다. Xeon 시스템에서도 Xeon Phi 시스템에서도 거의 동일한 코드가 달리면, 바이너리 수준에서 코드를 가져갈 수 있다.
Intel은 메인 스트림 CPU와 Xeon Phi의 호환성 정도가 아닌, 미래적인 호환성도 중요하고, Intel은 그것을 지키는 것이 가능하다고 한다. HPC의 세계에 있어서도, 프로그래밍 노력을 중장기에 걸쳐 억제 할 수 있다면 이점이 있다는 주장이다.
명령의 호환성이 미래에 걸쳐 유지된다고 하는 Intel 슬라이드
다만 Xeon 측의 벡터 명령이 Knights Landing와 호환인 AVX-512이 되는 것은 내년 (2017년)의 Skylake 아키텍처베이스의 Xeon에 이르러서 부터다. 또한 "first of its kind"라고 표현하고 있는 것에서 Intel이 Knights Landing 아키텍처 노선으로 향후 Xeon Phi를 추진해 나갈 것을 알 수 있다.
Knights Landing을 평가하는 슈퍼 컴퓨터 센터
ISC16에 맞춰 Intel이 개최한 언론 라운드 테이블에서도, Knights Landing 파트너의 슈퍼 컴퓨터 시스템 담당자를 통하면, 호모 지니어스인 Knights Landing 시스템의 쓰기 쉬움을 평가하는 목소리가 높았다.
예를 들어, Xeon Phi 기반의 슈퍼 컴퓨터 "Stampede"로 알려진 Texas Advanced Computing Center (TACC)의 Dan Stanzione 씨 (Executive Director, Texas Advanced Computing Center)는 다음과 같이 말했다.
"3 ~ 4년 전에 Xeon Phi와 GPU 어느쪽이 뛰어난 가속기인가 논의가 있었다. 이때의 Xeon Phi는 아직 Knights Corner 으로, 일종의 가속기였다. 그리고 가속기에 의한 이기종 시스템에서는 CPU에서 가속기로 오프로드 해야 하며, 프로그래밍에 많은 복잡성을 반입했다.
그러나 이번 Knights Landing은 다르다. Knights Landing는 가속기가 아니라 (메인) 프로세서다. 그것도 엄청난 메모리 대역을 갖추고 있다. 미래의 프로세서는 이렇다고 우리가 생각한 듯한 프로세서다. Knights Landing의 균질성(호모지니시티)은 시스템을 심플하게 한다."
이 라운드 테이블에는 Knights 시리즈를 도입 또는 도입하려는 유력한 슈퍼 컴퓨터의 담당자와 연구자가 집합. Knights Landing의 장점을 말했다. 물론, 포인트가 되는 것은 왜 GPU가 아닌 Xeon Phi인가? 라는 점이다. Intel과 밀접한 Texas Advanced Computing Center (TACC)가 Knights Landing을 평가하는 것은 당연하지만 다른 라운드 테이플 출석자에게도 온도차는 있지만, 비슷한 의견이 나왔다.
"(슈퍼 컴퓨터) 목록에서 전력 효율이 높은 시스템은 현재는 GPU 다"(Rick Stevens 씨, Associate Laboratory Director for Computing Environment and Life Sciences, Argonne National Laboratory)라고 GPU의 장점을 인정하는 발언도 있었다. 그러나 코드를 GPU에 이식 최적화하는 노력 등을 생각하면, 종합적인 가치는 Xeon Phi에 있다는 목소리가 대세를 차지했다.
원탁의 모습
Intel이 꺼낸 해답은 호모제니시티의 중시
CPU는 65nm 공정 이후의 전력 효율의 제약 때문에 단일 쓰레드 성능과 동작 주파수의 향상이 느려지게 되었다. 따라서 HPC (High Performance Computing)와 같이 헤비 워크로드에 직면하고 있는 세계에서는 컴퓨팅 성능을 향상시키기 위해 프로세서 당 코어 수를 늘리고, 코어 당 벡터 연산 성능을 늘릴수 밖에 없게 됐다. 이것은 거의 업계의 공통으로 인식되고 있다.
과제는 병렬성을 늘리는 방법으로, CPU 코어를 매니코어로 하는, GPU를 범용 컴퓨팅으로 쓰는, FPGA (Field-Programmable Gate Array)를 도입 하는, ASIC (Application Specific Integrated Circuit : 특정 용도 주문형 IC)의 가속기를 개발하는, 등의 형태로 나뉜다. 그리고 병렬성을 추출하는 방법에 의해서 프로그래밍 모델도 나뉜다.
Intel이 Knights Landing에서 최종적으로 도달하는 해답은, 메인 스트림 CPU와 매니코어 CPU를 명령 호환하고, (2) 매니코어 CPU의 스칼라 성능을 저전력 메인 스트림 CPU 수준으로 끌어 올려, (3) 셀프 부트 가능으로 단독으로 동작 가능한 프로세서로, (4) 메인 스트림 CPU와 친화성 있는 최적화 수법이 통용되는 매니코어 CPU로 하는, 등의 방법이었다. 따라서 Intel은 Knights Corner에서 Knights Landing 으로는 CPU 코어 수를 늘리기 보다, CPU 코어의 성능 향상에 포인트를 뒀다. (나이츠 코너는 최고 제품이 62코어, 나이츠 랜딩은 최고 제품이 72코어)
결과적으로 이번에 GPU인가? Knights Landing인가? 라는 논의는 이기종 시스템으로 전력 효율을 추구하는가? 동종 시스템으로 시스템의 쓰기 쉬움을 우선하는가? 라는 방향성의 차이가 된다. Intel은 호모 지니어스의 장점을 평가하는 유저들에게 지지를 받고있다. 다만 Intel은 명령 세트의 통합에 의해서, Core i 브랜드의 대형 코어와 Knights Landing 계의 소형 코어의 반 이기종 구성도 가능하게 되었다.
이 논의는 목표 시장에 따라서 달라진다. HPC의 세계는 프로그래밍 기술이 높다. 그러나 기업과 클라우드 데이터 센터는 소프트웨어의 생산성이 HPC 보다 엄격하다. 그리고 지금은 딥 뉴럴 네트워크 (Deep Neuronal Network : DNN) 기반의 기계 학습을 위해 Xeon Phi나 GPU와 같은 시스템이 일반 데이터 센터에서도 강하게 요구되고 있다. Knights Landing의 장점은 이러한 시장에서 무기가 될 것 같다.
Insider Look: New Intel® Xeon Phi™ processor on the Cray® XC™ Supercomputer
Ninja Developer Platform Based on an Intel Xeon Phi Processor
Unified software defined solutions for HPC and data centers
Supermicro Showcases Intel Xeon Phi and Nvidia P100 Solutions at ISC 2016
Migrating Applications from Knights Corner to Knights Landing
SDSC Hosts Dell Supercomputing Resources to Advance Big Data Research
NERSC Pushes The Limits Of Discovery
Intel Xeon Phi at the Los Alamos National Laboratory
[분석정보] 인텔은 기계학습에서 패권을 잡는가?[분석정보] Intel 서버 전략의 핵심인 Xeon Phi와 FPGA
[분석정보] 인텔이 슈퍼컴퓨터 컨퍼런스에서 나이츠 랜딩을 정식발표
[분석정보] 명령의 실행 순서를 바꿔 고속화 하는 아웃 오브 오더
[분석정보] TOP500 슈퍼컴퓨터 순위 2016년 6월
[분석정보] 인텔 HPC 시스템 Scalable System Framework 소개
[분석정보] 2016년 (서버) 프로세서와 운영체제 동향
[분석정보] 매니코어 프로세서로 손바닥 슈퍼 컴퓨터를 실현
[정보분석] IDF 2011 Justin Rattner 기조연설 매니코어 시대가 다가옴 1/2부
[정보분석] IDF 2011 Justin Rattner 매니코어 시대가 다가옴 2/2부
[분석정보] Intel 48코어 매니코어 연구 칩 기술 공개
[분석정보] Intel 48 코어 IA 프로세서를 개발
[분석정보] 인텔이 추진하는 32코어 CPU Larrabee
[분석정보] Intel CPU의 미래가 보이는 80코어 TFLOPS 칩
[Research @ Intel 2011] 인텔 HD Graphics로 오픈CL 시현 및 저전력 회로 설계
[고전 2005.11.10] 보이는 인텔의 5~10년 후 CPU 아키텍처
[분석정보] 2010년 이후의 Intel CPU가 보이는 Larrabee 신 명령
[고전 2004.11.12] Many-Core CPU로 향하는 Intel. CTO Gelsinger 인터뷰 1/2부
[분석정보] GDC 2009 드디어 소프트 개발자 정보도 나온 "Larrabee"
[분석정보](암달의 법칙) 2010년대 100 코어 CPU 시대를 향해서 달리는 CPU 제조사
[분석정보] 메인 테마는 "신 아키텍처" ~ 매니코어의 메모리 기술을 공개
[아키텍처] 베일을 벗은 인텔 CPU & GPU 하이브리드 라라비(Larrabee)
[정보분석] 팀스위니 미래의 게임 개발 기술. 소프트웨어 렌더링으로 회귀
[분석정보] 정식 발표된 라라비(Larrabee) 아키텍처
[분석정보] 인텔 GDC에서 라라비 명령 세트의 개요를 공개
[분석정보] 다시 처음부터 시작된 라라비 무엇이 문제였나?
[분석정보] Intel의 Larrabee에 대항하는 AMD와 NVIDIA
[고전 2005.03.05] 2015년 컴퓨터 플랫폼 IDF Spring 2005
[고전 2004.11.30] 5W 이하의 저전력 프로세서의 개발로 향하는 Intel
[고전 2005.01.12] 암달의 법칙(Amdahl's law)을 둘러싼 Intel과 AMD의 싸움
[정보분석] 인텔 60코어 매니코어 "Xeon Phi" 정식발표
[분석정보] 인텔 슈퍼컴퓨터용 가속기 Xeon Phi 5110P 발표