벤치리뷰·뉴스·정보/아키텍처·정보분석

[분석정보] 인텔이 슈퍼컴퓨터 컨퍼런스에서 나이츠 랜딩을 정식발표

tware 2016. 6. 22. 18:30

 

슈퍼 컴퓨터 ISC 16을 첫선의 장으로 한 Intel


 Intel이 차세대 Xeon Phi 프로세서 "Knights Landing (나이츠 랜딩)"을 "정식"으로 발표했다. 1 칩에 최대 72 코어를 집적하고, 각 코어가 512-bit 폭의 벡터 유닛을 2기 갖추어 32-bit 단정밀도 부동 소수점 연산에서 6TFLOPS 이상, 64-bit 배정 밀도에서 3TFLOPS 이상을 낸다. 하이엔드 GPU에 필적하는 피크 성능의 차기 매니코어 프로세서이다. 제품 이름은 "Xeon Phi 7200" 패밀리가 된다.

 

http://ark.intel.com/ko/products/series/94177/Intel-Xeon-Phi-Processor-7200-Series#@Server

 

 

 

 

 

 

 

Knights Landing 패키지. 왼쪽이 일반 소켓 버전, 오른쪽이 패브릭 통합 버전

 

 

Knights Landing 웨이퍼

 

 

 

 Intel은 독일 프랑크푸르트에서 개최되는 슈퍼 컴퓨팅 컨퍼런스 "ISC (International Supercomputing Conference) 2016"에 맞춰 Knights Landing의 최종 제품 사양을 발표, 출하를 발표했다. 또 ISC에서 Intel의 Rajeeb Hazra 씨 (Vice President, Data Center Group / General Manager Enterprise and Government Group)가 특별 강연을 하고, Knights Landing (KNL)의 성능의 우위를 강조했다.

 

 

ISC16의 회장 Messe Frankfurt

 

 

Intel의 Rajeeb Hazra 씨 (Vice President, Data Center Group / General Manager Enterprise and Government Group)


Knights Landing은 Intel의 14nm 공정으로 제조되는 "MIC (마이크 : Many Integrated Core) " 아키텍처 CPU다. 매니코어 프로세서이기 때문에, Intel의 Core 및 Xeon과 비교하면 CPU 코어의 크기는 작다 (보통 같은 공정에서 코어 크기가 작으면 IPC가 낮다는 얘기가 되죠. 아키텍처 설계 사상에 따라 반드시는 아니지만요). 아웃 오브 오더 실행형 Atom 코어 "Silvermont (실버몬트)"를 기반으로 512-bit 폭의 벡터 유닛을 2개 갖춘 CPU 코어를 72 코어 집적한다.

 

 Intel의 메인 스트림 CPU 코어와의 차이는 CPU 코어가 상대적으로 작은데 벡터 연산 성능이 매우 높은 점. Atom을 기반으로 AVX를 대폭 강화한 CPU 코어이다. GPU와의 큰 차이는 GPU 코어는 단일 스레드 실행을 위한 스칼라 파이프가 없는 것에 비해, Knights 계 매니코어는 일반적인 CPU와 마찬가지로 스칼라 파이프를 갖춘 점. 따라서 보통의 CPU처럼 프로그램 할 수 있다.

 

 전 세대의 Xeon Phi 인 Knights Corner (K​​NC)는 Pentium (P54C) 계 파이프 라인을 기반으로 벡터 유닛을 1기 갖춘 코어였다. 반면 Knights Landing (KNL)은 스칼라 파이프와 벡터 파이프 양쪽이 강화 되었기 때문에 단일 스레드 성능도 크게 올랐다. Intel은 싱글 스레드 성능은 Knights Landing 세대에서 Knights Corner의 3배로 올랐다고 설명한다.

 

 

Knights Landing은 4 제품에 2가지씩의 변형

 

 Knights Landing 제품은 4 계열. 풀 스펙의 "Xeon Phi 7290"는 72 CPU 코어에 1.5GHz 동작, 온 패키지 메모리의 전송 속도는 7.2GT / sec, 오프 패키지 메모리 DDR4의 전송 속도는 2.4GT / sec가 된다. 계속 Xeon Phi 7250/7230/7210로 숫자가 작을수록 스펙이 떨어진다. Xeon Phi 7210에서는 64 코어 1.3GHz, 6.4GT/sec 온 패키지 메모리, 2.133GT/sec 오프 패키지 메모리이다. 가격은 Xeon Phi 7290의 6,254 달러에서 Xeon Phi 7210 2,438 달러까지의 폭이 있다.

 

 

Knights Landing 제품 패밀리


 TDP (Thermal Design Power : 열 설계 전력)는 최상위 Xeon Phi 7290이 245W이다. 나머지는 215W이다. 또 전 제품에 Intel 고속 인터커넥트 패브릭을 통합한 버전이 준비된다. 통상판은 부팅 가능한 소켓판 패키지로, 패브릭 통합 버전은 소켓에 패브릭 단자가 부속된 별도 패키지이다.

 

 중요한 점은 최상위부터 최하위까지 제품군에서 메모리와 메모리 인터페이스 지원이 같다는 점. 온 패키지 메모리는 16GB, DDR4는 384GB로 공통이다. 대형 다이의 CPU나 GPU에 볼 수 있는 메모리 인터페이스 유닛을 일부 해제한 제품의 차별화는 하지 않았다.

 

 

아키텍처가 완전히 쇄신된 Knights Landing


 Knights Landing의 CPU 코어는 2명령 디코드의 아웃 오브 오더 실행형 코어로 22nm의 Atom 코어 Silvermont를 기반으로 확장했다. 명령 디스패치는 정수 연산 2, 메모리 오퍼레이션 2, SIMD / 부동 소수점 (FP) 연산 2의 2 포트이다. 2 개의 벡터 유닛은 FP 유닛의 포트에 할당되어 있다. 최대 4개의 스레드의 인플라이트 실행이 가능한 4개의 스레드를 SMT (Simultaneous Multithreading) 기능을 갖췄다.

 

 

 

Knights Landing의 CPU 코어는 Intel의 최신 CPU와 명령 셋트는 거의 호환. 레거시 코드를 재 컴파일 할 필요없이 Knights Landing에서 그대로 달린다. 벡터 명령은 Intel의 SIMD 명령 AVX의 확장판의 위치인 "AVX-512"가 되어, 기존의 Knights Corner의 벡터 명령과는 다르다. 즉, Knights Landing에서 벡터 명령이 향후 Intel의 메인 스트림 CPU와 호환이 공유된다. Intel의 메인 스트림 CPU는 AVX-512는 Xeon 버전 Skylake (스카이레이크)에서 구현되지만, 차이가 있다. 공통인 AVX-512 명령과 MIC 아키텍처 계의 MIC-AVX512, Core 아키텍처 기반의 CORE-AVX512다. 이 차이에 관해서는, Intel은 컴파일러 옵션으로 대응한다.

 

 

 

 

 

 Knights Landing에서는, CPU 코어는 2코어가 엮여서 1MB의 L2 캐시와 온칩 인터커넥트를 공유한다. 온칩 네트워크는 2D 메쉬로, CPU 타일과 I / O 유닛이 타일 형태로 배치되어있다. 기존의 Knights Corner에서는 CPU 코어는 1코어씩 링 버스에 연결되어 있었다. 이번 Knights Landing에서는 메쉬를 논리적으로 분할하는 것으로, CPU 코어 수의 증대에 의한 내부 트래픽의 증대를 제어한다. (이전에 연구용 칩으로 개발한 48코어 IA CPU와 유사. 아래 링크 참고)

 

 

 

 

 

 

 Knights Landing은 온 패키지에 Micron Technology와 공동 개발한 광대역 메모리 MCDRAM을 탑재한다. 제품판에서는 MCDRAM의 메모리 용량은 16GB. 또 오프 패키지의 메모리로서 DDR4를 6 채널 접속 가능하다. 대역이 다른 2 종류의 메모리는, 3가지의 다른 모드로 제어가 가능하다. MCDRAM을 DDR4의 캐시로서 쓰는 "캐시 모드", MCDRAM을 DDR4와 같은 메모리 주소 공간에 할당하는 "플랫모드", 그리고 두 모드를 혼합한 "하이브리드 모드"이다.

 

 


 또 Knights Landing는 HPC (High Performance Computing)용 고성능 인터커넥트도 패키지에 통합한 버전을 준비한다. Intel이 개발한 "Omni-Path" 패브릭으로, 포트 당 25GB / sec의 대역폭으로 2 포트를 갖춘다. Omni-Path는 별도의 다이로, Knights Landing 본체의 다이는 2x의 PCI Express x16 레인 (총 32 레인)으로 연결되어 있지만, 장래는 CPU 다이에 통합한다고 한다.

 

 

 

 

엑사 스케일 시대를 대비한 Knights 계 아키텍처


 ISC 16에서 Intel은 "AI and more on IA" 라는 제목의 특별 강연을 Rajeeb Hazra 씨 (Vice President, Data Center Group / General Manager Enterprise and Government Group)가 진행했다. Intel은 현재 HPC (High Performance Computing) 업계가 타겟으로 하는 차 차세대 슈퍼 컴퓨터의 성능 범위 "Exascale (엑사스케일)"에 대해 언급했다. 현재의 슈퍼 컴퓨터는 1 시스템에서 100TFLOPS에 닿기 시작한 것으로, 다음의 큰 목표가 1ExaFLOPS (엑사 플롭스)가 된다.

 

 

 

 Hazra 씨는 Exascale의 컴퓨팅 성능이 필요한 예로서 자동 운전을 거론했다. 2만대의 차량을 1일 달리게하면, 인프라 스트럭처로 1ExaFLOPS의 컴퓨팅 양이 필요해 진다고 한다.

 

 

 

 그 위에, Hazra 씨는 엄청난 연산 능력을 필요로 하는 워크로드가 다양화되는 상황에 유연하게 대응하기 위해서는 단일 아키텍처 프레임 워크가 필요하다고 호소했다. Intel의 솔루션이 MIC 아키텍처인 Knights Landing 이라는 뜻이다.

 

 


 Hazra 씨의 강연 슬라이드에서는 Xeon Phi "코프로세서"의 "코"에 × 표가 붙여져, "프로세서 "라고 되어있다. 이것은 Knights Landing에서는 Xeon Phi 자체로 부팅해서 호스트 OS를 달린다, 단독 프로세서로 동작이 가능하기 때문이다. Intel은 셀프 부팅인 것을, Knights Landing의 큰 특징으로 강조한다. GPU나 가속기형의 호스트 CPU에서 제어하는​​ 프로세서와는 다른 모델이기 때문이다.

 

 

 

Intel의 MIC 아키텍처에서는 본래 CPU 코어의 스칼라 (scaler) 파이프 자체는 Intel의 x86 CPU 그것인 것으로, Xeon Phi 자체로 부트해서 단독 CPU로서 동작 할 수 있다. 그러나 전 세대의 Knights Corner (K​​NC)까지 스칼라 파이프는 Pentium 상당의 매우 낮은 성능의 코어였다. 따라서 실제로는 Xeon Phi 만으로 부트하고 작동시키는 것은 성능에 무리가 있었다.

 

 그러나 Knights Landing부터 스칼라 파이프는 최신 Atom 코어 Silvermont 기반으로 바뀌었다. CPU 코어의 명령 디코드 폭은, Knights Corner (K​​NC)도 Knights Landing (KNL) 같은 최대 2명령 / 사이클이다. 그러나 스칼라 파이프는 KNC 낡은 인 오더 실행에 얕은 파이프의 P54C 계에서, KNL에서는 아웃 오브 오더 실행에 깊은 파이프의 Silvermont 계가 되었다. 따라서 Knights Landing에서는 코어의 단일 스레드 성능이 극적으로 오른다.

 

 또한 Knights Landing에서는 CPU 코어의 레거시 명령도 완전게 호환이 되며, 벡터 명령도 AVX512으로 바뀌며, Intel의 메인 스트림 CPU와 거의 호환이 된다. Knights Landing에서는 Intel의 Xeon이나 Core 등의 메인 스트림 CPU와 같은 명령을 달리기 때문에, 소프트웨어 코드에 거의 손을 쓰지 않고 끝나게 된다.

 

 Intel은 과거 2세대의 MIC 아키텍처 Knights Ferry과 Knights Corner의 경험을 밟아서, Knights Landing을 배출했다. 아키텍처는 이전 2세대와는 크게 바뀌어, Intel의 목적도 더 명료해져 간다. Intel은 Knights Landing부터는 단독 프로세서로 동작 가능한 심플한 실행 모델을 GPU와의 차별화로서 내세우며, GPU가 강한 HPC 시장부터 HPC 화가 진행되는 향후의 데이터 센터로도 침투시켜 간다는 비전이다.

 

 

2016년 6월 22일 기사

 

 

https://youtu.be/7EFFxF6v6U8

 

 

 

https://youtu.be/r82IpLpVW7M

MCDRAM (High Bandwidth Memory) on Knights Landing

 

https://youtu.be/SRngMPyIjiw

Intel® Omni-Path Architecture: The Next Generation of HPC Fabric


 

https://youtu.be/sRjnxJBejWc

Optimizing Applications for CORI

 

 

 

요즘하고 똑같네...

 

[분석정보] 인텔은 기계학습에서 패권을 잡는가?

 

 

[분석정보] Intel 서버 전략의 핵심인 Xeon Phi와 FPGA

 

 

[분석정보] 호모지니어스 구성이 가능한 신생 Xeon Phi 나이츠 랜딩의 강함

 

 

[분석정보] 명령의 실행 순서를 바꿔 고속화 하는 아웃 오브 오더

 

 

[분석정보] TOP500 슈퍼컴퓨터 순위 2016년 6월

 

 

[분석정보] 인텔 HPC 시스템 Scalable System Framework 소개

 

 

[분석정보] 2016년 (서버) 프로세서와 운영체제 동향

 

 

[벤치리뷰] DDR4 4000 차이를 만드나

 

 

[분석정보] 매니코어 프로세서로 손바닥 슈퍼 컴퓨터를 실현

 

 

[정보분석] IDF 2011 Justin Rattner 기조연설 매니코어 시대가 다가옴 1/2부

 

 

[정보분석] IDF 2011 Justin Rattner 매니코어 시대가 다가옴 2/2부

 

 

[분석정보] Intel 48 코어 IA 프로세서를 개발

 

 

[분석정보] Intel 48코어 매니코어 연구 칩 기술 공개

 

 

[분석정보] 인텔이 추진하는 32코어 CPU Larrabee

 

 

[분석정보] Intel CPU의 미래가 보이는 80코어 TFLOPS 칩

 

 

[Research @ Intel 2011] 인텔 HD Graphics로 오픈CL 시현 및 저전력 회로 설계

 

 

[고전 2005.11.10] 보이는 인텔의 5~10년 후 CPU 아키텍처

 

 

[분석정보] 2010년 이후의 Intel CPU가 보이는 Larrabee 신 명령

 

 

[고전 2004.11.12] Many-Core CPU로 향하는 Intel. CTO Gelsinger 인터뷰 1/2부

 

 

[분석정보] GDC 2009 드디어 소프트 개발자 정보도 나온 "Larrabee"

 

 

[분석정보](암달의 법칙) 2010년대 100 코어 CPU 시대를 향해서 달리는 CPU 제조사

 

 

[분석정보] 메인 테마는 "신 아키텍처" ~ 매니코어의 메모리 기술을 공개

 

 

[아키텍처] 베일을 벗은 인텔 CPU & GPU 하이브리드 라라비(Larrabee)

 

 

[정보분석] 팀스위니 미래의 게임 개발 기술. 소프트웨어 렌더링으로 회귀

 

 

[분석정보] 정식 발표된 라라비(Larrabee) 아키텍처

 

 

[분석정보] 인텔 GDC에서 라라비 명령 세트의 개요를 공개

 

 

[분석정보] 다시 처음부터 시작된 라라비 무엇이 문제였나?

 

 

[분석정보] Intel의 Larrabee에 대항하는 AMD와 NVIDIA

 

 

[고전 2005.03.05] 2015년 컴퓨터 플랫폼 IDF Spring 2005

 

 

[분석정보] 2010년 Intel 아키텍처가 보였다

 

 

[고전 2004.11.30] 5W 이하의 저전력 프로세서의 개발로 향하는 Intel

 

 

[고전 2005.01.12] 암달의 법칙(Amdahl's law)을 둘러싼 Intel과 AMD의 싸움

 

 

[정보분석] 인텔 60코어 매니코어 "Xeon Phi" 정식발표

 

 

[분석정보] 인텔 슈퍼컴퓨터용 가속기 Xeon Phi 5110P 발표