벤치리뷰·뉴스·정보/아키텍처·정보분석

[분석정보] 매니코어 프로세서로 손바닥 슈퍼 컴퓨터를 실현

tware 2013. 9. 11. 09:55

 

빅 데이터를 바꾼다! 제온 파이 탑재 서버의 가능성

 

최대 520 쓰레드를 1U 실현하는 빅 데이터 서버

 전회 설명한 것은 "더 큰 용량, 더 빨리"요구 사항을 충족하는 데이터 센터의 중요성이다. (전회 설명이 이런 변화의 흐름에 대해서 약간 설명한거라.. 크게 뭔가?? 는 없습니다.) 스마트 장치와 소셜 미디어의 보급 클라우드에 데이터 집약화, 다양한 데이터를 비즈니스에 적극적으로 활용하는 빅 데이터의 부상 등 현재 일어나고 있는 모든 트렌드가 데이터 양의 폭발적인 증가를 유발하고 있다. 또한 데이터가 방대하게 되어 가는 것은 데이터 용량뿐만 아니라, 자연스래 처리 능력이 필요하다는 것이다. 즉, 앞으로의 데이터 센터는 지금까지에 비해 현격한 차이의 용량과 처리 능력을 가진 "하이퍼 스케일 확장성"이 필요할 것이다.

 이러한 하이퍼 스케일의 확장성을 실현할 수 있도록, NEC가 타사에 앞서 개발한 것이 인텔의 "Xeon Phi 코 프로세서 제품군 (이하 Xeon Phi) '를 탑재한 멀티 코어 서버"Express5800/HR120a-1 "이 있다.

 

NEC의 Xeon Phi 탑재 매니 코어 서버 "Express5800/HR120a-1"

 


 Xeon Phi은 대규모 병렬 처리를 실현하는 HPC (High Performance Computing)를 위한 코 프로세서 유닛이다. 최대 61 개의 프로세서 코어와 로컬 메모리를 PCI 보드에 탑재, 메인 CPU에서 처리를 오프로드 하는 코 프로세서로 작동한다. 연산 능력과 메모리 용량에 맞추어 7100/5100/3100 3 개의 시리즈가 준비되어 있다.

 Express5800/HR120a-1는 2개의 인텔 Xeon 프로세서 이외에 이 Xeon Phi를 최대 2 개까지 탑재 할수 있다. Xeon Phi를 탑재하여 일반 서버의 약 10배 이상이 최대 520 스레드라는 대규모 병렬 처리가 가능하게 된다.

 멀티 코어 서버에서 어떤 혜택을 얻을 수 있나? 먼저 기존 대량의 서버에서 처리하던 시스템을 다중 코어 서버로 통합하여 서버 수를 대폭 줄이고 설치 공간 및 전력 소모를 크게 줄일 수 있다. NEC의 계산에서는 일반적인 2소켓 서버 120 대를 이용하고 있던 작업을 1 / 10의 대수로 행할 수 있다고 한다. 또한 설치 면적은 약 1 / 3, 소비 전력은 약 1 / 6로 감소 할수 있다. 또한 Xeon Phi을 채택에 의해 자체 개발환경 및 기술이 불필요 하므로 응용 프로그램의 이주 비용도 크게 절감하는 것이 가능하다.

 이러한 멀티 코어 서버의 적용 용도는 여러 가지 생각된다. 예를 들어, 오래된 영상 데이터를 복구 리마스터 처리 및 방대한 동영상 · 화상 데이터의 압축 및 변환, 촬영한 데이터와 일치하는 화상 검사 시스템 또는 감시 카메라의 영상을 바탕으로 화상 검사 시스템, 수상한 사람이나 위험물을 발견하는 지휘 보안 시스템 등이 예상된다. 대규모 병렬 처리 능력을 살려, 교육 기관 및 연구 기관에서 HPC 영역뿐만 아니라 일반 기업이 도입을 검토하는 빅 데이터 등의 처리를 보다 효율적으로 행할수 있는 셈이다.

1 테라 플롭스의 슈퍼 컴퓨터가 손바닥에


 원래 Xeon Phi 같은 다중 코어 프로세서는 클라우드의 다양한 워크로드에 최적화 된 CPU를 개발하는 과정에서 태어난 것이다. 인텔 클라우드 컴퓨팅 사업 본부 데이터 센터 사업 개발부 수석 전문가 타 구치 에이지 씨는 "연구 기관 및 서비스 제공 업체 등에서 시제품을 사용해 주신 결과, 대량의 데이터를 대규모 병렬 처리해 나가는 것에는 역시 매니 코어가 최적이라는 것입니다. 미래 엑사 스케일 HPC를 실현하기 위해서는 두 배의 전력으로 100배의 성능과 높은 성능을 얻을 필요가 있는 것도 인텔에게 큰 과제였습니다 "라고 개발 배경을 설명했다. HPC의 초 병렬 처리를 고려하여 개발된 인텔 최초의 MIC (Many Integrated Core) 아키텍처 프로세서가 Xeon Phi인 셈이다. (이하 연산 성능 표기는 배정밀도 기준 입니다 보통 그래픽 카드가 말하는 성능은 단정밀도 표기죠. 일반 그래픽 카드의 배정밀도 성능은 높아봐야 단정밀도의 1/4이고, 10~20대 분의 1 정도 성능이죠. 배정밀도 성능이 높은 GPU 카드는 초고가의 카드를 사야 하구요.)

 

인텔 클라우드 컴퓨팅 사업 본부 데이터 센터 사업 개발부 수석 전문가 다구치 에이지 씨


 Xeon Phi의 가장 큰 특징은 IA 아키텍처 프로세서가 그대로 멀티 코어화 된 것이다. 즉, 멀티 코어 CPU 인 Xeon 프로세서와의 본질적인 차이는 병렬도의 차이만. 따라서 동일한 명령어 세트로 그대로 스케일 할수 있다는 장점이 있다.

 이 특징은 개발 효율과 직결되어 있다. HPC 세계에서 GPU로 연산 처리를 분산하는 GPGPU가 인기를 끌고 있지만, GPGPU의 경우 CPU와 GPU에서 서로 다른 프로그래밍이 필요하게 된다. 병렬시키는 코드를 추출하여 GPU의 하드웨어에 의존한 언어와 도구로 프로그래밍 해야한다. 이에 비해 Xeon Phi에서는 Xeon과 공통의 프로그래밍 환경에서 보다 간단히​​ 처리의 (작업의) 초병렬화가 가능하다.

 

GPGPU (왼쪽)와 Xeon Phi (오른쪽)의 개발 효율의 차이


 "컴파일러가 똑똑하기 때문에, 처리를 여러 코어에 자동으로 할당해 줍니다. 사용자는 응용 프로그램에 간단한 명령 세트를 추가하는 것만으로 "초병렬 처리의 세계 "로 나아갈 수 있습니다."라고 다구치 씨는 어필 한다. 개발 환경은 물론 병렬도를 조사 분석기 및 쓰레드 검사기 등의 개발 지원 툴도 충실해 있다고 한다.

 다구치 씨가 "손바닥에 놓인 슈퍼 컴퓨터"라고 부르는 Xeon Phi 임팩트는 기존의 HPC 아니면 실현될 수 없었던 초병렬 처리를 쉽게, 게다가 값싸게 이용할 수 있다는 점이다. "Xeon Phi 단위 1개로 1테라 플롭스의 처리 능력을 손에 넣을 수 있습니다. 비싼 대규모 HPC 시스템이 없어도 "혁신"을 일으킬 것입니다"(다구치 씨) 라는 것으로, 초병렬 처리의 상품화에 기대한다.

 

 

단순히 Xeon Phi를 올렸을 뿐만이 아니다 "HR120a-1"

 이러한 Xeon Phi에 높은 기대는 탑재 서버의 제품화를 재빨리 진행한 NEC도 마찬가지. Express5800/HR120a-1 제품을 기획한 NEC 솔루션 플랫폼 총괄 본부 상품 마케팅 그룹 매니저 타가 아츠시 씨는 앞으로 데이터 폭발 사회의 도래할 때 이른바 이용되지 않은 데이터의 활용이 큰 과제로 온다고 지적했다.

 

NEC 솔루션 플랫폼 총괄 본부 상품 마케팅 그룹 매니저 타가 아츠시 씨


 타가 씨는 "기존에는 필요한 데이터만을 선별하여 처리 할 수​​없는 데이터를 버리고있었습니다."데이터 크기가 방대 너무 처리가 안된다." "처리되는 것도 시간이 오래 걸린다 " "지금까지 보다 처리가 복잡 " 이러한 빅 데이터 처리의 과제를 해결하고 새로운 부가가치를 낳을 수 있는 서버를 세상에 내보내고 싶다는 생각했습니다." 라고 Express5800/HR120a-1의 개발 배경에 대해 말한다. 이것을 실현하기 위해, Xeon Phi 등장 약 2년전 부터 인텔과 긴밀한 정보 교환과 제휴를 진행하고 맨 처음 매니 코어 서버의 개발 · 제품화에 도달한 것이다.

 1U 섀시 랙 마운트 서버인 Express5800/HR120a-1는 Xeon 프로세서 E5 제품군 2기를 탑재. DDR3-1600 ECC 메모리를 최대 512GB를 탑재 가능하며 빠른 10GBASE-T 네트워크 인터페이스를 표준으로 2개 탑재 (2CPU시에만 지원). 스토리지는 2.5 인치 SAS / SATA HDD 4대를 탑재하고 이외 Xeon Phi 전용 PCIe 슬롯 외에도 RAID 용 PCIe 슬롯도 준비했다. 전체적으로, Xeon Phi의 성능을 살리는 높은 성능의 하드웨어가 되고 있는지 알수 있다.

 Express5800/HR120a-1에서 중요한 것은 단순히 Xeon Phi을 올린 것만이 아니라는 점이다.

 실기를 보고 파악하면 결코 컴팩트는 말하기 어려운 Xeon Phi의 유닛을 1U 케이​​스에 들어있는 것에 놀란다. 그리고 실기를 열어 보면 그 높은 실장 밀도에 감탄한다.

 

Xeon 프로세서 × 2, Xeon Phi × 2 외에도 전원 및 인터페이스 등을 고밀도 실장한 Express5800/HR120a-1


 메인 CPU인 Xeon 프로세서 옆에 Xeon Phi 유닛이 각각 2개. 스토리지 베이와 16개 메모리 슬롯 외에도 서버용 전원도 제대로 2개 내장하고 있기 때문에, 틈새 같은 틈새는 케이스 전면 중앙 부분 밖에 없다. 이 작은 공간에 메인 CPU 냉각 팬을 배치해, 전면 흡기 · 후면 배기의 공기 흐름을 만들어 내고있는 셈이다. 타가 씨는 개발의 어려움에 대해 "외부 인터페이스를 탑재 공간을 확보하면서 CPU와 인터페이스의 물리적 거리도 최소화하도록 배선했습니다. 게다가, 메인 프로세서와 Xeon Phi 냉각에도 배려 해야하고, 고생했습니다 " 라고 말했다.

 

1U 섀시에 Xeon Phi를 2 기 탑재 가능

 

 

CPU와 인터페이스의 물리적 거리도 최단 설계


 또한 Express5800/HR120a-1는 I / O를 최적화하고 CPU와 코 프로세서를 균형있게 배치하는 것으로, Xeon Phi의 성능을 극대화하고 있는 것도 큰 특징이다. 구체적으로 PCIe3 x16 슬롯을 이용한 고속 I / 0 를 두 Xeon 프로세서 각각에 할당했다. "빅 데이터 처리를 수행하기 위해서는 외부와의 인터페이스가 중요합니다. 모처럼 Xeon Phi에서 대량의 계산을 해도 데이터 입출력이 따라 잡지 못으면 전체에서 파워를 발휘하지 않으므로 , HR120a-1은 매우 광범위한 I / O 대역폭을 확보하고 있습니다 "(타가 씨). 이 "대칭 구조"에 의해, I / O 대기 시간을 단축하고 대역폭도 확보하고 있다.

 

I / O 대기 시간을 단축하고 대역폭을 확보한 대칭 구조

 

 

Xeon Phi의 활용으로 실시간 초 해상 처리를 실현

 이러한 Xeon Phi 실력을 똑똑히 보여준 것이 Express5800/HR120a-1에 의해 처리의 대폭적인 고속화를 실현한 NEC의 "초해상 처리"의 사례다. 초해상 처리는 저해상도 영상을 고해상도 영상으로 변환하는 작업을 말한다. 주로 최신 고화질 TV에서 시청에 견딜 수 있도록 과거의 영상 데이터를 고화질화 하는데 이용하는 것으로, NEC에서도 방송국용 고도 초해상 처리 기술을 장기간에 걸쳐 연구,개발해 왔다.

 

저해상도의 영상을 HDTV를 위한 고해상도 영상으로 변환하는 NEC의 초해상 처리


 NEC의 초해상 기술은 여러 비디오 프레임을 영상내의 움직임에 따라 정렬하고, 그것을 겹쳐 고화질의 프레임을 생성한다. 일반적인 비디오 코덱에서 이용되는 픽셀 수준이 아닌 보다 미세한 서브 픽셀 수준에서 추정을 하기 때문에 고정밀도의 정렬을 실현할 수 있다. 한편, 서브 픽셀 수준에서 처리를 실현하기 위해 많은 계산을 필요로 하는 것이 큰 과제였다. 실제로 Xeon만을 탑재한 기존의 서버는 1시간의 입력 영상을 초해상 처리하는데 5 ~ 6 시​​간을 요하고 있었다고 한다.

 이 초해상 처리를 실시간으로 수행할 수 있게 한 것이 Express5800/HR120a-1이다. NEC 에서는 3명의 엔지니어가 Xeon 용으로 작성된 프로그램을 Xeon Phi를 탑재한 Express5800/HR120a-1 에서 움직이도록 바꿔, SD (표준 화질)의 영상을 실시간으로 HD (HD 영상)으로 변환하는 데모를 공개했다.

 

Express5800/HR120a-1을 이용한 초해상의 실시간 처리


 구체적으로는 프레임 간의 프레임을 분할한 블록간의 블록의 픽셀 사이 등 여러 수준에서 병렬화 하고 Xeon 및 Xeon Phi 코어 / 벡터 연산기에 각각 매핑했다. Xeon과 2 개의 Xeon Phi에서는 각각 1개씩 프로세스를 실행하고, Xeon 프로세스에만 사용자 페이스와 각 프로세스에 작업을 할당 디스패처를 탑재. 이 디스패처가 각각의 코어 성능의 차이와 병렬도를 고려하여 최적 처리를 할당하고 있다. 데이터 전송에 대해서도 계산 백그라운드에서 행할 수 있게 하고 전체 처리 시간에 영향을 미치지 않도록 했다.

 이러한 조정은 지금까지 몇 시간 걸리던 고해상도 영상으로 변환이 실시간으로 가능하게 되었다. 초당 30 프레임/초에 처리하여 1시간의 저해상도 영상을 그대로 1시간으로 고해상도화 할 수 있게 된 셈이다.

 

 

Xeon Phi 탑재 Express5800/HR120a-1에 의한 초해상 시위


 여기에서 포인트는 Xeon Phi에 최적화 하는 초해상 프로그램을 다시작성에, 겨우 1 개월 / 3 명으로 끝났다는 점이다. 이것은 NEC의 계산에 따르면, GPGPU를 사용한 유사한 개발에 비해 1 / 5의 개발 공정이 된다고 한다.

 

Xeon Phi 높은 성능과 개발 효율


 개발 기간이 단축 된 이유는 Xeon 용으로 병렬화된 소프트웨어가 그대로 Xeon Phi에서 작동하기 때문이다. 또 인텔 소프트웨어 개발 제품을 활용하여 신속하게 코드의 최적화를 도모할 수 있었던 것도 크다고 한다. "GPU는 움직이게 하기 까지 시간이 걸립니다만, 지금까지의 x86 개발을 손댄적이 있는 사용자라면 곧바로 사용할 수 있습니다. 그리하여 초병렬 처리를 도입하는 장벽이 매우 낮습니다." (타가 씨)라고 한다.

 하지만 NEC가 Xeon Phi에서 노리고 있는 빅 데이터 분야에서는 HPC와 같은 응용 프로그램의 초병렬 처리가 반드시 진행되고 있는 것은 아니다. 그래서 동회사는 어느 정도 병렬화된 응용 프로그램 작업을 여럿 실행하고 Xeon Phi의 연산 장치에 할당하는 미들웨어를 개발 중이다. 이것에 의해 사용자는 기존 응용 프로그램을 이용 충분히 Xeon Phi 대응하는 것이 가능해진다. 하드웨어뿐만 아니라 이러한 소프트웨어 측면에서의 개발 지원도 NEC만의 특징이다.

 Xeon Phi을 가장 먼저 탑재해, 하이퍼 스케일 시대에 맞는 컴퓨터 파워를 실현한 Express5800/HR120a-1. 그 압도적인 처리 능력은 기존 사업을 크게 바꿀 가능성을 가지고 있다고 할수있다.

 

 

[제품정보] NEC, 최신 Xeon과 독자 RAS기술의 기간 IA서버 NX7700x 발매

 

 

[분석정보] 4만 8000개의 제온파이로 중국 톈허2 세계에서 가장 빠른 슈퍼 컴퓨터

 

 

[분석정보] TOP500 슈퍼컴퓨터 순위 2013년 6월

 

 

[제품뉴스] Intel Xeon Phi 새로운 폼 팩터 채용 포함 5모델 추가

 

 

[정보분석] 인텔 60코어 매니코어 "Xeon Phi" 정식발표

 

 

[분석정보] 인텔 슈퍼컴퓨터용 가속기 Xeon Phi 5110P 발표

 

 

[분석정보] 메모리 기술 혁신이 컴퓨터 아키텍처의 변혁도 이끈다 Intel의 Rattner CTO가 보는 미

 

 

[분석정보] Intel, HPC 전용 보조 프로세서 Xeon Phi 2013년 1월부터 일반용으로 출시

 

 

[분석정보] IDF 2012에서 주목한 한가지, 매니 코어 "Knights Corner"

 

 

[정보분석] 엔비디아 세계 최다 트렌지스터 칩 GK 110 공개

 

 

[정보분석] IDF 2011 Justin Rattner 기조연설 매니코어 시대가 다가옴 1/2부

 

 

[정보분석] IDF 2011 Justin Rattner 기조연설 매니코어 시대가 다가옴 2/2부

 

 

[정보분석] 같은 무렵에 시작된 Nehalem과 Larrabee와 Atom

 

 

[분석정보] Intel은 Larrabee 계획과 아키텍처를 어떻게 바꾸나?

 

 

[분석정보] 다시 처음부터 시작된 라라비 무엇이 문제였나?

 

 

[분석정보] 라라비 (Larrabee)의 비장의 카드 공유 가상 메모리

 

 

[분석정보] 인텔의 스칼라 CPU + 라라비의 이기종 CPU 비전

 

 

[분석정보] Larrabee는 SIMD와 MIMD의 균형 - Intel CTO가 말한다.

 

 

[정보분석](암달의 법칙) 2010년대 100 코어 CPU 시대를 향해서 달리는 CPU 제조사

 

 

[분석정보] 인텔 GDC에서 라라비 명령 세트의 개요를 공개

 

 

[분석정보] GDC 2009 드디어 소프트 개발자 정보도 나온 "Larrabee"

 

 

[분석정보] 그래픽 및 DirectX 로드맵을 정리

 

 

[정보분석] Intel 힐스보로가 개발하는 CPU 아키텍처의 방향성

 

 

 

[분석정보] SSE와는 근본적으로 다른 Larrabee의 벡터 프로세서

 

 

[정보분석] 팀스위니 미래의 게임 개발 기술. 소프트웨어 렌더링으로 회귀

 

 

[분석정보] 정식 발표된 라라비(Larrabee) 아키텍처

 

 

[아키텍처] 베일을 벗은 인텔 CPU & GPU 하이브리드 라라비(Larrabee)

 

 

[정보분석] 암달의 법칙(Amdahl's law)을 둘러싼 Intel과 AMD의 싸움

 

 

[정보분석] 모든 CPU는 멀티 스레드로, 명확하게 된 CPU의 방향