벤치리뷰·뉴스·정보/아키텍처·정보분석

[분석정보] 인텔 최대 18코어 Haswell-EP Xeon E5-2600 v3

tware 2014. 9. 9. 20:00

 

DDR4 메모리를 지원하고 터보 부스트 및 가상화 기능을 개선 / 강화

 

 

 

Intel은 제품을 개발하는 파트너와 엔지니어를 위한 이벤트 "Intel Developer Forum (IDF)"를 9월 8일부터 샌프란시스코 컨벤션 센터에서 개최한다. 이에 앞서 이 회사가 지금까지 "Haswell-EP"의 개발 코드 네임으로 개발해온 서버 / 워크 스테이션용 프로세서 "Xeon 프로세서 E5-2600 v3" (이하 Xeon E5-2600 v3) 시리즈를 발표했다.

 Xeon E5-2600 v3는 데이터 센터 서버 시장의 핵심을 차지하는 2 소켓용 CPU로 기존 제품인 Xeon E5-2600 v2 (개발 코드명 : Ivy Bridge-EP)에 비해 CPU 코어가 최대 12-18로 메모리가 DDR3-1866에서 DDR4-2133으로 발전했으며, 새로운 256bit 폭의 정수 연산이 가능하게 된다 AVX2 명령어 세트를 지원하는 등 크게 진화하고 있다. 또한 IA 서버의 강점인 가상화 환경에서의 성능 향상이 실현됐다.

 


TICK-TOCK 모델 TOCK에 해당하는 Haswell-EP 대폭적인 개량이 더해져


 Xeon E5-2600 v3 서버 / 워크 스테이션용 마이크로 프로세서로 주로 2 소켓용으로 출시 된 제품이다.

 Intel의 서버용 제품은 여러 제품이 라인업 되었다. 미션 크리티컬 서버 전용으로 "EX"의 개발 코드 네임이 붙는 제품 (현행 제품은 Ivy Bridge-EX 브랜드는 Xeon E7 시리즈) 여기에 엔트리 서버용으로 Haswell이 전용​​ 된 제품 (브랜드 Xeon E3 1200 v3 시리즈) 등이 있지만, 이번 "EP"가 붙는 Xeon E5-2600 시리즈는 서버용 프로세서 중에서도 2 소켓 용이 된다. 현재 일본 서버 시장에서는 EP 제품이 절반 이상을 차지하고 있으며, 서버 시장에서 주력 제품이다.

 

Xeon E5-2600 v3 시리즈의 위상 서버 용으로는 주력 모델


 이번에 발표된 Xeon E5-2600 v3는 작년 (2013년) 발표된 Xeon E5-2600 v2, 그리고 재작년 (2012년)에 발표된 Xeon E5-2600 (개발 코드명 : Sandy Bridge-EP)의 후계가 되는 제품으로, 3세대 이전의 Xeon 5600 시리즈 (코드 명 : Westmere-EP)을 넣어 진화 점을 정리하면 표과 같다

 

[표1] EP 코드네임을 가진 Xeon의 각 세대 (인텔 자료를 정리)

브랜드
Xeon 5600

시리즈
Xeon E5-2600
Xeon E5-2600 v2
Xeon E5-2600 v3
개발 코드네임
Westmere-EP
Sandy Bridge-EP
Ivy Bridge-EP
Haswell-EP
출시년도
2010년
2012년
2013년
2014년
제조 공정
32나노
22나노
CPU 코어(최대)
6
8
12
18
다이 구성(코어수)
6
8
12,10,6
18,12,8
HT 지원
지원
LLC 캐시(코어당)
2MB
2.5MB
LLC 캐시 (최대)
12MB
20MB
30MB / 20MB / 15MB
45MB / 30MB / 20MB
코어 마이크로 아키텍처
Nehalem 세대
Sandy Bridge 세대
Ivy Bridge 세대
Haswell 세대
CPU 소켓
소켓 B

(LGA 1366)
소켓 R (LGA2011)
소켓 R3
(LGA2011 v3)
최대 소켓
2
최대 메모리 용량
288GB
768GB
1.5TB
메모리
DDR3-1333
DDR3-1600
DDR3-1866
DDR4-2133
메모리 채널 수
3
4
명령어 세트
SSE4.2
SSE4.2 / AVX
SSE4.2 / AVX2
QPI
2x 최대6.4GT/s
2x 최대 8GT /sec
2x 최대9.6GT/s
PCI-Ex
PCI-ex Gen2
(칩셋쪽)
PCI-Ex Gen3
PCI-Ex Gen3
PCI-Ex 레인수
36(칩셋쪽)
40
40
DMI
-
DMI / Gen2 (4레인)
칩셋
5500(Tyrusburg)
C600 (Patsburg)
C610(Wellsburg)

 

Intel 프로세서는 유명한 TICK-TOCK 전략에 따라 개발되고 있는데, 위와 같이 Sandy Bridge-EP와 Haswell-EP는 개선되는 부분이 많아지고 있다. 이것은 Sandy Bridge-EP와 Haswell-EP가 TOCK 세대임을(신 마이크로 아키텍처) 의미한다.

 

 CPU 소켓은 종전과 같이 2,011 핀 LGA2011 이지만, CPU 패키지는 대형과 소형의 2 가지로 해당 패키지의 차이를 흡수하기 위해 CPU 소켓은 기존의 Ivy Bridge까지의 Socket R에서 Socket R3 (LGA2011 v3라고도 함)로 변경 되었다. 지원 메모리 등도 다르고, 핀 배치 등도 다르다. 따라서 새로운 Socket R3의 메인 보드는 Xeon E5-2600 v2 및 Xeon E5-2600 등은 작동하지 않는다.

 

 

 

 

Xeon E5-2600 v3 시리즈의 패키지. 왼쪽이 다이 크기가 큰 SKU 패키지로,

오른쪽이 다이 크기가 작은 SKU 용 패키지

 

이에 맞춰 칩셋도 새로워졌다. Xeon E5-2600 v3 세대에 제공되는 것은 개발 코드 네임 Wellsburg (웰스버그)로 알려진 Intel C610 시리즈 칩셋에 새롭게 10 개의 SATA 6Gbps와 8개의 USB 2.0 + 6 개의 USB 3.0 등을 지원하여 기존의 Intel C600 시리즈 칩셋 (개발 코드 명 : Patsburg)에 비해 강화 되었다.

 

[표2] 인텔 C610과 인텔 C600 칩셋 비교

  Intel C600 시리즈 칩셋
Intel C610 시리즈 칩셋
개발 코드네임
Patsburg
Wellsburg
SATA 포트
12 x SATA 3Gbps
(중 2개가 SATA3로 사용가능)
10 x SATA 6Gbps(SATA3)
USB 포트
14 x USB 2.0
8 x USB 2.0 + 6 x USB 3.0
PCI-Ex
8x PCI-ex Gen2 (x1 구성만)
8x PCI-Ex Gen2 (x1,x2,x4 구성)
펌웨어
vPro,AMT,NM 2.0 DCM3.0
vPRO,AMT,NM 3.0 DCM 4.0,MCTP, Thermal / Airflow Telemetry, CUPS
소프트웨어 RAID
Intel RSTe 3.0
Intel RSTe 4.0
SMBus
6
6

 

서버의 경우, 스토리지는 SATA 연결 대신 SAS (Serial attached SCSI(Small Computer System Interface)) 연결인 경우가 많아 별도의 스토리지 컨트롤러를 PCI Express에 연결하는 것이 일반적으로 되어 있으며, 칩셋의 기능은 거의 사용되지 않는 경우가 많다 .

 그러나 이것과는 별도로 강화 된 부분으로, 섀시의 배기구의 온도, 공기흐름, CPU / 메모리 / IO 사용률 등을 펌웨어 수준에서 측정하는 기능이 SPS (Server Platform Services)의 새로운 기능으로 구현되어 있으며, 소프트웨어로 제공되는 "Intel 노드 매니저 3.0 '을 이용하면 서버 관리자는 하드웨어를 추가하지 않고 이를 확인할 수 있게 되어있다.

 


HCC (18 ~ 16 코어), MCC (12 ~ 6 코어) LCC (8 ~ 4 코어)의 3개의 다이를 준비


 Xeon E5-2600 v2 세대에서는 CPU 코어가 최대 12 코어인 제품을 준비했지만, 이번 Xeon E5-2600 v3에서는 최대 18 코어까지 지원한다. Xeon E5-2600 v2 세대는 12 / 10 / 6 코어는 3 개의 다이 구성을 준비했지만, 이번 세대에서는 18 코어 (HCC : High Core Count), 12 코어 (MCC : Mid Core Count), 8 코어 (LCC : Low Core Count)라고 하는 3 개의 다이를 준비한다.

 

[표3] Xeon E5-2600 v3의 다이 구성

다이 이름
링버스 수
홈 에이전트 수
코어 수
소비 전력
트랜지스터 수
다이 크기
HCC
4
2
18 ~ 14
145 ~ 110W
56억 9,000만개
662 제곱mm
MCC
3
2
12 ~ 6
160 ~ 65W
38억 4,000만개
492 제곱mm
LCC
2
1
8 ~ 4
140 ~ 55W
26 억개
354 제곱mm

 

 

 

제온 E5-2600 v3의 다이

 

다이와 코어 수가 일치하지 않는 제품은 3 개의 다이에서 일부를 해제하고 제공하기 때문이다. 그러나 단순히 해제하는 것은 아니고, 예를 들면 12 코어의 다이를 이용하여 6 코어 제품을 제공을 한다. 이는 Haswell-EP의 CPU 내부 구조가 18 코어 (HCC) / 12 코어 (MCC)와 8 코어 (LCC)로 크게 다르기 때문이다.

 Xeon E5-2600 v3는 기존 Xeon E5-2600 v2와 마찬가지로 여러 링 버스가 CPU 코어를 연결하지만, Xeon E5-2600 v2의 모든 코어를 연결하는 하나의 링과 코어를 2 개의 블록 로 나누어 각각을 연결하는 링 구조로 되어 있던 반면, HCC와 MCC는 2 개의 분리 된 링 버스가 각각의 코어를 연결하고 각각의 링 버스를 버퍼 스위치에 연결하는 형태가 되었다. 이러한 구조로 되어 있는 것은 디자인상의 이유이며, 버퍼 스위치가 사이에 들어가기에 몇 사이클의 패널티가 있지만 큰 영향을 미칠 정도는 아니라고 한다.

 HCC / MCC와 LCC의 또 다른 큰 차이점은 홈 에이전트라는 메모리 컨트롤러와 링 버스를 연결하는 컨트롤러가 HCC / MCC는 2 개 반면 LCC 하나만이 되는 점이다. 전자는 하나의 홈 에이전트에 2 채널 메모리 컨트롤러가 연결되어 총 4 채널이라는 구성되어 있으며, 후자는 하나의 홈 에이전트에 4 채널 메모리 컨트롤러가 연결된다. 홈 에이전트는 캐시 메모리가 탑재되어 후술하는 스눕을 보다 효율적으로 하는 구조로 되어 있으며, 2 개의 홈 에이전트가 있는 HCC / MCC 쪽이 내부 효율성 향상이라는 관점에서 유리하게 된다.

 또한, 프로세서 코어 자체는 클라이언트 용 Haswell과 똑같은 디자인이다. 분기 예측의 개선, TLB의 용량 업 실행 유닛의 증가 등으로 기존 세대 (Ivy Bridge 세대)에 비해 10%의 IPC 향상을 도모 할 수 있다. 또한 새로운 명령어 세트로 AVX2에 대응하고 새로 FMA (Fused Multiply Add) 명령, AVX 명령어를 이용한 256bit의 정수 연산에 대응하고 해당 응용 프로그램에서 사용하면 대폭적인 성능 향상을 실현 한다. 특히 HPC 용 연산 등에서 효과가 있다고 하며, 응용 프로그램의 종류에 따라 다르지만 1.25 ~ 1.72 배 정도의 성능 향상을 실현할 수 있다.

 

 

프로세서 코어 자체는 클라이언트 용 Haswell와 완전히 동일하게되어있다.

Ivy Bridge 세대에 비해 10%의 IPC 향상

 

 

AVX2와 새롭게 FMA 명령어가 추가

 

 

AVX2는 AVX 명령어를 이용해 256bit 정수 연산이 가능하게 된다.

 

 

새로운 캐시 스눕 방식이 되는 COD 지원


 새로운 스눕 모드의 지원도 개선 중 하나로 꼽힌다. 현대 프로세서와 같이 복수의 코어가 존재하는 경우에는 여러 개의 캐시가 데이터를 업데이트 할 때 최신 데이터에 액세스 할 수 있도록 데이터의 일관성을 유지할 필요가 있다. 이러한 일관성은 "캐쉬 coherency"라는게 있다. 이 캐쉬 coherency를 실현하는 방식으로 "스눕 (Snoop)"라고 ​​부르는 캐시 메모리 자체가 다른 캐시 메모리 및 업데이트 상태 데이터를 교환하는 방법이 있는데, Xeon E5-2600 v3에서는 이 스눕에 새로운 방식이 추가된다.

 

 

2 소켓의 Xeon E5-2600 v3의 MCC 이상의 다이는 COD 모드가 추가

 

 

홈 에이전트는 디렉토리 캐시가 내장되어있다

 

 

Xeon E5-2600 v3에는 3 개의 스눕 방식이 준비되어 있다. 표준으로 설정되어 있는 것은 "조기 스눕 "또는"소스 스눕" 이라는 캐시 에이전트가 스눕 신호 구조로, Xeon E5-2600에서 지원되는 방식이다. 이전 세대인 Xeon E5-2600 v2는 "홈 스눕 '방식 추가되어 전술 메모리 컨트롤러와 연결하는 부분이 홈 에이전트가 스눕을 보낸다.

 이에 비해 Xeon E5-2600 v3에서 추가 된 것이 COD (Cluster on Die)라는 방식으로 프로세서 내부를 두 개의 클러스터로 분할하여 2개의 홈 에이전트에 직접 리 캐시라는 14KB 캐시 테이블을 먼저 참조. 그래서 히트하지 않는 경우에만 홈 에이전트가 스눕을 수행하는 구조다. 그러면 LLC (Last Level Cache, L3 캐시의 수)의 적중률을 올리고 메모리 지연 시간 감소, 메모리 대역폭의 효율적인 이용도 실현할 수 있다.

 COD 모드를 이용하려면 홈 에이전트가 2 개 존재해야 하기 때문에 사용할 수 있는 것은 LCC와 MCC의 다이 Xeon E5-2600 v3 만 이다. 또한 클러스터는 기본 CPU 프로세서가 절반씩 되므로, LCC의 18 코어처럼 왼쪽의 링 버스에 8 개, 오른쪽의 링 버스 10 개와 비대칭이 있는 경우에는 왼쪽의 링 버스에 연결되어 있는 코어 중 하나만 다른 클러스터에 속하는 형태가 된다. 링 스위치에 의한 주기를 몇 패널티가 있지만, 전체적으로는 큰 성능 저하가 되지 않는다 Intel의 아키텍트는 설명하고 있다.

 또한 시스템이 얼마나 스눕 방식을 이용하는지는 시스템 측에서 명시적으로 지정해야 하며, 가동중에 전환하여 사용할 수 없다. 아마 BIOS 설정을 이용하여 관리자가 워크로드에 적합한 스눕 방식을 선택할 필요가 있다.

 


저전력 광대역이 된 DDR4 메모리 지원 최대 1.5TB까지 지원 가능


 Xeon E5-2600 v3는 해당 메모리에 관해서도 DDR3에서 DDR4로 변경되어 있다. DDR4는 DDR3 규격을 바탕으로 새롭게 규정 된 메모리로 DDR3와 비교하면 다음과 같은 차이가 있다.

 

[표4] DDR3와 DDR4의 차이


DDR3
DDR4
전압 (저전압 옵션)
1.5V (1.35V)
1.2V
프리페치
8bit
8bit
내부 뱅크
8
16
데이터 속도 (MHz)
800 / 1066 / 1333 / 1866
1600 / 1866 / 2133 / 2400 / 2667 / 3200
모듈 용량
512MB ~ 64GB
2GB ~ 128GB
DIMM 핀
240핀
288핀

 

 

DDR4를 채용하는 메리트. 전압이 저하하여 소비 전력이 감소하며 대역폭 증가

 

지금까지 메모리의 진화는 메모리 장치 내부의 셀에 액세스하는 프리 페치를 늘림으로써 실현왔다. DDR은 2bit, DDR2는 4bit, DDR3는 8bit로 배가 되는 것으로, 데이터의 전송 속도를 올려왔다. DDR4에서는 프리 페치 자체는 DDR3와 같은 8bit에 머물지만, 메모리 장치 내부의 셀 어레이가 DDR3는 8 개로 분할되어 있던 반면, DDR4는 16으로 분할되어 내부 데이터 전송 속도의 고속화를 도모하고 있다.

 프리 페치가 8bit로 머무는 것으로 DDR3에 가까운 비용으로 제조하는 것이 가능하게 되었으며, 양산이 진행되면 DDR3와 비슷한 비용으로 제조 할 수있게 될 것으로 보인다.

 DDR4의 큰 특징은 소비 전력을 크게 좌우 구동 전압이 DDR3의 1.5V에서 1.2V로 인하 된 점이다. DDR3는 DDR3L는 저전압 (1.35V)이 추가되었지만 그에 비해 낮아지고 있으며, DDR3L에 비해 약 20%의 소비 전력 절감이 기대된다.

 또한 새롭게 CA 패리티 모드 Write CRC, Connectivity 테스트 모드, MRS 리드 아웃 모드, 타겟 로우 리프레시, 포스트 패키지 리페어 등의 새로운 6 개의 RAS 기능이 추가되어 기존 DDR3에 비해 신뢰성이 향상 되었다. 예를 들어 포스트 패키지 리페어는 시스템을 종료하지 않고 손상된 오류를 수정할 수 있다.

 DDR4에서는 장치 단독으로 16Gbit (최대) 128Gbit (3D 스태킹시) 장치를 제조 할 수 있으며 향후에는 최대 1 모듈에서 128GB라는 메모리 모듈을 실현할 수 있다. 현재 64GB가 최대로, 64GB × 4 (채널) × 3 (채널당 슬롯) × 2 (소켓) = 1.5TB로 현재 1.5TB 메모리가 Xeon E5-2600 v3의 최대 지원 메모리 라는 계산이 된다. 미래에 128GB 모듈이 등장 마더 보드 측이 지원하면 최대 3TB의 메인 메모리로 구성 할 수 있을 것 같다 (사실 Xeon E5-2600 v2도 Intel의 공식 스펙은 768GB 까지지만, 마더 보드는 1.5TB 지원 제품도 있다).

 

또한, 모듈은 RDIMM (Registered DIMM)과 버퍼 들어간 LRDIMM (Load Reduced DIMM)을 지원하고 있으며, 사용자의 필요에 따라 선택할 수있다.

 또한, 각각의 채널에 구현 가능한 모듈의 개수는 메모리 장치의 동작 클럭에 따라 달라진다. Intel이 발표한 자료에 의하면 다음과 같이된다.

 

[표5] 메모리 채널당 DIMM 수와 클럭 주파수 설정

채널당 DIMM
DDR3 / 1.5V
DDR3L / 1.35V
DDR4 (RDIMM)
DDR4 (LRDIMM)
1
1866
1600
2133
2133
2
1600
1333
1866
2133
3
1066
800
1600
1600

 

RDIMM를 이용한 경우 DDR4-2133으로 이용하고 싶은 경우는 채널당 DIMM 수를 1 개로 할 필요가 있다. 버퍼 들어간 LRDIMM의 경우 2 개까지 가능해진다. 어쨌든, 채널당 3 DIMM 구성의 경우에는 RDIMM 이나, LRDIMM 이나 1,600MHz되어 버리기 때문에 최대 메모리 구성에서 사용하는 경우에는 메모리 대역폭이 약간 떨어진다. 이 부분은 대역폭 우선인지, 메모리 용량 우선인지 구성을 정하는 것이다.

 또한, 표는 DDR3시의 구성이 기재되어 있는 것은 사실 Xeon E5-2600 v3는 아키텍쳐 적으로는 DDR3 메모리에도 대응하기 때문이다. 이미 언급 한 바와 같이, DDR3 및 DDR4는 기술적으로 매우 비슷하며 특히 메모리 컨트롤러와 인터페이스는 동일한 단일 종단 / 소스 동기식으로 공통되어 있으며, 메모리 컨트롤러가 모두 지원하는 것은 가능하다 ( 공존 할 수 있다는 것은 아니지만 동일한 메모리 컨트롤러에서 마더 보드를 설계하는 단계에서 DDR3 및 DDR4를 전환 사용할 수 있다는 뜻이다).

 DDR3 및 DDR4는 DIMM 소켓의 핀 수가 다르기 때문에, CPU에 관해서도 마더 보드에 관해서도 DDR3에 특화 한 제품이 필요하게 된다. 이번 Intel은 공식적으로 발표하는 SKU는 모든 DDR4 대응하고 있으며, DDR3 대응의 SKU는 제공되지 않는다. 하지만 대규모로 도입하는 고객이 그것을 요​​구 하는 경우 DDR3 판을 준비하는 것은 기술적으로 가능하다. 현재 DDR3 모듈 쪽이 저렴하고 어쨌든 대용량의 메모리를 탑재하고 싶다는 요구라면 DDR3 쪽이 좋은 패턴도 생각된다.

 


IVR의 도입으로 코어와 언 코어의 주파수 / 전압 제어를 보다 유연하게 하는 것이 가능


 Xeon E5-2600 v3는 프로세서 코어뿐만 아니라 언 코어라는 프로세서 코어 이외의 부분도 강화 되었다. 특히 언 코어 관련 강화에서 눈에 띄는 것은 절전 기능의 강화이다.

 Xeon E5-2600 v3는 PCPS (Per Core P-States) 기능이 추가 되었다. 구체적으로는 프로세서 코어에서 각각의 코어마다 주파수 / 전압을 조정하는 기능이다. 예를 들어, CPU가 6 코어 있어도 단일 스레드 처리를 행하고 있을 때에는 하나의 코어만 이용되고 있다. 그때 그 이용되고 있는 1 개의 코어만 최대 성능을 발휘할 수 있도록 주파수와 전압을 올리고, 다른 코어는 낮은 주파수 / 전압 상태에 세워두면 불필요한 전력을 소비하지 않고 끝난다.

 

 

클라이언트판 Haswell에 도입된 IVR이 EP라인에도 탑재되고 있다

 

이러한 동작이 가능하게 된 것은 클라이언트의 Haswell에서도 도입 된 IVR (Integrated Voltage Regulator)이라는 패키지에 전압 변환기가 구현 되었기 때문이다. Xeon E5-2600 v2까지 마더 보드에 전압 변환기가 준비되어 있으며, 그것은 CPU가 필요한 여러 전압으로 변환하여 공급하는 구조 였다. 이것은 유연한 전압 제어가 어려웠지만, Xeon E5-2600 v3는 IVR이 도입 되었기 때문에 PCPS 같은 복잡한 제어가 가능하게 되었다.

 또한 기존에는 서버에서 130W 였던 TDP (열 설계 소비 전력)가 Xeon E5-2600 v3는 140W로 증가했다. 이것은 전압 변환기가 다이에 통합 되기 때문에 그만큼 메인 보드 측의 전력 소비가 줄어들었기 때문에 전체 시스템으로 증가한 것은 아니다.

 또한 언 코어의 Turbo Boost (열 리미트의 틈새를 이용하여 주파수를 일시적으로 끌어 올리는 기능)에 관해서도, IVR 도입으로 유연한 제어가 가능하게 되며, 구체적으로는 다음과 같은 제어가 가능하게 된다.

 

[표6] 터보 부스트 동작의 진화


Nehalem-EP /
Westmere-EP
Sandy Bridge-EP /
Ivy Bridge-EP
Haswell-EP
프로세서 코어
터보
터보
터보 / PCPS
언 코어

터보 (프로세서 코어와 동기화)
터보 (프로세서 코어와 비동기)

 

Nehalem-EP / Westmere-EP 세대 프로세서가 터보 모드로 움직이는 새로운 기능으로 추가되고, Sandy Bridge-EP / Ivy Bridge-EP 세대에서는 그 외에도 언 코어가 프로세서 코어에 동기화 터보 모드로 움직이게 되었다.

 이에 대해 현대에서는 새롭게 언 코어가 프로세서 코어에서 독립적으로 터보 모드로 움직이게 된다. 이렇게 하면 성능이 필요한 애플리케이션에 프로세서만 터보 모드로, 반대로 캐시와 메모리 효과와 같은 응용 프로그램은 언 코어만을 터보 모드로 제어가 가능하게된다 (물론 열처리에 여유가 있으면 모두 on 가능하다.).

 

 

AVX 베이스로 불리는 새로운 베이스 클록의 정의가 도입된다

 

 

AVX명령이 실행될 때 CPU는 AVX베이스에서 정의된 클록 주파수로 일시적으로 떨어지고 실행하고 실행 종료 후 원래의 기준 클록에 돌아간다.

 

 

AVX 베이스의 사고방식. 원래의 기준 클럭보다 낮게 AVX 베이스가 설정되어 있으며,

그래서 열 설계의 한계 범위 내에서 주파수가 올라가게 된다.

 

 

또한 Xeon E5-2600 v3에서는 Turbo Boost시 AVX 실행 정의가 추가되었다. AVX 연산을 행하고 있을 때에, CPU 내부의 연산 유닛의 이용률이 평소보다 높아지므로 소비 전력이 증가 할 수 있으며,이 경우 Turbo Boost를 유효화 하면 방열 용량보다 더 많은 열이 발생하고 서멀 스로틀링으로 클럭이 크게 저하되는 경우에 대처하기 위해서다.

 기본적으로 이러한 처리는 동적으로 하기 때문에 사용자가 특별히 신경 쓸 필요는 없지만, HPC에서 이용하​​는 경우에 AVX 등을 주로 이용하고, 또한 그러한 상황에서도 안정적인 성능을 얻고 싶은 욕구가 있다. 따라서 Intel은 Turbo Boost시 AVX 베이스 주파수를 정의하고, AVX 명령 실행시는 그 주파수를 일시적으로 낮추고 거기에서 열처리에 여유가 있는 경우 보통의 Turbo Boost 처럼 주파수를 올린다. (AVX 명령 실행 종료 후에는 정상적인 주파수로 복귀한다). 이렇게 함으로써, AVX 명령 실행시에도 최소한 AVX베이스 클럭으로 안정적으로 작동하는 것을 보장해 시스템 관리자가 성능 예측 값을 세우기 쉬워진다.

 또한 AVX가 아닌 경우에도 Turbo Boost 에 의해 클럭 주파수가 올라 발열이 증가하여 프로세서가 써멀 스로틀링 모드로 들어가 주파수가 베이스 주파수 보다 낮아져 결과적으로 성능 저하를 초래하는 경우가 특히 HPC 분야에 있다. 그래서 BIOS 설정 등으로 Turbo Boost시 오름을 제한하는 주파수를 설정하는 기능을 제공하고 Turbo Boost시 어느 정도의 혜택을 누리면서 HPC처럼 항상 풀로드로 움직이는 경우에도 성능의 저하를 초래하지 않도록 하는 것이 가능하게 된다. (AVX가 나오기 훨씬 전에, 인텔 CTO가 CPU에서 가장 온도가 높은 지점이(핫스팟) SIMD (SSE 시리즈,AVX 시리즈 등) 엔진 부분과 디코더 부분이라고 했습니다. 온도에 의해서 제한되는 성능(보통 클럭) 부분이 이런 핫스팟의 온도라고)

 

 

Turbo Boost시 클럭이 일시적으로 오름으로써, 프로세서 전체의 소비 전력이 너무 올라서 결과적으로 써멀 쓰로틀링 되어 성능이 저하되는 것을 방지하기 위해 미리 Turbo Boost시의 한계를 낮출 수 있다

 

 

VM Entry / Exit 절감과 노이지 네이버 검출 기능 등 가상화를 위한 확장


 서버의 세계에서는 가상화에 대응이 큰 관건이 되고 있다. IA 서버의 강점은 이러한 가상화 기술로 다른 서버용 프로세서에 비해 충실하다는 점에서 Intel도 그 강화에 주력하고 있는 부분이다. Xeon E5-2600 v3에서도 가상화 기술에 대한 지원은 강화 되었으며, 가상화 가속 기술 (VT-x)의 강화가 이뤄졌다. 이번 제품에서 구현된 VT-x를 위한 개선 사항은 VM entry / exit 레이턴시 감소, VMCS 섀도잉, EPT (Extended Page Table) 액세스 / 더티 비트에 대응, 캐시 할당 감시 기능 네가지가 있다.

 

 

VT-x 런타임 오버 헤드 감소가 매 세대 테마가 되어 점차 줄어들고 있다. 최근에는 서버에서 가상화가 진행되고 있기 때문에 이러한 성능 향상은 매우 중요한 요소

 

가상화 환경에서 게스트 OS에서 하이퍼 바이저 또는 호스트 OS로의 전환이 매우 빈번하게 행하고 있다. VM Entry / Exit는 단순하게 말하면 그 전환으로, VM Entry가 하이퍼 바이저 / 호스트 OS에서 게스트 OS로 전환, VM Exit는 그 반대의 전환이 된다. 대충 말하면, VT-x는 그 VM Entry / Exit를 소프트웨어에서 하는 것 보다 더 빠르게 하기 위한 기능으로, Xeon E5-2600 v3에서는 그 지연이 이전 세대보다 짧아졌다 (매 세대 개선 되고 있지만).

 

 

Nested VM시 VM Exit/Entry를 감소하는 것이 VMCS섀도잉

 

두 번째 VMCS 섀도잉은 Nested VM이나 Nested Virtualization 이라고도 하는 베어 메탈 하이퍼 서버 위에 베어 메탈 하이퍼 바이저를 싣는 형태로 가상화를 이용하는 경우 VM Entry / Exit를 줄일 목적으로 도입되는 기술이다 ​​(시스템 관리자가 실제 시스템에서 테스트 용 가상 머신을 달리게 하는 경우에 이러한 방식이 있다). 일반적으로 VMCS라는 원래의 베어 메탈 하이퍼 바이저에 있어 게스트 OS 및 VM Entry나 Exit를 교환하는 소프트웨어 레이어를 VMCS 섀도라 부르는 레이어로 이동해 VM Entry / Exit를 줄일 수 있게 된다. 원래 베어 메탈 하이퍼 바이저의 측면에서의 대응이 필요하게 되지만, Nested VM시의 성능을 향상 시킨다.

 

 

EPT 액세스 / 더티 비트에 대응. 역시 VM Exit / Entry를 줄이게 된다.

 

세 번째가 EPT (Extended Page Table) 액세스 / 더티 비트에 대한 대응이다. 이 비트를 하드웨어에서 사용하면 VM Entry / Exit를 발생시키지 않고 하이퍼 바이저가 게스트 OS의 메모리를 읽고 모니터링 할 수 있게 되어, VM Entry / Exit를 줄일 수 있다. 이쪽도 소프트웨어에서 구현될 필요가 있다. 또한 Intel에서는 VMCS 섀도잉, EPT 액세스 / 더티 비트의 기능에 어떤 베어 메탈 하이퍼 바이저가 대응 하는지는 밝히지 않고 향후의 대응을 기다려야 할 것이다.

 

 

캐시 모니터링 기능을 사용하면 노이지 네이버를 감지해 스케쥴링을 다시하는 것을 도와줄 수 있다.

 

그리고 마지막 캐시 모니터링 기능이다. 구체적으로는 하드웨어 기능을 통해 캐시 (LLC)를 점유하고 있는 하드웨어를 감지하고 우선 순위 부착을 행해, 우선 순위에 따라 스케줄링을 돕는다. 특히 가상화 환경에서는 노이지 네이버 (Noisy Neighbor)라는 캐시를 점유 해 버리는 VM이​​ 있으면, 캐시 미스가 빈발하고 전체 시스템 성능이 저하된다. 그래서 그러한 노이지 네이버를 검색하고 캐시를 해제하도록 스케줄링 함으로써 노이지 네이버의 영향을 최소화 할 수있다.

 

 

통신 사업자용으로 제공되는 SKU에서는 노이지 네이버를 몰아내고 최적화가 가능

 

다만 일반적인 SKU에 있는 것은 감지 및 스케줄링을 도우는 정도로, 실제로 캐시의 사용을 최적화하는 것 까지는 아니다. 그러나 통신 사업자 용으로 제공되는 SKU는 소프트웨어에서 제어를 통해 VM이나 어플리케이션이 어떤 부분의 캐시를 사용할지 여부를 제어 할 수 있다. 그러나 이것은 통신 사업자 등이 이용하는 실시간 OS에서만 이용 가능하다.

 


동시에 40Gb Ethernet XL710 발표


 Intel의 발표에 따르면 Xeon E5-2600 v3에서 제공되는 제품의 SKU와 가격 (천 개 로트시)은 다음과 같다. 2 소켓 대응의 Xeon E5-2600 v3와 1 소켓 대응의 Xeon E5-1600 v3에 각각 SKU가 준비되어 있다.

 

[표7] 2 소켓용 Xeon E5-2600 v3 SKU 구성과 가격

 

프로세서 번호
코어 / 스레드
베이스 클럭
터보
TDP
LLC
QPI
메모리
가격
(달러)
E5-2699 v3
18 / 36
2.3GHz
O
145W
45MB
9.6GT/s
DDR4-2133
미정
E5-2698 v3
16 / 32
2.3GHz
O
135W
40MB
9.6GT/s
DDR4-2133
미정
E5-2697 v3
14 / 28
2.6GHz
O
145W
35MB
9.6GT/s
DDR4-2133
2,702
E5-2695 v3
14 / 28
2.3GHz
O
120W
35MB
9.6GT/s
DDR4-2133
2,424
E5-2690 v3
12 / 24
2.6GHz
O
135W
30MB
9.6GT/s
DDR4-2133
2,090
E5-2687W v3
10 / 20
3.1GHz
O
160W
25MB
9.6GT/s
DDR4-2133
2,141
E5-2683 v3
14 / 28
2.0GHz
O
120W
35MB
9.6GT/s
DDR4-2133
1,845
E5-2680 v3
12 / 24
2.5GHz
O
120W
30MB
9.6GT/s
DDR4-2133
1,745
E5-2670 v3
12 / 24
2.3Ghz
O
120W
30MB
9.6GT/s
DDR4-2133
1,589
E5-2667 v3
8 / 16
3.2Ghz
O
135W
20MB
9.6GT/s
DDR4-2133
2,057
E5-2660 v3
10 / 20
2.6GHz
O
105W
25MB
9.6GT/s
DDR4-2133
1445
E5-2650Lv3
12 / 24
1.8GHz
O
65W
30MB
9.6GT/s
DDR4-2133
1,329
E5-2658 v3 (*1)
12 / 24
2.2GHz
O
105W
30MB
9.6GT/s
DDR4-2133
1,832
E5-2650 v3
10 / 20
2.3GHz
O
105W
25MB
9.6GT/s
DDR4-2133
1,167
E5-2648L v3(*1)
12 / 24
1.8GHz
O
75W
30MB
9.6GT/s
DDR4-2133
1,544
E5-2643 v3
6 / 12
3.4GHz
O
135W
20MB
9.6GT/s
DDR4-2133
1,552
E5-2640 v3 8 / 16
2.6GHz
O
90W
20MB
8GT/s
DDR4-1866
940
E5-2637 v3
4 / 8
3.5GHz
O
135W
15MB
9.6GT/s
DDR4-2133
995
E5-2630 v3
8 / 16
2.4GHz
O
85W
20MB 8GT/s
DDR4-1866 666
E5-2630L v3
8 / 16
2.4GHz
O
55W
20MB
8GT/s
DDR4-1866
612
E5-2628L v3(*1)
10 / 20
2.0GHz
O
75W
25MB
8GT/s
DDR4-1866 1,364
E5-2623 v3 4 / 8
3GHz
O
105W
10MB
8GT/s
DDR4-1866 444
E5-2620 v3 8 / 16
2.3GHz
O
85W
15MB
8GT/s
DDR4-1866 417
E5-2618L v3(*1) 8 / 16
2.3GHz
O
75W
20MB
8GT/s
DDR4-1866 779
E5-2609 v3 6 / 6
1.9GHz
-
85W
15MB
6.4GT/s
DDR4-1600 306
E5-2608L v3(*1)
6 / 12
2GHz
-
52W
15MB
6.4GT/s
DDR4-1866 441
E5-2603 v3 6 / 6
1.6GHz
-
85W
15MB
6.4GT/s
DDR4-1600 213

(*1) 통신 사업자 / 스토리지용 SKU

 

[표8] 1 소켓용 Xeon E5 1600 v3 SKU 구성과 가격

프로세서 번호
코어 / 스레드
베이스 클럭
터보
TDP
LLC
QPI
메모리
가격
(달러)
E5-1680 v3
8 / 16
3.2GHz
O
140W
20MB
n/a
DDR4-2133
1,723
E5-1660 v3
8 / 16
3GHz
O
140W
20MB
n/a
DDR4-2133
1,079
E5-1650 v3
6 / 12
3.5GHz
O
140W
15MB
n/a
DDR4-2133
584
E5-1630 v3
4 / 8
3.7GHz
O
140W
15MB
n/a
DDR4-2133
373
E5-1620 v3
4 / 8
3.5GHz
O
140W
10MB
n/a
DDR4-2133
295

 

또한, Intel은 Xeon E5-2600 v3와 동시에 40Gb Ethernet 컨트롤러 "XL710"(개발 코드 명 : Fortville, 포트빌)도 함께 발표했다. XL710은 10Gbps 혹은 40Gbps (양방향시에는 80Gbps)로 통신이 가능한 네트워크 컨트롤러로 PCI Express Gen3 x8 확장 카드로 제공된다. 40Gbps 또는 QSFP 커넥터와 대응한 케이블을 이용해 통신 가능하다. 지원 OS로 Windows Server 2012/2012 R2, Windows 2008 R2 x64, FreeBSD, Solaris, Linux RHEL / SuSE, Linux Kernel IB Free, VMWare ESXi 5.5 등이 있다.

 

 

40Gb Ethernet 컨트롤러 XL710 (개발 코드명 Fortville)

 

 

 

 

인털 이더넷 컨트롤러 XL710

 

Intel에 따르면 Xeon E5-2600 v3는 이미 OEM 업체에 출하가 개시 되었으며, 발표 후 곧 OEM 제조사 등에서 서버 제품 등에 탑재되어 출시 될 전망이다.

 

 

Xeon E5-2600 v3를 탑재한 블레이드 서버

 

 

최상위 SKU인 Xeon E5-2699 v3에서 Cinebench R15를 살행.

72개의 논리 CPU가 풀로드 되는 모습은 압권

 

 

시네벤치 R15를 멀티 쓰레드로 CPU만으로 연산한 결과 3896,

싱글코어는 115 이므로 무려 33.74배 물리코어는 36개 이므로 상당히 높은 효율이다.

 

http://youtu.be/mESRI_AmbiI

 

Cinebench R15 실행

 

 

2014년 9월 9일 기사 입니다.

 

 

[분석정보] TSX 대응으로 약 6배로 성능 향상된 Xeon E7 v3

 

 

[분석정보] Intel, 기간 서버용 CPU 신제품 Xeon E7 v3발표

 

 

[분석정보] 인텔 데스크탑 eDRAM 버전을 포함한 브로드웰 패밀리 설명

 

 

[분석정보] Xeon E5-2600 v3가 데이터 센터의 변화를 가속

 

 

[분석정보] 고밀도 서버 전용의 Atom을 대체하는 Broadwell 기반 Xeon D

 

 

[분석정보] 드디어 등장한 최상위 x86 서버 프로세서, 아이비브릿지 세대 제온 E7 v2 시리즈

 

[제품정보] NEC, 최신 Xeon과 독자 RAS기술의 기간 IA서버 NX7700x 발매

 

 

[분석정보] Intel, Ivy Bridge-EX Xeon E7 v2 패밀리.최대 15코어 CPU 메모리 용량은 최대 1.5TB

 

 

[제품정보] Supermicro 메모리 96개 탑재 가능한 Xeon E7-8800 v2 지원 시스템

 

 

[분석정보] 부드러운 데이터 센터를 만드는 Intel의 Software Defined Infrastructure

 

 

[분석정보] Intel이 ISSCC에서 15 코어 Ivytown과 Haswell의 FIVR 기술 등을 발표

 

 

[분석정보] 전환기를 맞이한 2014년 인텔의 서버 프로세서

 

 

[분석정보] 서버용으로 튠업 된 새로운 Atom C2000 시리즈

 

 

[분석정보] IDF13 San Francisco에서 보는 2014년의 서버용 프로세서

 

 

[분석정보] 가상화 시대의 네트워크? IDF 2009에서 해독

 

 

[분석정보] 이스라엘에서 발신되는 인텔의 차세대 CPU 기술

 

 

[분석정보] Many-Core CPU로 향하는 Intel. CTO Gelsinger 인터뷰 1/2부

 

 

[분석정보] 2016년 프로세서와 운영체제 동향

 

 

[분석정보] Intel 2 소켓용 Broadwell 프로세서 "Xeon E5 v4"