벤치리뷰·뉴스·정보/아키텍처·정보분석

[분석정보] Intel의 차세대 CPU 아키텍처 Core Microarchitecture

tware 2006. 3. 9. 18:30

 

세션에서 다른 다이어그램


 Intel이 차세대 CPU 마이크로 아키텍처 "Core Microarchitecture"의 개요를 공식적으로 밝혔다.

 

 아래가 Intel에서 정식으로 공개된 Core Microarchitecture의 블록 다이어그램 그림이다. 연산 유닛 배열에는 ALU 군이 3그룹과 로딩이 1, 스토어 유닛이 1의 합계 5 그룹이 나란히있다. 연산계 유닛은 3유닛 각각이 정수 연산 스칼라와 MMX / SSE 유닛을 포함, 부동 소수점 연산은 더하기 (FAdd)와 곱셈 (FMul)이 각각 다른 명령 발행 포트에 배치되어 있다. 분기는 왼쪽 첫번째의 유닛에만 구현되어 있다.

 

 

 

Core Architecture Block Diagram

 

 사실 이 그림은 7일 기사에서 보인 것과 구성이 다르다. 7일 기사에서는 IDF의 "Intel Multi-Core Architecture and Implementations"세션의 슬라이드에서 블록 다이어그램을 꺼냈는데, 그 구성이라면 FPU가 1 유닛 밖에 없고, 의문이 남는 구성이었다. 그러나 현지 시간으로 3월 7일에 Intel이 보도 관계자용으로 실시한 "Mobility Mega-Briefing"세션에서 다시 새로운 그림이 공개됐다.

 

 이 구성에서는 SIMD (Single Instruction, Multiple Data) 계의 부동 소수점 오퍼레이션이 강화되어 있어 매우 논리적으로 납득이 된다. SSE 계 명령도 128bit SIMD의 곱셈, 128bit SIMD의 덧셈, 128bit SIMD로드, 128bit SIMD 스토어를 병렬로 수행하는 것이 가능하게 보인다.  즉, SSE SIMD에서도 최대 4명령 병렬의 백엔드 대역을 가진 것으로 추측된다. FPU가 1기라면 어떻게 SIMD 곱셈과 SIMD 덧셈을 1사이클 스루풋으로 수행하는지 의문이었지만,이 구성이라면 각 유닛이 1 사이클 스루풋이라면 가능하다.

 

 Intel 모바일 계의 기술을 담당하는 Mooly Eden (무리 · 에덴) 씨 (Corporate Vice President & General Manager, Mobile Platforms Group)도 어제 게재한 다이어그램 그림은 "본 적이 없다"고 웃었다. 다른 사업 그룹이 주도하는 프리젠테이션이 되며 통일이 되지 않는 것 같다. 게다가 실제 IDF 세션에서는 한층 다른 다이어그램 그림이 나타났다. 그 그림은 ALU가 2개, FPU가 1개의 구성되어 있었다. 더 이상한 그림이 된 것이다. 이러한 혼란은 Intel의 내부에서도  "Core Microarchitecture"의 이해가 아직 침투되지 않는 것을 나타낸다.

 

 

Macro-Fusion은 비교와​​ 분기를 1개의 uOP로 융합

 

 Intel은 IDF 중에 Core Microarchitecture의 자세함을 조금씩 내놓을 예정으로, 내일 (3월 8일)은 기술적인 자세함이 밝혀질 예정이다. 오늘의 단계에서는 "Macro-Fusion"이라 부르는(전회 기사에서 Macro-OPs Fusion라고 쓴 것과 같은 기술) 복수의 x86 명령의 융합 기술의 일부나 명령 대역 등이 밝혀짐에 머문다. 그러나 현재 밝혀진 정도에서도 중요한 정보를 담고 있다.

 

 가장 큰 토픽은 Macro-Fusion의 내용이다. 이번에는 Macro-Fusion 에서는 x86 명령 중 비교 명령인 cmp 또는 test와 조건 분기 명령 (jcc)의 조합을 융합시키는 것이 밝혀졌다. 이전 기사에서 추측한 만큼 복잡한 융합을 행하지는 않는 것 같다. 이 두 명령은 명령 스트림 속에서 거의 확실히 이어진다. 따라서 융합시키려면 연속하는 2명령이 융합 가능한지 어떤지를 체크하면 좋다고 보인다.

 

 아래는 새로운 추정에 의한 Macro-Fusion의 흐름도이다.

 

 

Macro-Fusion 추정도

 

 먼저 Intel의 설명에 따르면, Core Microarchitecture는 x86 명령어를 6명령 페치 가능하다.  페치한 6명령은 인스트럭션 큐에 넣는다. 큐의 깊이는 알 수 없다. 큐에서는 최대 5명령이 명령 디코더에 보낸다고 Intel은 설명한다.

 

 그러나, 디코더는 4유닛 밖에 없기 때문에, 아무것도 하지 않으면 최대 4명령 밖에 디코딩 할 수 없다. 하지만 융합시킬 수 있는 x86 명령을 감지한 경우에는 그 명령 쌍이 1개의 디코더에 보내져 Macro-Fusion이 된다고 보인다. Eden 씨에 의하면 디코더에 넣기 전의 단계에서 Macro-Fusion이 결정 된다고 한다. 아마도 큐 속의 명령을 검사한다고 예상된다.

 

 디코더는 그림의 보이는 예 처럼 비교 명령과 조건 분기 명령을 1개의 내부 명령 (uOP)으로  융합시킨다. 지금으로는, 이 조합 밖에 나타나지 않았다.

 

 Intel에 의하면, 디코더에서 아래의 프론트 엔드의 대역은 4 uOPs / 사이클이다. 디코더에 x86 명령의 입력이 최대 5명령 이라는 것은, 동시에는 1조의 Macro-Fusion 밖에 할 수 없다고  추측된다 (다음 기사에서 정정 되는데 최대 2세트 까지 가능).

 

 uOPs는 스케줄러를 통해 실행 유닛 군에 발행한다. 아마 이 때에 비교 + 조건 분기의 uOP가 그대로의 단위로 1기의 ALU에 발행하는 것으로 보인다. ALU 측은 오퍼랜드를 비교하여 분기가 성립되면 점프하는 곳까지를 1 사이클로 실행하는 것으로 추측된다. 그렇게 되면, ALU 측에는 브랜치 유닛이 필요해져, 그렇다면, Macro-Fusion의 융합 명령 (Fused OP)은 죄측의 1번 연산 유닛에서만 수행 할 수 밖에 없게된다. 또한 만약 비교하는 오퍼랜드에 메모리  주소가 포함되어 있다면 그 부분은 로드 uOP로 분리되어 Fused uOP 보다 이전에 스케쥴 된다고 추측된다. 그렇지 않으면 데이터 로드 대기가 발생해 버리기 때문이다.

 

 Core Microarchitecture에서는 파이프라인 단수가 적기 때문에, 1스테이지의 레이턴시가 비교적 길고, 원리적으로는 실행 스테이지에서도 로직을 어느정도 복잡하게 하는 것이 용이하다. 따라서 이러한 구현이 가능하게 되었을지도 모른다.

 

 

최대 5명령 병렬 실행과 동등한 Macro-Fusion

 

 새롭게 판명된 Macro-Fusion이 나타내는 것은 이것이 추측한 것 처럼 명령 절감은 없는 것으로 보이는 것이다. 다만 uOPs 수를 줄이고, 실행하는 단계에서도 uOPs는 늘어나지 않는다. 따라서 실질적으로 1명령 만큼 줄어든다. 그런 의미에서 절감하는 기술이다. 반대로 말하면, Core Microarchitecture는 최대 5명령을 병렬 가능한 것과 같은 것이다.

 

 Intel은 비교와​​ 분기를 조​​합한 복합 명령을 명령 세트에 늘리는 선택 사항도 있었다. 그러나  그러면 기존의 코드에는 의미가 없으며, 명령 세트의 복잡성도 늘린다. 하지만 Macro-Fusion에 의해, 디코더의 단계에서 실질적으로 새로운 명령을 늘린 것과 같은 것이 생기면 얘기는 달라진다. 이것은 일종의 명령 세트의 가상화 말해도 좋을지도 모른다.

 

 이 밖에 오늘은 쿼드코어 "Kentsfield (켄츠필드)"를 포함, 각 CPU의 실물이나 동작 데모도 공개했다. 쿼드코어 CPU는 데스크탑의 Kentsfield, DP (Dual-Processor)의 "Clovertown (클로버타운)" 거기에 MP (Multi-Processor)용 Tigerton (타이거톤)으로 보이는 Clovertown-MP로 라벨 붙은 CPU 3종류. 모두 2개의 CPU 다이 (반도체 본체)를 조합한 멀티 다이 패키지로 되어 있다.

 

 이 때문에 2007년의 MP 서버용 칩셋 "Clarksboro (클락스보로)"는 4개의 FSB (Front Side Bus)를 갖추는 것을 알 수 있다. 1개의 MCH에 4개의 FSB를 구현하는 것은 불가능하기에 실제로는 2개의 MCH를 어떤 광대역 포트로 연결, MCH 2개에서 4 FSB를 실현하는 것으로 보인다.

 

 

Clovertown과 Kentsfield

 

 

 65nm 제품의 코어

 

2006년 3월 9일 기사

 

[고전 2005.08.25] Intel이 차세대 마이크로 아키텍처 CPU를 공개

 

 

[분석정보] 차세대 CPU Conroe의 내부 구성이 명확히

 

 

[분석정보] 명확해진 Core Microarchitecture

 

 

[아키텍처] Core Microarchitecture 속도의 비밀은 CISC의 아름다움

 

 

[벤치리뷰] 인텔 코어2 듀오 제국의 역습