벤치리뷰·뉴스·정보/고전 스페셜 정보

[고전 2001.02.07] 인텔 폴락의 법칙이 등장 Intel 겔싱어 CTO의 ISSCC 강연

tware 2005. 9. 2. 03:00

 

마이크로 아키텍처의 비 효율성을 나타내는 폴락의 법칙

 "폴락의 법칙" 에 따르면, 프로세서의 다이 사이즈 (반도체 본체의 면적)을 2 ~ 3 배로 늘려도 성능은 1.5 ~ 1.7 배 밖에 오르지 않는다.

 

 Intel에서 새로운 법칙이 등장했다. 무어의 법칙을 이어 새로운 프로세서의 법칙이다. 2월 5일부터 미국 샌프란시스코에서 개최된 반도체 학회 "2001 ISSCC (IEEE 국제 고체 회로 회의)"의 키 노트 스피치에서 Intel의 팻 겔싱어 부사장 겸 CTO (Intel Architecture Group)가 새로운 법칙을 설명했다. 겔싱어 씨에 따르면,이 법칙은 Intel Microprocessor ​​Research Labs (MRL)의 프레드 폴락 (Fred Pollack) 디렉터 겸 Intel Fellow 가 찾은 것이라고한다. 이에 따르면 지금까지 Intel의 새로운 마이크로 아키텍처 프로세서는 이전 아키텍처 프로세서에 비해 동일한 공정으로 2 ~ 3 배의 다이 사이즈로 등장해 왔다. 하지만 성능을 말하면 이전 세대의 아키텍처에 대해 1.5 ~ 1.7배 밖에 오르지 않는다. 즉, 다이 크기의 증가분 만큼 성과는 오르지 않는다. 다이 크기와 성능의 관계는 대략 다이 크기의 제곱근 만큼 증가된다는 법칙이 있다고 한다.

 아래가 폴락 씨의 프레젠테이션 " New Microarchitecture Challenges in the Coming Generations of CMOS Process Technologies "에 있던 폴락의 법칙의 자세한 비교에 Pentium 4 부분을 보충한 것이다.

 

공정
예전 CPU
면적
새로운 CPU
면적
면적비
1.0μm
i386
6.5mm

(42.25 ㎟)
i486
11.5mm

(132.25 ㎟)
3.1
0.7μm
i486
9.5mm

(90.25 ㎟)
Pentium
17mm

(289 ㎟)
3.2
0.5μm
Pentium
12.2mm

(148.84 ㎟)
Pentium Pro
17.3mm

(299.29 ㎟)
2.1
0.18μm
(180nm)
Pentium III
10.3mm

(106.09 ㎟)
Pentium 4
14.7mm

(216.09 ㎟)
2

 

* 면적 부분의 수치는 변의 길이로 실제 면적은 이것의 제곱이다.

 


전력으로 보면 스칼라 프로세서가 가장 효율이 좋다

 확실히 폴락 씨의 지적대로, 세대마다 성능은 면적비 만큼 오르지 않았다. 감각적으로 제곱근 정도의 성능 향상이다.

 겔싱어 씨에 따르면, 지난 10년간, Intel은 CPU의 성능을 아키텍처에만 6배 높여 왔다고 한다. 늘어난 트랜지스터에서 파이프 라인을 깊게하고 아웃 오브 오더 실행, 투기 실행 등을 구현하고 성능을 높여왔다. 그러나 트랜지스터 만큼 성능은 올라가지 않았다.

 그리고 겔싱어 씨에 따르면, 이것이 프로세서의 큰 제약이 되고 있다고 한다. 즉, 트랜지스터가 늘어난 만큼 소비 전력도 늘어난 것 이지만, 거기에 합당한 성능이 오르지 않았기 때문에, 소비 전력당 성능은 악화되고 있다.

 겔싱어 씨는 그 예로 기본적인 스칼라 아키텍처와 슈퍼 스칼라, 그리고 아웃 오브 오더 & 투기 실행의 각각의 다이 크기 및 전력 성능을 비교한 그림을 보여 주었다. 이에 따르면 스칼라 프로세서의 다이 크기 및 전력 성능을 1로 했을 경우, 슈퍼 스칼라에서는 소비 전력은 약 5배로 성능은 약 2.5 배, 아웃 오브 오더 & 투기 실행은 소비 전력은 약 10배 성능은 4배가 된다고 한다. 즉, 성능 / 전력 비율은 스칼라 비해 슈퍼 스칼라에서 절반, 아웃 오브 오더 & 투기 실행에서 40% 정도로 떨어진다고 한다.


 즉, 극히 온순한 스칼라 아키텍처가 사실 가장 전력 효율이 좋은 아키텍처였던 것이다. Intel에 따르면, 이것은 지금까지의 아키텍처가 전력에 대한 성능의 효율을 고려하지 않은 것이었기 때문이라고 말한다. 즉, 소비 전력이라는 관점에서 보면 마이크로 아키텍처의 효율이 나쁘다는 것이다.

 

 

L2 캐시를 세대마다 두배로

 

 


 그러면 이 문제를 해결하기 위해 어떻게 해야 하는가? 겔싱어는 먼저 새로운 프로세서의 다이 크기를 이전처럼 늘리는 것이 아니라 일정하게 유지한 경우 어떻게 되는지 보여 주었다. 다이는 225 제곱 mm 정도 (Pentium 4 클래스)에서 주파수는 1.5 배 씩 세대마다 올라가는 것으로 계산했다고 한다. 그렇게 되면 소비 전력은 공정 세대가 진행됨에 따라 누설 전류가 증가 분도 있기 때문에 매우 급격히 올라 버린다. 차트에 따르면 다음과 같다.

 

공정
CPU
소비전력
전력밀도
0.13μm (130nm)
Pentium 5?
약 140W 정도
약 60W / 제곱 cm
0.10μm (100nm)
Pentium 6?
210W 정도
약 90W / 제곱 cm


 즉, 전력 밀도 (Power Density), = 열 밀도 100W / 제곱 cm 가깝게 된다. 이것은 지난회 칼럼에서 소개한 핵 반응로의 일보 직전이다.

 

 


 그러면, 다이 크기를 작게해 가면 어떻게 될까? 겔싱어 씨는 새로운 CPU의 소비 전력을 66W에 그치고 세대마다 1.5 배 씩 클럭을 상승 가정한 추정치도 보여 주었다. 이 경우, 다이 크기는 세대마다 약 25% 줄고, 트랜지스터의 증가는 세대마다 2 배가 아닌 50 %에 머물게 된다. 즉, 성능의 증가도 그만큼 억압된다. 그리고 전력 밀도를 말하면 이것은 당연한 이야기​​ 이지만 전혀 다르지 않다. 그래서 Pentium 6은 역시 핵 반응로에 가까워 진다. 0.05μm (50nm) 에 이르면 멜트다운 (핵발전소 노심 용해(융용) 이다.

 그래서 겔싱어 씨는 앞으로의 CPU 마이크로 아키텍처는 전력에 대한 효율을 높이지 않으면 안된다고 지적했다. 그것은 다음과 같은 같은 것이라고 얘기한다.


저전력 회로 설계
저전력의 마이크로 아키텍처 기술
멀티 스레딩
대용량 L2 캐시
멀티 CPU on-Die (칩 멀티 프로세서)
SIMD 명령 확장


 우선,이 중 가장 쉬운 것은 캐시 SRAM을 늘리는 것이다. 그것은 SRAM은 로직에 비해 10분의 1정도의 열 밀도로 누설 전류를 억제하기 쉽기 때문이라고 말한다. 겔싱어는 소비 전력을 일정하게 유지하는 상황에서, 세대마다 L2 캐시 용량을 배로 증가시켜 가는 시뮬레이션을 보여 주었다. 그 결과는 전력 밀도는 놀라울 정도로 내려간다. 예를 들면, 0.10μm (100nm) (Pentium 6?)에서 2MB를 탑재한다면, 35W / 제곱 cm로 절반이 된다. 그렇다고 하지만 이러한 방법으로 전력 밀도를 줄인 경우에는 다이상의 열 얼룩이 생겨서 그것을 해결하지 않으면 안된다. (실제 90나노 프레스컷은 2MB 까지 캐쉬를 가졌죠.)


 L2 캐시의 용량 증가는 향후 멀티 GHz 프로세서의 성능 향상을 돕는데도 쓸모가 있다. 그것은 이 페이스로 CPU의 코어 클럭이 올라 가면, 메모리 액세스의 패널티가 극단적으로 커지기 때문이다. L2 캐시 미스를 한 경우 페널티는 미래에는 1,000 클럭에 이르러, 인스트럭션 비용, 즉 메모리 액세스 대기가 없이 실행되는 명령 수는 수100에 이르게 된다고 얘기한다. 이 차이를 메우려면 L2 캐시를 늘리고 더욱 그 캐시에 효율적으로 프리 페치를 하는 것이 필요하다.

 그러나 Intel의 보이는 해결책으로 한층 흥미로운 것은 멀티 스레딩과 멀티 CPU on-Die이다. 이것에 대해서는 다음에 리포트하자.

 

2001년 2월 7일 기사 입니다.

 

 

[고전 2001.02.06] 2010년 CPU 전력은 600W?

 

 

[아키텍처] 폴락의 법칙에 찢어지고 취소된 테자스(Tejas)

 

 

[분석정보] 심플 코어로 향하는 차세대 CPU 아키텍처

 

 

[고전 2001.02.08] Intel은 멀티 쓰레드 CPU로 향한다. Intel 겔싱어 CTO ISSCC강연

 

 

[고전 2001.02.08] 서버용 CPU는 멀티 CPU 온 다이, PC용은 통합화? Intel 겔싱어 CTO ISSCC강연