벤치리뷰·뉴스·정보/아키텍처·정보분석

[분석정보] 왜 NVIDIA의 Maxwell은 28nm이고 Apple의 A8은 20nm 공정인가

tware 2014. 9. 22. 16:00

 

모바일 SoC가 20nm로 이전하는 한편, GPU는 28nm로


 풍악을 울리며 등장한 NVIDIA의 그래픽용 고성능 GPU "Geforce GTX 980 (GM204)"이지만, 그 제조 공정 기술은 기존대로 28nm 공정. Apple의 iPhone 6/6 Plus의 A8 모바일 SoC (System on a Chip)는 20nm로 이전했는데, 이시기의 NVIDIA의 GPU는 20nm로 이전하지 않았다. Maxwell GM204은 기존의 NVIDIA의 GPU가 채택해 온 TSMC의 "28HP" 공정의 상태이다. 따라서 GM204는 400 제곱 mm 가까운 대형 다이의 GPU가 된다.

 

 

Maxell의 다이 이미지. 정확한 다이 사진이 아니라 만들어진 이미지다

 

 

 

NVIDIA GPU의 다이 크기

 

 

 

40nm 이후의 GPU의 다이 크기



 예전에는 첨단 공정은 가장 먼저 GPU가 채택하고 있었지만, 지금은 완전히 모바일 SoC가 역전했다. Apple뿐만 아닌 Qualcomm도 20nm 칩을 이미 제조하고 있다. 더구나 이 최고 모바일 SoC는 NVIDIA의 퍼포먼스 GPU와 비교하면 첫 시기의 생산 개수가 훨씬 많다. 즉, 개수가 많아 제조량이 큰 모바일 SoC가 새로운 공정으로 이전하고, 개수가 적어 부담없는 퍼포먼스  GPU가 이전 공정에 머물고 있다.

 

 

Apple은 A8에서 20nm 공정으로 이전

 

 

 

TSMC의 공정 세대마다 공간 스케일링

 

 왜 이런 역전이 발생 했는가? 그 배경에는 몇 가지 이유가 있다. 물론, Apple의 iPhone 6/6 Plus 위해 TSMC의 20nm 생산 라인이 압박되어 있어, 타사가 라인을 취하기 어려운 사정도있다. 하지만 그 이상, GPU는 20nm 공정으로 이전하는 경제적인 이유가 적은 것이 중요한 요인이다.

 

 GPU의 경우 20nm 공정으로 이전해도, 당분간은 트랜지스터 당 비용이 내려가지 않는다. 그것은 웨이퍼를 처리하는 비용이나 새로운 공정 개발을 위한 비용이 20nm에서 올랐기 때문이다.

 

 이상적인 스케일링은, 웨이퍼 처리 비용을 상승시키지 않고 공정 노드를 이전시키는 것. 이 경우 웨이퍼의 비용은 동일, 트랜지스터 크기가 1/2이 되어 웨이퍼 당 트랜지스터 수는 2배가 되고 트랜지스터 당 비용이 2분의 1이 된다. 공짜로 2배의 트랜지스터가 입수, 무료 점심이 된다.

 

 

이상적인 반도체 스케일링

 


 사실, 지난 몇 세대에 걸쳐 웨이퍼 처리 비용은 계속 올라왔다. 처리 공정이 점점 복잡해져  왔기 때문이다. 그래도 CMOS 스케일링의 효과는 웨이퍼 당 비용 상승을 넘어, 트랜지스터 당 비용은 계속 떨어졌다.

 

 

웨이퍼 처리 비용의 상승으로 공정 이전의 의미가 희미가 희석


 그러나 앞으로 공정의 미세화로 웨이퍼 당 비용이 급상승하게 된다 스케일링이 커버 할 수 없게 된다. 만약 1세대 미세화로 웨이퍼 당 비용이 2배까지 늘어나면, CMOS 스케일링에 올려지는 트랜지스터 수가 2배가 되어도 비용 절감의 효과가 상쇄되어 버린다. 실제로는 거기까지는 오르지 않지만, GPU에서는 트랜지스터 당 비용이 이전 세대와 비교해서 크게 떨어지지 않고 있다.

 

 그렇게 되면, 동일한 정도의 트랜지스터 수의 GPU라면 미세화해도 비용이 많이 내리지 않는 것으로, 미세화의 의미가 없어진다. 그리고 트랜지스터 수를 배로 늘린 칩을 만들면, 다이 당 비용은 지금 보다 크게 늘어나는 것이다. 트랜지스터 비용이 오르더라도, 이익이 큰 고가의 칩은 어느 정도는 맞지만, 경제성이 중요한 미드레인지 이하의 칩은 미세화가 맞지 않게 된다.

 

 

미래의 반도체 스케일링

 

 GPU에서는 현재 이것에 가까운 일이 일어나기 시작했다. 따라서 GPU는 20nm 공정으로 이전해도 트랜지스터 당 비용은 당장은 별로 내려가지 않는다. 그러면 무리하게 20nm 공정으로  이전하고 다이 크기를 줄이기 보다, 28nm 그대로 다이를 대형화에서 제조하는 것이 경제적으로 유리하게 된다. 적어도 수율이 낮은시기에 무리를 해서 20nm 다이를 시작할 의미가 적다. 파운드리는 새로운 공정의 초기는 높은 요금 설정을 하고, 경쟁이 치열한 성숙한 공정은  요금을 인하하는 경향이 있기 때문에 이전 공정 쪽이 더욱 유리하다.

 

 이러한 사정은 GPU만이 아닌, 모바일 SoC에도 동일하다는 생각일지 모른다. 그런데 그렇지 않다. 20nm 공정에서 웨이퍼 처리 비용이 오르는 주원인은 배선층에 "더블 패터닝 (Double Patterning)"을 도입하는 것에 있다. "LELE (Litho-Etch-Litho-Etch)"에서 리소그래피 및 에칭을 2번 행하는 더블 패터닝에 의해, 백엔드 공정 처리량이 계속 떨어지기 때문이다. 그런데 더블 패터닝에 의한 비용 증가의 영향은 칩 종류에 따라 다르다. 이것은 배선층을 만드는 방법이 다르기 때문이다.

 

 

 

 

ARM이 2012 년의 ARM Techcon에서 보여준 LELE 더블 패터닝의 과제

 


모바일 SoC와 외장 GPU의 다른 사정


 GLOBALFOUNDRIES의 Subramani Kengeri 씨 (Vice President, Advanced Technology Architecture)는 5월 일본 방문시에 다음과 같이 설명했다.

 

"외장 GPU로 보면 1x의 가장 좁은 금속 레이어를 사용하고 있는 것이 6층에서 8층에 이른다. .20nm 공정에서는 이러한 1x 층은 더블 패터닝을 써야한다. 그에 비해서 모바일 컴퓨팅 제품은 1x를 사용 계층은 단 2 ~ 3 층이다. 더블 패터닝을 사용 층의 수는 외장 GPU에 비해​​ 모바일 컴퓨팅이 훨씬 적다. 따라서 비용에 관해서는 누구와 이야기를 하는가에 따라 이야기가 크게 달라져 간다. "

 

 GLOBALFOUNDRIES는 20nm에서의 비용 증가를 떠들고 있는 것은 GPU라고 지적하고 있다. 실제로 이 문제를 가장 소리높여 지적하고 있는 것은 NVIDIA이다.

 

 전형적인 모바일 SoC나 CPU는 20nm 공정에서도 더블 패터닝을 필요로 하는 최소 피치는 최하층의 M1 /​​ M2 / M3의 3층에 머문다. 모바일 SoC는 비용을 줄이기 위해, CPU는 저항이 적은 낮은 지연 배선하기 위해 좁은 피치의 배선층 수를 제한하고 있기 때문이다. 따라서 20nm 공정의 더블 패터닝에 의해서 백엔드 공정의 비용이 올라간다해도 3층 뿐이므로 영향은 어느 정도 한정된다.

 

 

모바일 SoC와 CPU와 GPU의 메탈 층 구성의 차이

 


 그런데 외장 GPU에서 더블 패터닝을 쓰지 않으면 안되는 금속 층의 수가 극단적으로 늘어난다. GPU 벤더는 공정 옵션이 허락하는 한 최소 피치의 층을 늘리는 경향이 있기 때문이다. 전형적인 GPU는 배선층 중 최하층에서 중층까지의 6층 정도가 최소 피치인 것이 많다. 극단적 인 경우는 8층을 최소 피치하는 경우가 있다고 한다. 따라서 GPU 쪽이 20nm 공정의 처리량 저하가 심하고 처리 비용이 크게 상승한다.

 

 

느리게 시작하는 20nm로 이전


 이러한 사정도 있어 GPU에서는 20nm 공정으로의 이전이 슬로우 페이스가 된다. 그 결과, GPU는 28nm 공정에 3년 동안 머물게 되어, 아키텍처 확장이 제약된다. NVIDIA의 경우는 원래 Maxwell에서 전력 효율을 높일 예정이었지만, 그것이 다행히 동일한 28nm 공정에서도 전력을 낮추면서 성능을 향상하는 것에 성공했다.

 

 

 

 

Maxwell과 이전 세대의 Kepler와 비교

 


 하지만 같은 공정에서 다이를 대형화해서 트랜지스터 수를 늘려야했다. 기존의 공정 미세화로 다이 크기를 일정하게 멈추며 트랜지스터 수를 늘린다는 GPU 진화와는 분명하게 다른 길을 걷고 있다. 아래는 AMD의 GPU에서의 공정 기술과 아키텍처 확장의 흐름인데, 28nm 공정에서 고생하고 있는 것이 나타난다.

 

 

AMD GPU의 공정 기술과 아키텍처

 


 덧붙여서, 이번 NVIDIA는 TSMC의 28HP 공정을 채택했는데, 더 고성능인 "28HPP"(차기 PS4 APU가 이것으로 보인다.)이나 고밀도 "28HPC" 저전력 "28HPM"(모바일 SoC 가 많이 채용하고 있다)를 채용하지 않은 이유는 모른다. 28nm 공정으로 간다면 기존 공정을 변경하지 않는 것이 모듈 유용면에서 용이하다고 판단했기 때문인지도 모른다.

 

2014년 9월 22일 기사

 

 

 

 

 

 

[분석정보] 반도체 공정 한눈에 알기 인텔의 14nm가 늦는 이유

 

 

[분석정보] 20나노 공정부터 앞으로 무어의 법칙의 의미가 없어지나? ~ 트랜지스터당 비용 상승

 

 

[분석정보] 엘피다 메모리의 한계는 DRAM 종언의 상징?

 

 

[분석정보] AMD Fab 36의 위험과 기회

 

 

[분석정보] 메가화 노선을 유지하는 인텔과 팹리스를 목표한 AMD

 

 

[분석정보] 반도체 제조사는 팹 리스화로 진행

 

 

[분석정보] 저전력 CPU 시장을 확대하는 Intel의 전략

 

 

[고전 2003.03.10] Fab에서 예측하는 향후 인텔

 

 

[고전 1999.10.21] AMD 독일 드레스덴의 Fab30 개소식을 개최

 

 

[분석정보] 새로운 공장 건설에서 보는 인텔의 Fab 변천

 

 

[분석정보] 인텔 하스웰 설계를 행한 마레이시아 제조 개발 거점을 공개

 

 

[고전 2001.01.11] Intel의 0.13μm 공정 P860/P1260에서 CPU는 어떻게 바뀌나

 

 

[분석정보] 광대역 메모리의 채용을 가능하게 하는 Intel의 새 패키징 기술 EMIB

 

 

[분석정보] 2015년 CPU Skylake 의 진화를 촉구하는 Intel의 14nm 공정

 

 

[정보분석] iPhone과 AMD와 게임기의 미래를 좌우하는 Common Platform 기술 로드맵