[분석정보] Intel의 "Kaby Lake"는 "+" 공정 세대 첫 CPU
공정 기술이 14+로, 미디어 처리가 고정 기능 유닛으로
Intel의 신 CPU "7세대 Core 프로세서 (Kaby Lake)"에는 중요한 포인트가 2가지 있다. 하나는 세컨드 버전의 14nm 공정 "14+"에서 제조된 점, 또 하나는 고정 기능 유닛을 강화한 점. 모두 현재의 공정 기술의 상황을 반영했다.
Kaby Lake는 기존의 Intel 메인 스트림 CPU "Skylake (스카이레이크)"의 후계인 CPU다. Skylake와 같은 14nm 공정으로 제조되며, 우선 얇은 노트북 PC용 제품이 등장하고 그후 데스크톱, 대형 노트북 PC로 라인업이 넓어진다. Intel의 14nm CPU는 "Broadwell (브로드 웰)" -> Skylake -> Kaby Lake로 3 세대 이어지게 된다. Intel의 14nm 공정의 시작이 순조롭게 진행되지 않으면서, 10nm의 "Cannonlake (캐논레이크)"로의 이행이 지연된 것으로, Kaby Lake가 중계자로서 투입된다는 경위가 있다.
Intel은 Kaby Lake의 설명 가운데, 이 CPU가 14+ 공정으로 제조되고 있는 것을 강조한다. Intel은 Intel Developer Forum (IDF)의 공정 기술 로드맵 설명에서 "14+"에 대해 설명을 했다. 14+는 14nm 공정의 성능 확장판의 파생 공정이라 한다. Intel은 향후 각 공정 세대마다, 이러한 파생판을 제공해 갈 예정으로 Kaby Lake가 그 최초의 예가된다.
Intel은 14nm 이후의 공정에서 성능 향상 파생공정을 제공한다
Kaby Lake는 14+ 공정으로 성능을 끌어 올린다
Kaby Lake는 모바일 판부터 등장
핀 구조와 배선층을 변경한 14+ 공정
Intel에 의하면, 14+ 공정에서는 핀의 프로파일 변경에 포커스, 추가로 인터커넥트도 개량했다고 한다. 14nm 프로세스는 3D 트랜지스터인 FinFET 공정이다. FinFET 공정에서는 트랜지스터의 "소스 - 게이트 - 드레인"이 핀(지느러미)처럼 서 있다. 이 핀의 구조 등을 14+ 에서는 변경했다고 한다.
구체적으로는, 핀을 더 높이고, 게이트 피치를 넓혔다고 Intel은 설명한다. 핀을 높이면 게이트 면적이 넓어지기 때문에, 트랜지스터의 구동 능력이 오른다. 게이트 / 콘택트 치치를 넓게하면, 트랜지스터의 구조에 여유가 생겨 성능 개량이 쉬워진다.
Intel은 트랜지스터층 뿐만 아니라 14+에서 배선층에도 개량을 더했다. 칩 내의 배선을 고속화하기 위해, 배선 피치와 측면 비율도 변경했다고 한다. 현재의 로직 칩에서는 배선 지연도 큰 비중을 차지하게 되어 있어, 배선의 개량도 회로의 고속화에 기여한다. Intel에 의하면 이러한 14+에서의 공정의 개량에 의해서 12% 성능이 향상됐다고 한다.
최초로 공개된 Intel의 14nm 공정의 핀
최초로 공개된 Intel의 14nm 공정의 배선층
그럼에도, Intel은 이전부터 동일한 공정 노드에서 개량을 더하고 있어, 기존의 정수로 나타내던 공정 버전명의 아래에, Intel 사내적으로는 소수점의 서브 버전 번호가 더해져 있다. 그런 의미에서는 공정의 개량은 매 공정노드에서 해 오고 있어, 이번이 처음이라는 것은 아니다. 그러면 14+에서 무엇이 달라졌는가? (이 부분은 블로그의 예전 기사에서도 볼 수 있습니다.)
[고전 2000/02/10] 구리의 애슬론 대 알루미늄의 펜티엄3 제조 기술의 1GHz 싸움
우선 Intel이 공정의 개량을 명확히 대외적으로 나타낸 점이 지금까지와는 다르다. 14nm 공정의 시작의 비틀거림이 컸기 때문에, Intel은 "현재의 14nm는 개량했기에 괜찮아" 라고 내보일 필요가 있었다고 추측된다. 또 +가 붙은 것은 이번 개량이 상대적으로 큰 개량 이었을 가능성도 시사한다. Intel은 7nm 이상에서는 이머징 기술 (EUV 등으로 추측된다)을 + 세대로 더해가는 것도 시사하고 있으며, 그렇게 되면 파생 공정의 차이는 더욱 커진다.
또한 14+는 Intel의 방식이 실리콘 파운드리 방식과 비슷해져 가는 것도 보인다. 예를 들면, Samsung / GLOBALFOUNDRIES도 최초 세대의 14nm 공정인 "14LPE"에 대해서 2세대인 "14LPP"에서는 핀의 높이를 높혀, 더욱 넓은 게이트 피치의 옵션을 제공한다. 또한 14+의 "+"라는 성능 확장 파생공정의 명명 규칙은, TSMC가 자사의 1세대 "16FF"에 대해서 2세대째에 "16FF+"라고 붙인 것과 유사하다. 파운드리 제조의 GPU나 CPU는 모두 2 세대째 공정의 14LPP나 16FF+로 이행하고 있어, Intel의 14+는 마케팅적으로는 그들의 공정에 대항하게 된다.
어쨌든, 14+의 Kaby Lake는, Intel 공정 기술의 상황이 기존과는 다른 패턴이 되어 가는 것을 상징한다.
비디오 처리가 GPU 코어에서 전용 하드웨어로 변화
Kaby Lake 또 하나의 중요한 설계 변경은 부하가 높은 비디오 부분의 처리를 GPU 코어에서의 소프트웨어 처리에서, 전용 고정 하드웨어로의 처리로 전환한 것. 이 변화는 Skylake부터 시작 되었지만, Kaby Lake에서는 고정 기능 유닛으로의 기울어짐이 한층 두드러졌다.
구체적으로는 Kaby Lake에서는 비디오 디코딩 / 인코딩 엔진인 "Multi-Format Codec (MFX)"에, "10-bit HEVC & 8/10 bit VP9"의 디코딩과 "10-bit HEVC & 8 bit VP9 "인코딩이 고정 기능 하드웨어로 더해졌다. 또 포스트 프로세싱인 "Video Quality Engine (VQE) "의 처리도 GPU의 연산 유닛에서 고정 기능 유닛으로 전환, High Dynamic Range (HDR) 지원이 확장되었다.
이러한 변화는 몇 가지 중요한 아키텍처 방향성의 변화를 보여준다. Intel은 Broadwell 세대까지의 GPU 코어에서는, 미디어 처리는 GPU의 실행 유닛인 "EU (Execution Unit)"를 활용하는 방향이었다. 그러나 Skylake / Kaby Lake에서는 미디어 처리는 고정 기능 유닛을 준비하는 방향으로 크게 바뀌고 있다.
물론 고정 기능 유닛으로 처리하는 것으로, 보다 절전력을 도모하는 것이 가능하다. 또한 고정 기능 유닛을 탑재할 정도의 다이 영역의 여유가 생겼다, 반대로 말하면 그렇게하지 않을 수 없는 이유가 생긴 것도 의미한다. 한편, Skylake부터 Intel은 GPU 코어 아키텍처를 변경하고 있으며, 그 결과 미디어 처리에 대해서는 고정 유닛을 준비하는 쪽이 효율이 높아졌을 가능성이 있다. (고정기능 유닛은 GPU로의 처리보다 전력은 절감되지만, 반대로 유연한 대처가 불가능해서 새로운 처리는 하드웨어를 새로 설계해서 처리할 수 있게 만들어야 합니다. 지금도 새로운 동영상이 나와도 동영상 프로그램에서 지원하면 CPU 성능만 괜찮으면 무조건 돌릴 수 있죠. 그러나 DXVA로의 처리는 구형 그래픽 카드는 지원하지 않고 새로운 그래픽 카드에서만 지원하죠. 이것과 비슷하다고 보면 됩니다. 다만 GPU로의 처리는 일부 저전력에 GPU구성이 적은 CPU의 경우 같은 세대임에도 불구하고 새로운 동영상 처리를 못 하는 경우가 발생 할 수 있으며, GPU를 쓰면서 영상 처리시 GPU 처리능력이 저하 될 수 있습니다.)
Kaby Lake의 GPU 코어 아키텍처. 빨간색으로 표시 한 부분이 대폭 확장되었다
Kaby Lake의 GPU 코어 아키텍처
미디어 프로세싱의 사상이 크게 바뀌었다
Intel의 GPU 코어의 EU (Execution Unit)는 원래 팩크드 (Packed) / Array of Structures (AOS) 형의 실행 스타일과 스칼라 (Scalar) / Structure of Arrays (SOA) 형의 실행 스타일을 모두 취하는 것이 가능했다. 또 벡터의 입도도 가변으로, 다양한 데이터 유형이나 데이터 정밀도에 유연하게 대응 가능한 구조를 가지고 있었다. 이 구조이기 때문에, Intel GPU 코어는 미디어 처리가 자신있어서, Intel GPU의 미디어 엔진도 EU에서의 처리를 전제로 했다.
구체적으로는 미디어 엔진 측이 "Video Front-End (VFE)"을 사용해서 EU에 미디어 처리를 전달하도록 되어 있었다. 또 GPU 코어측에도 텍스처 유닛과 병렬로 미디어 데이터 전용의 페치 & 가공 유닛을 준비했다. 그러나, Intel은 범용 컴퓨팅 등의 성능을 중시했기 때문인지, Skylake부터는 EU의 실행 스타일을 스칼라 / SOA 만으로 했다. 따라서 미디어 처리에는 전력 효율이 저하 되었을 가능성이 있다.
EU에서의 처리는 스케러블이어서 다이 영역을 늘리지 않고 끝난다. 그것에 비해서 고정 기능 유닛을 탑재하면, 미디어 처리에서 높은 처리량을 실현하려고 하면 다이 영역을 크게 점유한다. 전력 소비는 범용인 EU에서 처리하는 것 보다, 고정 기능 유닛의 처리쪽이 낮아진다. 장단점이 있다.
비디오 디코딩과 인코딩 기능은 대폭 강화 되었다.
Intel의 미디어 엔진인 MFX와 VQE에 고정 기능 하드웨어가 추가 되었다
저전력 버전의 CPU에서도 우수한 비디오 디코딩 / 인코딩 기능을 발휘한다
영상 처리가 전용 하드웨어 화
Intel은 현재 미세화에 의해 실리콘 다이 면적을 늘릴 여유가 생겨서, 전용화 된 고정 유닛을 늘리는 것이 가능하다. Intel CPU는 PC에서의 성능 요구가 낮기 때문에 다이가 소형화하는 경향이 계속되고 있어, Intel은 웨이퍼 생산 수에 대해서, PC CPU 다이에 의한 웨이퍼 소비가 적어지고 있다. 즉, Intel은 제조 용량의 관점에서는 CPU의 다이를 늘리는 것이 가능하다.
또한 현재는 트랜지스터의 축소에 비해서 전력 축소쪽이 비율이 낮다. 따라서 GPU 코어의 EU를 늘리면 피크 전력 소비를 목표로 하는 TDP (Thermal Design Power : 열 설계 전력) 이하로 억제하는 것이 어려워진다. 또 축소한 다의 상의 유닛을 동시에 구동 할 수없는 다크 실리콘 문제도 있다. 따라서 보다 전력 소비가 작은 고정 기능 유닛으로 다이를 소비하고, 그 장치로 오프로드 하는 것은 이치에 맞는 선택이다.
처리가 복잡해서 연산 유닛의 부하가 높은 비디오 디코드 & 인코드는, 고정 기능 유닛에 오프로드 하는 의미가 있다. 또한 비디오 영상의 품질을 올리는 처리를 행하는 VQE도 노이즈 리덕션이나 칼라 콜렉션 등 하드웨어 처리가 유효하다. Intel은 비디오 포스트 프로세싱에 대해서는 전부 하드웨어로 옮겼다고 한다.
CPU 코어 아키텍처는 Skylake에서 크게 바뀌지 않고
Kaby Lake의 CPU 코어에 관해서는, 기본 마이크로 아키텍처는 Skylake과 다르지 않다고 Intel은 설명했다. Skylake 코어의 전체 그림은 Intel의 "Hot Chips" 컨퍼런스에서의 발표와 최신 버전의"Intel 64 and IA-32 Architectures Optimization Reference Manual "로 내보였다. 블록도를 보이면 아래처럼 된다.
Kaby Lake의 CPU 코어 마이크로 아키텍처는 Skylake를 승계
Skylake 마이크로 아키텍처
Haswell / Broadwell에서의 큰 변경은, 프론트엔드로 명령 코드와 디코드한 내부 명령 uOP를 캐시하는 uOP 캐시에서의 uOP 출력이 확장된 점. x86 / x64 명령 디코더는 최대 5 명령 디코드 / 사이클, uOP 캐시에서의 출력은 최대 6 uOPs. 또 아웃 오브 오더 윈도우나 각 버퍼도 확장되고, 얼로케이션 큐는 스레드 당 64 uOPs로 SMT (Simultaneous Multithreading) 때의 큐잉이 크게 강화되었다.
Kaby Lake의 다이 레이아웃의 CPU 코어 부분은 Skylake와 비슷하다. CPU 코어의 주변에 LL 캐시 SRAM을 배치해서 CPU 코어의 열을 분산시키는 레이아웃도 공통이다. CPU 코어 부분에 대해서는, 확장이 극히 작은 것이 다이에서도 엿보인다.
한편, GPU 코어에 관해서는, EU 부분의 레이아웃은 Skylake과 Kaby Lake에서 거의 공통이지만, 그 밖의 영역은 Kaby Lake 쪽이 훨씬 크다. 이것은 고정 기능 유닛에서 다이 영역이 확대된 것을 시사한다.
Intel의 14nm 세대의 CPU 다이를 비교
이처럼 Kaby Lake은 Intel CPU의 방향성 변화를 상징하는 CPU가 된다. 참신한 공정 기술의 개량과 다이를 연산 코어보다 고정 기능 유닛에 할애해 간다. 현재 프로세서의 동향에 따른 CPU가 되고 있다.
[분석정보] Intel, Kaby Lake 제7세대 Core프로세서를 정식 발표
[분석정보] Intel 7세대 Core 프로세서와 클라이언트용 Optane의 라이브 데모를 공개
[분석정보] 인텔 4+4e 제온 E3-1500 v5 발표와 제 7세대 Core 프로세서 4분기 중 출하 발표
[고전 1997.10.31] Intel과 DEC 전격 제휴 MPU의 판도가 바뀐다
[고전 2000/02/10] 구리의 애슬론 대 알루미늄의 펜티엄3 제조 기술의 1GHz 싸움
[고전 2001.01.11] Intel의 0.13μm 공정 P860/P1260에서 CPU는 어떻게 바뀌나
[고전 2001.01.17] 10GHz CPU를 실현하는 Intel 0.03μm 트랜지스터 기술
[고전 2001.02.06] 2010년 CPU 전력은 600W?
[고전 2001.06.12] Intel, 게이트 길이 20nm 트랜지스터 개발을 발표
[고전 2001.08.29] 베니어스 2003년 상반기 출시 발표, 3.5Ghz 펜티엄4 데모
[고전 2001.11.27] 인텔 테라 헤르츠 트랜지스터 기술 발표
[고전 2002.09.11] 이것이 Banias 플랫폼이다 CPU 마이크로 아키텍처 편
[고전 2002.09.12] 7700만 트랜지스터를 전력효율 향상에 쓴 Banias
[고전 2002.09.19] Intel, 3 차원 구조의 "트라이 게이트 트랜지스터 ' 발표
[고전 2003.02.20] Pentium M 1.60GHz의 처리 능력
[고전 2003.02.27] Prescott,Tejas는 5GHz대, 65nm Nehalem은 10GHz이상
[고전 2003.03.10] Fab에서 예측하는 향후 인텔
[고전 2003.06.12] Intel, 30nm 트라이 게이트 트랜지스터가 개발 단계에
[고전 2004.11.05] 폴락의 법칙을 깨뜨리기 위한 멀티 코어
[고전 2004.11.08] Intel CPU의 미래가 보이는 PARROT 아키텍처
[고전 2004.11.09] 전력 효율성에 초점을 둔 인텔 연구개발 (PARROT)
[고전 2004.11.12] Many-Core CPU로 향하는 Intel. CTO Gelsinger 인터뷰 1/2부
[고전 2004.11.15] 시리얼이 되는 FSB와 메모리. CTO Gelsinger 인터뷰 2/2부
[고전 2004.11.30] 5W 이하의 저전력 프로세서의 개발로 향하는 Intel
[고전 2004.12.24] 폴락의 법칙에 찢어지고 취소된 테하스(Tejas)
[고전 2005.01.12] 암달의 법칙(Amdahl's law)을 둘러싼 Intel과 AMD의 싸움
[고전 2005.03.05] 2015년 컴퓨터 플랫폼 IDF Spring 2005
[고전 2005.08.05] 새로운 공장 건설에서 보는 인텔의 Fab 변천
[고전 2005.08.25] 더 밝혀진 Yonah의 모습 확장된 C4스테이트
[고전 2005.08.29] IDF 2005 저스틴 래트너 기조 연설 미래의 기술
[고전 2005.11.10] 보이는 인텔의 5~10년 후 CPU 아키텍처
[고전 2005.12.28] Merom(메롬) 이후인 Nehalem(네할렘) 과 Gilo(길로)
[분석정보] Intel 모빌리티 사업부 가디 싱어 씨 인터뷰 초소형 PC Ultra Mobile PC의 현장
[분석정보] 메인 테마는 "신 아키텍처" ~ 매니코어의 메모리 기술을 공개
[정보분석] 2년 주기로 아키텍처를 쇄신하는 Intel
[분석정보] 래트너 CTO 기조 강연 보고서 차세대 데이터 센터 기술을 소개
[분석정보] 인텔 45nm 공정 차세대 CPU Penryn(펜린) High-k 메탈게이트 성공
[분석정보] 모바일 절전 기능을 강화한 펜린 (Penryn)
[아키텍처] 환경 조건을 이용하여 성능을 끌어 올리는 터보 모드
[분석정보] 평균 소비전력을 크게 줄일 Penryn의 C6 스테이트
[분석정보] 이스라엘에서 발신되는 인텔의 차세대 CPU 기술
[분석정보] SSE4 명령어와 가속기에서 보이는 Intel CPU의 방향성
[분석정보] Intel 또 하나의 차세대 CPU LPP
[분석정보] IDF 2007 Penryn 벤치마킹 세션 리포트
[분석정보] 전면 개량이 아닌 부분 개량에 머문 Penryn
[분석정보] 모바일 절전 기능을 강화한 펜린 (Penryn)
[분석정보] 임베디드 시장에 IA 침투를 목표로 하는 Intel
[분석정보] 고속화를 가져오는 Radix-16 Divider와 shuffle Engine
[분석정보] x86에서의 탈피를 도모 Intel의 새로운 로드맵
[아키텍처] Intel의 차기 CPU "Nehalem"의 설계 개념은 "1 for 1"
[아키텍처] Nehalem(네할렘)으로 볼 수 있는 인텔 CPU 마이크로 아키텍처의 미래
[분석정보] 9년전의 아이디어에서 태어난 아톰. 리서치 @ 인텔
[분석정보] IDF 2008 저스틴 래트너 CTO 기계 지능이 인간을 넘을때
[분석정보] Atom의 절전 기술도 탑재한 Nehalem
[분석정보] AMD가 바라보는 x86시장 점유율 50%의 전략
[분석정보](암달의 법칙) 2010년대 100 코어 CPU 시대를 향해서 달리는 CPU 제조사
[분석정보] Intel의 연구 개발 부문 개편과 그 성과
[분석정보] 메가화 노선을 유지하는 인텔과 팹리스를 목표한 AMD
[분석정보] Intel 48 코어 IA 프로세서를 개발
[분석정보] Intel 48코어 매니코어 연구 칩 기술 공개
[분석정보] Intel, 3차원 트라이 게이트 트랜지스터 제조 기술을 확립
[분석정보] Intel 22nm 공정에서 3D트랜지스터 기술을 채용
[분석정보] 저전력 CPU 시장을 확대하는 Intel의 전략
[분석정보] IDF 2012. 22nm 세대에서 14nm 세대로 이행하는 Intel의 실리콘 제조 기술
[정보분석] IDF 2011 인텔 하스웰(Haswell)의 다이와 절전 기술
[분석정보] Intel 매니코어 MIC 와 Atom SoC Medfield 를 발표
[분석정보] 인텔(Intel)의 스마트폰 시장 공략 비장의 카드 Medfield (메드필드)
[분석정보] 스마트폰과 비슷한 사용법을 실현하는 Intel의 S0ix구현
[아키텍처] IDF 2012 인텔 차세대 주력 CPU Haswell(하스웰) 공개
[정보분석] 아웃 오브 오더 및 최신 프로세스를 채택하는 향후의 Atom
[정보분석] Hasell(하스웰) 최강의 무기 통합 전압 조절기
[분석정보] Intel의 "Ozette"칩에서 Haswell(하스웰)까지의 전압 레귤레이터 통합의 길
[정보분석] Atom Z2760을 철저 분석 ~ 모바일 Windows 사용자의 새로운 선택
[분석정보] Research @ Intel 2013 Direct Compressed Execution 등을 시현
[분석정보] Intel의 eDRAM 칩은 128 뱅크 구성에 읽기, 쓰기, 리프레시를 병렬
[분석정보] 인텔(intel) CPU의 큰 이정표가 될 하스웰(Haswell) 드디어 등장
[분석정보] IDF 13 IDF에서 Intel이 14nm 공정 세대 Broadwell 을 공개
[분석정보] 반도체 공정 한눈에 알기 인텔의 14nm가 늦는 이유
[분석정보] Haswell 절전 기능의 열쇠 "FIVR" 과 그 이후
[분석정보] 모바일에 최적화를 진행한 Intel의 14nm 공정
[분석정보] 인텔 팬리스 PC를 위한 Core M 프로세서
[분석정보] 20나노 공정부터 앞으로 무어의 법칙의 의미가 없어지나? ~ 트랜지스터당 비용 상승
[분석정보] 결정된 헤테로지니어스 멀티코어에 대한 기류
[분석정보] 인텔 하스웰 설계를 행한 마레이시아 제조 개발 거점을 공개
[분석정보] 광대역 메모리의 채용을 가능하게 하는 Intel의 새 패키징 기술 EMIB