벤치리뷰·뉴스·정보/아키텍처·정보분석 400

[분석정보] AMD가 확장판 K10 코어 기반의 APU Llano 를 첫 공개

대만의 기술 컨퍼런스에서 Llano의 동작 데모를 행하다.  AMD는 대만 타이페이에서 개최한 기술 컨퍼런스 "AMD Technology Forum and Exhibit (AMD TFE) '에서 내년 (2011년)의 메인 스트림 PC 용 CPU"Llano (라노) "의 동작 시현을 최초로 공개했다 . 또한 Llano의 웨이퍼를 공개, Llano 가 상대적으로 GPU 성능을 ..

[분석정보] x86을 고속화하는 조커기술 명령변환 구조

x86에 한해서, 아웃 오브 오더에서 빼놓을 수 없는 것이 명령 변환의 구조이다. 인텔의 경우 "μOp"(마이크로 옵) AMD (가 인수한 NexGen)는 당초 "RISC86" 라고 칭하고, 그 후 "Op"궁극적으로 "microOp" 라고 표기는 바뀌었지만, 이를테면 x86 명령을 "RISC 형" 내부 명령으로 변환하는 방법이다. 이 내부 명령이 μOp 라든지 microOp 등으로 불리는 것이다. 여기서 잠깐 RISC와 CISC의 이야기를 하기로 한다. 예를 들어 x86라는 명령은 CISC의 대표적 예 이지만, 원래 RISC와 CISC의 차이? 라는 것을 간단하게 설명하자. RISC와 CISC의 차이를 대충 복습 RISC 개념을 그것을 명확하게 알지 못하고 탑재한 CPU는 꽤 예전부터 있다※1. 하지만 ..

[분석정보] 명령의 실행 순서를 바꿔 고속화 하는 아웃 오브 오더

슈퍼 스칼라와 아웃 오브 오더는 세트 기술 슈퍼 스칼라 다음에 소개하는 기술은 아웃 오브 오더이다. 아웃 오브 오더는 슈퍼 스칼라을 전제로 하는 기술이다. 아웃 오브 오더 없이 슈퍼 스칼라는 있지만, 슈퍼 스칼라 없이 아웃 오브 오더는 있을 수 없다 (이말은 의미가 없다) 때문에 현실적으로 슈퍼 스칼라 가정의 기술이라 생각해도 좋을 것이다 (x86으로 말하면, 최소 펜티엄 이상이 되어야 효용이 있는 기술. 486 이하는 필요 없는 기술. 486 이하는 파이프 라인이 1개 뿐인 스칼라 프로세서. 펜티엄 이상은 2개 이상인 슈퍼스칼라 프로세서. 실제로 아웃 오브 오더는 펜티엄 프로부터 적용이 되어 있습니다. 펜티엄 프로가 슈퍼스칼라 프로세서 이면서, 명령 변환(명령 분해), 아웃 오브 오더를 사용 합니다.)..

[아키텍처] 트릭을 거듭한 Sandy Bridge 마이크로 아키텍처

AVX의 구현은 2 개의 유닛을 확장하고 결합 Sandy Bridge의 CPU 코어는 새로운 AVX (Advanced Vector Extensions)의 실행 엔진이 구현 되었다. AVX는 256-bit 폭 (32-bit 단 정밀도라면 8way)의 SIMD (Single Instruction, Multiple Data) 명령어를 포함한다. 종전의 SSE의 128-bit 폭의 SIMD 엔진의 2 배의 벡터장이 된다. Intel에서Sandy Bridge의 아키텍트를 맡은 Bob Valentine 씨 (Senior Principal Engineer)는 "같은 양의 명령 흐름과 캐시 대역폭에서 2 배의 연산이 있다.보다 효율적인 명령 스타일"이라고 벡터 길이를 2배로의 이점을 강조한다. 또한 AVX는 마스크로드..

[분석정보] 슈퍼 스칼라에 의한 고속화와 x86의 문제점은

슈퍼 스칼라 기본은 슈퍼 스칼라라는 어원은 원래는 스칼라와 벡터라 불리는 두 가지 명령의 처리 방식에 기인한다. 스칼라 라고 하는 것은, 한마디로 "보통" CPU 데이터 방식으로 x86 명령의 대부분이 이에 해당한다. 굳이 분류하면 'SISD "(Single Instruction Single Data)에 해당하는 것으로, 원칙적으로 하나의 명령으로 하나의 데이터를 조작하는 것이다 (2 개 라든지 세개 등의 경우도 가끔 있지만) . 이에 맞서는 개념이 벡터 형식으로 가까운 예로 말하면, MMX에서 이어지는 "SIMD"(Single Instruction Multi Data)로 분류되는 것이 그것에 해당한다. 이것은 하나의 명령으로 복수의 데이터를 취급 하는 것을 가리킨다 (MMX조차 최대 동시에 8 개의 데..

[분석정보] IDF 2010 왜 Sandy Bridge는 성능이 높은가?

모듈화가 매우 높은 Sandy Bridge의 내부 구조 Intel의 차세대 CPU 아키텍처 "Sandy Bridge (샌디 브릿지)"는 기존의 디자인 개념의 연장 성능을 끌어 올린 CPU이다. Intel은 Sandy Bridge의 성능에 매우 자신감을 가지고 있으며, 내년 (2011 년)에는 단번에 PC 시장에 침투시킬 전망이다. Sandy Bridge의 클라이언트 PC 용 제품은 4 코어와 2 코어 2 버전에서 모두 GPU 코어를 온 칩에 내장한다. Sandy Bridge 4 코어의 경우는 4 개의 CPU 코어와 공유의 LL 캐시 (Last Level Cache), 1 블록의 GPU 코어, DDR3 메모리 컨트롤러, PCI Express, DMI, 디스플레이 인터페이스, 그리고 각 블록을 제어하는​​ ..

[분석정보] Intel 래트너 CTO에게 듣는 Atom 탄생 비화

Intel 저스틴 래트너 부사장 겸 수석 연구원 IDF 이틀째인 9월 14일, Intel CTO (최고 기술 책임자) 저스틴 래트너 부사장 겸 수석 연구원에게 인터뷰 할 기회가 있었다. Intel의 연구 · 개발 부문을 총괄하는 래트너 CTO는 다음날 IDF 마지막 날 기조 연설을 행하는 바쁜 일정을 앞두고, 시간을 내어 주셨다. 일정 관계상 이번 기조 연설에 대한 질문을 하는 것은 할 수 없었다 (본고 집필 시점에서는 아직 기조 강연이 이루어지지 않은)때문에 예전부터 생각하고 있던 것을 몇 가지 물어 보았다. 먼저 물어보고 싶었던 것은, Intel R & D의 방향에 변화가 있을 것인가? 라는 것이다. 현재 Intel의 폴 오텔리니 CEO는 Intel의 역사상 최초의 박사 학위가 없는, 말하자면 비 기..

[분석정보] CPU 고속화의 기본 수단 파이프라인 처리의 기본 2/2

CPU 성능 발휘를 저해하는 "파이프 라인 스톨" 이전에 이어 이번에도 CPU의 파이프 라인에 대해 설명한다. 마지막의 마지막은 "파이프 라인 단수를 함부로 늘려도 문제" 라는 말을 했다. 이유 중 하나는 소비 전력이지만, 이것은 또 다른 이야기로 이번에는 또 하나의 이유인 "파이프 라인 스톨 '과'파이프 라인 해저드" 쪽을 올려보고 싶다. 이 2개는 때때로 혼동 될 수도 있지만, 기본적으로는 다른 요인에서 발생하는 문제이며, 대응 방법도 조금 다르다. 먼저 전제로 [그림 1]과 같은 경우를 생각해 본다. 파이프 라인 단수는 10단으로 되어 있기 때문에 (요즈음의 x86 프로세서에서 말하면 짧은),​​ 예를 들면 15개의 명령을 처리하는데 걸리는 시간은 총 24 사이클을 필요로 하는 셈이다. [그림 1]..

[분석정보] CPU 고속화의 기본 수단 파이프라인 처리의 기본 1/2

이번에는 CPU의 파이프 라인에 대해 설명을 해보고 싶다. 하지만 그 전에 디지털 회로의 기초를 조금 복습 해두고 싶다. 원래 게이트는 어떤거야? 디지털 회로에서는 자주 Gate (게이트)라는 용어가 나온다. 게이트 라는 용어는 매우 일반적으로 사용되지만, 크게 나누어 두 가지 의미가 있다. 하나는 "문" 으로의 게이트, 예를 들면 트랜지스터 내부의 전압 제어를 하는 부분을 가리키는. "게이트 산화막" 이나 "HKMG"(High-k Metal Gate)" 이나 부르는 것이 이것 이다. "Clock Gating" 또는 "Power Gating" 도 마찬가지로, 이곳은 클럭 신호 및 전력 공급 회로의 "문으로 작용 회로"의 뜻이다. 또 하나의 의미가 "디지털 회로의 최소 단위"의 의미이다. 디지털 회로의 최..

[정보분석] 같은 무렵에 시작된 Nehalem과 Larrabee와 Atom

Pentium 4를 기반으로 하는 계획도 있었던 Nehalem Intel은 Core i = Nehalem (네할렘) 마이크로 아키텍처의 개발에 5 년이 걸렸다. 시작은 2003 년에 먼저 서버와 모바일 (노트북 PC)을 우선으로 하는 것이 결정되었다. 그리고 CPU 코어는 어느 아키텍쳐를 기반으로 하는지 검토 되었다 한다. 이 시점에서는 "Northwood (노스우드 : 130nm 판 Pentium 4)"를 기반으로 하는 계획과 제로부터 에서 마이크로 아키텍처를 새로하는 개발 계획도 있었지만 결국 "Core Microarchitecture ( Core MA) "와 같은"Pentium Pro / II / III (P6) "파이프 라인을 확장 할 계획으로 자리 잡았다. 이어 2004 년에는 CPU 코어 수와..

[정보분석] 인텔의 2013년 CPU 하스웰로 이어지는 네할렘 개발 이야기

Pentium 4를 기반으로 하는 계획도 있었던 Nehalem Intel은 Nehalem (네할렘) 마이크로 아키텍쳐의 개발을 2003 년부터 시작하여 2004 년 중반까지 대부분의 마이크로 아키텍쳐를 결정했다. 2005 ~ 2007 년은 엔지니어링에 썼다. 전체적으로는 제품 출시까지 5년이 걸렸다. Nehalem 개발 당시에는, 많은 선택 사항을 검토했다. 그 중에는 "Northwood (노스우드 : 130nm판 Pentium4)"를 기반으로 하는 계획과 프롬스크래치(제로부터)에서 마이크로 아키텍쳐를 신개발 하는 계획도 있었다. 하지만, 개발 인력을 절감과 소프트웨어 최적화의 일관성 유지를 위해, Core 2와 같은 "Pentium Pro (P6)" 파이프 라인의 확장을 선택했다. 또한, Nehalem..

[분석정보] 아톰기반 임베디드용 SoC Tunnel Creek의 개요

IDF 2010 리포트 Douglas Davis 씨가 기조 강연에서 선보인 Tunnel Creek 기간 : 4월 13일 ~ 14일 장소 : 중국 국가 회의 센터 (China National Convention Center) IDF 2010 Beijing의 2일째에 진행된 기조 강연 초반 파트에서 Embedded & Communications Group의 General Manager 인 Douglas Davis 씨가 발표한 Atom 기반의 내장계 SoC "Tunnel Creek". IDF에서는 2010년 4분기 출시가 예정되어 있는 본 제품의 개요를 설명하는 기술 세션이 마련됐다. Tunnel Creek의 아키텍처와 성능 아키텍처 개요를 설명한 것은 Senior Principal Engineer인 Pran..

[분석정보] Intel 48코어 매니코어 연구 칩 기술 공개

매니 코어 리서치 칩 제 2세대 Intel은 48개의 CPU 코어를 하나의 칩에 올린 2세대의 매니 코어 (Many-core) 리서치 칩의 개요를 밝혔다. 작년 (2009년) 12월에 "싱글 칩 클라우드 컴퓨터 (Single-chip Cloud Computer = SCC) "으로 발표한 칩이다. 미국 샌프란시스코에서 지난 주 개최된 ISSCC (IEEE International Solid-State Circuits Conference)에서 이 칩의 부분적인 세부 사항이 밝혀졌다. 제 2세대 매니코어 리서치 칩 Single-chip Cloud Computer 개요 Intel은 미래의 매니코어 CPU 시대를 향한 리서치 프로젝트로서 매니 코어 CPU를 시험제작하고 검증을 하고 있다. 에뮬레이션이 아닌 실제 ..

[분석정보] AMD GPU 통합 CPU Llano의 CPU 코어 기술을 발표

APU의 핵심인 32nm 공정의 CPU 코어 ISSCC의 회장인 샌프란시스코 메리어트 호텔 AMD는 내년 (2011년) 초기에 투입할 예정인 32nm SOI 공정 "K10 (Hound) '계 CPU 코어의 개요를 밝혔다. 미국 샌프란시스코에서 개최된 ISSCC (IEEE International Solid-State Circuits Conference)에서 밝혀졌다. 32nm K10 계열 코어는 CPU에 G..

[아키텍처] 정수 연산 성능을 희생해서 효율성을 거둔 AMD의 "Bulldozer"

CPU 설계의 큰 턴인 Bulldozer AMD가 2011년 출시 할 차세대 CPU 아키텍처 "Bulldozer (불도저)". CPU 아키텍처에서 Bulldozer의 큰 포인트는 싱글 스레드의 정수 연산 성능의 추구를 멈춘 것이다. Bulldozer는 아마 현재의 AMD CPU보다 싱글 스레드의 정수 중심의 응용 프로그램의 성능이 떨어진다. CPU 구조의 단순화를 통해 CPU의 동작 주파수를 올릴 수 있으면, (싱글 스레드, 1코어당 성능) 하락 분을 만회 할 수 있을지도 모르지만, (1코어의) 클럭 당 성능은 (IPC) 내려갈 것이다. 반면 멀티 스레드 성능과 부동 소수점 연산 성능은 크게 성장. (코어는 많기 때문에 (물론 아주아주 초저성능 코어가 초고성능 코어의 2배 코어수가 된다고 멀티 성능이 높..