인텔의 멀티칩 캐스케이드 레이크 뚜껑을 열다 - 유방 다이 커팅 머신 유한 회사

당신이 인텔이라고 잠시 상상해보세요.

AMD, IBM, Marvell, Ampere 등 시장에 남아 있는 소수의 서버 CPU 제조업체는 소켓에 사용자보다 더 많은 메모리 컨트롤러를 보유하고 있습니다. 그들은 모두 다이에 많은 코어를 집어넣을 7나노미터 칩을 개발하기 위해 노력하고 있습니다. Taiwan Semiconductor Manufacturing Corp에서 제공하고 해당 공급업체 중 3곳(삼성을 손에 넣은 IBM이 아님)에서 사용하고 있는 7나노미터 기술과 유사한 칩 에칭을 위한 10나노미터 프로세스가 예정보다 늦어지고 커피가 약간 쏟아졌습니다. 레이크 컨트리를 통과하는 길에 대한 로드맵입니다. 그러나 하이퍼스케일러와 클라우드 빌더가 2018년 4분기에 브레이크를 밟았음에도 불구하고 데이터 센터 그룹 비즈니스는 호황을 누리고 있습니다. 그리고 "Ice Lake" Xeons SP가 출시되는 2020년 상반기까지는 아직 갈 길이 멀습니다. 램핑을 하게 됩니다.

너 뭐하니?

당신은 그것을 최대한 활용합니다. 고객이 계속 움직일 수 있도록 다양한 방법으로 빠르게 연속적으로 Skylake 아키텍처를 조정합니다. 이것이 바로 오늘날 Intel이 Cascade Lake 칩으로 수행한 작업이며, 여기에서 자세히 다루었습니다. Intel은 개선된 14나노미터 프로세스를 사용하여 Skylake 코어에서 클럭 속도를 조금 더 끌어냈고, 기계 학습 추론 속도를 높이기 위해 몇 가지 새로운 DL Boost 명령을 추가했으며 Spectre/Meltdown/Foreshadow 투기적 실행 취약성에서 일부 보안 유지 문제를 수정했으며 흔들림 현상이 발생했습니다. SKU 스택이 있으므로 거의 2년 전에 출시된 원래 Skylake Xeon SP 칩에 대해 특정 가격대에서 Cascade Lake Xeon SP에 몇 개의 코어가 더 있었습니다.

그러나 이 전략에는 단 하나의 문제가 있습니다. 인텔은 위에 설명된 대로만 수행함으로써 성능 리더십에 대해 이야기하지 않습니다. 인텔에는 뭔가가 더 필요합니다. Intel이 현재 Cascade Lakes의 조상인 "Nehalem" Xeons로 강세를 보이던 10년 전 Opteron 6100s로 AMD가 했던 것처럼 말입니다. AMD는 2개의 6코어 칩을 다이에 탑재하고 8소켓으로 확장되는 칩셋을 탑재했으며 HyperTransport NUMA 상호 연결을 통해 논리적으로 연결된 8개 프로세서로 물리적 쿼드 소켓 서버를 만들었습니다.

AMD는 당시 성능을 발표하기 위해 소켓의 칩을 두 배로 늘렸고, Intel은 지금 그렇게 하고 있습니다. Cascade Lake-AP 프로세서를 통해 Intel은 자체 NUMA 접착제인 UltraPath Interconnect를 사용하여 4개의 Cascade Lake 칩을 교차 결합하고 이 논리적 4소켓 시스템이 괴물 같은 칩이 있는 물리적 2소켓 서버처럼 보이도록 패키징하고 있습니다. 단일 BGA(볼 그리드 어레이) 표면 실장 패키지에 최대 56개의 코어를 집어넣음으로써 Intel은 AMD의 "Rome" Epyc 서버 프로세서 출시를 앞두고 2소켓 시스템의 성능 리더십과 심지어 적절한 가격 대비 성능에 대해 여전히 이야기할 수 있습니다. scuttlebutt가 맞다면 6 월에 예상됩니다.

Cascade Lake-AP 칩이 공식적으로 알려진 Xeon SP 9200 Platinum 시리즈 프로세서를 통해 Intel은 멀티칩 모듈 설계 및 제조에 대한 약간의 경험을 얻습니다. 이는 좋은 일이며 아마도 궁극적으로 상황이 어떻게 될지에 대한 미리보기일 것입니다. 멀지 않은 미래에 끝내세요. 대규모 모놀리식 프로세서를 만드는 것은 더 작은 프로세서를 만드는 것보다 비용이 훨씬 더 많이 듭니다. 세계가 여러 서버로 구성된 분산 시스템 프로그래밍에 익숙해져야 하는 것처럼 컴파일러와 프로그래머도 분산 시스템 작업에 익숙해져야 합니다. 단일 서버 내부.

미래의 CPU는 칩이 뒤죽박죽일 뿐만 아니라 각 기능에 사용할 수 있는 가장 최적의 프로세스가 적용된 칩이 될 것이라는 점에는 의심의 여지가 없습니다. I/O 및 통신 회로는 결코 16나노미터(트랜지스터 게이트 크기를 계산하는 Intel 방식의 14나노미터) 아래로 내려가지 않을 가능성이 높으며, CPU 코어는 가능한 한 많이 줄어들고 이러한 구성 요소는 다양한 종류의 상호 연결 및 패키징 방법론을 사용하여 다시 꿰매어진 별도의 칩으로 만들어집니다. Ice Lake Xeon SP 칩이 Intel이 Cascade Lake-AP 칩을 사용하여 취한 급한 방식뿐만 아니라 실제로 이를 수행한다고 해도 전혀 놀라지 않을 것입니다. 아마도 Intel은 TSMC가 7나노미터를 함께 사용할 수 있다고 믿지 않았기 때문에 AMD는 Rome Epyc 프로세서를 사용할 기회가 없었을까요? 말하기 어렵다.