1400 위험
캐나다의 Untether AI는 '메모리' 컴퓨팅을 위한 Boqueria라는 1400개 이상의 RISC-V 프로세서를 탑재한 AI 장치를 개발했습니다.
오늘 HotChips 컨퍼런스에서 논의된 Boqueria는 238MB SRAM을 갖춘 TSMC의 7nm 공정을 기반으로 구축되었습니다. 이 장치는 729개의 듀얼 RISC-V 메모리 뱅크를 통해 처리를 AI 코어에 더 가깝게 유지함으로써 발생하는 30 TFLOPs/W의 전력 수치로 FP8 8비트 AI 데이터 유형에 대해 2페타플롭스의 성능을 제공합니다.
메모리 내 컴퓨팅은 기존 von Neumann 아키텍처보다 훨씬 더 에너지 효율적이기 때문에 주어진 전력 엔벨로프에 대해 더 많은 TFlop을 수행할 수 있습니다. 2020년에 runAI 장치가 도입되면서 Untether AI는 INT8 데이터 유형에 대해 8 TOPs/W의 에너지 효율성 수준을 확인했습니다.
Boqueria에서 사용되는 speedAI 아키텍처는 이를 개선하여 30TFlops/W를 제공합니다. 이러한 에너지 효율성은 2세대 메모리 컴퓨팅 아키텍처, 맞춤형 지침을 갖춘 1,400개 이상의 최적화된 RISC-V 프로세서, 에너지 효율적인 데이터 흐름, 새로운 FP8 데이터 유형 채택의 산물입니다. 이전 세대 runAI 장치.
speedAI 아키텍처의 각 메모리 뱅크에는 전용 SRAM에 직접 연결된 512개의 처리 요소가 있습니다. 이러한 처리 요소는 INT4, FP8, INT8 및 BF16 데이터 유형을 지원하고 에너지 보존을 위한 제로 감지 회로와 2:1 구조적 희소성을 지원합니다.
64개 처리 요소의 8개 행으로 배열된 각 행에는 자체 전용 행 컨트롤러와 하드와이어 감소 기능이 있어 프로그래밍의 유연성과 Softmax 및 LayerNorm과 같은 변압기 네트워크 기능의 효율적인 계산이 가능합니다. 행은 추론 가속화를 위해 설계된 20개 이상의 사용자 지정 명령이 포함된 2개의 RISC-V 프로세서에 의해 관리됩니다. 메모리 뱅크의 유연성 덕분에 컨벌루션 네트워크, 변환기 네트워크, 추천 네트워크는 물론 선형 대수 모델을 포함한 다양한 신경 네트워크 아키텍처에 적응할 수 있습니다.
제품군의 첫 번째 구성원인 speedAI240은 FP8 성능의 2페타플롭과 BF16 성능의 1페타플롭을 제공합니다. 이는 더 높은 성능으로 해석됩니다. 예를 들어 BERT 프레임워크를 와트당 초당 750개 이상의 쿼리(qps/w)로 실행하는 것은 현재 주요 GPU의 최신 기술보다 15배 더 큰 수치입니다.
Untether AI의 연구에 따르면 두 가지 서로 다른 FP8 형식이 정밀도, 범위 및 효율성의 최상의 조합을 제공하는 것으로 나타났습니다. 4가수 버전("정밀도"의 경우 FP8p)과 3가수 버전("범위"의 경우 FP8r)은 다양한 네트워크에서 추론을 위한 최고의 정확도와 처리량을 제공했습니다. ResNet-50과 같은 컨벌루션 네트워크와 BERT-Base와 같은 변환기 네트워크의 경우 Untether AI의 FP8 구현은 BF16 데이터 유형을 사용하는 것과 비교하여 정확도 손실이 1%의 1/10 미만이며 처리량과 에너지 효율성이 4배 증가합니다. .
speedAI240 장치는 대형 모델로 확장되도록 설계되었습니다. 메모리 아키텍처는 1페타바이트/초의 메모리 대역폭을 제공하는 처리 요소 전용 238MB SRAM, 1MB 스크래치패드 4개, LPDDR5의 64비트 와이드 포트 2개로 최대 32GB의 외부 DRAM을 제공하는 다중 레벨입니다.
63GB/s의 호스트 연결을 위한 16개의 PCIe Gen5 레인과 칩 간 및 카드 간 연결을 위한 3개의 PCIe Gen5 x8 포트가 있으며 각각 31.5GB/s를 제공합니다.
Untether AI의 CEO인 Arun Iyengar는 "앳 메모리 컴퓨팅의 장점은 1세대 runAI 장치를 통해 입증되었으며, 2세대 speedAI 아키텍처는 우리 제품의 에너지 효율성, 처리량, 정확성 및 확장성을 향상시킵니다."라고 말했습니다. "speedAI 장치는 시장의 다른 추론 제품과 비교할 수 없는 기능을 제공합니다."
Untether AI에는 푸시 버튼 양자화, 최적화, 물리적 할당 및 다중 칩 파티셔닝을 통해 네트워크를 고성능으로 실행할 수 있는 경로를 제공하는 imAIgine이라는 SDK(소프트웨어 개발 키트)가 있습니다. imAIgine SDK는 또한 광범위한 시각화 툴킷, 정확한 주기 시뮬레이터 및 쉽게 통합되는 런타임 API를 제공하며 현재 이용 가능합니다.