Etched onthult Sohu AI-chip die modellen 20x sneller en goedkoper laat draaien dan Nvidia H100 GPU’s
Etched, een startup die zich richt op chips voor transformator-modellen, heeft zojuist Sohu aangekondigd, een toepassingsspecifieke geïntegreerde schakeling (ASIC) die beweert Nvidia’s H100 te overtreffen op het gebied van AI LLM-inferentie. Een enkele 8xSohu-server zou gelijk staan aan de prestaties van 160 H100 GPU’s, wat betekent dat dataverwerkingscentra zowel op initiële als operationele kosten kunnen besparen als de Sohu aan de verwachtingen voldoet.
Volgens het bedrijf zijn huidige AI-versnellers, of het nu CPU’s of GPU’s zijn, ontworpen om te werken met verschillende AI-architecturen. Deze verschillende kaders en ontwerpen betekenen dat hardware verschillende modellen moet kunnen ondersteunen, zoals convolutionele neurale netwerken, long short-term memory netwerken, toestandsruimtemodellen, enzovoort. Omdat deze modellen zijn afgestemd op verschillende architecturen, wijden de meeste huidige AI-chips een groot deel van hun rekenkracht aan programmeerbaarheid.
De meeste grote taalmodellen (LLM’s) gebruiken matrixvermenigvuldiging voor het merendeel van hun rekentaken en Etched schatte dat Nvidia’s H100 GPU’s slechts 3,3% van hun transistors voor deze belangrijke taak gebruiken. Dit betekent dat de resterende 96,7% van het silicium wordt gebruikt voor andere taken, die nog steeds essentieel zijn voor AI-chips voor algemeen gebruik.
Echter, de transformer AI-architectuur is de laatste tijd erg populair geworden. Bijvoorbeeld, ChatGPT, misschien wel het meest populaire LLM vandaag de dag, is gebaseerd op een transformator model. In feite zit het in de naam – Chat generative pre-trained transformer (GPT). Andere concurrerende modellen zoals Sora, Gemini, Stable Diffusion, en DALL-E zijn allemaal ook gebaseerd op transformer modellen.
Etched deed een grote gok op transformatoren een paar jaar geleden toen het het Sohu-project startte. Deze chip bakt de transformer-architectuur in de hardware, waardoor het meer transistors kan toewijzen aan AI-computing. We kunnen dit vergelijken met processors en grafische kaarten – laten we zeggen dat huidige AI-chips CPU’s zijn, die veel verschillende dingen kunnen doen, en dan is het transformer model als de grafische eisen van een gametitel. Natuurlijk kan de CPU nog steeds aan deze grafische eisen voldoen, maar het zal dit niet zo snel of efficiënt doen als een GPU. Een GPU die gespecialiseerd is in het verwerken van visuals zal de graphics rendering sneller en efficiënter maken, omdat de hardware specifiek daarvoor is ontworpen.
Dit is wat Etched deed met Sohu. In plaats van een chip te maken die elke AI-architectuur kan accommoderen, bouwde het er een die alleen werkt met transformator modellen. Toen het project in 2022 begon, bestond ChatGPT nog niet eens. Maar toen het in 2023 in populariteit explodeerde, lijkt de gok van het bedrijf nu grote vruchten af te werpen.
Nvidia is momenteel een van de meest waardevolle bedrijven ter wereld en boekte recordomzetten sinds de vraag naar AI GPU’s toenam. Het verscheepte zelfs 3,76 miljoen datacenter GPU’s in 2023, en dit trendt naar meer groei dit jaar. Maar de lancering van Sohu zou de leiderspositie van Nvidia in de AI-ruimte kunnen bedreigen, vooral als bedrijven die uitsluitend transformer modellen gebruiken overstappen naar Sohu. Uiteindelijk is efficiëntie de sleutel tot het winnen van de AI-race, en iedereen die deze modellen op de snelste en meest betaalbare hardware kan laten draaien, zal de leiding nemen.