TECH

Deekseeks mobilapp. Genrebild.

Här är Deepseeks ”hemliga ingrediens” i AI-kriget mot Chat GPT

Kinesiska ai-bolaget Deepseek skyndar på utveckligen av ”R2”, bolagets nästa stora språkmodell. Målet är att ta fram teknik – och en prissättning – som ska slå hårt mot Open AI och Googles ai-tjänster.

Publicerad

Det pågår en global ai-kapprustning just nu. I början av året lanserade det kinesiska startupbolaget Deepseek ai-modeller som uppges överträffa de kraftfullaste från USA – och som dessutom tränats och körs (inferens) med mindre avancerade chip.

Deepseek nästa drag: Resonerande ai-system

Deepseeks språkmodell R1 fick snabbt enorm uppmärksamhet även i västvärlden. Framgången har gjort att bolaget nu rappar på utvecklingen av vad som ska bli bästa generations språkmodell. Enligt nyhetsbyrån Reuters ska ai-modellen heta ”R2” och kan släppas redan innan maj månad – flera veckor tidigare än vad som tidigare var planerat.

”R2” sägs vara mycket bättre på att exempelvis generera datorkod än den nuvarande R1-modellen. Den ska också ha kapacitet att kunna resonera kring användarnas frågor på flera olika språk.

Resonerade ai-modeller är en vidareutveckling av språkmodellerna som utgjorde kärnan i exempelvis Chat GPT vid lanseringen 2022. Kortfattat går det säga att resonerade ai-modeller ägnar mer betänketid åt frågor innan systemet genererar ett svar.

Open AI var tidiga med resonerande ai-modeller, och uppger att dessa är avsevärt bättre på att producera svar på en avancerad nivå. Dessutom ska ai-hallucinationerna minska – även om dessa förekommer även hos de nya resonerande modellerna.

Innovativa lösningar – för att komma runt USA:s embargo

På grund av USA:s handelsembargo tillåts inte kinesiska bolag att importera de senaste, mest avancerade ai-chippen från tillverkare som Nvidia. Det har fått Deepseek att använda ett gäng innovativa lösningar i utvecklingen av sina språkmodeller. Dessa beskrivs nu som bolagets ”secret sauce” – eller hemliga ingrediens.

Dels använder Deepseek en så kallad ”Mixture of Experts” -arkitektur (MoE). Det innebär att systemet kan aktivera enbart de grupper eller olika delar av en ai-modell som är nödvändiga för en specifik uppgift ska kunna lösas. Värt att poängtera är att bolaget inte är ensamt om MoE-arkitekturen – tekniken används också bland annat av unga ai-uppstickaren Mistral.

Multihead Latent Attention (MLA) är en annan metod som Deepseek drar nytta av för att kunna sänka minnesförbrukningen radikalt när systemet körs.

Sammantaget innebär MoE- och MLA-metoderna att bolaget dels kan minska förbrukningen av avancerad beräkningskraft när modellerna körs, dels att kostnaderna för nämnda beräkningskraft i molnet kan reduceras.

Pressade priser huvudbry för Open AI och Google

Deepseek förlitar sig dessutom på ett annat knep i kampen mot Open AI, Google och andra amerikanska ai-bolag. Enligt Reuters ligger det kinesiska bolagets priser ”20 till 40 procent lägre” än vad betalande användare måste lägga ut för att få tillgång till Chat GPT:s mer avancerade verktyg och funktioner.

Det sätter ett hårt tryck på Open AI och Google, som har ai-tjänsten Gemini, att sänka priserna, skriver nyhetsbyrån.

Deepseek, grundat av den introverte miljardären Liang Wenfeng, har tränat sina språkmodeller på ett stort ai-kluster som bland annat består av 10 000 A100-chip från Nvidia.

Enligt rykten har bolaget smugglat in ”tiotusentals” avancerade ai-chip i Kina sedan USA:s handelsrestriktioner infördes 2022, skriver sajten BGR. Dessa uppgifter har dock inte kunnat bekräftas.

✉️ Språk- eller faktafel i texten? Skriv och berätta.