TECH
Open AI: Nu kan Chat GPT lyssna, se och tala
Cykelreparatören Chat GPT.
Open AI
Snart kan du diskutera dina bilder med Chat GPT – genom att tala med chattboten. De nya funktionerna rullas ut för premiumanvändare de kommande veckorna.
Du står framför katedralen i Köln. Du tar en bild med mobilen och skickar den till Chat GPT. ”Ah, det där är Kölnerdomen”, svarar chattboten med en av sina röster. Därpå kan du och Chat GPT konversera fritt om den makalösa byggnaden.
Men när Chat GPT nu kan analysera bilder – en funktion som Open AI började tala om tidigare i år – blir kanske turistguide inte det främsta användningsområdet. Den främsta nyttan gör den möjligen som allt-i-allo-fixare. I en video visar Open AI hur en användare får hjälp med att höja och sänka en cykelsadel, inklusive instruktioner om vilka verktyg som behövs.
Bildigenkänning kommer att fungera på alla plattformar, men för röst krävs en Ios- eller Android-enhet.
Det finns fem röster att välja bland och de är skapade i samarbete med röstskådespelare. För ändamålet har Open AI byggt en ny text-till-tal-modell. Till funktionen har företaget även adderat sin tal-till-text-modell Whisper som transkriberar det användaren säger.
Klonkonkurrens
Vidareutvecklingen av Chat GPT kommer samtidigt som flera mindre ai-bolag – till exempel Heygen och Eleven Labs – börjat erbjuda kraftfulla röstmodeller där man kan klona sin egen röst och översätta röstinmatning på ett språk till ett annat, med rösten intakt.
Open AI tänker inte rulla ut den möjligheten vitt och brett riktigt än eftersom företaget är medvetna om risken för att röster kan användas för att bedra och manipulera. Men de samarbetar med Spotify för att kunna klona podcastmakares röster och översätta dem till andra språk.
Även bildanalys är försedd med vissa begränsningar. Chat GPT ska inte, hävdar Open AI, kommentera personer som återges i bilder. Det skulle till exempel kunna bli enkelt att ta reda på information om en person bara genom att ta en bild på personen. Open AI har för vana att inte berätta på vilka data deras modeller tränats.
Samtidigt lär diskussionen om språkmodeller ska bygga på öppen källkod eller hållas under lås och bom inte avta. Open AI har valt det senare. Meta, som säkerligen kommer att erbjuda liknande funktioner i sina Llama-modeller framöver, har dock än så länge tagit ställning för öppenhet.
Enligt Open AI kommer Chat GPT:s nya förmågor att bli tillgängliga för alla vid ett senare tillfälle.