TECH

Den här roboten plockar upp skräp och talar med dig på en och samma gång

Figure 01 har kombinerats med en ai-modell från Open AI.

Foto: Figure

Samarbetet mellan Open AI och hajpade robotstartupen Figure är bara några veckor gammalt. Men redan nu kan Figures robot göra två saker samtidigt. ”Jag trodde att det skulle ta årtionden.”

Peter Ottsjö reporter

Publicerad 15 mar 2024 kl 07.59

Annons

Människan säger till roboten: kan du förklara varför du gjorde som du gjorde medan du plockar upp det här skräpet? Roboten, som kallas Figure 01, plockar upp skräpet och börjar berätta.

Det här är en del av den senaste demonstrationen från amerikanska startupbolaget Figure, som på kort tid blivit en av världens mest hajpade robotutvecklare. Enligt tekniksajten New Atlas består Figure av före detta medarbetare på Boston Dynamics, Tesla och Google Deepmind.

Nyligen tog bolaget in 675 miljoner dollar från bland andra Microsoft, Open AI, Amazon, Nvidia och Intel Capital. Företaget värderas till 2,6 miljarder dollar.

Att Figure nu begåvats med en röst är tack vare ett samarbete med just Chat GPT-utvecklaren Open AI, som presenterades för bara några veckor sedan.

Du kan ta del av den senaste demonstrationen nedan. Enligt Figure-grundaren Brett Adcock är videon inspelad i en tagning, roboten är inte fjärrstyrd av en människa och hastigheten är inte manipulerad. ”Vi börjar närma oss mänsklig hastighet”, skriver Adcock på X.

Corey Lynch, som leder arbetet med artificiell intelligens på Figure, uppger på X att Figure 01 kan ”beskriva sin visuella upplevelse, planera framtida handlingar, reflektera kring sitt minne och förklara sitt resonemang verbalt”.

Annons

Den Open AI-modell som sitter i Figure 01 kan hantera både bild och text. Den är utrustad med mikrofoner och en tal-till-text-modul som gör röstkommunikation med den mänskliga användaren möjlig. Likt språkmodeller minns den vad som sagts tidigare.

Men den minns också vad den sett tidigare. ”Samma modell är också ansvarig för vilka inlärda beteenden som ska köras på roboten för att fullfölja en given uppmaning. Då laddas särskilda neurala nätverksvikter på gpu:n och en policy körs”, skriver Corey Lynch.

Att kombinera Figure 01 med en multimodal modell ger, som Lynch noterar, intressanta nya färdigheter. ”Den kan översätta högnivå-uppmaningar som ’jag är hungrig’ till sammanhangsanpassade beteenden som ’ge personen ett äpple’.”

Figure 01 läser av bilder i 10 Hz och genererar rörelser med 24 frihetsgrader i 200 Hz.

”För bara några år sedan trodde jag att det skulle ta årtionden att kunna föra en konversation med en robot samtidigt som den planerar och utför sina inlärda beteenden. Men mycket har förändrats, uppenbarligen”, skriver Corey Lynch.