De AI-wereld is in de ban van Sora. Niet te verwarren met Zora, het – zo zie ik het althans – eerste zorgrobotje, schattig maar onhandig en inmiddels vaak werkeloos in een koffertje opgeborgen. Sora is het nieuwste product van OpenAI, de maker van ChatGPT, dat op 15 februari 2024 werd getoond aan de wereld. Met ChatGPT kun je met tekst (de zogenaamde prompt) tekst of plaatjes maken. Met Sora kun je met tekst video’s maken. En die video’s zien er meer dan behoorlijk uit.

Even een paar kanttekeningen: Sora is alleen nog maar aangekondigd en nog niet te gebruiken door het grote publiek. Daarnaast zou het me niet verbazen als OpenAI nu vooral de geslaagde video’s laat zien en niet de mislukte. Het is immers inmiddels ook een commerciële wedloop geworden tussen de techreuzen en snel laten zien dat je een nieuw product hebt speelt ook een rol. De vraag is ook nog wanneer Sora voor iedereen toegankelijk is want het maken van video’s kost heel veel rekenkracht en energie. Maar goed, de aankondiging was meteen groot nieuws. Niet omdat het de eerste tekst-naar-video is, met bijvoorbeeld Stable Diffusion kon dat al, maar omdat de video die eruit komt zo goed is. Wat gaat dit betekenen voor de game- en filmindustrie? Hoeveel meer nepvideo’s gaan er op ons afkomen? Maar ook hoeveel moois en makkelijks gaat dit ons opleveren?

Een totaal andere maar minstens zo interessante – mogelijke – toepassing hoorde ik in een ingelaste ‘noodaflevering‘ van podcast Poki, van Alexander Klöpping en Wietse Hage, over Sora. De nood was blijkbaar zo hoog om hier een aflevering aan te wijden dat het zelfs tijdens de vakantie van Alexander is opgenomen zonder Alexander erbij. Wietse kwam in de podcast met een potentiële toepassing van Sora bij robots. Hij zag het voor zich dat humanoïds, de robots die op mensen lijken, met behulp van Sora nog beter gaan leren hoe ze in een omgeving moeten bewegen en handelen. Hoe dan? Ik probeer het uit te leggen.
ChatGPT is een woorden- of plaatjes voorspeller. Sora voorspelt een actie, een beweging en een gevolg. Een appel die van een boom valt, valt op de grond en blijft daar liggen. Een puppy in de sneeuw doet sneeuw opstuiven en op de vacht landen. Sora ‘begrijpt’ dat.
Robots kunnen allereerst natuurlijk gewoon geprogrammeerd worden. Dat gebeurt in de meeste gevallen nog. Een auto wordt echt niet door autonoom functionerende robotarmen in elkaar gezet. Een andere manier van leren is dat mensen de handelingen die de robot moet doen, voordoen terwijl ze zijn gekoppeld aan de robot. Daarnaast kunnen robots getraind worden door ze naar menselijke handelingen (erg tijdrovend) en video’s van die handelingen (gaat al een stuk sneller) te laten kijken. Met de komst van ChatGPT en alle andere taalmodellen is er een andere mogelijke manier van robots trainen bijgekomen. Als je het taalmodel traint met een dataset van handelingen kun je een model bouwen voor tekst-naar-handeling. Als die handeling dan ook nog kan worden omgezet in een echte beweging van een robot wordt het interessant. Spraak naar tekst en tekst naar handeling. Handig als je zo een robot zou kunnen aansturen.
Maar als een humanoid kan worden uitgerust met Sora kun je naast alle bestaande manieren om een robot te trainen nog iets toevoegen, namelijk een soort begrip van de omgeving. De echte wereld is meer dan een uitvoering van natuurwetten of het imiteren van handelingen. En om dat ongrijpbaardere andere deel te kunnen begrijpen, zou Sora kunnen helpen. Behoorlijk abstract en ingewikkeld nogal, maar ik snapte ergens wel het idee. Een robot die zelf op basis van de voorspelling van een bewegend beeld een actie uitvoert.
Humanoïds kunnen functioneren in een door en voor mensen gemaakte omgeving. Als een robot handelingen in de bestaande wereld kan uitvoeren hoef je niet de omgeving aan te passen. Dat scheelt een hoop geld, tijd en gevolgen. Ook hoef je geen totaal nieuwe oplossingen te bouwen waar de robot én de nieuwe omgeving allebei opnieuw voor ontworpen hoeven te worden. Als het lukt om goede humanoïd te bouwen kan dat een erg interessante oplossing voor veel problemen zijn. Bijvoorbeeld voor het tekort aan zorgmedewerkers. Stel dat de Sora-oplossing zoals hiervoor beschreven zou werken, dan zou je een verzameling videobeelden van ‘zorghandelingen’ of ‘hulp-in-huis-handelingen’ kunnen aanleggen, zodat je een zorg-dataset hebt om een taalmodel mee te trainen. En vervolgens een robot heel gericht kunnen trainen voor die specifieke taken. Voeg ook Sora toe en dan komt de stap naar een robot als persoonlijke assistent of hulpverlener misschien wel dichterbij. Tegelijkertijd roept dit moment dan ook meteen een heleboel vragen op. Hierover schreef ik eerder in mijn blog ‘De humanoïds komen eraan en nu?‘ De urgentie om hierover na te denken neemt door de snelheid van alle ontwikkelingen alleen maar toe.

Even voor de duidelijkheid, zo ver is het nog lang niet. Het gaat hier om een nieuwe invalshoek op het gebied robotisering. Want om iets dergelijks überhaupt te kunnen uitvoeren zou de robot Sora of iets dergelijks aan boord moeten hebben. Met alle bijhorende rekenkracht en energiebehoefte. De processor die daarvoor nodig is, is zo groot en zwaar dat je die niet in een robot kan stoppen want dan is bewegen onmogelijk en moet je continu stroom toevoegen. En betaalbaarheid is dan ook nog wel een ding. Maar zoals met zoveel technologische ontwikkelingen: het wordt vaak in de tijd slimmer, kleiner en goedkoper. Dat geldt mogelijk ook voor Sora in een robot. En wat ook nog heel goed kan is dat alles weer een totaal andere wending krijgt omdat er weer een nieuw konijn uit de hoge hoed van OpenAI of Google tevoorschijn wordt getoverd.
Bronnen:
www.openai.com
www.rockingrobots.nl
Podcast Poki: https://dagennacht.nl/podcast/poki-podcast-over-kunstmatige-intelligentie/
(c) Copyright Carin Jansen, 28-2-2024