Op 12 september jl. ontving ik als dank voor een bijdrage aan Ai in de stad Breda, een giftcard voor een AI-parfum van EveryHuman. Die kon ik meteen verzilveren. In de Nieuwe Veste, waar het evenement plaatsvond, stond in de hal een apparaat opgesteld met een heleboel flessen met vloeistoffen. Onder de flessen liep een lopende band met daarop kleine flesjes die gevuld werden met de verschillende vloeistoffen in verschillende combinaties en doseringen. Ik moest eerst digitaal een heleboel vragen over mezelf beantwoorden. Vervolgens werden mijn antwoorden naar het apparaat doorgestuurd. Hier werd met behulp van kunstmatige intelligentie oftewel AI (artificial intelligence) aan de hand van mijn antwoorden bepaald welke geurcombinaties voor mij de best passende parfum opleveren. Uiteindelijk rolden er drie flesjes van de lopende band met voor mij persoonlijk gemaakte unieke geurcombinaties. Carin 01, Carin 02 en Carin03. Bevallen ze goed, dan kan ik ze later bijbestellen.
Carin 01 heb ik meteen in gebruik genomen. Een vrij zoete geur en ik hou niet van zoet. Dat vond ik wel opvallend want ik had dat expliciet ingevuld ergens in de best wel lange vragenlijst. Carin 01 is zeker geen onaangename geur – in mijn omgeving werd zelfs enthousiast gereageerd – maar geen geur die ik zelf gekozen zou hebben. Kent de AI mij beter dan ik mezelf ken? Hoe is de parfum tot stand gekomen? Waarom deze geuren in deze combinaties? Waarom drie flesjes met verschillende parfums? Best veel vragen eigenlijk.
Gaandeweg deze overpeinzingen vielen me de overeenkomsten op met de vragen die er zijn over de grote taalmodellen als ChatGPT en generatieve kunstmatige intelligentie in het algemeen. Als ik vertel over generatieve AI vermeld ik altijd de negatieve kanten die eraan kleven. De black-box-kwestie (waarom komt eruit wat eruit komt), de vooroordelen in de data waarmee het is getraind en die je terugziet in de uitkomsten, de hallucinaties van de modellen, fouten in de resultaten. Met de AI-parfum als metafoor licht ik ze toe.
Black Box
Bij veel taal- of multimodale modellen is niet meer precies duidelijk hoe het model werkt, waarom het resultaat is zoals het is. Is dat bij de parfum-machine ook zo? Ik zou graag willen weten van de makers waarom ik de geuren kreeg zoals ik ze kreeg. Welke antwoorden zijn verbonden met welke geuronderdelen? En waarom? Mogelijk is het algoritme dat dit bepaalt, getraind met gegevens van mensen met bepaalde persoonlijkheidskenmerken en hun favoriete geuren. Misschien is er ergens een heel groot bestand beschikbaar met deze gegevens om zo’n algoritme te trainen. Zoals de taalmodellen ook getraind worden met enorme databestanden die online te koop zijn.
Vraag is wat er dan in dat geurenbestand zit. Wat is de kwaliteit van die data? Als er wetenschappelijke onderzoeken inzitten, heb ik wel vertrouwen in het parfumresultaat. Maar dat is een stuk minder als blijkt dat het zweverige onzin is die online ook te vinden is over de relatie tussen geuren en karakter. Zo is het met de taalmodellen ook. Waar zijn die mee getraind? Wat is de kwaliteit van de data want dat bepaalt de betrouwbaarheid van de uitkomst.
Vooroordelen in de trainingsdata
Het internet staat boordevol met vooroordelen en racistische en seksistische stereotyperingen. Google maar eens op ‘schooljongen’ en ‘schoolmeisje’. Met die databestanden vol vooroordelen zijn de taalmodellen getraind. Met als gevolg dat het in de resultaten terug te vinden is. Hoe zit het met het parfumalgoritme? Waar is dat mee getraind? Gaat dat ervan uit dat een vrouw standaard van bloemengeuren houdt omdat dat een stereotypering is die op het internet volop circuleert?
Hallucinaties en fouten
Het kan ook zijn dat het parfumalgoritme maar wat heeft gedaan. Er rolden heel overtuigend zelfs drie flesjes uit het apparaat en hoe kan ik – om de hiervoor beschreven redenen – controleren of het klopt? Bij taalmodellen heb je ook wel eens dat er rare resultaten uitrollen die niet kloppen om de één of andere reden. Dat wordt hallucineren genoemd.
Wat als de AI mij beter kent dan ik mezelf ken?
In het boek Het Alles van Dave Eggers (leestip) wordt een wereld geschetst waarin één bedrijf, The Every, min of meer de baas van de hele wereld is omdat iedereen haar apps gebruikt. Via de apps weet het bedrijf alles van iedereen en krijgt iedereen dat ook terug. Dankzij de apps weten mensen wat ze ‘echt’ leuk of lekker of interessant vinden. We weten ook allemaal dat we in het echt juist vaak daar helemaal niet eerlijk over zijn. Om verschillende redenen: om interessant te lijken, om indruk te maken, vanwege een associatie of ontkenning. De wereld in het algemeen wordt er niet leuker op in het boek van Eggers. En het leven voor individuen al helemaal niet. Is hier bij het parfumalgoritme ook sprake van? Is de geur die eruit komt en die ik niet zo lekker vind ruiken eigenlijk de geur die ik wel lekker moet vinden omdat die toch echt het best bij mij past?
Prompt
De input bepaalt de kwaliteit van de output, hoe beter de prompt – de opdracht die het taalmodel krijgt – hoe beter het resultaat. Om mijn parfumgeurtjes te maken moest ik veel vragen beantwoorden. En ik had haast dus ik heb de vragen eigenlijk afgeraffeld. Met andere woorden, ik heb de parfummachine slechte input gegeven. Kans is dan ook groot dat het resultaat, de 3 geurtjes, eigenlijk niet zijn wat ze hadden kunnen zijn. Namelijk (nog) beter.
Voorspeller
Taalmodellen zoals Chatgpt zijn in feite niet meer dan woordvoorspellers. De voorspelling is gebaseerd op waarschijnlijkheid. Een taalmodel baseert een antwoord op basis van wat het heeft geleerd en meestal zijn er meerdere antwoorden of formuleringen mogelijk. Daarom verschilt het antwoord op een prompt als je die op verschillende momenten gebruikt. Zo is het met parfummachine misschien ook wel. Ik kreeg drie flesjes met verschillende geuren. De input was, hetzelfde namelijk de vragenlijst die ik had ingevuld. Misschien zouden er bij een volgende ronde weer drie totaal andere geuren van de lopende band rollen.
Vrijblijvend
EveryHuman heeft ongetwijfeld (daar ga ik vanuit tenminste) hun algoritme helemaal onder controle en weet waarom antwoordcombinaties op al de vragen leiden tot bepaalde geurcombinaties. Als dat niet zo is, vind ik het ook niet zo erg hoewel ik het dan wel een beetje bedrog of misleidend zou vinden. Maar ook dat is dan niet zo erg want het is ook gewoon leuk om te ontdekken met welke parfum het apparaat op de proppen komt. En leuk om een parfum te dragen waarvan je weet dat het uniek is. Bij generatieve AI is dat een stuk minder vrijblijvend. De rol die de uitkomsten daarvan inmiddels spelen in onze wereld, gaat om veel meer dan een lekker geurtje.
Over Algorithmic Perfumery van EveryHuman:
“Algorithmic Perfumery van EveryHuman bevindt zich op het kruispunt van kunst, wetenschap en technologie. Het is ontstaan uit de ontmoeting tussen kunstenaar-technoloog Frederik Duerinck en geurontwerper Anahita Mekanik. Samen willen ze gebruikers centraal stellen in het creatieproces en ze zo een nieuwe manier bieden om met geur om te gaan. Het huidige model dat aan consumenten wordt aangeboden wordt door deze verschuiving in perspectief radicaal uitgedaagd en stelt de vraag waarom 700 mensen beslissen hoe de wereld ruikt voor 7 miljard mensen.“
Natuurlijk gaat het mij er in deze blog niet om, om Algorithmic Perfumery van EveryHuman aan een diepgaand onderzoek te onderwerpen of te bekritiseren. Ik ben ze dankbaar voor de metafoor die ze zonder het zelf te weten hebben geboden. En natuurlijk voor Carin01, Carin02 en Carin 03!