Overslaan en naar de inhoud gaan

Hallucinerende AI? Nieuwe tool moet dat oplossen, zonder AI-model opnieuw te trainen

Grote AI-modellen hallucineren met regelmaat: ze geven informatie die helemaal niet klopt en eigenlijk gewoon verzonnen lijkt. Wetenschappers aan de University of Science and Technology of China (USTC) en Tencent YouTu Lab hebben een framework gemaakt voor zogeheten 'multimodel large language models' waarmee dit probleem verholpen kan worden, zonder dat het model in kwestie helemaal opnieuw getraind moet worden. 

Multimodal large language models - ofwel MMLM's - zijn AI-modellen die tekst, video, audio en beelden snappen, ook in context met elkaar. Een voorbeeld daarvan is DALL-E, dat beelden kan genereren op basis van tekstuele beschrijvingen. 

Maar net als veel andere AI-modellen willen MMLM's nogal eens hallucineren. Vraag je zo'n model of er bijvoorbeeld een schaal op een foto van een keuken staat, dan kan het model zomaar zeggen dat dit niet het geval is, ook al is dat wel zo. Dat corrigeren kan lastig zijn: veel bestaande oplossingen vereisen dat het model opnieuw getraind wordt met specifieke data, zegt Venturebeat. De nieuwe tool Woodpecker pakt dat anders aan. 

Corrigeren op attribuutniveau

Woodpecker is een framework dat inconsistenties tussen beeldmateriaal en de gegenereerde tekst kan halen. Het framework is dus gemaakt voor MMLM's die beelden kunnen beschrijven. 

Woodpecker corrigeert MMLM's via een uitgebreid proces. Allereerst identificeert het de belangrijkste objecten die in de tekst genoemd worden en stelt daar dan vragen over. Die vragen worden vervolgens beantwoord aan de hand van expert models, waardoor er een soort database van aannames over objecten bestaat, op attribuutniveau. Dat is de zogeheten visual knowledge base. Mochten bepaalde zaken niet kloppen, dan worden de hallucinaties in de visual knowledge base aangepast en wordt het bijbehorende bewijs toegevoegd. 

Een voorbeeld: mocht een MMLM een beschrijving geven over een klassenfoto, dan kan Woodpecker bijvoorbeeld vragen hoeveel mensen er op die foto staan. Komt daar het verkeerde antwoord uit - bijvoorbeeld vijftien mensen in plaats van 38 - dan hoeft alleen het aantal aangepast te worden en kan er aangegeven worden waar al die mensen dan staan. Een model hoeft zo dus niet helemaal opnieuw getraind te worden. 

Open source

De broncode van Woodpecker is door de onderzoekers open source gemaakt. Zij moedigen anderen dan ook aan om het framework verder te onderzoeken en hier verder aan te werken.

Daarnaast hebben de onderzoekers een interactieve demonstratie van het systeem gemaakt, die voor iedereen toegankelijk is.

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in