Fr

TECH

Colgate test virtuele consumenten: wanneer AI focusgroepen vervangt, door Diederick Legrain (AI-Shift)

Donderdag 23 Oktober 2025

Colgate test virtuele consumenten: wanneer AI focusgroepen vervangt, door Diederick Legrain (AI-Shift)

Een gezamenlijk onderzoek van PyMC Labs en Colgate-Palmolive toont aan dat door AI gegenereerde “synthetische consumenten” de resultaten van echte enquêtes over aankoopintentie kunnen reproduceren, meer bepaald met een betrouwbaarheid van 90%. Het onderzoek is gebaseerd op 57 productconceptstudies rond persoonlijke hygiëne, uitgevoerd bij 9.300 Amerikaanse consumenten.

Directe aanpak geen succes

De meest intuïtieve methode bestaat erin de AI rechtstreeks een cijfer van 1 tot 5 te laten geven op een Likert-schaal. De onderzoekers creëerden persona’s met demografische kenmerken (leeftijd, geslacht, inkomen, locatie) en legden die productconcepten voor.

De resultaten bleken teleurstellend. De modellen GPT‑4o en Gemini‑2.0 genereerden onrealistische antwoorden die sterk naar score 3 (neutraal) neigden, terwijl bij de echte (menselijke) data de scores 4 en 5 overheersten. GPT‑4o behaalde slechts een mate van overeenstemming van 0,26 met de echte data (op een schaal van 0 tot 1).

De oplossing: Semantic Similarity Rating

De onderzoekers ontwikkelden een alternatieve benadering onder de noemer ‘Semantic Similarity Rating’ (SSR). In plaats van een getal als antwoord te verwachten, nodigen ze de AI uit om haar aankoopintentie in natuurlijke taal te beschrijven.

Voorbeeld van een antwoord: “Ik ben behoorlijk geïnteresseerd. Als het goed werkt en niet te duur is, zou ik het willen proberen.”

Dit tekstuele antwoord wordt vervolgens omgezet in een wiskundige vector en vergeleken met zes referentiesets van uitspraken, die elk overeenkomen met een niveau van de Likert-schaal. Die vergelijking levert een kansverdeling op over de vijf schaalpunten.

Met SSR behaalde GPT‑4o een mate van overeenkomst van 0,88 en met Gemini‑2.0 een van 0,80. Wat nog meer opviel, is dat de conceptcorrelatie 90% bedroeg van de maximale betrouwbaarheid die doorgaans tussen twee echte menselijke panels wordt vastgesteld.

Demografische kenmerken zijn cruciaal

De prestaties hangen sterk af van de aangeleverde demografische gegevens. Op basis van de feitelijke data bleek dat jongere en oudere deelnemers een lagere aankoopintentie vertoonden dan mensen van in de veertig. GPT‑4o wist dit patroon nauwkeurig na te bootsen. De persona’s met een beperkt besteedbaar inkomen bleken ook een lagere aankoopintentie te hebben, een patroon dat door beide modellen correct werd weerspiegeld.

Het controle-experiment met Gemini‑2.0 zonder enige demografische informatie is veelzeggend. Ondanks dat de verdelingen realistisch bleven (met een overeenkomst van 0,91), daalde de correlatie tussen concepten sterk tot 50%, tegenover 92% met demografische data. Zonder gedetailleerde persona’s beoordeelt de AI alle producten op een generieke positieve manier.

Rijkere kwalitatieve feedback

De synthetische of virtuele consumenten geven spontaan gedetailleerde onderbouwingen, in tegenstelling tot menselijke deelnemers die doorgaans korte antwoorden geven. Een voorbeeld: “Het gebruiksgemak en de veiligheid zijn aantrekkelijk, maar ik wil graag meer weten over de effectiviteit en mogelijke bijwerkingen.”

De onderzoekers merken ook op dat synthetische consumenten een breder deel van de beoordelingsschaal benutten, wat wijst op een verminderde positieve bias vergeleken met mensen.

Geïdentificeerde beperkingen

De SSR-methode is gebaseerd op zorgvuldig samengestelde referentieverklaringen die handmatig geoptimaliseerd zijn voor deze 57 studies. De prestaties ervan in andere domeinen blijven onzeker.

Niet alle demografische kenmerken worden met dezelfde nauwkeurigheid gereproduceerd. Geslacht, regio en etniciteit tonen minder overtuigende resultaten dan leeftijd en inkomen.

De mate van validiteit hangt meer af van het specifieke domein dat wordt onderzocht. De auteurs leggen uit dat de methode goed werkt voor persoonlijke verzorgingsproducten, omdat de modellen tijdens hun training uitgebreid werden blootgesteld aan discussies over deze categorieën. Voor domeinen waar deze kennis ontbreekt, kan de methode tot zogenaamde hallucinaties leiden.

Tot slot reproduceren de synthetische consumenten de verklaarde intenties, niet het echte koopgedrag dat komt met budgettaire, culturele en contextuele omstandigheden.

De auteurs concluderen dat er geen specifieke training nodig was, waardoor de methode breed toepasbaar is. Zij merken op dat synthetische consumenten menselijke panels kunnen aanvullen of gedeeltelijk vervangen, maar dat de toepasbaarheid in andere domeinen nog bewezen moet worden.

Archief / TECH