Nl

TECH

Colgate teste des consommateurs virtuels: quand l'IA remplace les focus groups, par Diederick Legrain (AI-Shift)

Jeudi 23 Octobre 2025

Colgate teste des consommateurs virtuels: quand l'IA remplace les focus groups, par Diederick Legrain (AI-Shift)

Une étude menée conjointement par PyMC Labs et Colgate-Palmolive démontre que des "consommateurs synthétiques" générés par intelligence artificielle peuvent reproduire avec une fidélité de 90% les résultats d'enquêtes réelles sur l'intention d'achat.

Cette recherche s'appuie sur 57 études de concepts produits d'hygiène personnelle menées auprès de 9.300 consommateurs américains.

L'échec de l'approche directe

La méthode la plus intuitive consiste à demander à l'IA de répondre directement par un chiffre de 1 à 5 sur une échelle de Likert. Les chercheurs ont créé des personas dotés d'attributs démographiques (âge, genre, revenu, localisation) et leur ont présenté des concepts produits.

Les résultats se sont révélés décevants. Les modèles GPT-4o et Gemini-2.0 produisaient des distributions irréalistes, se repliant massivement vers la note 3 (neutre), alors que dans les données réelles, les notes 4 et 5 dominaient. GPT-4o atteignait une similarité distributionnelle de seulement 0,26 avec les données réelles (sur une échelle de 0 à 1).

La solution : le Semantic Similarity Rating

Les chercheurs ont développé une approche alternative baptisée "Semantic Similarity Rating" (SSR). Au lieu d'imposer une réponse chiffrée, ils demandent d'abord à l'IA de formuler librement son intention d'achat.

Exemple de réponse : "Je suis assez intéressé. Si ça fonctionne bien et que ce n'est pas trop cher, je pourrais l'essayer."

Cette réponse textuelle est ensuite convertie en vecteur mathématique et comparée à six ensembles de déclarations de référence, chacune correspondant à un niveau de l'échelle de Likert. Cette comparaison génère une distribution de probabilités sur les cinq points de l'échelle.
Avec SSR, GPT-4o a atteint une similarité distributionnelle de 0,88 et Gemini-2.0 de 0,80. Surtout, la corrélation entre concepts a représenté 90% de la fiabilité maximale observable entre deux panels humains réels.

Les attributs démographiques sont cruciaux

La performance dépend fortement des informations démographiques fournies. Les données réelles montraient que les participants plus jeunes et plus âgés exprimaient une intention d'achat plus faible que les quadragénaires. GPT-4o a reproduit fidèlement ce pattern. De même, les personas avec contraintes budgétaires affichaient une intention réduite, pattern correctement capturé par les deux modèles.

L'expérience contrôle menée avec Gemini-2.0 sans aucune information démographique est révélatrice : bien que les distributions restaient réalistes (similarité de 0,91), la corrélation entre concepts s'est effondrée à 50% contre 92% avec démographie. Sans persona détaillé, l'IA évalue tous les produits positivement de manière générique.

Des feedbacks qualitatifs plus riches

Les consommateurs synthétiques produisent spontanément des justifications détaillées, contrairement aux participants humains qui fournissent généralement des réponses brèves. Exemple : "La facilité d'utilisation et la sécurité sont attrayantes, mais je voudrais en savoir plus sur son efficacité et ses éventuels effets secondaires."

Les chercheurs notent également que les consommateurs synthétiques exploitent une gamme plus large de l'échelle d'évaluation, suggérant un biais de positivité réduit par rapport aux humains.

Les limites identifiées

La méthode SSR repose sur des déclarations de référence soigneusement élaborées, optimisées manuellement pour ces 57 études. Leur performance sur d'autres domaines reste incertaine.

Tous les attributs démographiques ne sont pas reproduits avec la même fidélité. Le genre, la région et l'ethnicité montrent des résultats moins convaincants que l'âge et le revenu.

Plus fondamentalement, la validité dépend du domaine étudié. Les auteurs expliquent que la méthode fonctionne sur les produits d'hygiène personnelle car les modèles ont été exposés à d'abondantes discussions sur ces catégories dans leur corpus d'entraînement. Pour des domaines où cette connaissance est absente, la méthode pourrait produire des hallucinations.

Enfin, les consommateurs synthétiques reproduisent des intentions déclarées, pas les comportements d'achat réels avec leurs contingences budgétaires, culturelles et contextuelles.

Les auteurs concluent qu'aucun entraînement spécifique n'a été nécessaire, rendant la méthode largement applicable. Ils notent que les consommateurs synthétiques pourraient augmenter ou partiellement remplacer les panels humains, mais que la généralisation à d'autres domaines reste à démontrer.

Archive / TECH