mart-e

La vie, Linux, la tartiflette...

ChatGPT n'est pas conçu pour dire la vérité

Il y a peu, il y a eu un échange à mon boulot ressemblant à ceci :

- Je trouve pas comment exporter en PDF dans X, c'est où ?
- Mais on peut pas exporter en PDF
- ChatGPT m'a dit que oui
- …

Et ce n'est pas uniquement mes charmants collègues : récemment, un avocat a utilisé des cas de jurisprudence inexistants dans sa plaidoirie lors d'un procès. Il avait utilisé ChatGPT pour étoffer ses arguments sans prendre la peine de les vérifier.

A Lawyer's Filing "Is Replete with Citations to Non-Existent Cases"—Thanks, ChatGPT?

Deux avocats américains condamnés pour avoir cru les élucubrations de ChatGPT

Si on s'intéresse deux minutes au fonctionnement de ChatGPT et de toutes ces LLM (Large Language Model) dont on nous gave depuis des mois, on comprend pourquoi ce logiciel a produit des réponses hallucinées. Les LLM sont entraînées avec des énormes bases de textes dans le but de prédire la suite probable à une phrase. ChatGPT est votre clavier de smartphone qui vous suggère "tartiflette" après avoir tapé "j'aime la". Votre clavier mais avec des millions de fois plus de données d'apprentissage... et des millions d'heures de correction par des humains sous payés.

Si je tape "Quelle est la capitale de la Belgique ?", la réponse la plus probable est "Bruxelles" mais ChatGPT ne comprend pas le sens de la question. En effet, il n'a pas été consulter une base de données géographiques pour trouver la réponse, il a fait une supposition sur base de toutes les données qu'il a collectées et "Bruxelles" est la plus probable.

Mais que se passe-t-il si je lui demande quelque chose dont il n'a pas enregistré la réponse lors de son pillage de textes trouvés sur internet ?

Il va produire la réponse la plus probable, il va imaginer.

Si je demande "quelle est la différence entre des œufs de poule et de vache ?", il va me donner une réponse absurde, mais statistiquement plausible pour son modèle. Il va faire des suppositions sur la taille de l’œuf, son goût, etc. Il ne comprend pas les concepts d'"œuf", "poule" ou "vache". Et, encore moins, qu'une vache ne pond pas des œufs mais des reblochons.

Absurdités que Google va ensuite régurgiter sans se poser plus de questions

Si j'ai un bouton "exporter en pdf" dans la partie A de mon application, lorsque mon collègue demande où se trouve ce bouton dans l'écran B, il va produire une réponse plausible (mais pourtant fausse).

On aime dire que ChatGPT est un menteur plein de mauvaise foi mais c'est anthropomorphiser ce logiciel. Il faut le considérer pour ce qu'il est réellement : un algorithme prédictif. Anthropomorphisme poussé par OpenAI qui l'a volontairement programmé pour répondre comme le ferait une personne, rendant encore plus crédible l'impression d'une conversation avec un expert (sous LSD).

OpenAI, Microsoft, Google, Facebook, toutes ces sociétés essayeront de vous faire croire que leurs logiciels permettent de donner des réponses justes à vos questions mais c'est un mensonge. Et elles en sont certainement conscientes (ou ne s'en préoccupent pas beaucoup).

Mais finalement, si l'algorithme donne une mauvaise prédiction, est-ce que ce n'est pas juste un manque de données qui sera bientôt comblé ?

Pour perfectionner l'illusion de compréhension par leurs algorithmes, ces sociétés se focalisent sur deux points :

  • l'augmentation du corpus de textes d'apprentissage
  • la supervision par des humains

Dans une logique stéréotypée classique, c'est celui qui aura la plus grosse base de données qui donnera les meilleures réponses. Vraiment ? En augmentant la taille de l'échantillon, on va surtout tirer le résultat vers la moyenne. Entraînez votre IA avec les recettes de chefs reconnus. Ajoutez ensuite l'intégralité des recettes publiées sur marmiton. Dans quel cas est-ce que les suggestions de recettes seront de meilleure qualité ?

Comme le disait Dave Karpf, on va nous refiler des IA dans tous les sens qui ne produisent pas des résultats satisfaisants mais des résultats suffisants. Suffisamment dans la moyenne pour donner l'illusion. Suffisants pour déployer ce logiciel et se débarrasser de l'opérateur humain.

On Generative AI and Satisficing | Dave Karpf

[I]t’s best to understand Generative AI tools as cliche-generators. The AI isn’t going to give you the optimal Disney World itinerary; It’s going to give you basically the same trip that everyone takes. It isn’t going to recommend the ideal recipe for your tastes; it’s just going to suggest something that works…

Can a Generative AI produce a sitcom script? Yeah, it can. Will the script be any good? Meh. It will be, at best, average. Maybe it will be a creative kind of average, by remixing tropes from different genres (“Shakespeare in spaaaaaaaaace!”), but it’s still going to be little more than a rehash.

À cela, vous ajoutez le fait que les IA commencent à être entraînées avec du contenu généré par les IA, ce qui aura un effet boule de neige en tirant vers le bas la qualité de l'information.

Vient, alors, le deuxième point : faire travailler des gens sous-payés qui doivent qualifier des quantités énormes de données d’entraînement pour que les réponses correspondent à la vision d'une "bonne réponse" de leur propriétaire. En plus des soucis des conditions de ces travailleurs du clic, se pose évidemment la question de sa tendance politique.

Conservatives Aim to Build an A.I. Chatbot of Their Own | The New York Times

Derrière chaque LLM se cache des décisions humaines

Mais, finalement, quelle différence avec un être humain ? Un être humain se trompe aussi, non ? Il faut de toutes façons revérifier ses sources. C'est le point avancé par Cheating is All You Need de Sourcegraph (une société proposant une IA comme assistant de code). Cet argument semble crédible mais il est plutôt naïf. Il est assez difficile de garder un esprit critique face à un humain vous parlant avec assurance mais vous avez au moins toute une série d'informations de cadre vous permettant d'évaluer la crédibilité de votre interlocuteur. Lorsqu'un médecin vous donne un conseil de santé, vous lui faites probablement confiance. S'il est radiologue et vous donne son avis sur le vaccin du SARS-CoV-2, il est de bon ton de prendre son conseil avec des pincettes. Et pourtant, peu de gens le font. Vous venez de lire un texte dans lequel un non-expert vous expliquait comment les LLM fonctionnent, j'espère que vous ne l'avez pas cru sur parole…

Avec les LLM, on enlève ce cadre et on vous met face à une boite noire que l'on vous vend comme ayant une réponse à toutes vos questions. Peu de gens lisent les sources lorsque Google vous dit combien de temps il faut pour caraméliser les oignons. Est-ce que les gens le feront plus face à un logiciel vendu comme expert en tout et qui ne donne aucune source ? J'en doute.

Mozilla expérimente l'intégration d'une LLM pour expliquer ses pages techniques sur sa documentation MDN. Ils ont eu l'excellente idée d'ajouter un bouton "AI Explain" à coté des bouts de code. Très rapidement, les utilisateurs se sont plaints qu'il produisait des réponses erronées. Comment peut-on demander aux gens de garder un esprit critique sur ces réponses si elles sont mises en avant par l'éditeur lui-même ?

MDN can now automatically lie to people seeking technical information #9208 | Github

Plus que jamais, ayez un regard critique envers les humains trop sûrs d'eux mais, encore plus, avec les logiciels trop sûrs d'eux dont on ne sait rien.

Réagissez à cet article.