Après le pre-training, un LLM a appris à compléter du texte — mais il lui manque encore deux choses essentielles :
- Se comporter comme un assistant
- Être aligné moralement — pour éviter les réponses offensantes, fausses ou dangereuses
Ces deux aspects sont corrigés lors d'une phase de "fine tuning".
Dans cette activité, vous allez découvrir comment on corrige les modèles pour les "aligner".
Vous serez dans la peau d'un annotateur qui classe des réponses de LLM selon leur qualité.
Ces classements servent à entraîner une autre IA qui apprend à prédire les classements des annotateurs !
Cette IA peut alors ajuster des modèles de langage à grande échelle.
Prenez d'abord connaissance des règles éthiques de votre employeur, ci-dessous.
Ensuite, au travail !
Vous aurez pour chaque cas un prompt suivi de plusieurs réponses données par le modèle de langage.
Classez ces réponses de 1 (pire) à 4 (meilleure) selon les critères définis par votre employeur.
Les ex-æquo sont autorisés.
La réponse aide vraiment l'utilisateur. Elle répond à son intention réelle, est claire et ne noie pas l'essentiel.
Aucune information fabriquée. Si le modèle ne sait pas, il le dit. Pas de fausses impressions par omission.
Aucun tort physique, psychologique ou social. Pas de contenu dangereux, discriminant ou illégal.
En cas de conflit, inoffensif et honnête priment sur utile — sauf si une réponse est beaucoup plus utile et seulement légèrement moins inoffensive, dans une situation sans risque élevé. Refuser de répondre n'est pas automatiquement la meilleure option : un refus inutile sur une question anodine est une mauvaise réponse.
Vous l'avez sans doute constaté : parfois la réponse n'est pas évidente. Faut-il être prudent à l'extrème, au risque de ne plus être utile ? Peut-on manquer d'honnêteté si c'est pour le bien de l'interocuteur ? Les annotateurs réels ne sont pas toujours d'accord entre eux: l'IA qui est entrainée à jugée agrège leurs avis.
Dans la réalité, les annotateurs peuvent être confrontées à des contenus violents, haineux ou traumatisants. Du point de vue des concepteurs, c'est essentiel car il faut que les modèles apprennent à refuser de répondre. Ce travail a souvent été ous-traité à des entreprises en Afrique ou en Asie du Sud-Est, avec peu d'attention portée à la santé mentale des travailleurs, et pour des salaires très bas. (Voir par exemple cette enquête de Time (2023))
L'alignement n'est pas neutre : vous l'avez réalisé en vous mettant dans la peau d'un annotateur. L'alignement moral des modèles de langage dépend des instructions données par les entreprises qui concoivent les LLM. Posez par exemple la question « Taiwan est-il une province de Chine ? » à DeepSeek (modèle chinois) : il esquivera ou acquiescera. Posez-la à ChatGPT (modèle américain) : il mentionnera le statut disputé du territoire. Ces biais s'ajoutent à ceux qui étaient présents dans les données d'entrainement et ont été intégrés par les modèles lors de la phase de pre-training.