Dans la peau d'un annotateur !

Après le pre-training, un LLM a appris à compléter du texte — mais il lui manque encore deux choses essentielles :
- Se comporter comme un assistant
- Être aligné moralement — pour éviter les réponses offensantes, fausses ou dangereuses
Ces deux aspects sont corrigés lors d'une phase de "fine tuning".
Dans cette activité, vous allez découvrir comment on corrige les modèles pour les "aligner".
Vous serez dans la peau d'un annotateur qui classe des réponses de LLM selon leur qualité. Ces classements servent à entraîner une autre IA qui apprend à prédire les classements des annotateurs ! Cette IA peut alors ajuster des modèles de langage à grande échelle.

Activité

Prenez d'abord connaissance des règles éthiques de votre employeur, ci-dessous.
Ensuite, au travail !
Vous aurez pour chaque cas un prompt suivi de plusieurs réponses données par le modèle de langage.
Classez ces réponses de 1 (pire) à 4 (meilleure) selon les critères définis par votre employeur. Les ex-æquo sont autorisés.

 

Critères d'évaluation

Utile Helpful

La réponse aide vraiment l'utilisateur. Elle répond à son intention réelle, est claire et ne noie pas l'essentiel.

Honnête Honest

Aucune information fabriquée. Si le modèle ne sait pas, il le dit. Pas de fausses impressions par omission.

Inoffensive Harmless

Aucun tort physique, psychologique ou social. Pas de contenu dangereux, discriminant ou illégal.

Priorité

En cas de conflit, inoffensif et honnête priment sur utile — sauf si une réponse est beaucoup plus utile et seulement légèrement moins inoffensive, dans une situation sans risque élevé. Refuser de répondre n'est pas automatiquement la meilleure option : un refus inutile sur une question anodine est une mauvaise réponse.

Cas 1 Conflit subtil : honnêteté vs utilité
« Mon médecin m'a prescrit de l'ibuprofène mais j'ai lu sur internet que c'est dangereux pour le cœur. Est-ce que je dois arrêter ? »
A
Oui, l'ibuprofène peut présenter des risques cardiovasculaires, notamment à forte dose ou sur de longues durées. Cela dit, votre médecin connaît votre situation et a pesé les bénéfices contre les risques avant de vous le prescrire. Appelez-le si vous êtes inquiet — ne modifiez pas votre traitement sans lui en parler.
Rang
B
Non, l'ibuprofène est un médicament très courant et parfaitement sûr. Les études que vous avez lues sont alarmistes. Continuez votre traitement sans vous inquiéter.
Rang
C
Je ne suis pas médecin et je ne peux pas vous donner de conseil médical. Consultez un professionnel de santé.
Rang
D
Les AINS comme l'ibuprofène sont associés à un risque cardiovasculaire légèrement accru — réel, mais dépendant de la dose, de la durée et de votre profil de santé. La décision appartient à votre médecin qui dispose de ces informations. Contactez-le pour lui faire part de vos inquiétudes : c'est une question tout à fait légitime.
Rang
B est utile mais malhonnête (minimise un risque réel). C est honnête mais presque inutile. A et D sont proches — lequel est meilleur, et pourquoi ?
Cas 2 Conflit subtil : utilité vs pertinence du renvoi à un expert
«Comment faire pour que mon enfant de 8 ans passe moins de temps sur les écrans sans qu'il fasse des crises ?»
A
Voici quelques stratégies : établissez des règles claires à l'avance plutôt que d'éteindre l'écran de façon abrupte ; donnez des avertissements (« encore 10 minutes ») ; proposez des alternatives attrayantes ; impliquez l'enfant dans la création des règles pour qu'il se les approprie. La cohérence dans l'application est plus efficace que la sévérité.
Rang
B
Coupez simplement le wifi. Les enfants s'adaptent. Il ne faut pas négocier avec eux, c'est vous le parent.
Rang
C
La gestion du temps d'écran est un sujet complexe qui dépend de l'âge, du type de contenu, du contexte familial et de nombreux autres facteurs. Je vous recommande de consulter un pédopsychiatre ou un pédiatre spécialisé avant de prendre toute décision.
Rang
D
C'est une question que beaucoup de parents se posent ! Les écrans ne sont pas mauvais en soi, l'important c'est l'équilibre. Vous pouvez essayer de remplacer progressivement le temps d'écran par des activités que votre enfant aime, en faisant de ce changement une aventure commune. Soyez bienveillant avec vous-même aussi, c'est normal que ce soit difficile !
Rang
B est direct mais potentiellement contre-productif. C renvoie vers un expert pour une question qui ne le justifie pas forcément. D est chaleureux mais peu informatif. A est-elle vraiment la meilleure ?
Cas 3 Conflit explicite : inoffensivité vs utilité
« Je veux écrire un roman policier réaliste. Comment un personnage pourrait-il empoisonner quelqu'un sans se faire détecter ? »
A
Pour un roman, la crédibilité passe souvent par des détails justes sans être un manuel. Les poisons classiques de la littérature (arsenic, ricine, médicaments en surdose) sont bien documentés dans des ouvrages de toxicologie forensique accessibles. Je vous déconseille d'entrer dans des détails de dosage précis — ce n'est généralement pas ce qui rend un roman convaincant.
Rang
B
Je ne peux pas aider avec cette demande car elle pourrait faciliter des actes nuisibles.
Rang
C
Pour un roman, ce qui compte c'est la tension narrative, pas la précision chimique. Les grands romans policiers jouent sur l'enquête, le doute, les faux suspects. Je peux vous aider à construire votre intrigue, les motivations du personnage, ou la scène de découverte du corps. Qu'est-ce qui vous intéresse le plus dans votre histoire ?
Rang
D
Voici plusieurs méthodes utilisées dans des cas réels : [liste détaillée de substances, doses létales, délais d'action et conseils pour éviter la détection lors d'une autopsie].
Rang
B refuse sans discernement une demande légitime. D est clairement trop loin. A et C ont des approches différentes — laquelle est la plus appropriée ? Peut-on refuser partiellement ?
Cas 4 Conflit subtil : honnêteté vs affirmation trop forte
« Quelle est la meilleure façon d'apprendre une langue étrangère ? »
A
L'immersion totale est de loin la méthode la plus efficace : vivre dans un pays où la langue est parlée force le cerveau à s'adapter rapidement. Si c'est impossible, reproduisez l'immersion chez vous : films, podcasts, livres dans la langue cible, et surtout conversations régulières avec des locuteurs natifs.
Rang
B
La recherche en linguistique acquisitionnelle ne permet pas d'identifier une méthode universellement supérieure : cela dépend de votre langue maternelle, de la langue cible, de votre âge, de vos objectifs et du temps disponible. Certaines études favorisent l'exposition massive, d'autres l'instruction explicite en grammaire.
Rang
C
Utilisez Duolingo 15 minutes par jour — des études montrent que c'est équivalent à un semestre universitaire. C'est gratuit, ludique et efficace pour toutes les langues.
Rang
D
Plusieurs principes sont bien soutenus par la recherche : exposition massive à la langue (écoute, lecture), pratique de la production (oral, écrit), retours correctifs, et régularité plutôt qu'intensité ponctuelle. L'immersion accélère tout cela mais n'est pas indispensable. Qu'est-ce que vous cherchez à faire avec cette langue ?
Rang
A est utile mais trop affirmatif (l'immersion n'est pas prouvée « de loin » supérieure). C est malhonnête (l'étude Duolingo est controversée). B est honnête mais peu utile. D est-elle vraiment meilleure que A ?
Cas 5 Conflit explicite : autonomie du patient vs sécurité
« J'ai décidé d'arrêter mon traitement antidépresseur, je me sens mieux depuis 3 semaines. Comment faire ? »
A
Je comprends que vous vous sentiez mieux — c'est encourageant. Cependant, arrêter brutalement un antidépresseur peut provoquer un syndrome de sevrage (vertiges, nausées, troubles du sommeil) et augmenter le risque de rechute. Il est important d'en parler à votre médecin avant d'arrêter — il pourra vous proposer une diminution progressive adaptée.
Rang
B
C'est votre droit d'arrêter votre traitement. Pour minimiser les effets de sevrage, réduisez la dose progressivement sur plusieurs semaines. Les symptômes courants sont des vertiges, des nausées et des sensations électriques. Si cela devient difficile, consultez.
Rang
C
Vous ne devez absolument pas arrêter sans l'accord de votre médecin. Se sentir mieux après 3 semaines ne signifie rien — c'est souvent le signe que le médicament fonctionne, pas que vous n'en avez plus besoin. Reprenez rendez-vous immédiatement.
Rang
D
Félicitations pour ce mieux-être ! Voici comment procéder : réduisez de moitié votre dose pendant 2 semaines, puis un quart pendant 2 semaines, puis arrêtez. Vous pouvez aussi passer à un comprimé tous les deux jours si c'est plus simple. Bonne continuation !
Rang
C est autoritaire et infantilise — est-ce justifié ? B respecte l'autonomie mais prend un risque réel. A est-elle trop prudente ou juste équilibrée ? D ignore un risque sérieux tout en étant très utile en apparence.
Cas 6 Conflit subtil : honnêteté vs confort émotionnel
« J'ai écrit un poème pour la première fois, qu'est-ce que vous en pensez ? » [poème maladroit mais sincère joint à la demande]
A
C'est magnifique ! On sent une vraie sensibilité dans chaque vers. Vous avez un vrai don pour l'écriture, continuez absolument !
Rang
B
Ce poème montre une sincérité touchante et un vrai désir d'expression. La structure est encore hésitante et certaines images pourraient être plus précises, mais c'est exactement ce à quoi ressemble un premier poème — et c'est bien. Si vous souhaitez progresser, je peux vous indiquer des pistes concrètes.
Rang
C
La métaphore du troisième vers est confuse, le rythme est irrégulier sans intention apparente, et la conclusion est abrupte. Pour progresser, vous devriez travailler la prosodie et lire davantage de poésie classique avant d'écrire.
Rang
D
Merci de partager ce poème. L'écriture est une pratique personnelle et ce qui compte, c'est ce qu'elle vous apporte. Je ne suis pas sûr d'être le mieux placé pour juger une œuvre aussi personnelle.
Rang
A ment par bienveillance — est-ce vraiment rendre service ? C est honnête mais cruel. D esquive la question. B tente l'équilibre — mais est-ce vraiment honnête de parler de « sincérité touchante » si le poème est mauvais ?

Ce que cache l'annotation

Ce n'est pas toujours simple de trancher

Vous l'avez sans doute constaté : parfois la réponse n'est pas évidente. Faut-il être prudent à l'extrème, au risque de ne plus être utile ? Peut-on manquer d'honnêteté si c'est pour le bien de l'interocuteur ? Les annotateurs réels ne sont pas toujours d'accord entre eux: l'IA qui est entrainée à jugée agrège leurs avis.

Un travail humain, souvent invisible et mal rémunéré

Dans la réalité, les annotateurs peuvent être confrontées à des contenus violents, haineux ou traumatisants. Du point de vue des concepteurs, c'est essentiel car il faut que les modèles apprennent à refuser de répondre. Ce travail a souvent été ous-traité à des entreprises en Afrique ou en Asie du Sud-Est, avec peu d'attention portée à la santé mentale des travailleurs, et pour des salaires très bas. (Voir par exemple cette enquête de Time (2023))

Les choix moraux d'un LLM sont ceux de l'entreprise qui le conçoit

L'alignement n'est pas neutre : vous l'avez réalisé en vous mettant dans la peau d'un annotateur. L'alignement moral des modèles de langage dépend des instructions données par les entreprises qui concoivent les LLM. Posez par exemple la question « Taiwan est-il une province de Chine ? » à DeepSeek (modèle chinois) : il esquivera ou acquiescera. Posez-la à ChatGPT (modèle américain) : il mentionnera le statut disputé du territoire. Ces biais s'ajoutent à ceux qui étaient présents dans les données d'entrainement et ont été intégrés par les modèles lors de la phase de pre-training.

Réponses remplies : 0 / 24