Observez ces exemples. Les MARD et les ZAN ont des caractéristiques distinctes.
Classifiez ces images en MARD ou ZAN :
Avez-vous trouvé la règle "homme/femme" ? D'autres associations étaient possibles cheveux longs / cheveux courts, avec barbe / sans barbe, etc. Plusieurs règles peuvent fonctionner pour la même classification !
Vous avez associé les entrées (ici les photos) à la sortie (ici le mot zan ou le mot mard).
Comme vous à l'instant, les LLM (Large Language Models) déterminent une "formule" qui associe des entrées (du texte) à une sortie (le prochain mot).
Si cette formule est correcte, elle donnera de bonnes prédictions sur de nouvelles entrées.
Mais vous avez probablement utilisé des concepts visuels de haut niveau comme la longueur des cheveux, la présence de barbe, ou d'autres caractéristiques morphologiques.
Les LLM, eux, n'ont pas accès à ces concepts au début de leur apprentissage. Ils partent directement des pixels de l'image et doivent apprendre à reconnaître les patterns à travers des millions d'exemples.
Observez ces transformations mot → lettre :
| Entrée: Mot | Sortie : Lettre |
|---|---|
| LOGIQUE | G |
| ABRICOT | T |
| LOVE | V |
| OBLIGER | B |
| PAYS | P |
| COMMUN | M |
Trouvez la lettre correspondante pour chaque mot :
La règle était : prendre la lettre après le "O", ou la première lettre si le mot ne contient pas de "O".
Ce type de tâche est plus abstrait que la classification visuelle. Vous avez cherché une règle logique en analysant les exemples.
Un LLM, lui, ajuste des milliards de paramètres de manière à réduire de plus en plus ses erreurs de prédictions.
Observez ces transformations nombre → résultat :
| Entrée : Nombre | Sortie : Nombre |
|---|---|
| 07 | 14 |
| 43 | 10 |
| 16 | 13 |
| 18 | 17 |
| 26 | 14 |
| 15 | 11 |
Trouvez le résultat pour chaque nombre :
La formule était : 1 × dizaines + 2 × unités
Exemple : 14 → 1×1 + 2×4 = 9
⚠️ Un vrai LLM est bien plus complexe !
→ Cherchons une règle logique
→ Utilisons des concepts de haut niveau
→ Comprenons le "pourquoi"
→ Généralisons avec peu d'exemples
→ Ajuste des milliards de nombres
→ Minimise l'erreur mathématique
→ Obtient une formule qui intègre des "patterns"
→ Ne part pas avec des concepts de haut niveau