Évaluer les modèles IA pour ta prod
Comparer Claude, GPT, Mistral, Llama : benchmarks, LLM-as-judge, Promptfoo, golden datasets, A/B prod. Choisir le bon modèle sur des bases mesurées.
En 2024, choisir un modèle IA était simple : GPT-4 partout. En 2026, tu as Claude (Sonnet, Opus, Haiku), GPT (4, 4o, 5), Mistral (Nemo, Small, Medium, Large), Llama 3.3, Qwen 3, DeepSeek R1 — chacun avec ses forces, ses prix, ses latences. Le marketing fournisseur te dit que le sien est le meilleur. Et toi, tu n’as aucune idée de lequel marche vraiment sur ton cas.
Ce cours te fait construire ton propre process d’évaluation — pas un cours de stats, pas une thèse de ML. Du concret : Promptfoo + un golden dataset de 50 cas + une rubrique solide + un LLM-as-judge bien configuré. À la fin de la leçon 2, tu compares déjà 2 modèles sur ton vrai cas. À la fin du capstone, tu as un process reproductible que tu peux montrer à ton CTO et lancer en CI à chaque mise à jour de modèle.
Compétence rare et bien payée en 2026 : les équipes qui évaluent rigoureusement leurs modèles économisent plusieurs milliers d’euros/an, détectent les régressions avant les utilisateurs, et choisissent leurs modèles sur des bases mesurées. Tu rejoins ce groupe en 2 heures.
Ce que tu vas apprendre
- Expliquer pourquoi les benchmarks publics ne suffisent pas à choisir un modèle
- Construire une eval comparative entre 2-3 modèles sur ton vrai cas d'usage
- Appliquer le pattern LLM-as-judge avec une rubrique solide et sans biais
- Concevoir un golden dataset domain-specific (50-200 cas)
- Utiliser Promptfoo, Inspect AI et Langfuse pour automatiser tes évals
- Mettre en place un shadow deployment pour migrer entre modèles sans incident prod
After This Course, You Can
What You'll Build
Programme du cours
Prérequis
- Avoir déjà utilisé un assistant IA pro (ChatGPT, Claude, Le Chat)
- Connaître les bases du prompting (cours `prompt-engineering` recommandé)
- Pour la leçon 6 : un peu de CLI Node.js ou Python (sinon copier-coller suffit)
À qui s’adresse ce cours ?
- Tech leads et CTO qui doivent justifier le choix d'un modèle IA
- Devs qui intègrent l'IA dans un produit et veulent éviter les régressions
- Product managers qui arbitrent qualité / coût / latence sur un feature IA
- Consultants IA qui livrent des recommandations modèle à des clients
Questions fréquentes
Faut-il être data scientist pour faire de l'eval LLM ?
Non. Les outils 2026 (Promptfoo, Inspect AI) sont accessibles avec quelques heures de formation. Tu n'as pas besoin de stats avancées — juste une rubrique claire, 50+ cas représentatifs, et un peu de CLI. Ce cours te fait passer de zéro à eval fonctionnelle.
Quelle est la différence avec les benchmarks publics que tout le monde cite ?
MMLU, HumanEval et compagnie te donnent une carte générale. Mais ils sont saturés en 2026 (top modèles à 90 %+) et ne disent rien sur ton cas précis. La leçon 3 explique pourquoi, et le reste du cours te fait construire une eval qui mesure ce qui compte pour TON usage.
Combien coûte une eval LLM rigoureuse ?
Setup initial : 1-2 jours. Coût récurrent : ~10-50 € par run (200 cas × 3 modèles × calls API). Ridicule comparé au coût d'une mauvaise décision modèle qui te coûte 5 000 €/mois pendant 6 mois. ROI évident dès le premier projet.
LLM-as-judge, c'est fiable ?
Oui à condition d'avoir une rubrique solide et un juge tiers. Les papers 2024-2025 montrent ~85 % de corrélation avec des juges humains experts. Le cours te montre comment éviter les pièges (self-bias, position bias, length bias).