Use case 01 · AI Discipline
Tester trois frameworks de structuration sur un cas réel, comparer trois LLMs sur les mêmes requêtes, mesurer les écarts. Pas pour trouver le meilleur modèle, mais pour comprendre ce qui fait la différence entre un prompt qui contrôle et un prompt qui délègue.
Plutôt que choisir un seul modèle, assigner un rôle à chacun selon ses forces. Claude génère le prompt CAFÉ à partir du brief. Notion AI exécute et supprime les marqueurs IA dans le rendu. Deepseek challenge le prompt et optimise : 2 itérations Architect, 2 CR testés avant validation finale.
Un prompt en 4 dimensions (Contexte, Action, Format, Exemple), co-construit en dual-LLM : Claude Architect pour structurer, Notion AI Executor pour produire. Même brief, deux formats de sortie distincts : CR équipe 450 mots, synthèse CODIR 200 mots. Zéro retouche manuelle. Le format du prompt détermine le format du résultat.
Quand le modèle prend toutes les décisions, le résultat est fluide mais incontrôlable. Décomposer en 5 sous-tâches séquencées avec points d’arbitrage explicites change la dynamique : le modèle exécute, le PM décide à chaque étape. Résultat : un template réutilisable, pas un document jetable.
Structurer une base de connaissance pour un assistant IA : 18 PDFs, architecture en 6 catégories, test empirique sur 10 requêtes réelles. ChatGPT économise 62% de tokens en synthétisant, mais rate 70% des requêtes. Claude préserve le verbatim et coûte réellement 52% de moins par réponse réussie.