Use case 05 · Formation GenAI
J’ai construit un test comparatif sur 3 frameworks et 3 LLMs sur les mêmes requêtes, avec des résultats mesurés. Cas concrets : CR d’équipe, synthèse CODIR, assistant documentaire sur 18 PDFs. Ce que ça révèle : chaque pause d’arbitrage est un moment où le PM décide, pas le modèle.
Plutôt que choisir un seul modèle, assigner un rôle à chacun selon ses forces. Claude génère le prompt CAFÉ à partir du brief. Notion AI exécute et supprime les marqueurs IA dans le rendu. Deepseek challenge le prompt et optimise : 2 itérations Architect, 2 CR testés avant validation finale.
Un prompt en 4 dimensions (Contexte, Action, Format, Exemple), co-construit en orchestration à deux modèles : Claude Architect pour structurer, Notion AI Executor pour produire. Même brief, deux sorties distinctes : CR équipe 450 mots, synthèse CODIR 200 mots. Zéro retouche manuelle. La structure du prompt détermine la structure du résultat.
Quand le modèle prend toutes les décisions, le résultat est fluide mais incontrôlable. Décomposer en 5 sous-tâches séquencées avec points d’arbitrage explicites inverse le rapport de force : le modèle exécute, le PM décide à chaque étape. Résultat : un template réutilisable, pas un document jetable.
J’ai structuré une base de connaissance pour un assistant IA : 18 PDFs organisés en 6 catégories, testés sur 10 requêtes réelles. ChatGPT économise 62% de tokens en synthétisant, mais rate 70% des requêtes. Ramené au coût par réponse utile, Claude revient 52% moins cher malgré un coût brut supérieur.