Use case 01 · AI Discipline

CAFÉ, CoT
& RAG

Tester trois frameworks de structuration sur un cas réel, comparer trois LLMs sur les mêmes requêtes, mesurer les écarts. Pas pour trouver le meilleur modèle, mais pour comprendre ce qui fait la différence entre un prompt qui contrôle et un prompt qui délègue.

9/10
qualité avec CoT · 7/10 sans
(10 req., auto-évalué)
95%
hit rate RAG · vs 30%
ChatGPT vanilla · 10 tests
−52%
coût par réponse
utile vs ChatGPT
Orchestration · Claude, Notion AI, Deepseek
3
LLMs, 3 rôles distincts, 2 itérations avant validation finale
01
Claude Architect · Notion AI Executor · Deepseek Critique

Multi-LLM

Plutôt que choisir un seul modèle, assigner un rôle à chacun selon ses forces. Claude génère le prompt CAFÉ à partir du brief. Notion AI exécute et supprime les marqueurs IA dans le rendu. Deepseek challenge le prompt et optimise : 2 itérations Architect, 2 CR testés avant validation finale.

Ce que ça révèle
Un LLM comme architecte du prompt d’un autre LLM. La qualité finale vient de la séparation des rôles, pas du modèle le plus puissant.
Structuration · Prompt en 4 dimensions
2 formats de CR, zéro retouche manuelle
02
Contexte · Action · Format · Exemple

CAFÉ

Un prompt en 4 dimensions (Contexte, Action, Format, Exemple), co-construit en dual-LLM : Claude Architect pour structurer, Notion AI Executor pour produire. Même brief, deux formats de sortie distincts : CR équipe 450 mots, synthèse CODIR 200 mots. Zéro retouche manuelle. Le format du prompt détermine le format du résultat.

Ce que ça révèle
La structure du prompt compte plus que le choix du modèle. Claude, Notion AI et Deepseek donnent des résultats comparables sur le même prompt.
Notion →
Décomposition · 5 sous-tâches séquencées
+2 pts
7/10 en CAFÉ seule, 9/10 avec CoT
03
Chain of Thought · 5 tâches séquencées

CoT

Quand le modèle prend toutes les décisions, le résultat est fluide mais incontrôlable. Décomposer en 5 sous-tâches séquencées avec points d’arbitrage explicites change la dynamique : le modèle exécute, le PM décide à chaque étape. Résultat : un template réutilisable, pas un document jetable.

Ce que ça révèle
Décomposer, c’est reprendre le contrôle. Chaque pause d’arbitrage est un moment où le PM décide, pas le modèle.
Notion →
Architecture · 18 documents, 6 catégories
95%
contre 30% avec ChatGPT sur les mêmes documents
04
Retrieval-Augmented Generation · 18 documents

RAG

Structurer une base de connaissance pour un assistant IA : 18 PDFs, architecture en 6 catégories, test empirique sur 10 requêtes réelles. ChatGPT économise 62% de tokens en synthétisant, mais rate 70% des requêtes. Claude préserve le verbatim et coûte réellement 52% de moins par réponse réussie.

Ce que ça révèle
Ce qui est bon pour l’humain n’est pas bon pour le RAG. Un synonyme supprimé = un point d’entrée sémantique détruit.
Notion →