Use case 05 · Formation GenAI

CAFÉ, CoT
& RAG

J’ai construit un test comparatif sur 3 frameworks et 3 LLMs sur les mêmes requêtes, avec des résultats mesurés. Cas concrets : CR d’équipe, synthèse CODIR, assistant documentaire sur 18 PDFs. Ce que ça révèle : chaque pause d’arbitrage est un moment où le PM décide, pas le modèle.

9/10

qualité avec CoT · 7/10 sans
10 requêtes test

95%

hit rate RAG · vs 30% ChatGPT
sans RAG · 10 requêtes testées

−52%

coût par réponse
utile vs ChatGPT

Orchestration · Claude, Notion AI, Deepseek

LLMs, 3 rôles distincts, 2 itérations avant livraison

Claude Architect · Notion AI Executor · Deepseek Critique

Multi-LLM

Plutôt que choisir un seul modèle, assigner un rôle à chacun selon ses forces. Claude génère le prompt CAFÉ à partir du brief. Notion AI exécute et supprime les marqueurs IA dans le rendu. Deepseek challenge le prompt et optimise : 2 itérations Architect, 2 CR testés avant validation finale.

Ce que ça révèle

Un LLM comme architecte du prompt d’un autre LLM. La qualité finale vient de la séparation des rôles, pas de la puissance brute.

Structuration · Prompt en 4 dimensions

2×

2 formats de CR, zéro retouche manuelle

Contexte · Action · Format · Exemple

CAFÉ

Un prompt en 4 dimensions (Contexte, Action, Format, Exemple), co-construit en orchestration à deux modèles : Claude Architect pour structurer, Notion AI Executor pour produire. Même brief, deux sorties distinctes : CR équipe 450 mots, synthèse CODIR 200 mots. Zéro retouche manuelle. La structure du prompt détermine la structure du résultat.

Ce que ça révèle

La structure du prompt compte plus que le choix du modèle. Claude, Notion AI et Deepseek donnent des résultats comparables sur le même prompt.

Notion →

Décomposition · 5 sous-tâches séquencées

+2 pts

7/10 en CAFÉ seule, 9/10 avec CoT

Chain of Thought · 5 tâches séquencées

CoT

Quand le modèle prend toutes les décisions, le résultat est fluide mais incontrôlable. Décomposer en 5 sous-tâches séquencées avec points d’arbitrage explicites inverse le rapport de force : le modèle exécute, le PM décide à chaque étape. Résultat : un template réutilisable, pas un document jetable.

Ce que ça révèle

Décomposer, c’est reprendre le contrôle. Chaque pause d’arbitrage est un point de bascule : le PM choisit, le modèle attend.

Notion →

Architecture · 18 documents, 6 catégories

95%

contre 30% avec ChatGPT sur les mêmes documents

Retrieval-Augmented Generation · 18 documents

RAG

J’ai structuré une base de connaissance pour un assistant IA : 18 PDFs organisés en 6 catégories, testés sur 10 requêtes réelles. ChatGPT économise 62% de tokens en synthétisant, mais rate 70% des requêtes. Ramené au coût par réponse utile, Claude revient 52% moins cher malgré un coût brut supérieur.

Ce que ça révèle

Ce qui est bon pour l’humain n’est pas bon pour le RAG. Un synonyme supprimé = un point d’entrée sémantique détruit.

Notion →

CAFÉ, CoT& RAG

Multi-LLM

CAFÉ

CoT

RAG

CAFÉ, CoT
& RAG