Question Hub & Vision
1. Quoi ? — Definition et contexte
Section intitulée « 1. Quoi ? — Definition et contexte »Quand Claude Code (ou Codex, ou Gemini) a besoin de vous poser une question a choix multiples — “Quel framework utiliser ? React, Vue, ou Svelte ?” — il ne peut pas le faire dans un terminal de facon ergonomique. Le Question Hub affiche cette question dans Telegram avec des boutons interactifs, supporte la multi-selection et la pagination, et renvoie la reponse au CLI.
En complement, le systeme Vision OCR analyse les photos envoyees dans Telegram : carte de visite, facture, capture d’ecran, note manuscrite — chaque type de document est traite avec une extraction specialisee.
Deux systemes complementaires
Section intitulée « Deux systemes complementaires »| Systeme | Nodes | Declenchement | Role |
|---|---|---|---|
| Question Hub | ~35 (parent + callback) | Webhook CLI | Questions interactives Telegram |
| Vision OCR | 14 | Sub-workflow (photo) | Extraction de documents |
2. Pourquoi ? — Enjeux et motivations
Section intitulée « 2. Pourquoi ? — Enjeux et motivations »Problemes resolus
Section intitulée « Problemes resolus »| Probleme | Sans ces workflows | Avec ces workflows |
|---|---|---|
| Questions CLI illisibles | Liste numerotee dans le terminal | Boutons Telegram avec emojis |
| Multi-select impossible | Taper les numeros un par un | Toggle ✅ et confirmation |
| Photos inutilisables | Photo = fichier binaire, pas d’info | Extraction structuree par type |
| OCR generique | Meme traitement pour tout | Facture ≠ carte de visite ≠ screenshot |
Six types de documents reconnus
Section intitulée « Six types de documents reconnus »Le Vision OCR classifie chaque photo avant de l’extraire :
| Type | Champs extraits |
|---|---|
| business_card | Nom, fonction, entreprise, email, telephone |
| invoice | Fournisseur, numero, lignes, total, date |
| screenshot | Texte visible, interface identifiee |
| handwritten_note | Transcription, confiance, langue |
| general_document | Texte brut structure |
| not_document | (Pas un document — photo, paysage, etc.) |
3. Comment ? — Mise en oeuvre technique
Section intitulée « 3. Comment ? — Mise en oeuvre technique »Question Hub : le parcours d’une question
Section intitulée « Question Hub : le parcours d’une question »1. Reception — Le CLI envoie un webhook avec les options, le type de question (single/multi-select), et un timeout (300s par defaut).
2. Formatage — N8N construit un clavier inline adapte au nombre d’options. Si plus de 4 options, la pagination s’active automatiquement (4 options par page avec fleches ◀️ ▶️).
3. Interaction — L’utilisateur clique sur les options. En multi-select, chaque clic toggle le ✅ et met a jour le keyboard en temps reel (via editMessageReplyMarkup). Les selections sont persistees dans une Data Table pour survivre aux changements de page.
4. Confirmation — Un bouton [Confirmer] valide les choix. La reponse est renvoyee au CLI via le callback.
5. Texte libre — Un bouton [Autre] optionnel active le mode ForceReply de Telegram pour saisir une reponse libre.
Tout se passe dans un seul message Telegram — pas de spam de messages pour chaque interaction.
Vision OCR : le parcours d’une photo
Section intitulée « Vision OCR : le parcours d’une photo »1. Classification — Gemini Flash analyse l’image en base64 et retourne un type de document avec un score de confiance.
2. Extraction specialisee — Selon le type detecte, un prompt specifique est envoye a Gemini Vision. Chaque branche extrait des champs differents :
3. Normalisation — La reponse est formatee en HTML sanitise pour Telegram avec un contrat uniforme : {status, docType, extracted, text}.
Profils CLI Ollama
Section intitulée « Profils CLI Ollama »Le systeme de profils permet de configurer differents personnages IA avec des connaissances et outils specifiques. Chaque profil est un fichier YAML dans /workspace/profiles/ qui definit :
- Un prompt systeme specialise
- Une base de connaissances (fichiers Markdown injectes dans le contexte)
- Une liste d’outils MCP autorises (semantique plafond)
- Des outils necessitant approbation Telegram
Deux profils sont deployes : error-analyst (analyse DLQ, 5 outils lecture) et n8n-admin (administration workflows, 5 lecture + 2 ecriture avec confirmation).
4. Et si ? — Perspectives et limites
Section intitulée « 4. Et si ? — Perspectives et limites »Limites actuelles
Section intitulée « Limites actuelles »| Limite | Impact | Mitigation |
|---|---|---|
| Timeout 5 min | Question expirée si pas de reponse | Suffisant pour usage interactif |
| 4 options/page | Beaucoup de pages si 20+ options | Pagination avec conservation des selections |
| OCR depend de Gemini | Pas de fallback local | Modele rapide et fiable en pratique |
Scenarios d’evolution
Section intitulée « Scenarios d’evolution »Si besoin d’OCR plus precis :
- Ajouter des modeles specialises (Tesseract pour les polices standard)
- Post-traitement des factures avec validation des totaux
- Integration directe avec la comptabilite Odoo
Si usage multi-utilisateur :
- Mapper les sessions CLI par utilisateur Telegram
- File d’attente si plusieurs questions simultanees
Pages liees
Section intitulée « Pages liees »Workflows
Section intitulée « Workflows »- Telegram Orchestrator — Routage des photos et callbacks
- Voice Transcription — Autre modalite d’entree
Infrastructure
Section intitulée « Infrastructure »- AI Stack — CLI Ollama et Gemini Vision