Question Hub & Vision

1. Quoi ? — Definition et contexte

Quand Claude Code (ou Codex, ou Gemini) a besoin de vous poser une question a choix multiples — “Quel framework utiliser ? React, Vue, ou Svelte ?” — il ne peut pas le faire dans un terminal de facon ergonomique. Le Question Hub affiche cette question dans Telegram avec des boutons interactifs, supporte la multi-selection et la pagination, et renvoie la reponse au CLI.

En complement, le systeme Vision OCR analyse les photos envoyees dans Telegram : carte de visite, facture, capture d’ecran, note manuscrite — chaque type de document est traite avec une extraction specialisee.

Deux systemes complementaires

Systeme	Nodes	Declenchement	Role
Question Hub	~35 (parent + callback)	Webhook CLI	Questions interactives Telegram
Vision OCR	14	Sub-workflow (photo)	Extraction de documents

2. Pourquoi ? — Enjeux et motivations

Problemes resolus

Probleme	Sans ces workflows	Avec ces workflows
Questions CLI illisibles	Liste numerotee dans le terminal	Boutons Telegram avec emojis
Multi-select impossible	Taper les numeros un par un	Toggle ✅ et confirmation
Photos inutilisables	Photo = fichier binaire, pas d’info	Extraction structuree par type
OCR generique	Meme traitement pour tout	Facture ≠ carte de visite ≠ screenshot

Six types de documents reconnus

Le Vision OCR classifie chaque photo avant de l’extraire :

Type	Champs extraits
business_card	Nom, fonction, entreprise, email, telephone
invoice	Fournisseur, numero, lignes, total, date
screenshot	Texte visible, interface identifiee
handwritten_note	Transcription, confiance, langue
general_document	Texte brut structure
not_document	(Pas un document — photo, paysage, etc.)

3. Comment ? — Mise en oeuvre technique

Question Hub : le parcours d’une question

1. Reception — Le CLI envoie un webhook avec les options, le type de question (single/multi-select), et un timeout (300s par defaut).

2. Formatage — N8N construit un clavier inline adapte au nombre d’options. Si plus de 4 options, la pagination s’active automatiquement (4 options par page avec fleches ◀️ ▶️).

3. Interaction — L’utilisateur clique sur les options. En multi-select, chaque clic toggle le ✅ et met a jour le keyboard en temps reel (via editMessageReplyMarkup). Les selections sont persistees dans une Data Table pour survivre aux changements de page.

4. Confirmation — Un bouton [Confirmer] valide les choix. La reponse est renvoyee au CLI via le callback.

5. Texte libre — Un bouton [Autre] optionnel active le mode ForceReply de Telegram pour saisir une reponse libre.

Tout se passe dans un seul message Telegram — pas de spam de messages pour chaque interaction.

Vision OCR : le parcours d’une photo

1. Classification — Gemini Flash analyse l’image en base64 et retourne un type de document avec un score de confiance.

2. Extraction specialisee — Selon le type detecte, un prompt specifique est envoye a Gemini Vision. Chaque branche extrait des champs differents :

3. Normalisation — La reponse est formatee en HTML sanitise pour Telegram avec un contrat uniforme : {status, docType, extracted, text}.

Profils CLI Ollama

Le systeme de profils permet de configurer differents personnages IA avec des connaissances et outils specifiques. Chaque profil est un fichier YAML dans /workspace/profiles/ qui definit :

Un prompt systeme specialise
Une base de connaissances (fichiers Markdown injectes dans le contexte)
Une liste d’outils MCP autorises (semantique plafond)
Des outils necessitant approbation Telegram

Deux profils sont deployes : error-analyst (analyse DLQ, 5 outils lecture) et n8n-admin (administration workflows, 5 lecture + 2 ecriture avec confirmation).

4. Et si ? — Perspectives et limites

Limites actuelles

Limite	Impact	Mitigation
Timeout 5 min	Question expirée si pas de reponse	Suffisant pour usage interactif
4 options/page	Beaucoup de pages si 20+ options	Pagination avec conservation des selections
OCR depend de Gemini	Pas de fallback local	Modele rapide et fiable en pratique

Scenarios d’evolution

Si besoin d’OCR plus precis :

Ajouter des modeles specialises (Tesseract pour les polices standard)
Post-traitement des factures avec validation des totaux
Integration directe avec la comptabilite Odoo

Si usage multi-utilisateur :

Mapper les sessions CLI par utilisateur Telegram
File d’attente si plusieurs questions simultanees

Pages liees

Workflows

Telegram Orchestrator — Routage des photos et callbacks
Voice Transcription — Autre modalite d’entree

Infrastructure

AI Stack — CLI Ollama et Gemini Vision