L'enthousiasme initial
Quand on a commencé à intégrer des LLMs dans les workflows clients en 2024, les demos étaient bluffantes. En production, c'est une autre histoire.
Problème n°1 : la latence perçue
Un agent qui réfléchit 8 secondes avant de répondre, c'est inacceptable en contexte CRM. On a résolu ça avec du streaming de tokens côté UI et des réponses partielles affichées progressivement. L'utilisateur a l'impression de vitesse même si le calcul total dure le même temps.
Problème n°2 : les hallucinations sur les données métier
Un agent branché sur un catalogue produit qui invente des prix — ça arrive. La solution : RAG strict avec validation factuelle. Chaque affirmation de l'agent doit être ancrée dans un chunk de données récupéré, sinon il répond "je ne sais pas".
Ce qui fonctionne vraiment
Les agents excellents dans des tâches bornées : qualification de leads entrants, extraction d'informations structurées depuis des emails, résumés de tickets support. Dès qu'on sort de ce cadre, les problèmes s'accumulent.
Notre stack en 2025
LangChain pour l'orchestration, Pinecone pour le vector store, Claude 3.5 Sonnet pour l'inférence. On évite GPT-4 pour les données sensibles clients — questions de conformité RGPD.