LLM, RAG et un référentiel Smart Golden

Dans le monde d'aujourd'hui, où les données sont devenues le moteur essentiel des entreprises, la nécessité de rationaliser et de gérer efficacement les flux de données est devenue l'une des principales priorités des entreprises. Cela pose de multiples défis. La quantité considérable de données est l’un de ces défis, la variété des données à laquelle nous sommes témoins est un défi complètement différent. La résolution du problème de la grande quantité de données a donné naissance à des technologies telles que Bigdata et Datalakes. Le traitement et la génération d’informations à partir de plusieurs points de données en temps réel constituent des défis tout à fait différents et également coûteux. Particulièrement dans le cas des banques et des entreprises de services financiers qui sont encore en phase de transformation numérique et où il existe de multiples sources de données réparties entre différents départements. Dans le secteur financier, qui est inondé de nombreux textes tels que des rapports d'entreprise, des documents réglementaires, des 10K et 10Q, des analyses de courtiers et divers autres rapports, l'impact potentiel de l'IA générative est encore plus prononcé. Historiquement, les experts financiers bien rémunérés ont consacré un temps considérable à parcourir de longs documents et des rapports complets pour collecter, comprendre, condenser et transmettre des informations.

Heureusement, nous assistons aujourd’hui à une révolution dans le domaine de l’IA avec l’avènement de l’IA générative. Ces avancées offrent le potentiel de permettre aux professionnels de la finance, notamment aux analystes de recherche sur les actions, aux gestionnaires de risques, aux associés du capital-investissement et aux chercheurs en développement durable, de détourner leur attention du traitement de données de routine et de se concentrer sur des responsabilités plus cruciales. Cela inclut des tâches telles que l’analyse d’informations importantes, la conclusion de conclusions et la prise de décisions stratégiques et éclairées à un rythme accéléré.

Dans notre cas, à Société Générale, nous avons commencé à explorer la Gen AI dès 2020, lorsque OpenAI vient de proposer GPT-3. Dans le cadre de l'initiative de transformation numérique, l'idée était d'améliorer la capacité des opérations tout en réduisant les coûts. La solution que nous avons proposée était un référentiel de données en or qui est neutre en matière de données (qu'elles soient textuelles, audio, vidéo, etc.) et suffisamment évolutif pour gérer un grand ensemble de données avec un mécanisme d'inférence intelligent en temps réel.

Cadre RAG et base de connaissances

L'approche de la solution impliquait de créer un pipeline RAG (Retrieval Augmented Generation) à partir de zéro. RAG n'est rien d'autre qu'un cadre d'IA permettant de récupérer des faits à partir d'une base de connaissances externe afin de fonder les grands modèles linguistiques (LLM) sur les informations les plus précises et les plus récentes et de donner aux utilisateurs un aperçu du processus de génération des LLM. Par rapport à une simple IA générative qui implique uniquement des LLM et des serveurs LLM. Le RAG comporte trois éléments de base, à savoir

Base de connaissances: C'est le référentiel doré dans lequel toutes les données sont alimentées. Il s'agit généralement d'une base de données vectorielle qui stocke les données sous forme d'objets vectoriels avec une combinaison d'intégration générant un modèle LLM. Les vecteurs ne sont rien d'autre que des nombres que nous obtenons lorsque nous indexons les données à l'aide d'un générateur de plongements. Cela se fait en utilisant des modèles LLM qui génèrent une intégration à partir d'un ensemble de données. L'isolation et l'évolutivité des données sont obtenues à l'aide de classes et de locataires. Chaque classe peut avoir plus de 50 000 locataires et chaque locataire peut prendre en charge plus de 100 000 objets.

Retriever: Le moteur de récupération fait correspondre la requête de l'utilisateur avec la base de données vectorielle et les meilleurs résultats sont transmis au générateur. La correspondance est effectuée en comparant le pourcentage de similarité entre la requête et les objets vectoriels stockés dans la base de données vectorielles.

Générateur: C'est le modèle LLM qui génère la réponse selon les résultats de recherche de la base de données vectorielles qui lui sont transmis comme contexte. L'invite est ajoutée au-dessus du contexte qui peut être configuré par le développeur ou l'utilisateur final avant de la transmettre au modèle LLM.

Transition vers le référentiel Golden

De toute évidence, nous pouvons voir que le modèle LLM est utilisé uniquement pour sa capacité de compréhension qui est contrôlée et calibrée par le framework RAG. Afin d'élargir la base de connaissances en alimentant différents flux de données, nous pouvons contrôler le mécanisme d'alimentation dans la base de données vectorielles. Ici, le choix du cadre de développement LLM devient très critique. Il existe de nombreux choix pour ces frameworks comme Langchain, Llamaindex, hugginface hub, etc. Il est intéressant de noter que bon nombre d'entre eux prennent également en charge la compatibilité croisée et l'interopérabilité. En fait, ce sont eux qui fixent aujourd’hui les standards en termes d’architecture et de fonctionnalités pour l’activité de développement dans le domaine de la Gen AI. Selon moi, Llamaindex fournit actuellement un cadre plus personnalisé et plus général pour configurer le pipeline de données au niveau du développement. Comprenons cela un peu plus en détail. Les données transmises à RAG sont d'abord analysées sous forme de documents. Llamaindex prend également en charge des frameworks comme non structurés qui effectuent le gros du travail ETL pour plusieurs flux de données allant du texte aux images renvoyant une sortie rationalisée sous forme de documents. Pour les flux de données tels que l'audio et les vidéos, nous pouvons exploiter des modèles de synthèse vocale open source tels que OpenAI Whisper pour convertir les données vocales en données textuelles qui sont facilement analysées par Llamaindex. Ces modèles sont multilingues et neutres en termes de dialectes, ce qui est essentiel pour garantir la qualité des données de la base de connaissances. Les documents sont ensuite divisés en morceaux et transmis au générateur d'intégration qui génère l'intégration vectorielle pour chaque morceau. Ces intégrations vectorielles sont ensuite stockées dans la base de données vectorielles.

Avantages de l'utilisation de l'approche RAG

Pour un domaine aussi réglementé, dynamique et nuancé que les services financiers, l’utilisation directe des LLM présente des limites importantes qui entravent leur pleine utilité. Choisir le bon cadre d’IA et la bonne approche de solution est déterminant pour exploiter son véritable potentiel pour les services financiers. L'approche RAG passant au référentiel doré nous offre les avantages suivants :

exhaustivité et actualité : La plupart des modèles LLM sont des modèles pré-entraînés formés sur des données antérieures. Nous devons les affiner avec les données actuelles pour les intégrer également. La mise au point et le recyclage réguliers de ces modèles nécessitent des investissements importants dans les infrastructures. ce qui est coûteux et irréalisable. RAG utilise simplement les capacités de compréhension de LLM plutôt que ses données pré-entraînées. Toutes les données pertinentes pour nous sont gérées au niveau de la base de connaissances qui peut être facilement mise à jour comme une base de données normale. Différents modèles de réponse sont facilement configurables au niveau du récupérateur pour gérer la taille du contexte afin de contrôler l'exhaustivité de la réponse finale de LLM.
Transparence et fiabilité : La réponse finale que nous obtenons des LLM dans le cadre RAG maintient la transparence en renvoyant également la source de réponse qui pointe vers le flux de données d'origine.
Crédibilité et précision : Nous pouvons facilement comparer la réponse finale à la requête de RAG avec la source citée pour vérifier la crédibilité et l’exactitude. L'hallucination est atténuée en transmettant uniquement le contexte pertinent en sélectionnant les objets pertinents en effectuant une correspondance vectorielle efficace entre la requête et la base de données vectorielles en arrière-plan.

Conclusion

La simplification grâce à la création d'un référentiel doré pour plusieurs flux de données élargit l'horizon de l'énoncé du problème dans la recherche de solutions générales. RAG est l’une de ces approches pour y parvenir. Un LLM puissant sans contexte pertinent s'en sort mal par rapport à un LLM moyen avec une meilleure base de connaissances. Cette approche n’est en aucun cas parfaite puisque le domaine est en constante évolution. L'idée est de proposer des solutions générales en assimilant plusieurs cas d'utilisation en un seul énoncé de problème général afin d'utiliser au mieux le potentiel des LLM. L'amélioration des capacités des LLM à l'aide de cadres intelligents est la clé importante. Cela permet d'économiser du temps et des ressources sans compromettre les résultats souhaités.

Tags: analyse, au-dessus, niveau