Trois termes GenAI que les praticiens financiers ont appris en 2023

  • Les trois termes GenAI que les praticiens financiers ont appris en 2023 :
  • Base de données vectorielles : essentiel pour améliorer la qualité des réponses aux invites et capture des informations propriétaires pour une rentabilité accrue.
  • RAG (Retrieval Augmented Generation) : approche pipeline aidant à maîtriser les grands modèles linguistiques en finance.
  • Hallucinations : résultats erronés des modèles GenAI pouvant être utiles en tant que fonctionnalités créatives dans le secteur financier.

Tout comme le HFT a transformé le vocabulaire des marchés de capitaux dans les années 2000 et la numérisation a transformé le vocabulaire des services bancaires et financiers dans les années 2010 à une certaine vitesse également.

pour la plupart à peine utilisés en 2022 mais qui portent désormais des significations nouvelles ou très différentes. Moi et beaucoup d'autres personnes dans les services financiers les utilisons quotidiennement. Si vous faites partie des rares (mal)chanceux à ne pas le faire, voici un petit rappel de mes trois préférés  !

Terme 1  : La base de données vectorielles

La base de données dite vectorielle est devenue le cœur de nombreuses piles GenAI d'entreprise, comme moyen d'améliorer la qualité des réponses aux invites. Les alternatives, par exemple, « peaufiner » de grands modèles de langage [LLM] sans base de données associée, sont coûteux et lourds de risques et de frais généraux de conformité. Une base de données vectorielle capture des informations propriétaires sur l'entreprise, apporte une rentabilité et offre un contrôle comparatif. Les sociétés de services financiers sont certainement sur le point d’utiliser des bases de données vectorielles.

Trois termes GenAI que les praticiens financiers ont appris en 2023

Ironiquement, en finance, les vecteurs font depuis des années partie intégrante de l’algèbre matricielle prédominante dans le trading et la gestion des risques. Le stockage de données de ces « vecteurs » et matrices existe également depuis des décennies, généralement dans des bases de données en colonnes, ou sous forme de tables ou de trames de données utilisées dans des langages comme Python (Pandas), R, MATLAB et SAS. Lorsqu'elles sont récupérées et utilisées, par exemple sous forme de séries chronologiques financières et de données de panel, en conjonction avec des techniques telles que les régressions linéaires et chronologiques, elles conduisent à l'analyse prédictive, à la détection d'anomalies et à l'économétrie. Ils contribuent également à éclairer les backtestings, notamment en matière de trading, de gestion de portefeuille et de stratégies de risque. Alors que les marchés financiers – le front et le middle office – menaient la charge de l'algèbre matricielle, des cas d'utilisation de plus en plus centrés sur l'analyse, tels que le marketing, la détection des fraudes et la numérisation, ont généralement fait appel à la science des données – et aux vecteurs – dans l'ensemble des organisations financières.

J’ai donc été fasciné lorsqu’un ancien collègue, Dave Bergstein, est parti travailler pour une start-up de « bases de données vectorielles » en juin 2021. Son article sur

Résoudre des problèmes complexes avec les bases de données vectorielles de mars 2022 pré-ChatGPT a attiré mon attention car il a mis en évidence des types de vecteurs très spécifiques – des incorporations de vecteurs – des vecteurs navigables codés faciles à rechercher capturant des connaissances à partir d'informations non structurées telles que des mots, des images, etc. Lorsque ChatGPT a été lancé plus tard cette année-là, des magasins de vecteurs de tels Les types d'intégration ont été élevés au rang de véhicules clés de la gestion du sens sémantique. Le plus souvent, les magasins sont des bases de données vectorielles, qui sont désormais nombreuses. Ils alimentent déjà les applications de services financiers et de marchés de capitaux, le plus souvent dans des cas d'utilisation du traitement du langage naturel, par exemple pour résumer des documents juridiques et des rapports financiers, ou pour capturer les sentiments des médias sociaux et des fils d'actualité. Cependant, ils s'attaquent également à des applications plus complexes, en améliorant par exemple les informations sur le trading et la gestion des risques, souvent aux côtés des statistiques traditionnelles et de l'apprentissage automatique.

Par ailleurs, la société que Dave a rejoint, Pinecone, est devenue une licorne GenAI, évaluée à 750 millions de dollars. Bon travail si tu peux l'obtenir !

Terme 2 : RAGalias Génération augmentée de récupération

RAG était à peine un mot sur toutes les lèvres au printemps 2023, du moins au sens RAG « Retrieval Augmented Generation » du terme. Les statistiques de recherche Google pour les termes se sont accélérées à partir de juillet 2023 environ et à l'automne/automne, RAG était partout, l'approche pipeline prédominante par laquelle les bases de données vectorielles aident à apprivoiser les « perroquets stochastiques » du grand modèle linguistique. D’une part, RAG encapsule des pipelines pour fournir des flux de données d’entreprise et, d’autre part, aide de manière pragmatique les sociétés financières à réduire les hallucinations et à s’adapter aux processus internes – et externes – de gestion des risques et de conformité de l’IA.

Si vous commencez à les mettre en œuvre à n'importe quel stade, vous explorerez probablement des environnements « RAG-friendly » comme LangChain & LamaIndex.

Terme 3  : Hallucinations

J'ai utilisé le terme « hallucinations » dans ma section précédente, le posant comme un problème résolu par RAG et, à son tour, par des bases de données vectorielles. Avec GenAI, les hallucinations ne sont plus simplement des déclencheurs de créativité stimulant l'esprit, comme le groupe Sergeant Pepper's Lonely Hearts Club Band des Beatles, inspiré par la drogue, ou les Good Vibrations des Beachboys. Ils ne sont pas non plus l'apanage du rêve chamanique pratiqué par de nombreux peuples, par exemple les peuples Tchouktches de Sibérie orientale, ni des activités physiques faisant appel à des techniques de modification de l'esprit, telles que le yoga, les massages et le sexe tantrique. Le mot « hallucination » s'applique également désormais aux échecs des LLM à naviguer dans les informations auxquelles les modèles n'ont pas accès, ou à utiliser à mauvais escient les informations existantes. Il est devenu très rapidement évident que ChatGPT, Bard et les systèmes similaires étaient enclins à fabriquer des réponses « hallucinatoires », et celles-ci généraient des risques lorsque des actions mal informées s'ensuivaient.

Voici la tournure. L'investisseur en IA Marc Andreessen suggère que même si la plupart considèrent les hallucinations comme des bugs, elles peuvent être utiles en tant que fonctionnalités lorsque l'IA est utilisée comme cocréatrice, suggéreuse et devineuse. En tant qu’aide au brainstorming, leurs suppositions inventées peuvent alimenter la créativité humaine. Andreessen, par exemple, souligne comment les avocats utilisent les suggestions « inventées » de l'IA lors de la préparation des dossiers pour imaginer de nouvelles stratégies juridiques. Dans le secteur des services financiers, les traders de Wall Street utilisent déjà l'IA générative et les bases de données vectorielles pour trouver des opportunités commerciales – pour zigzaguer lorsque les masses zaguent.