Le combat d'Elon pour « l'AGI open source » ignore les utilisateurs et la formation éthique en IA
Divulgation : les points de vue et opinions exprimés ici appartiennent uniquement à l'auteur et ne représentent pas les points de vue et opinions de l'éditorial de crypto.news.
Elon Musk a poursuivi OpenAI pour son prétendu détournement de la mission de développer l'AGI « pour le bénéfice de l'humanité ». Carlos E. Perez soupçonne que le procès pourrait transformer l'actuel leader du marché de l'IA générative en le prochain WeWork.
La transformation d'OpenAI à but lucratif est au centre de cette bataille juridique. Cependant, l’accent excessif mis sur le profit trahit les intérêts particuliers des entreprises. Cela détourne également l’attention de préoccupations plus critiques pour les utilisateurs finaux, à savoir la formation éthique en IA et la gestion des données.
Grok, l'idée originale d'Elon et concurrent de ChatGPT, peut accéder aux « informations en temps réel » à partir des tweets. OpenAI est de toute façon tristement célèbre pour avoir récupéré des données protégées par le droit d'auteur à gauche, à droite et au centre. Aujourd'hui, Google a conclu un accord de 60 millions de dollars pour accéder aux données des utilisateurs de Reddit afin de former Gemini et Cloud AI.
Se contenter de promouvoir l'open source ne sert pas l'intérêt de l'utilisateur dans cet environnement. Ils ont besoin de moyens pour garantir un consentement significatif et une compensation pour aider à former les LLM. Les plates-formes émergentes créant des outils pour collecter les données de formation en IA, par exemple, sont essentielles à cet égard. Nous en reparlerons plus tard.
C'est principalement à but non lucratif pour les utilisateurs
Plus de 5,3 milliards de personnes utilisent Internet dans le monde, et environ 93 % d’entre elles utilisent les réseaux sociaux centralisés. Il est donc probable que la plupart des 147 milliards de téraoctets de données produites en ligne en 2023 aient été générées par les utilisateurs. Le volume devrait dépasser les 180 milliards d’ici 2025.
Bien que cet ensemble massif de données ou « informations accessibles au public » alimente la formation et l’évolution de l’IA, les utilisateurs n’en récoltent pas les bénéfices pour la plupart. Ils n’en ont ni le contrôle ni la propriété réelle. La manière de donner son consentement « J'accepte » n'a pas non plus de sens : c'est au mieux une tromperie et au pire une coercition.
Les données sont le nouveau pétrole. Il n’est pas dans l’intérêt des Big Tech de donner aux utilisateurs finaux plus de contrôle sur leurs données. D’une part, payer les utilisateurs pour les données augmenterait considérablement les coûts de formation LLM, qui dépassent de toute façon les 100 millions de dollars. Cependant, comme le soutient Chris Dixon dans « Read, Write, Own », cinq grandes entreprises contrôlant et potentiellement « tout gâchant » constituent la voie rapide vers la dystopie.
Cependant, étant donné l’évolution des blockchains en tant que couche de données distribuées et source de vérité, la meilleure ère pour les utilisateurs ne fait que commencer. Plus important encore, contrairement aux grandes entreprises, les sociétés d’IA de la nouvelle ère adoptent de telles alternatives pour améliorer les performances, la rentabilité et, en fin de compte, l’amélioration de l’humanité.
Données de crowdsourcing pour une formation éthique en IA
Le modèle de confiance en lecture-écriture de Web2 repose sur le fait que les entités et les parties prenantes ne sont pas malveillantes. Mais la cupidité humaine ne connaît pas de limites : nous sommes tous une bande de « fripons intéressés », selon le philosophe du XVIIIe siècle David Hume.
Le modèle de lecture-écriture de Web3 utilise donc la blockchain, la cryptographie, etc., afin que les participants au réseau distribué ne puissent pas être malveillants. Chris explore cette idée en profondeur dans son livre.
La pile technologique Web3 est fondamentalement orientée vers la communauté et dirigée par les utilisateurs. Fournir la boîte à outils permettant aux utilisateurs de reprendre le contrôle de leurs données (financières, sociales, créatives et autres) est un principe fondamental dans ce domaine. Les blockchains, par exemple, servent de couches de données distribuées et vérifiables pour régler les transactions et établir de manière immuable la provenance.
De plus, des mécanismes viables de confidentialité et de sécurité, tels que les preuves sans connaissance (zkProofs) ou le calcul multipartite (MPC), ont évolué au cours des deux dernières années. Ils ouvrent de nouvelles voies en matière de validation, de partage et de gestion des données en permettant aux contreparties d'établir des vérités sans en révéler le contenu.
Ces larges capacités sont très pertinentes dans un PoV de formation en IA. Il est désormais possible d'obtenir des données fiables sans recourir à des fournisseurs ou des validateurs centralisés. Mais plus important encore, la nature décentralisée et non intermédiaire du Web3 permet de connecter directement ceux qui produisent des données (c'est-à-dire les utilisateurs) et les projets qui en ont besoin pour former des modèles d'IA.
La suppression des « intermédiaires de confiance » et des contrôleurs d'accès réduit considérablement les coûts. Il aligne également les incitations afin que les projets puissent récompenser les utilisateurs pour leurs efforts et leurs contributions. Par exemple, les utilisateurs peuvent gagner des crypto-monnaies en effectuant des microtâches telles que l'enregistrement de scripts dans leur dialecte natif, la reconnaissance et l'étiquetage d'objets, le tri et la catégorisation d'images, la structuration de données non structurées, etc.
Les entreprises, en revanche, peuvent créer des modèles plus précis en utilisant des données de haute qualité validées par des humains impliqués dans la boucle et à un prix équitable. C'est gagnant-gagnant.
Des avancées ascendantes, pas seulement open source
Les frameworks traditionnels sont tellement hostiles aux individus et aux communautés d'utilisateurs que le simple fait d'être open source ne signifie rien en tant que tel. Des changements radicaux dans les modèles commerciaux et les cadres de formation existants sont nécessaires pour garantir une formation éthique en IA.
Remplacer les systèmes descendants par une approche populaire ascendante est la voie à suivre. Il s’agit également d’établir un ordre méritocratique qui accorde une grande importance à l’appropriation, à l’autonomie et à la collaboration. Dans ce monde, la distribution équitable est la solution la plus rentable, et non la maximisation.
Il est intéressant de noter que ces systèmes profiteront autant aux grandes entreprises qu’aux petites entreprises et aux utilisateurs individuels. Parce qu’après tout, des données de haute qualité, des prix équitables et des modèles d’IA précis sont des choses dont tout le monde a besoin.
Désormais, avec les incitations alignées, il est dans l’intérêt commun de l’industrie d’adopter et d’adopter des modèles d’une nouvelle ère. S’en tenir à des gains étroits et à courte vue ne servira à rien à long terme. L’avenir a des exigences différentes de celles du passé.
Guillaume Simonin
Guillaume Simonin est président de Ta-da, un marché de données d'IA qui exploite la blockchain pour gamifier la vérification des données. Il a auparavant travaillé comme ingénieur logiciel et chercheur au ministère français de la Défense pendant environ six ans et au sein de l'association de sécurité d'Epitech Nancy, en tant que président puis professeur de programmation fonctionnelle. Il est un entrepreneur français et co-fondateur de plusieurs sociétés d’IA, de technologie et de crypto-monnaie.
