ChatGPT réussit l’examen de neurologie pour la première fois
- ChatGPT 4.0 de OpenAI réussit un examen de neurologie clinique avec 85% de réponses correctes
- Les chercheurs estiment que les LLM peuvent avoir des applications significatives en neurologie après quelques ajustements
- Le modèle a surpassé les humains dans certaines catégories mais montre encore des performances faibles dans les tâches nécessitant une réflexion d'ordre supérieur
- Les chercheurs soulignent toutefois qu'il reste encore du développement à faire avant son utilisation pratique en neurologie clinique
La dernière mise à jour d’OpenAI de son grand modèle de langage (LLM), ChatGPT 4.0, a réussi un examen de neurologie clinique avec 85 % de réponses correctes dans une étude de validation de principe. Les auteurs de la recherche estiment qu’après quelques ajustements, les LLM pourraient avoir des « applications significatives » en neurologie clinique.
Les résultats de l’expérience, menée par un groupe de chercheurs de l’hôpital universitaire de Heidelberg et du Centre allemand de recherche sur le cancer à Heidelberg, ont été publiés le 7 décembre. Le test, réalisé le 31 mai, comprenait deux LLM, ChatGPT 3.5 et son dernier. version, ChatGPT 4.0.
Les chercheurs ont utilisé la banque de questions pour un examen de neurologie du Conseil américain de psychiatrie et de neurologie avec une petite cohorte de questions du Conseil européen de neurologie.
En rapport: La démo Gemini de Google est désormais accusée d’être « fausse »
Alors que l’ancienne version de ChatGPT obtenait un score de 66,8 %, répondant correctement à 1 306 questions sur 1 956, le modèle le plus récent, ChatGPT 4.0, a gagné 85 % avec 1 662 réponses correctes. Le score humain moyen était de 73,8 %. ChatGPT 4.0 a surpassé les utilisateurs humains dans les questions comportementales, cognitives et psychologiques et a effectivement « réussi » l’examen de neurologie, puisque 70 % des réponses correctes sont généralement considérées comme une note de passage dans les établissements d’enseignement.
Cependant, les deux modèles ont démontré des performances plus faibles dans les tâches nécessitant une « réflexion d’ordre supérieur » que dans les questions nécessitant uniquement une « réflexion d’ordre inférieur ».
Selon le groupe de chercheurs menant l’expérience, ces résultats servent de recommandation pour utiliser les LLM en neurologie clinique après quelques modifications :
« Ces résultats suggèrent qu’avec des améliorations supplémentaires, les grands modèles de langage pourraient avoir des applications significatives en neurologie clinique. »
Les chercheurs soulignent que plusieurs réserves subsistent. Bien qu’il existe une perspective claire d’application des LLM dans les systèmes de documentation et d’aide à la décision, les neurologues doivent être prudents quant à leur utilisation dans la pratique, car ils sont encore imparfaits en ce qui concerne les tâches cognitives de haut niveau. S’adressant à Cointelegraph, l’un des auteurs de l’étude, le Dr Varun Venkataramani, a déclaré :
Nous considérons notre étude davantage comme une preuve de concept des capacités des LLM. Il reste encore du développement à faire et probablement même un ajustement spécifique des LLM pour les rendre correctement applicables à la neurologie clinique.
AI travaille déjà sur des tâches majeures dans le domaine de la santé, comme trouver un remède contre le cancer pour AstraZeneca ou lutter contre la prescription excessive d’antibiotiques à Hong Kong.
Revue: La peur et le doute des législateurs motivent les propositions de réglementation sur la cryptographie aux États-Unis