Le cadre BRAID d’OpenServ a surpassé les derniers modèles GPT d’OpenAI dans des tests de raisonnement, tout en rendant la prise de décision de l’IA plus transparente et vérifiable.
Selon les résultats communiqués par la société, BRAID a obtenu une plus grande précision dans plusieurs classes de modèles GPT lors de tests sur le benchmark GSM8K. Le modèle GPT-5, par exemple, a obtenu un score de 64,34 avec BRAID, contre 54,41 sans.
Les mêmes progrès ont été observés sur les modèles GPT-4o, GPT-5 mini et GPT-5 nano.
“BRAID améliore les performances dans toutes les classes de modèles, des plus grands aux plus petits, rendant le raisonnement avancé abordable et accessible à un plus grand nombre de développeurs et de cas d’utilisation”, a déclaré Armağan Amcalar, CTO d’OpenServ.
Contrairement au raisonnement sous forme libre, BRAID introduit un processus structuré en deux étapes qui réduit les erreurs et produit des organigrammes documentant chaque étape de la logique du modèle.
Cela rend les sorties auditées, ce qui est particulièrement précieux pour des secteurs comme la finance et les soins de santé où la vérification est essentielle, a déclaré Amcalar.
A lire aussi : Tom Lee de Fundstrat : Ethereum a 50 % de chances de dépasser Bitcoin
Dans une interview accordée à Benzinga, le PDG Tim Hafner a expliqué que les gains s’étendent au-delà des benchmarks.
“Dans un flux de travail financier comportant des étapes telles que la tarification, l’allocation et l’équilibre des risques, BRAID a maintenu la cohérence du raisonnement là où les modèles standard ont divergé”, a-t-il déclaré.
Il a également noté que le framework a réduit le coût effectif par bonne réponse de 25 % à 40 % lors des tests.
Dr. Eyup Cinar, chercheur et instructeur à l’institut de Deep Learning NVIDIA, a vérifié l’approche de manière indépendante.
Les résultats complets seront publiés dans un journal scientifique, selon OpenServ.
Hafner a reconnu que d’autres laboratoires étudiaient le raisonnement structuré, mais a soutenu que BRAID allait plus loin en séparant la planification de l’exécution et en intégrant le processus dans la plateforme d’OpenServ, où chaque agent peut générer une “preuve de raisonnement” par défaut.
BRAID est désormais déployé dans la plateforme d’OpenServ, qui aide les développeurs à construire des agents d’IA pour les secteurs de la finance, de la gouvernance et d’autres flux de travail où la fiabilité et la vérifiabilité sont essentielles.
A lire ensuite :
Image : Shutterstock