Benchmarking

2025-11-28IA

80,9 % sur SWE-bench : Opus 4.5 et le basculement vers les agents autonomes

Lancement d'Opus 4.5 par Anthropic, qui obtient 80,9% sur le benchmark SWE-bench, marquant une tendance vers des agents autonomes capables d'exécuter des tâches complexes sans supervision. Ce modèle propose une gestion des coûts innovante via le paramètre 'effort', ainsi qu'une stratégie de tarification plus compétitive. Des fonctionnalités telles que le 'Context Editing' et la 'Compaction' optimisent la gestion de la mémoire, permettant à Opus 4.5 de rivaliser avec des modèles comme GPT-5.1 et Gemini 3. Le marché évolue, favorisant des agents autonomes sur les chatbots.

www.lvlup.fr

benchmarking

2024-10-14Dev back

Python 3.12 vs Python 3.13 – performance testing

Cet article présente les résultats des tests de performances de Python 3.13 par rapport à Python 3.12, effectués sur des processeurs AMD Ryzen 7000 et Intel Core de 13ème génération. Un total de 100 tests de benchmarks a été réalisé sur des ordinateurs fonctionnant sous Windows 11, montrant que Python 3.13 surpasse 3.12 dans de nombreux tests, notamment ceux liés aux générateurs asynchrones et au traitement de l'IO. Cependant, certains tests ont montré de légèrement moins bonnes performances, comme dans les cas de couverture et de cycles de GC.

en.lewoniewski.info

benchmarking