Ocr

Dev back

Trois dérives architecturales observées en codant avec l’IA

L'article explore les dérives architecturales rencontrées lors du développement d'une application Laravel pour gérer une collection de jeux vidéo, en utilisant des outils IA comme Claude. Il met en lumière des problèmes tels que la duplication des services par l'IA, l'illusion de la cohérence entre des copies de code similaires et le drift qui apparaît lorsque des corrections ne sont pas appliquées uniformément. L'auteur interroge l'actualité de certains principes architecturaux face aux évolutions des méthodes de développement avec l'IA, comme le DRY, et souligne la nécessité de ne pas se fier uniquement à l'IA sans contraintes explicites.

IA

Quai des Notaires - PoC IA : On a testé un agent ...

L'entreprise Quai des Notaires a testé un agent d'IA pour la recherche documentaire, garantissant la souveraineté des données en France. Le PoC a montré des résultats prometteurs dans la classification des documents numériques, mais a rencontré des difficultés avec les documents manuscrits. Malgré une excellente maîtrise de la recherche sémantique, l'IA peine avec les éléments non-linéaires, nécessitant une validation humaine. Le projet privilégie un cloud souverain pour des raisons de confidentialité.

IA

Quai des Notaires - POC IA & Notariat : Pourquoi ...

La plateforme Quai des Notaires vise à automatiser des formalités grâce à une IA capable d'analyser des flux mixtes de documents tout en respectant la souveraineté des données. Un POC a permis d'expérimenter l'IA sans lancer un projet complet, ce qui a été jugé comme une réussite malgré les défis techniques liés à la compréhension des données sensibles et à la nécessité de rester conforme aux standards de sécurité.

"
IA

Should LLMs just treat text content as an image?

Un article qui explore l'idée que les modèles de langage pourraient traiter le texte comme du contenu d'image plutôt que comme du texte brut, ce qui pourrait augmenter l'efficacité de la compression et la capacité d'inférence. La technique, appelée compression optique, pourrait permettre aux modèles d'extraire plus d'informations à partir d'images de texte grâce à la densité d'information des images par rapport au texte. L'article aborde les implications de cette approche pour l'IA et la possibilité de former des modèles sur du contenu textuel représenté sous forme d'images.

Autre

Liens Tech - Mai 2025

Cet article présente une sélection d'outils open-source tels que Paperless-ngx, une solution de gestion électronique de documents utilisant la reconnaissance optique de caractères, Webmin pour l'administration à distance de serveurs Linux, et Keycloak pour la gestion des identités et accès. Ces outils visent à améliorer la productivité et la sécurité au sein des systèmes numériques.

"
Autre

Installation et configuration de Stirling PDF | Libre à vous

L'article traite de l'installation et de la configuration de Stirling PDF, un logiciel libre pour la gestion des fichiers PDF. Il décrit les fonctionnalités de l'outil, tel que la fusion, la division, et la conversion de PDF, tout en expliquant sa mise en place via Docker et Nginx. L'accent est mis sur son auto-hébergement, garantissant une meilleure sécurité des données, et la possibilité de l'utiliser sans connexion Internet.

IA

Optical Character Recognition on Handwritten Documents

Cet article explore les défis de l'OCR sur des documents manuscrits, en se concentrant sur des recensements de population. Il passe en revue des bibliothèques open-source comme Tesseract et OpenCV, ainsi que des services cloud tels qu'AWS Textract, Azure AI Document Intelligence et Google Cloud Document AI. Malgré des tentatives variées, aucune solution ne répond adéquatement aux besoins, ce qui pousse les auteurs à se tourner vers la littérature scientifique pour trouver une solution. Ils mentionnent un projet de recherche de l'Université de Rouen sur l'OCR pour des recensements similaires dans les années 1920 et 1930.