Embeddings

2025-09-24Fullstack

GitHub Copilot gets smarter at finding your code: Inside our new embedding model

GitHub a lancé un nouveau modèle d'embedding pour son outil Copilot, améliorant la recherche de code dans VS Code. Ce modèle offre une meilleure qualité de récupération de 37,6%, un doublement du débit et une réduction de la taille de l'index par huit, permettant des réponses plus précises et rapides aux requêtes des développeurs. Grâce à une optimisation via l'apprentissage contrasté, le modèle distingue mieux les résultats pertinents des quasi-pertinents, améliorant ainsi l'expérience Copilot. Les améliorations touchent principalement les développeurs C# et Java, avec une augmentation notable des taux d'acceptation de code. Le développement continu vise à élargir les données de formation et à raffiner le processus d'extraction des échantillons difficiles.

github.blog

embeddings

2024-12-12Fullstack

So many tokens, so little time: Introducing a faster, more flexible byte-pair tokenizer

Cet article présente une nouvelle implémentation ouverte de l'algorithme de byte-pair encoding (BPE) pour améliorer la tokenisation utilisée par GitHub Copilot. L'auteur explique comment cette solution surmonte les défis de mise à l'échelle rencontrés avec les modèles de langage en offrant des performances linéaires et une flexibilité accrue. Des détails sur les benchmarks comparant cette nouvelle approche avec des bibliothèques existantes illustrent ses avantages en termes de rapidité et d'efficacité, ce qui est crucial pour gérer l'entrée de code utilisateur non fiable.

github.blog

embeddings