Reranker
Un reranker est un modèle qui affine les résultats top-k d'une recherche vectorielle dans un pipeline RAG, en les réordonnant pour que les fragments réellement les plus pertinents arrivent en tête. La recherche de premier passage consiste à "trouver vite de nombreux candidats" ; le reranking consiste à "choisir ceux qui valent vraiment la peine d'être cités".
Un reranker est un modèle qui affine les résultats top-k d'une recherche vectorielle dans un pipeline RAG, en les réordonnant pour que les fragments réellement les plus pertinents arrivent en tête. La recherche de premier passage consiste à "trouver vite de nombreux candidats" ; le reranking consiste à "choisir ceux qui valent vraiment la peine d'être cités".
Pourquoi c'est important
La recherche purement vectorielle mêle des fragments qui sont sémantiquement proches mais ne sont pas réellement des réponses. Des recherches de Cohere et Anthropic montrent qu'ajouter un reranker à un pipeline RAG augmente la précision de la recherche de 15 à 40 % en moyenne et réduit significativement les hallucinations dans la réponse finale du LLM. En 2026, les principaux moteurs de recherche IA (Perplexity, ChatGPT Search, Gemini AI Mode) utilisent tous des rerankers en interne.
Comment ça fonctionne
Les pipelines RAG exécutent généralement une recherche en deux étapes :
- Recherche : la base de données vectorielle renvoie les 50 à 100 meilleurs fragments par similarité d'embedding, rapide mais grossier.
- Reranking : un modèle reranker note la requête et les candidats ensemble, réduisant aux 3 à 10 meilleurs. Plus lent mais bien plus précis.
- Génération : les meilleurs fragments sont injectés dans le contexte du LLM et la génération a lieu.
Bi-encodeur vs Cross-encodeur
Bi-encodeur : ce qu'utilisent les modèles d'embedding. La requête et le document sont encodés séparément en vecteurs puis comparés. Rapide, mais passe à côté des relations fines entre requête et document.
Cross-encodeur : ce qu'utilisent les rerankers. La requête et le document sont fournis ensemble et notés en une seule passe avant. Plus lent, bien plus précis.
L'essence de la recherche en deux étapes est de combiner les deux forces : un bi-encodeur rapide pour filtrer, un cross-encodeur précis pour le reranking.
Rerankers de premier plan
- Cohere Rerank : API managée, multilingue, le choix le plus courant en RAG de production
- Voyage rerank : reranker haute performance recommandé par Anthropic
- BGE Reranker : open source, multilingue (coréen inclus)
- Jina Reranker : open source, performant sur les longs documents
- LLM-as-reranker : utiliser GPT-4o ou Claude pour reranker directement. Précision la plus élevée, coût le plus élevé
Implications pour le GEO
Les rerankers regardent au-delà de la similarité sémantique, ce qui influence votre façon d'écrire.
Phrases de réponse directes : les rerankers détectent le "caractère de réponse" dans la relation entre la requête et le fragment. Une section sur "Qu'est-ce que X ?" devrait commencer par "X est…".
Précision et utilité : les fragments comportant des chiffres et des exemples concrets sont mieux classés que les explications abstraites.
Imiter les schémas de requête des utilisateurs : les titres de section qui ressemblent à des questions que de vrais utilisateurs posent à la recherche IA sont plus faciles à apparier pour les rerankers.
Couper le bruit : les paragraphes verbeux ou répétitifs obtiennent des scores plus faibles. Les sections courtes et autonomes, dont l'idée principale est mise en avant, l'emportent.
Sources :