Reranker
Um reranker e um modelo que refina os resultados top-k de uma busca vetorial em um pipeline RAG, reordenando-os para que os chunks genuinamente mais relevantes fiquem no topo. A recuperacao inicial e "encontrar muitos candidatos rapidamente"; o reranking e "escolher aqueles que realmente valem a pena citar".
Um reranker e um modelo que refina os resultados top-k de uma busca vetorial em um pipeline RAG, reordenando-os para que os chunks genuinamente mais relevantes fiquem no topo. A recuperacao inicial e "encontrar muitos candidatos rapidamente"; o reranking e "escolher aqueles que realmente valem a pena citar".
Por que importa
A recuperacao baseada apenas em vetores acaba misturando chunks que sao semanticamente parecidos, mas que nao sao de fato respostas. Pesquisas da Cohere e da Anthropic mostram que adicionar um reranker a um pipeline RAG eleva a precisao da recuperacao em 15 a 40% em media e reduz significativamente as alucinacoes na resposta final do LLM. Em 2026, os principais mecanismos de busca por IA (Perplexity, ChatGPT Search, Gemini AI Mode) usam rerankers internamente.
Como funciona
Os pipelines RAG costumam executar uma recuperacao em duas etapas:
- Recuperacao: o banco de dados vetorial retorna os 50 a 100 melhores chunks por similaridade de embedding; rapido, porem grosseiro.
- Reranking: um modelo reranker pontua a consulta e os candidatos em conjunto, reduzindo aos 3 a 10 melhores. Mais lento, porem muito mais preciso.
- Geracao: os melhores chunks sao injetados no contexto do LLM e a geracao acontece.
Bi-Encoder vs Cross-Encoder
Bi-encoder: o que os modelos de embedding usam. Consulta e documento sao codificados separadamente em vetores e comparados. Rapido, mas perde relacoes detalhadas entre consulta e documento.
Cross-encoder: o que os rerankers usam. Consulta e documento sao alimentados juntos e pontuados em uma unica passagem direta (forward pass). Mais lento, muito mais preciso.
A essencia da recuperacao em duas etapas e combinar os dois pontos fortes: o bi-encoder rapido para filtrar, e o cross-encoder preciso para o reranking.
Principais rerankers
- Cohere Rerank: API gerenciada, multilingue, a escolha mais comum em RAG de producao
- Voyage rerank: reranker de alto desempenho recomendado pela Anthropic
- BGE Reranker: codigo aberto, multilingue (inclui coreano)
- Jina Reranker: codigo aberto, forte em documentos longos
- LLM-as-reranker: usar GPT-4o ou Claude para fazer o reranking diretamente. Maior precisao, maior custo
Implicacoes para o GEO
Os rerankers olham para mais do que a similaridade semantica, o que afeta a forma como voce escreve.
Frases de resposta diretas: os rerankers detectam o quanto algo "parece uma resposta" na relacao entre consulta e chunk. Uma secao sobre "O que e X?" deve comecar com "X e...".
Especificidade e utilidade: chunks com numeros e exemplos concretos sobem mais no reranking do que explicacoes abstratas.
Imite os padroes de consulta dos usuarios: titulos de secao que parecem perguntas reais que os usuarios fazem a busca por IA sao mais faceis de o reranker corresponder.
Corte o ruido: paragrafos prolixos ou repetitivos recebem pontuacao mais baixa. Secoes curtas e autossuficientes, com o ponto principal logo no inicio, vencem.
Fontes: