GEO

Avaliacao de RAG

A avaliacao de RAG e a metodologia para medir quantitativamente o quao bem um pipeline RAG recupera bom contexto e gera respostas precisas. Como os LLMs geram texto livremente, voce nao pode julgar a qualidade com comparacoes simples de entrada e saida da forma como testa software comum: frameworks de avaliacao dedicados se tornaram o conjunto de ferramentas padrao para o desenvolvimento de RAG em 2026.

A avaliacao de RAG e a metodologia para medir quantitativamente o quao bem um pipeline RAG recupera bom contexto e gera respostas precisas. Como os LLMs geram texto livremente, voce nao pode julgar a qualidade com comparacoes simples de entrada e saida da forma como testa software comum: frameworks de avaliacao dedicados se tornaram o conjunto de ferramentas padrao para o desenvolvimento de RAG em 2026.

Por que importa

Os sistemas RAG consistem em varias etapas (reescrita de consultas → busca vetorial → reranking → injecao de contexto → geracao pelo LLM → citacao) e qualquer etapa pode falhar de forma independente. Uma unica etapa quebrada derruba a qualidade da resposta, mas olhar apenas para "a resposta final foi boa?" nao revela qual etapa falhou. Uma pesquisa da Stanford HAI estima que cerca de 35% dos sistemas RAG em producao sofrem com alucinacoes, recuperacao malsucedida ou citacoes quebradas, algo impossivel de corrigir sem avaliacao sistematica.

Metricas centrais

Qualidade da recuperacao

  • Precisao de contexto (Context Precision): proporcao dos chunks recuperados que sao de fato relevantes
  • Recall de contexto (Context Recall): proporcao dos chunks relevantes de referencia que foram recuperados
  • MRR (Mean Reciprocal Rank): posicao reciproca media do primeiro chunk relevante
  • NDCG (Normalized DCG): metrica padrao de recuperacao de informacao que combina relevancia e posicao

Qualidade da geracao

  • Fidelidade (Faithfulness): a resposta realmente deriva do contexto fornecido? O oposto de alucinacao.
  • Relevancia da resposta (Answer Relevance): quao bem a resposta corresponde a pergunta?
  • Correcao da resposta (Answer Correctness): a resposta esta de fato certa (comparada a referencia)?
  • Completude da resposta (Answer Completeness): ela abordou todos os aspectos da pergunta?

Qualidade das citacoes

  • Precisao de citacao (Citation Precision): as fontes citadas realmente sustentam a afirmacao?
  • Recall de citacao (Citation Recall): proporcao das afirmacoes na resposta que trazem citacoes de fonte.

Principais frameworks de avaliacao

Ragas: biblioteca de codigo aberto para avaliacao de RAG. Mede automaticamente precisao de contexto, fidelidade, relevancia da resposta e mais, usando uma abordagem de "LLM-as-Judge".

TruLens: rastreamento (tracing) e avaliacao integrados para aplicacoes de RAG e LLM, cobrindo desde o desenvolvimento ate o monitoramento em producao.

LangSmith: ferramenta de avaliacao e observacao da LangChain com comparacao de experimentos, depuracao de traces e gerenciamento de datasets.

ARES: framework de avaliacao de nivel academico que usa dados sinteticos para benchmarking automatico.

Conjuntos de avaliacao customizados: os mais importantes na pratica. Reuna de 50 a 500 consultas reais de usuarios com respostas de referencia e use-as como um conjunto de teste de regressao.

Limites do LLM-as-Judge

A maioria dos frameworks modernos depende de "pedir a outro LLM que pontue a qualidade da resposta" (LLM-as-Judge). E rapido e barato, mas tem ressalvas.

  • Vies do avaliador: LLMs avaliadores favorecem certos estilos, tamanhos ou familias de modelos.
  • Falta de consistencia: a mesma entrada pode nao produzir a mesma pontuacao. Mitigue com temperatura 0 e media entre execucoes.
  • Factualidade complexa: julgamentos que exigem conhecimento especializado de dominio ainda precisam de verificacao humana.

Sempre combine decisoes criticas com revisao humana.

Dicas praticas

Avalie etapa por etapa: nao avalie o pipeline inteiro de uma vez. Meca recuperacao, reranking e geracao separadamente para localizar gargalos.

Teste de regressao: meca novamente com o mesmo conjunto de avaliacao sempre que codigo, prompts ou modelos mudarem, para detectar regressoes.

Monitoramento em producao: avalie continuamente uma amostra aleatoria de respostas reais com LLM-as-Judge para detectar desvios (drift).

Conecte ao feedback do usuario: correlacione cliques de positivo/negativo e de regeneracao com as metricas de avaliacao.

Fontes: