Avaliacao de RAG
A avaliacao de RAG e a metodologia para medir quantitativamente o quao bem um pipeline RAG recupera bom contexto e gera respostas precisas. Como os LLMs geram texto livremente, voce nao pode julgar a qualidade com comparacoes simples de entrada e saida da forma como testa software comum: frameworks de avaliacao dedicados se tornaram o conjunto de ferramentas padrao para o desenvolvimento de RAG em 2026.
A avaliacao de RAG e a metodologia para medir quantitativamente o quao bem um pipeline RAG recupera bom contexto e gera respostas precisas. Como os LLMs geram texto livremente, voce nao pode julgar a qualidade com comparacoes simples de entrada e saida da forma como testa software comum: frameworks de avaliacao dedicados se tornaram o conjunto de ferramentas padrao para o desenvolvimento de RAG em 2026.
Por que importa
Os sistemas RAG consistem em varias etapas (reescrita de consultas → busca vetorial → reranking → injecao de contexto → geracao pelo LLM → citacao) e qualquer etapa pode falhar de forma independente. Uma unica etapa quebrada derruba a qualidade da resposta, mas olhar apenas para "a resposta final foi boa?" nao revela qual etapa falhou. Uma pesquisa da Stanford HAI estima que cerca de 35% dos sistemas RAG em producao sofrem com alucinacoes, recuperacao malsucedida ou citacoes quebradas, algo impossivel de corrigir sem avaliacao sistematica.
Metricas centrais
Qualidade da recuperacao
- Precisao de contexto (Context Precision): proporcao dos chunks recuperados que sao de fato relevantes
- Recall de contexto (Context Recall): proporcao dos chunks relevantes de referencia que foram recuperados
- MRR (Mean Reciprocal Rank): posicao reciproca media do primeiro chunk relevante
- NDCG (Normalized DCG): metrica padrao de recuperacao de informacao que combina relevancia e posicao
Qualidade da geracao
- Fidelidade (Faithfulness): a resposta realmente deriva do contexto fornecido? O oposto de alucinacao.
- Relevancia da resposta (Answer Relevance): quao bem a resposta corresponde a pergunta?
- Correcao da resposta (Answer Correctness): a resposta esta de fato certa (comparada a referencia)?
- Completude da resposta (Answer Completeness): ela abordou todos os aspectos da pergunta?
Qualidade das citacoes
- Precisao de citacao (Citation Precision): as fontes citadas realmente sustentam a afirmacao?
- Recall de citacao (Citation Recall): proporcao das afirmacoes na resposta que trazem citacoes de fonte.
Principais frameworks de avaliacao
Ragas: biblioteca de codigo aberto para avaliacao de RAG. Mede automaticamente precisao de contexto, fidelidade, relevancia da resposta e mais, usando uma abordagem de "LLM-as-Judge".
TruLens: rastreamento (tracing) e avaliacao integrados para aplicacoes de RAG e LLM, cobrindo desde o desenvolvimento ate o monitoramento em producao.
LangSmith: ferramenta de avaliacao e observacao da LangChain com comparacao de experimentos, depuracao de traces e gerenciamento de datasets.
ARES: framework de avaliacao de nivel academico que usa dados sinteticos para benchmarking automatico.
Conjuntos de avaliacao customizados: os mais importantes na pratica. Reuna de 50 a 500 consultas reais de usuarios com respostas de referencia e use-as como um conjunto de teste de regressao.
Limites do LLM-as-Judge
A maioria dos frameworks modernos depende de "pedir a outro LLM que pontue a qualidade da resposta" (LLM-as-Judge). E rapido e barato, mas tem ressalvas.
- Vies do avaliador: LLMs avaliadores favorecem certos estilos, tamanhos ou familias de modelos.
- Falta de consistencia: a mesma entrada pode nao produzir a mesma pontuacao. Mitigue com temperatura 0 e media entre execucoes.
- Factualidade complexa: julgamentos que exigem conhecimento especializado de dominio ainda precisam de verificacao humana.
Sempre combine decisoes criticas com revisao humana.
Dicas praticas
Avalie etapa por etapa: nao avalie o pipeline inteiro de uma vez. Meca recuperacao, reranking e geracao separadamente para localizar gargalos.
Teste de regressao: meca novamente com o mesmo conjunto de avaliacao sempre que codigo, prompts ou modelos mudarem, para detectar regressoes.
Monitoramento em producao: avalie continuamente uma amostra aleatoria de respostas reais com LLM-as-Judge para detectar desvios (drift).
Conecte ao feedback do usuario: correlacione cliques de positivo/negativo e de regeneracao com as metricas de avaliacao.
Fontes: