Avaliação de sistemas RAG: métricas, ragas e armadilhas comuns
Avaliar sistemas RAG (Retrieval-Augmented Generation) é substancialmente diferente de avaliar LLMs puros. Enquanto um LLM tradicional é julgado por sua capacidade de gerar texto coerente a partir de conhecimento internalizado, um sistema RAG introduz uma camada adicional de complexidade: a recuperação de informações externas. Essa diferença fundamental exige métricas que capturem três pilares essenciais: a qualidade da recuperação, a fidelidade da geração e a integração harmoniosa entre ambos.