DeepEval是开源工具，专注测试和优化大语言模型，提供多种评估指标，支持本地或云端运行

admin

DeepEval 是一款开源工具，旨在简化大语言模型（LLM）应用的测试与优化，类似于 Pytest 对常规软件的作用，但更专注于 LLM 的输出。它提供超过 30 种现成的评估指标，如答案相关性、真实性和幻觉等，用于检查您的 LLM 是否精准、安全且可靠。您可以测试整个应用程序或仅测试其中的部分，甚至可以生成合成数据以增强测试效果。DeepEval 可在本地或云端运行，方便您比较结果、共享报告，并持续改进模型。这一工具使您能够以更少的努力构建更优、更安全、更值得信赖的大语言模型应用。

#python #evaluation_framework #evaluation_metrics #llm_evaluation #llm_evaluation_framework #llm_evaluation_metrics #Git202506121230

https://github.com/confident-ai/deepeval