**功能请求**:可视化评估应该与promptflow轨迹有所不同,应提供某种数据可视化,

dzhpxtsq  于 2个月前  发布在  其他
关注(0)|答案(5)|浏览(35)

您的功能请求是否与问题相关?请描述。

目前,当我们可视化评估结果时,不容易理解。例如,在notebook promptflow\examplesflex-flows\chat-async-stream\chat-stream-with-async-flex-flow.ipynb中可视化的结果如下:

很难看出哪些评估失败了,哪些成功了,或者成功与失败的比例。

描述您希望的解决方案

如果能为评估提供更清晰的可视化效果就好了,因为它们的用途与追踪不同。对于评估,我们通常只需要简单的通过/失败结果,而对于追踪,我们希望看到完整的细节。以下是一个示例:
eval report.zip

xtfmy6hx

xtfmy6hx1#

感谢您的建议!请在下方添加您示例的截图:

@tyler-suard-parker 有一件事我想确认:在哪个步骤中,您获得了上述跟踪UI页面?我看到URL中有两行运行,所以我猜您是从pf.visualize([base_run, eval_run])这一行获取的?
如果是这样的话,我们可以将其更改为pf.visualize(base_run),看看效果是否更好?评估运行的结果将附加到相应的行上——也许我们应该在那里更新我们的笔记本,pf.visualize之前是不同的,最近切换到了利用跟踪UI。

hfsqlsce

hfsqlsce2#

是的,我在pf.visualize([base_run, eval_run])这一行遇到了这个问题。我会尝试使用pf.visualize(base_run)并告诉你结果如何。
我很高兴你喜欢我的建议,请注意你可以点击每个问题来展开它。已经有这样的痕迹很好,而且有一个快速的总结对我来说很有帮助,以确保所有的评估都出来了。例如,对于每个输入-输出对显示正确性等的柱状图,如果你点击一个柱子,你可以得到一个解释。

moiiocjp

moiiocjp3#

我尝试运行pf.visualize(base_run)并得到了这个结果。当我启用了指标列时,它看起来好一些,但如果我在进行评估时,仍然有很多不需要的信息:

我将评估用作我的提示工程的单元测试。我有10个标准问题要问。每次我更改代理提示之一时,我都作为CI/CD测试的一部分再次运行这10个标准问题,并查看测试报告,只是为了确保我的任何更改都不会导致错误的答案。当我每次提交时都这样做时,我没有时间阅读所有的跟踪信息。如果有一个单一的图表可以向我展示整个评估批次的情况就好了。

relj7zay

relj7zay4#

类似于这样的:

mrzz3bfm

mrzz3bfm5#

感谢您的尝试,以及对您场景的描述!是的,我认为类似报告的东西会帮助您更好地理解,而跟踪UI页面目前对此支持得不够好。
请与项目经理陈露@jiaochenlu就此事进行沟通。

相关问题