功能请求:可视化评估应该与promptflow轨迹有所不同，应提供某种数据可视化,

dzhpxtsq 于 10个月前发布在其他

关注(0)|答案(5)|浏览(115)

您的功能请求是否与问题相关？请描述。

目前，当我们可视化评估结果时，不容易理解。例如，在notebook promptflow\examplesflex-flows\chat-async-stream\chat-stream-with-async-flex-flow.ipynb中可视化的结果如下：

很难看出哪些评估失败了，哪些成功了，或者成功与失败的比例。

描述您希望的解决方案

如果能为评估提供更清晰的可视化效果就好了，因为它们的用途与追踪不同。对于评估，我们通常只需要简单的通过/失败结果，而对于追踪，我们希望看到完整的细节。以下是一个示例：
eval report.zip

promptflow

来源：https://github.com/microsoft/promptflow/issues/3492

5条答案

按热度按时间

xtfmy6hx1#

感谢您的建议！请在下方添加您示例的截图：

@tyler-suard-parker 有一件事我想确认：在哪个步骤中，您获得了上述跟踪UI页面？我看到URL中有两行运行，所以我猜您是从pf.visualize([base_run, eval_run])这一行获取的？
如果是这样的话，我们可以将其更改为pf.visualize(base_run),看看效果是否更好？评估运行的结果将附加到相应的行上——也许我们应该在那里更新我们的笔记本，pf.visualize之前是不同的，最近切换到了利用跟踪UI。

赞(0）回复(0）举报 10个月前

hfsqlsce2#

是的，我在pf.visualize([base_run, eval_run])这一行遇到了这个问题。我会尝试使用pf.visualize(base_run)并告诉你结果如何。
我很高兴你喜欢我的建议，请注意你可以点击每个问题来展开它。已经有这样的痕迹很好，而且有一个快速的总结对我来说很有帮助，以确保所有的评估都出来了。例如，对于每个输入-输出对显示正确性等的柱状图，如果你点击一个柱子，你可以得到一个解释。

赞(0）回复(0）举报 10个月前

moiiocjp3#

我尝试运行pf.visualize(base_run)并得到了这个结果。当我启用了指标列时，它看起来好一些，但如果我在进行评估时，仍然有很多不需要的信息：

我将评估用作我的提示工程的单元测试。我有10个标准问题要问。每次我更改代理提示之一时，我都作为CI/CD测试的一部分再次运行这10个标准问题，并查看测试报告，只是为了确保我的任何更改都不会导致错误的答案。当我每次提交时都这样做时，我没有时间阅读所有的跟踪信息。如果有一个单一的图表可以向我展示整个评估批次的情况就好了。

赞(0）回复(0）举报 10个月前

relj7zay4#

类似于这样的：