Chinese-CLIP 为什么使用相同的词和图片得到的结果不一致？

chhkpiq4 于 10个月前发布在其他

关注(0)|答案(2)|浏览(197)

翻译结果为：

词：天空，栏杆，女人，火车站，火车，人们
图片地址： https://images.pexels.com/photos/20147042/pexels-photo-20147042.jpeg?cs=srgb&dl=pexels-mateus-castro-20147042.jpg&fm=jpg
测试API:
https://huggingface.co/spaces/OFA-Sys/chinese-clip-zero-shot-image-classification 使用的base
https://huggingface.co/OFA-Sys/chinese-clip-vit-base-patch16
本地跑和上面俩API,这三个结果都不一样。

本地：[('栏杆', 0.507383406162262), ('女人', 0.44152918457984924), ('人们', 0.02036505565047264), ('天空', 0.019294271245598793), ('火车站', 0.010599039494991302), ('火车', 0.0008290574769489467)]

Chinese-CLIP

来源：https://github.com/OFA-Sys/Chinese-CLIP/issues/295

2条答案

按热度按时间

ojsjcaue1#

@learning233@JianxinMa@yangapku@jxst539246@manymuch

赞(0）回复(0）举报 10个月前

6fe3ivhb2#

在本地预测时，不要进行梯度计算，使用with torch.no_grad():。

赞(0）回复(0）举报 10个月前

我来回答

Chinese-CLIP 为什么使用相同的词和图片得到的结果不一致？

2条答案

相关问题

热门标签

最新问答