目前我正在使用TR-OCR模型,使用的是VisionEncoderDecoderModel。以下是代码:
from PIL import Image
from transformers import TrOCRProcessor, VisionEncoderDecoderModel
processor = TrOCRProcessor.from_pretrained("microsoft/trocr-base-printed")
model = VisionEncoderDecoderModel.from_pretrained("microsoft/trocr-base-printed")
image = Image.open("/content/drive/MyDrive/vaibhav/AADHAAR_DATA/testdata/"+ df.loc[i,"key"]).convert("RGB")
pixel_values = processor(image, return_tensors="pt").pixel_values
generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)
print(generated_text) # it return text only
我想要获取生成文本的置信度,但是无法实现。
6条答案
按热度按时间7dl7o3gd1#
嘿,@vaibhavkansallumiq ,我也遇到了同样的问题,有任何发现或更新吗?这将对我有很大帮助,谢谢。
cngwdvgl2#
有一个叫做"output_score"的东西,但我不知道如何使用它。获取安卓上的Outlook< https://aka.ms/AAb9ysg >...
发件人:Akash L P @***.
发送时间:2022年9月1日星期四下午3:11:13
收件人:microsoft/unilm @***.
抄送:Vaibhav Kansal @***.
提及:***@***.***
主题:回复:[microsoft/unilm] 无法知道生成文本的置信度分数(问题#844)
你不太经常会收到来自***@***.***的电子邮件。了解为什么这很重要< https://aka.ms/LearnAboutSenderIdentification >。
嘿,@vaibhavkansallumiq< https://github.com/vaibhavkansallumiq >,我也遇到了同样的问题,有任何发现或更新吗?这将对我有很大帮助,谢谢——直接回复此电子邮件,查看GitHub上的#844(评论),或取消订阅< https://github.com/notifications/unsubscribe-auth/AYAUUVVQWRFU6AXDKI7OOW3V4B23TANCNFSM575IBJ6A >。您收到此邮件是因为您被提及了。消息ID:***@***.***>
5f0d552i3#
嘿,谢谢你的回复。它是从哪个功能中来的?
i34xakig4#
你找到有用的东西了吗?
p5cysglq5#
is located in the function transformers/generation_utils.py, but the confidence score returned is not clear what it means.
def infer(self, image): pixel_values = self.processor(image, return_tensors="pt").pixel_values pred_ids = self.model.generate( pixel_values, use_cache=True, output_scores=True, return_dict_in_generate=True ) print(pred_ids['scores']) pred_ids = pred_ids['sequences'] preds = self.processor.batch_decode( pred_ids, skip_special_tokens=True )
5kgi1eie6#
我已经为这个问题的重复回答发布了一个(部分)答案,该答案针对HuggingFace TrOCR模型:#955 (评论)