unilm 在解码时，是否有简单的方法输出每个源句子的前k个句子？

baubqpgj 于 5个月前发布在其他

关注(0)|答案(6)|浏览(69)

你好，
感谢提供的代码和帮助！我想知道在解码时是否有办法输出每个输入句子的多个(例如k)输出句子？
非常感谢！

unilm

来源：https://github.com/microsoft/unilm/issues/89

6条答案

按热度按时间

0ejtzxu11#

感谢您报告此问题。@addf400正在调查此事。

赞(0）回复(0）举报 5个月前

7vhp5slm2#

你好@donglixp,
我使用了这些超参数，但输出了一个空文件(我已经生成了分数跟踪文件):

python s2s-ft/gen_seq_from_trace.py \
--bert_model bert-base-cased --length_penalty 0 \
--tokenizer_name unilm1.2-base-uncased \
--is_roberta \
--do_lower_case \
--input ${OUTPUT_FILE}

经过一点调试，我发现这个for循环都被 if 判断跳过了。然而，我不太确定这是怎么发生的。

if fid <= last_frame_id and scores[fid][i] >= 0:
    # skip paddings
    print("skip paddings")
    continue

你好@yuchenlin,
我已经为此创建了一个PR( #94 )
你需要将运行命令更改为：

python gen_seq_from_trace.py \
--model_type unilm --length_penalty 0 \
--tokenizer_name unilm1.2-base-uncased \
--input ${OUTPUT_FILE}

赞(0）回复(0）举报 5个月前

qkf9rpyu3#

感谢！@addf400 和 @donglixp,现在它可以工作了！我也尝试通过以下修改来保存前k个句子。然而，似乎存在一些小错误。

def get_best_sequence(.....):
    max_score = -math.inf
    frame_id = -1
    pos_in_frame = -1
    searched_results = []
    frame_set = set()

    for fid in range(last_frame_id + 1):
        for i, wid in enumerate(wids_list[fid]):
             ..... 
                if s > max_score:
                    # if (frame_id != -1) and min_len and (fid+1 < min_len):
                    #     continue
                    max_score = s
                    frame_id = fid
                    pos_in_frame = i
                # To ignore duplicate generations.
                if (frame_id, pos_in_frame) not in frame_set:
                    frame_set.add((frame_id, pos_in_frame))
                    searched_results.append((s, frame_id, pos_in_frame))

    searched_results.sort(key=lambda x:x[0], reverse=True)
    searched_results = searched_results[:top_k]

    seqs = []

    for s, frame_id, pos_in_frame in searched_results:
        if frame_id == -1:
            seq = []
        else:
            seq = [wids_list[frame_id][pos_in_frame]]
            for fid in range(frame_id, 0, -1):
                pos_in_frame = ptrs[fid][pos_in_frame]
                seq.append(wids_list[fid - 1][pos_in_frame])
            seq.reverse()
        seqs.append(seq)
    return seqs

以及

for s in samples:
        word_ids_list = get_best_sequence(s, eos_id, pad_id, alpha=args.alpha,
                                     length_penalty=args.length_penalty, expect=args.expect,
                                     min_len=args.min_len, top_k=args.top_k)

        for word_ids in word_ids_list:
            ......
            results.append(output_text)
        results.append("----")

最后，我发现大多数示例只有一个来自trace.pickle的唯一生成。只有少数几个可以有多个不同的生成。这是预期的吗，还是我犯了一些错误？
非常感谢你们的帮助！

赞(0）回复(0）举报 5个月前

wn9m85ua4#

参数 --need_score_traces 可以添加到 python decode_seq2seq.py 中，用于保存 beam search 的中间结果。接着，s2s-ft/gen_seq_from_trace.py 可以重新加载已保存的 beam search 结果。在 https://github.com/microsoft/unilm/blob/master/s2s-ft/gen_seq_from_trace.py#L63 中，我们使用了 if s > max_score: 来保存最佳的 beam search 结果。相反，我们可以维护一个排序列表来保存前 K 个结果(L67:frame_id 和 pos_in_frame)。然后 L69-L76 可以将它们恢复为 tokens。

赞(0）回复(0）举报 5个月前

u91tlkcl5#

非常感谢您的建议！我会尝试一下的！

赞(0）回复(0）举报 5个月前

qyzbxkaa6#

你好，@donglixp,
我使用了这些超参数，但输出了一个空文件(我已经生成了分数跟踪文件):

python s2s-ft/gen_seq_from_trace.py \
--bert_model bert-base-cased --length_penalty 0 \
--tokenizer_name unilm1.2-base-uncased \
--is_roberta \
--do_lower_case \
--input ${OUTPUT_FILE}

经过一点调试，我发现这个 for 循环都被 if 判断跳过了。然而，我不太确定这是怎么发生的。

if fid <= last_frame_id and scores[fid][i] >= 0:
    # skip paddings
    print("skip paddings")
    continue

赞(0）回复(0）举报 5个月前

我来回答

unilm 在解码时，是否有简单的方法输出每个源句子的前k个句子？

6条答案

相关问题

热门标签

最新问答