来自TF文件:“one_hot”:将输入中的每个元素编码到一个数组中,与词汇表的大小相同。
alphabet = set("abcdefghijklmnopqrstuvwxyz")
one_hot_encoder = tf.keras.layers.StringLookup(vocabulary=list(alphabet), output_mode='one_hot')
print(len(alphabet)) #26
print(one_hot_encoder("a").shape) #(27,)
据我所知,它应该编码成26形Tensor,为什么编码成27形Tensor?是否应该有一个额外的标签来表示“无类”?
1条答案
按热度按时间1sbrub3j1#
位置0是为
OOV
标记(超出词汇表)保留的,如果不想这样,可以将num_oov_indices
设置为0: