bounty还有4天到期。回答此问题可获得+100声望奖励。taga正在寻找来自信誉良好来源的答案:如何将POS_TAG作为特征添加到NER模型中?
word2index = list(set(df[“words”].tolist())word2index.append('ENDPAD ')num_words = len(list(set(word2index)))word2index = {word:index + 1 for index,word in enumerate(word2index)} postag2index = list(set(df[“pos_tag”].tolist()))num_postag = len(list(set(postag2index)))postag2index = {word:index for index,word in enumerate(postag2index)}
tag2index = list(set(df[“tag”].tolist()))num_tags = len(list(set(tag2index)))tag2index = {word:index for index,word in enumerate(tag2index)}
我有这3个字典,我知道如何使模型工作良好,如果我只有一个功能/序列(字),但如何添加更多的功能,例如POS_TAG?
我想使用Keras创建命名实体识别模型。这些是我遵循的链接:
https://valueml.com/named-entity-recognition-using-lstm-in-keras/https://djajafer.medium.com/named-entity-recognition-and-classification-with-keras-4db04e22503d
数据看起来像这样:
word label
0 Thousands O
1 of O
2 demonstrators O
3 have O
4 marched O
... ... ...
44187 there O
44188 accidentally O
44189 or O
44190 deliberately O
44191 . O
他们使用单词到向量,所以他们索引单词和标签,所以X
是我的特征(单词的索引序列),y
是我的结果(标签的索引序列):
max_len = 30
X = [[word2idx[w[0]] for w in s] for s in list_of_sentances]
X = pad_sequences(maxlen=max_len, sequences=X, padding="post", value=num_words-1)
y = [[label2idx[w[1]] for w in s] for s in list_of_sentances]
y = pad_sequences(maxlen=max_len, sequences=y, padding="post", value=label2idx["O"])
y = [to_categorical(i, num_classes=num_labels) for i in y]
但是如果我有这样的数据集:
这里我有另一个列,那就是POS
。我如何将POS
列的值添加到我的特征中?所以基本上,我不希望在我的X中只有word
值,我还希望在我的X中有POS
值。*(或任何其他值)如果我有多个列,例如:
word
POS
is_capital_letter
word_length
...
如何将所有这些列添加到功能中?
这是我的模型:X = np.array(X)y = np.array(y)
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=1)
print("x_train shape", x_train.shape)
print("x_test shape", x_test.shape)
#x_train shape (750, 75)
#x_test shape (250, 75)
input_word = Input(shape=(max_len,))
model = Embedding(input_dim = vocab_len+1, output_dim = 75, input_length = max_len)(input_word)
model = SpatialDropout1D(0.25)(model)
model = Bidirectional(LSTM(units = 25, return_sequences=True, recurrent_dropout = 0.2))(model)
out = TimeDistributed(Dense(num_labels, activation = "softmax"))(model)
model = Model(input_word, out)
1条答案
按热度按时间um6iljoc1#
Keras中的LSTM层期望在[samples,timesteps,features]维度上输入。
在创建X的行中,您对句子和单词进行交互,并转换“单个”特征(word),假设w包含数据集中的一行([word,label])。
假设你有多个特征作为数据集中的前n列(目标是最后一列,例如 [word,POS,is_capital_letter,word_length,...,label]),并且你已经以与数据集中相同的顺序在transforms中收集/定义了必要的“transform”字典,那么你可以如下生成输入和目标:
当然,如果你有数字或其他类型的特征,那么你应该使用其他方法进行转换,而不是 * word 2 idx , pos 2 idx *,... dicts,例如MinMaxScaling for word length等。
Padding也适用于新的X和Y,但它使用相同的值扩展每个特征,长度为max_len。根据每个特征的替换值,很可能在这里使用精心制作的填充。