如何让keras为输入矩阵的每一行运行一个Dense层？

uajslkp6 于 2023-08-06 发布在其他

关注(0)|答案(1)|浏览(102)

我试图建立一个基本的Transformer使用keras注意层。为此，我需要有3个不同的密集层，每个层分别生成键，查询和值矩阵，通过运行每个单词嵌入它们。但似乎没有这样的功能与keras。这是我目前掌握情况

#16 word embeddigs with dimension 64
input = layers.Input(shape=(16,64))

key=layers.Dense(64,activation="relu")(input)
query=layers.Dense(64,activation="relu")(input)
value=layers.Dense(64,activation="relu")(input)
x=layers.Attention()()[key,query,value]

result=layers.Dense(8,activation="sigmoid")(x)

字符串
这个代码的问题是，如果你把一个矩阵输入到一个密集层，它不会逐行处理它，而是计算行之间的点积，然后把它输入到网络中：
注意：如果层的输入具有大于2的秩，则Dense沿着输入的最后一个轴和内核的轴0（使用tf.tensordot）计算输入和内核之间的点积。例如，如果input具有维度（batch_size，d0，d1），则我们创建具有shape（d1，units）的内核，并且内核沿着输入的轴2对shape（1，1，d1）的每个子Tensor进行操作（存在batch_size * d0这样的子Tensor）。在这种情况下，输出将具有shape（batch_size，d0，units）。
那么我如何输入一个矩阵，然后逐行处理它呢？

keras

来源：https://stackoverflow.com/questions/76643758/how-do-i-make-keras-run-a-dense-layer-for-each-row-of-an-input-matrix