spark等价于keras标记器?

gj3fmq9x  于 2021-05-29  发布在  Spark
关注(0)|答案(1)|浏览(343)

到目前为止,我使用numpy和内置函数(如keras tokenizer class、tf.keras.preprocessing.text.tokenizer:https://keras.io/api/preprocessing/text/).
还有一个问题让我陷入了困境:因为我正在尝试扩展我的模型和数据集,所以我正在试验spark和spark nlp(https://nlp.johnsnowlabs.com/docs/en/annotators#tokenizer)... 然而,我不能´还没有找到一个类似的工作标记器。安装的标记器必须稍后可用于转换验证/新数据。
我的输出应该将每个标记表示为一个唯一的整数值(从1开始),类似于:

[ 10,... ,  64,  555]
[ 1,... , 264,   39]
[ 12,..., 1158, 1770]

目前,我能够使用spark nlp标记器获得标记化单词:

[okay,..., reason, still, not, get, background] 
[picture,..., expand, fill, whole, excited]                     
[not, worry,..., happy, well, depend, on, situation]

有没有人有解决办法´不需要从spark环境中复制数据吗?
更新:
我创建了两个CSV来澄清我当前的问题。第一个文件是通过预处理管道创建的:1。已清除的\u delim \u文本
在那之后,分隔的字应该被“翻译”成整数值,并且序列应该用零填充到相同的长度:2。已清除\u tok \u文本

vzgqcmou

vzgqcmou1#

请尝试下面的组合-
1使用标记器将语句转换为单词,然后
2.使用word2vec计算这些单词的分布向量表示

相关问题