spark等价于keras标记器？

gj3fmq9x 于 2021-05-29 发布在 Spark

关注(0)|答案(1)|浏览(359)

到目前为止，我使用numpy和内置函数（如keras tokenizer class、tf.keras.preprocessing.text.tokenizer:https://keras.io/api/preprocessing/text/).
还有一个问题让我陷入了困境：因为我正在尝试扩展我的模型和数据集，所以我正在试验spark和spark nlp(https://nlp.johnsnowlabs.com/docs/en/annotators#tokenizer)... 然而，我不能´还没有找到一个类似的工作标记器。安装的标记器必须稍后可用于转换验证/新数据。
我的输出应该将每个标记表示为一个唯一的整数值（从1开始），类似于：

[ 10,... ,  64,  555]
[ 1,... , 264,   39]
[ 12,..., 1158, 1770]

目前，我能够使用spark nlp标记器获得标记化单词：

[okay,..., reason, still, not, get, background] 
[picture,..., expand, fill, whole, excited]                     
[not, worry,..., happy, well, depend, on, situation]

有没有人有解决办法´不需要从spark环境中复制数据吗？
更新：
我创建了两个CSV来澄清我当前的问题。第一个文件是通过预处理管道创建的：1。已清除的\u delim \u文本
在那之后，分隔的字应该被“翻译”成整数值，并且序列应该用零填充到相同的长度：2。已清除\u tok \u文本

python apache-spark pyspark johnsnowlabs-spark-nlp tokenize

来源：https://stackoverflow.com/questions/62456247/spark-equivalent-to-keras-tokenizer