spark中作为文件分隔符的特殊字符

cygmwpex 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(546)

我有带特殊分隔符的文本文件：

35¡1682¡231¡20.00000000¡50.00000000¡0.00000000¡0.00000000¡304.1100¡333.110000
¡I¡1¡0¡10¡SHORT NAME
1105682¡0¡100000.00000000¡100000.00000000¡1105682¡D¡D

我想根据当前的特殊分隔符在spark中拆分此文件 ¡ . 请建议解决方法。这个命令的输出是

val input_header = sc.textFile(path).first()

当我在rdd中读取此文件并显示其内容时。它的分隔符显示为 ?

hadoop apache-spark pyspark apache-spark-sql spark-dataframe

来源：https://stackoverflow.com/questions/45862748/special-character-as-file-delimiter-in-spark

1条答案

按热度按时间

mv1qrgav1#

您可以读取一个文件作为集合位和位到字符串提供编码。如果您使用scalaapi，它会是这样的

val inputHeader = sc.binaryFiles(path).mapValues(line => new String(line.toArray(), StandardCharsets.{your charset})

然后，您可以确保spark已正确读取您的文件

inputHeader.first

赞(0）回复(0）举报 2021-05-29

我来回答

spark中作为文件分隔符的特殊字符

1条答案

相关问题

热门标签

最新问答