spark中作为文件分隔符的特殊字符

cygmwpex  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(546)

我有带特殊分隔符的文本文件:

35¡1682¡231¡20.00000000¡50.00000000¡0.00000000¡0.00000000¡304.1100¡333.110000
¡I¡1¡0¡10¡SHORT NAME
1105682¡0¡100000.00000000¡100000.00000000¡1105682¡D¡D

我想根据当前的特殊分隔符在spark中拆分此文件 ¡ . 请建议解决方法。这个命令的输出是

val input_header = sc.textFile(path).first()


当我在rdd中读取此文件并显示其内容时。它的分隔符显示为 ?

mv1qrgav

mv1qrgav1#

您可以读取一个文件作为集合位和位到字符串提供编码。如果您使用scalaapi,它会是这样的

val inputHeader = sc.binaryFiles(path).mapValues(line => new String(line.toArray(), StandardCharsets.{your charset})

然后,您可以确保spark已正确读取您的文件

inputHeader.first

相关问题