csv文件头用逗号分隔,其余行用另一个分隔符“|”分隔。如何处理这种不同的分隔符情况?请告知。
import org.apache.spark.sql.{DataFrame, SparkSession}
var df1: DataFrame = null
df1=spark.read.option("header", "true").option("delimiter", ",").option("inferSchema", "false")
.option("ignoreLeadingWhiteSpace", "true") .option("ignoreTrailingWhiteSpace", "true")
.csv("/testing.csv")
df1.show(10)
此命令显示的标题是分开分隔的。但所有数据都显示在第一列中,其余列显示为空值
1条答案
按热度按时间x33g5p2x1#
首先读取csv并拆分列,创建新的dataframe。