有人能告诉我Spark工作是如何创造的吗。我有一个框架,它将数据摄取到配置单元表中。然而,当我检查SparkUI时,它显示已经创建了50000个作业,每个阶段处理的数据不超过几个字节。
这会产生性能问题吗?如何找出为什么要创造这么多就业机会?有没有可能限制就业?
代码显示代码对我来说非常困难。它有2000多行spark框架。而获得mvp也很困难。然而,这是一个过程。
我正在为10k表执行以下过程。
读取文件(不使用spark)
解析文件(不使用spark)
从读取的数据创建Dataframe。
找出删除项并将其写入s3
找出insert并将其写入s3。
暂无答案!
目前还没有任何答案,快来回答吧!