试图理解pysparkDataframe到parquet格式转换的输出

fcipmucu  于 2021-05-27  发布在  Hadoop
关注(0)|答案(0)|浏览(319)

我在psypark代码下运行(pyspark版本是1.6.0)

from pyspark.sql import HiveContext
from pyspark import SparkContext, SparkConf

if __name__ == '__main__':
        conf = SparkConf().setAppName('Testing')
        sc = SparkContext(conf=conf)
        hivec = HiveContext(sc)
        df = hivec.sql("select * from product_replica where product_price>100")
        df.write.option("compression","snappy").mode("overwrite").save("/user/cloudera/practice1/problem8/product/output",format="parquet")
        sc.stop()

我得到的输出如下,即使Parquet文件是在hdfs目录中创建的,但我不能用parque工具读取它们。我得到错误。Parquet文件不存在
[cloudera@quickstart SparkTransformationsActice]$spark提交配置单元上下文.py
slf4j:类路径包含多个slf4j绑定。
slf4j:在中找到绑定[jar:file:/usr/lib/hive/lib/hive-exec-1.1.0-cdh5.13.0.jar/shaded/parquet/org/slf4j/impl/staticloggerbinder.class]slf4j:在中找到绑定[jar:file:/usr/lib/hive/lib/hive-jdbc-1.1.0-cdh5.13.0-standalone.jar/shaded/parquet/org/slf4j/impl/staticloggerbinder.class]slf4j:在中找到绑定[jar:file:/usr/lib/parquet/lib/parquet-format-2.1.0-cdh5.13.0.jar/shaded/parquet/org/slf4j/impl/staticloggerbinder.class]slf4j:在中找到绑定[jar:file:/usr/lib/parquet/lib/parquet-hadoop-bundle-1.5.0-cdh5.13.0.jar/shaded/parquet/org/slf4j/impl/staticloggerbinder.class]slf4j:在中找到绑定[jar:file:/usr/lib/parquet/lib/parquet-pig-bundle-1.5.0-cdh5.13.0.jar/shaded/parquet/org/slf4j/impl/staticloggerbinder.class]slf4j:参见http://www.slf4j.org/codes.html#multiple_bindings 为了解释。slf4j:实际绑定的类型为[shaded.parquet.org.slf4j.helpers.noploggerfactory]19/12/11 11:21:14 warn thread.queuedthreadpool:无法停止2个线程
你能解释一下这个输出是什么意思吗,我想我可能做错了什么

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题