我在psypark代码下运行(pyspark版本是1.6.0)
from pyspark.sql import HiveContext
from pyspark import SparkContext, SparkConf
if __name__ == '__main__':
conf = SparkConf().setAppName('Testing')
sc = SparkContext(conf=conf)
hivec = HiveContext(sc)
df = hivec.sql("select * from product_replica where product_price>100")
df.write.option("compression","snappy").mode("overwrite").save("/user/cloudera/practice1/problem8/product/output",format="parquet")
sc.stop()
我得到的输出如下,即使Parquet文件是在hdfs目录中创建的,但我不能用parque工具读取它们。我得到错误。Parquet文件不存在
[cloudera@quickstart SparkTransformationsActice]$spark提交配置单元上下文.py
slf4j:类路径包含多个slf4j绑定。
slf4j:在中找到绑定[jar:file:/usr/lib/hive/lib/hive-exec-1.1.0-cdh5.13.0.jar/shaded/parquet/org/slf4j/impl/staticloggerbinder.class]slf4j:在中找到绑定[jar:file:/usr/lib/hive/lib/hive-jdbc-1.1.0-cdh5.13.0-standalone.jar/shaded/parquet/org/slf4j/impl/staticloggerbinder.class]slf4j:在中找到绑定[jar:file:/usr/lib/parquet/lib/parquet-format-2.1.0-cdh5.13.0.jar/shaded/parquet/org/slf4j/impl/staticloggerbinder.class]slf4j:在中找到绑定[jar:file:/usr/lib/parquet/lib/parquet-hadoop-bundle-1.5.0-cdh5.13.0.jar/shaded/parquet/org/slf4j/impl/staticloggerbinder.class]slf4j:在中找到绑定[jar:file:/usr/lib/parquet/lib/parquet-pig-bundle-1.5.0-cdh5.13.0.jar/shaded/parquet/org/slf4j/impl/staticloggerbinder.class]slf4j:参见http://www.slf4j.org/codes.html#multiple_bindings 为了解释。slf4j:实际绑定的类型为[shaded.parquet.org.slf4j.helpers.noploggerfactory]19/12/11 11:21:14 warn thread.queuedthreadpool:无法停止2个线程
你能解释一下这个输出是什么意思吗,我想我可能做错了什么
暂无答案!
目前还没有任何答案,快来回答吧!