from pyspark.ml.linalg import Vectors
from pyspark.ml.stat import Correlation
from pyspark.sql import SparkSession
if __name__ == "__main__":
spark = SparkSession \
.builder \
.appName("CorrelationExample") \
.getOrCreate()
# $example on$
data = [(Vectors.sparse(4, [(0, 1.0), (3, -2.0)]),),
(Vectors.dense([4.0, 5.0, 0.0, 3.0]),),
(Vectors.dense([6.0, 7.0, 0.0, 8.0]),),
(Vectors.sparse(4, [(0, 9.0), (3, 1.0)]),)]
df = spark.createDataFrame(data, ["features"])
r1 = Correlation.corr(df, "features").head()
print("Pearson correlation matrix:\n" + str(r1[0]))
r2 = Correlation.corr(df, "features", "spearman").head()
print("Spearman correlation matrix:\n" + str(r2[0]))
# $example off$
spark.stop()
我在这个链接上运行来自spark repo的上述示例代码。
是什么
spark = SparkSession \
.builder \
.appName("CorrelationExample") \
.getOrCreate()
你是说这里?appname的目的是什么?我不明白为什么我们要给spark会话一个appname。
1条答案
按热度按时间gab6jxml1#
appName
是应用程序名,可以在spark ui上看到(它被覆盖了--name <name>
当您在集群模式下提交时,主要是为了将您的应用程序与其他应用程序分离getOrCreate
将获取现有的sparksession,或者,如果没有现有的sparksession,则根据生成器中设置的选项创建一个新的sparksession。https://spark.apache.org/docs/2.3.0/api/java/org/apache/spark/sql/sparksession.builder.html