spark.sql时间函数的时区问题

zd287kbt 于 2021-07-14 发布在 Spark

关注(0)|答案(1)|浏览(942)

我正在用spark2.4.7和独立运行的pyspark在jupyter笔记本上编写一些代码。
我需要将一些时间戳转换为unix时间来执行一些操作，但是我注意到一个奇怪的行为，下面是我正在运行的代码：

import pyspark
from pyspark.sql import SparkSession
import pyspark.sql.functions as F
from datetime import datetime, timedelta, date

spark = SparkSession.builder \
        .appName("test") \
        .master(n_spark_master)\
        .config("spark.total.executor.cores",n_spark_cores_max)\
        .config("spark.cores.max", n_spark_cores_max)\
        .config("spark.executor.memory",n_spark_executor_memory)\
        .config("spark.executor.cores",n_spark_executor_cores)\
        .enableHiveSupport() \
        .getOrCreate()

print(datetime.now().astimezone().tzinfo)

df = spark.createDataFrame([
    (1, "a"),
    (2, "b"),
    (3, "c"), ], ["dummy1", "dummy2"])

epoch = datetime.utcfromtimestamp(0) df=df.withColumn('epoch',lit(epoch))  
timeFmt = '%Y-%m-%dT%H:%M:%S'  
df= df.withColumn('unix_time_epoch',F.unix_timestamp('epoch', format=timeFmt)) df.show()

输出：

CET
+------+------+-------------------+---------------+
|dummy1|dummy2|              epoch|unix_time_epoch|
+------+------+-------------------+---------------+
|     1|     a|1970-01-01 00:00:00|          -3600|
|     2|     b|1970-01-01 00:00:00|          -3600|
|     3|     c|1970-01-01 00:00:00|          -3600|
+------+------+-------------------+---------------+

根据spark 2.4.7的文档：
pyspark.sql.functions.unix\u timestamp（timestamp=none，format='yyyy-mm-dd hh:mm:ss'）[源]
使用默认时区和默认区域设置，将具有给定模式的时间字符串（默认情况下为“yyyy-mm-dd hh:mm:ss”）转换为unix时间戳（以秒为单位），如果失败，则返回null。
上一个命令 print(datetime.now().astimezone().tzinfo) 哪些输出 CET 应该给我我的本地时区，这确实是正确的一台机器上，因为我在utc+1。
在spark的ui上我也可以清楚地看到 user.timezone=Europe/Rome .
不过，看起来spark正在尝试从utc+1转换到utc，因此我得到了输出 unix_time_epoch = -3600 相反，我希望是这样 unix_time_epoch = 0 .
我试着按照其他线程的建议更改为utc：

import pyspark
from pyspark.sql import SparkSession
import pyspark.sql.functions as F
from datetime import datetime, timedelta, date
import time

os.environ['TZ'] = 'Europe/London'
time.tzset()

spark = SparkSession.builder \
        .appName("test") \
        .master(n_spark_master)\
        .config("spark.total.executor.cores",n_spark_cores_max)\
        .config("spark.cores.max", n_spark_cores_max)\
        .config("spark.executor.memory",n_spark_executor_memory)\
        .config("spark.executor.cores",n_spark_executor_cores)\
        .config('spark.driver.extraJavaOptions', '-Duser.timezone=UTC') \
        .config('spark.executor.extraJavaOptions', '-Duser.timezone=UTC') \
        .config('spark.sql.session.timeZone', 'UTC') \
        .enableHiveSupport() \
        .getOrCreate()

print(datetime.now().astimezone().tzinfo)

df = spark.createDataFrame([
    (1, "a"),
    (2, "b"),
    (3, "c"),
], ["dummy1", "dummy2"])

epoch = datetime.utcfromtimestamp(0)
df=df.withColumn('epoch',lit(epoch))
timeFmt = '%Y-%m-%dT%H:%M:%S'
df = df.withColumn('unix_time_epoch',F.unix_timestamp('epoch', format=timeFmt))
df.show()

但结果是：

GMT
+------+------+-------------------+---------------+
|dummy1|dummy2|              epoch|unix_time_epoch|
+------+------+-------------------+---------------+
|     1|     a|1969-12-31 23:00:00|          -3600|
|     2|     b|1969-12-31 23:00:00|          -3600|
|     3|     c|1969-12-31 23:00:00|          -3600|
+------+------+-------------------+---------------+

我想实现的是评估utc中的所有内容，而不考虑时区偏移，因为在我所在的罗马，utc+1和utc+2之间的一年中，本地时区发生变化，预期输出应如下所示：

+------+------+-------------------+---------------+
|dummy1|dummy2|              epoch|unix_time_epoch|
+------+------+-------------------+---------------+
|     1|     a|1970-01-01 00:00:00|              0|
|     2|     b|1970-01-01 00:00:00|              0|
|     3|     c|1970-01-01 00:00:00|              0|
+------+------+-------------------+---------------+

apache-spark pyspark apache-spark-sql DateTime timezone

来源：https://stackoverflow.com/questions/66669055/timezone-problem-with-spark-sql-time-functions

1条答案

按热度按时间

ztmd8pv51#

你应该使用 os.environ['TZ'] = 'UTC' 而不是 Europe/London .
1970年，联合 Realm 进行了一项“英国标准时间试验”，在1968年10月27日至1971年10月31日期间，英国的时区全年为gmt+1(来源：维基）。这就是为什么你的时间早了一个小时。

赞(0）回复(0）举报 2021-07-14

我来回答

spark.sql时间函数的时区问题

1条答案

相关问题

热门标签

最新问答