我在r上做一个时间序列预测项目。但是,我需要从hadoop环境中的表中获取数据。我正在用Sparkyr来够这些table。但在完成数据传输后,我发现了一个奇怪的问题。
我的“日期”列移动了一天,我在代表2017年3月26日的行中看到了2017年3月27日的数据。
sc <- spark_connect(master = "yarn-client",
spark_home = "/usr/hdp/current/spark2-client/",
config = conf)
invoke(hive_context(sc), "sql", "USE mydb")
data <- tbl(sc, 'mydata_raw')
data.df <- data.frame(data)
filter(data.df, date == "2018-05-05")
date unit
<date> <int>
1 2018-05-04 1111
在我的Hive表中没有这样的问题。
暂无答案!
目前还没有任何答案,快来回答吧!