无法将2.3tb文件加载到具有10tb内存的sparkling water集群中

mtb9vblg 于 2021-06-01 发布在 Hadoop

关注(0)|答案(0)|浏览(227)

起泡水版本2.2.9存在以下问题。我的hadoop集群运行的是cdh5.13。根据h2o文档，我应该拥有大约4倍于h2o/sparkling water集群中数据大小的内存。
我可以将一个750gb大小的数据文件（csv）导入一个有4tb内存的sparklingwater集群（40个执行器，每个100gb）。但是，在加载更大的数据文件时遇到问题。这个（csv）文件大约有2.2tb大小（也有Parquet/snappy格式，550gb大小）。我已经创建了一个有100个100gb/executor执行器的sparklingwater集群。“解析”步骤运行大约60-70%，然后容器开始失败，错误代码为143和255。我已经把内存提高到12 tb，但仍然没有成功。
python代码是：

import h2o
h2o.init(ip='hdchdp01v03', port=9500, strict_version_check=False)
ls_hdfs="hdfs://HDCHDP01ns/h2o_test/csv_20171004"
print("Reading files from ", ls_hdfs)
sum_df = h2o.import_file(path = ls_hdfs, destination_frame="sum_df")

有人遇到过类似的问题吗？我的hadoop集群只有20tb内存，所以占用12tb内存本身在大多数情况下都是一段时间。
在我的第一个文件中，我看到数据导入集群后，似乎需要大约两倍于内存中的文件大小，但不确定如何恢复我分配的4x内存，直到sparkling water集群关闭。
那么，有没有其他的解决方法可以将这些数据加载到h2o中进行分析，并对可用的集群内存进行一些尽职调查？
香卡

hadoop apache-spark pyspark sparkling-water H2O

来源：https://stackoverflow.com/questions/49538287/cant-load-a-2-3-tb-file-into-sparkling-water-cluster-with-10-tb-memory

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

无法将2.3tb文件加载到具有10tb内存的sparkling water集群中

暂无答案！

相关问题

热门标签

最新问答