如何构建测试环境(linux，spark，jupyterhub)

nukf8bse 于 2021-05-29 发布在 Hadoop

关注(0)|答案(0)|浏览(353)

我正在写我的论文，我有机会建立一个工作环境来测试它的功能和工作原理。
应包括以下几点：
jupyterhub（私有云内）
Pandas，numpy，sql，nbconvert，nbviewer
将数据放入Dataframe（csv），分析数据，存储数据（rdd？、hdf5？、hdfs？）
未来分析的Spark
测试场景将包括：
多用户环境，带有用户/主题笔记本
使用pandas、numpy和spark（sparksql）、matplotlib…以3路匹配方式分析具有数百万行的结构化表（rseg、mseg、ekpo）。。。。在这3个表中大约有3gb的数据。
使用nbconvert、nbviewer将笔记本导出为pdf、只读notbook和/或reveal.js
你们能不能给我一些提示或经验，我应该用多少笔记来进行测试，哪个linux发行版是个好的开始？我相信还有很多问题，我有问题想办法或信息如何评估可能的答案。
提前谢谢！

hadoop linux apache-spark pyspark jupyterhub

来源：https://stackoverflow.com/questions/41264792/how-to-build-test-enviroment-linux-spark-jupyterhub

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

如何构建测试环境(linux，spark，jupyterhub)

暂无答案！

相关问题

热门标签

最新问答