我在这个问题上做了不少研究,但对找到的答案还不满意。有人说,它不仅取决于大小,还有许多其他因素会影响,而其他人说,它需要在几个tb的大小范围内才能看到hadoop的真正本质。那么,在类似的java程序上测试hadoop功能的最小输入数据大小是多少?
nwwlzxa71#
事实上,这取决于不同的事情。我想这至少取决于以下几点:文件大小数据类型和格式群集大小和性能群集之间的网络连接计算和分析类型一般来说,与“常规”java程序相比,您拥有的数据越多、越复杂,hadoop的性能就越好。我不能给你任何限制。“hadoop买家指南”中的定义(robert d。(施耐德)关于“大数据”一词的小书也应该给你一些指导:大数据往往描述以下一个或多个特征包含大量信息由多种数据类型和格式组成由不同来源生成长期保留被新的和创新的应用程序利用
1条答案
按热度按时间nwwlzxa71#
事实上,这取决于不同的事情。我想这至少取决于以下几点:
文件大小
数据类型和格式
群集大小和性能
群集之间的网络连接
计算和分析类型
一般来说,与“常规”java程序相比,您拥有的数据越多、越复杂,hadoop的性能就越好。我不能给你任何限制。
“hadoop买家指南”中的定义(robert d。(施耐德)关于“大数据”一词的小书也应该给你一些指导:
大数据往往描述以下一个或多个特征
包含大量信息
由多种数据类型和格式组成
由不同来源生成
长期保留
被新的和创新的应用程序利用