大数据有多大?

093gszye  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(325)

就目前的情况来看,这个问题并不适合我们的问答形式。我们希望答案能得到事实、参考资料或专业知识的支持,但这个问题可能会引发辩论、争论、投票或广泛讨论。如果您觉得这个问题可以改进,并可能重新打开,请访问帮助中心寻求指导。
8年前关门了。
有多少数据可以归类为大数据?
有多大的数据量可以决定现在是采用hadoop之类的技术并使用分布式计算能力的时候?
我相信这些技术有一定的优势,那么如何确保使用bigdata方法能够利用当前的系统呢?

xmakbtuz

xmakbtuz1#

“大数据”是一个有点模糊的术语,更多地用于营销目的,而不是技术决策。一个人所说的“大数据”另一个人可能认为只是一个系统上的日常操作。
我的经验法则是,大数据是从一组工作数据开始的,这些数据无法放入单个系统的主内存中。工作集是您在给定时间内积极处理的数据。因此,例如,如果您有一个存储10 tb数据的文件系统,但您正在使用该文件系统存储视频以进行编辑,那么您的编辑器在任何给定时间都可能只需要几百GB的数据;而且他们通常是从光盘上传输数据,这不需要随机访问。但是,如果您试图对定期更改的完整10 tb数据集执行数据库查询,则不希望从磁盘上提供这些数据;这开始成为“大数据”
作为一个基本的经验法则,我现在可以为2 tb的ram配置现成的dell服务器。但是你要花大量的钱把这么多的内存塞进一个系统。在一台服务器上使用512 gb的ram要便宜得多,因此使用4台具有512 gb ram的机器通常比使用2 tb的机器更经济划算。因此,您可能会说,超过512GB的工作集数据(对于任何给定的计算,您每天都需要访问的数据)将符合“大数据”的条件。
考虑到为“大数据”系统而不是传统数据库开发软件的额外成本,对于某些人来说,迁移到2 tb系统可能更划算,而不是将系统重新设计为分布在多个系统中,因此根据您的需要,在512 gb到2 tb的数据之间的任何地方,您都可能需要转移到“大数据”系统。
我不会用“大数据”这个词来做任何技术决策。相反,现在就制定出你的实际需求,并确定需要什么样的技术来满足这些需求。考虑一下增长,但也要记住系统的容量仍在增长;所以不要过度计划。许多“大数据”系统可能难以使用且缺乏灵活性,因此,如果您实际上不需要它们来将数据和计算分散到数十个或数百个系统中,那么它们可能会带来更多麻烦,而不是它们的价值。

56lgkhnf

56lgkhnf2#

要引用bigdata的wiki页面:
当使用传统的数据库管理工具来存储、搜索、分析、共享给定数量的数据变得困难时,这个庞大而复杂的数据集被称为bigdata。
基本上,都是相对的。什么是bigdata取决于管理数据集的组织的能力。对于一些组织来说,第一次面对数百GB的数据可能需要重新考虑数据管理选项。对于其他人来说,在数据大小成为一个重要的考虑因素之前,可能需要数十或数百TB。
数据量只是定义bigdata的关键元素之一。 Variety 在数据和 velocity 在将数据集定义为bigdata时,数据增加是另外两个主要因素。 Variety 在数据中,指的是具有许多不同的数据和文件类型,这些数据和文件类型可能需要以传统关系数据库以外的方式进行分析和处理。这种类型的一些示例包括声音和电影文件、图像、文档、地理空间数据、web日志和文本字符串。 Velocity 是关于数据变化的速度,以及必须以多快的速度处理数据才能产生显著的价值。传统技术尤其不适合存储和使用高速数据。因此需要新的方法。如果所讨论的数据创建和聚合速度非常快,并且必须迅速用于发现模式和问题,那么速度越快,就越有可能出现大数据问题。
顺便说一句,如果你正在寻找一个'成本效益'的解决方案,你可以探索亚马逊的电子病历。

相关问题