哪些因素可以区分暗数据和大数据?

p5fdfcr1  于 2021-06-03  发布在  Hadoop
关注(0)|答案(4)|浏览(389)

我对“黑暗数据”这个词的理解,
暗数据是一种非结构化、未标记和未开发的数据,存在于数据存储库中,尚未进行分析或处理。它与大数据类似,但不同之处在于,就其价值而言,业务和it管理员通常忽视了大数据。
另外,一家研究公司idc表示,高达90%的大数据是暗数据。
问题是,
--为什么大数据会退出市场&尽管黑暗数据更重要,却会在市场上制造噪音?
--又是什么因素导致了大数据和暗数据的分离?
如果你能分享一些关于这个主题的知识,我将不胜感激。

8ehkhllq

8ehkhllq1#

暗数据是指当前未被使用的数字信息。然而,这些暗数据可能是组织在其常规业务活动过程中收集、处理和存储的资产,以备将来使用。
这些数据有可能用于推动新的收入来源、消除浪费和降低成本。因此,许多组织出于法规遵从性目的而存储暗数据。
大数据是指在数字环境中产生的大规模数据。这种大数据一般规模大,生成周期短。
它不仅包括数字数据,还包括文本和图像数据。大数据环境比以往更加多样化。一般来说,大数据是物联网设备、机器、设备的所有记录。有一些针对大数据的解决方案(如machbase数据库、hadoop等),它们通常实时处理大量数据,包括数据存储和分析功能。

dvtswwa3

dvtswwa32#

暗数据是未管理、未分类和未开发的—它占用宝贵的存储空间,并且可能包含隐藏的风险,因为它通常存在于公司信息/保留策略的外围,因此尚未进行分析或处理。虽然它类似于大数据,但不同的是,就其潜在价值而言,它被企业所忽视。
黑暗的数据可能是长期离职员工的电子邮件收件箱、陈旧的财务信息、被遗忘的电子表格。如果审计人员和律师必须参与寻找这些信息,成本可能会变成天文数字。拥有“黑暗数据”会使公司面临被罚款或制裁的高风险,因为他们的系统上有未受保护的机密信息,但没有得到管理或保护。与大数据一样,暗数据可能占用数TB的磁盘空间。
大数据是经过管理、结构化和保护的信息。它制造了很多噪音,因为它有很多(我们每天创建25亿字节的数据),而且公司需要提供资源来保护它(想想数量、速度和多样性)
通过分析,一些暗数据可能会转化为大数据。

svujldwt

svujldwt3#

暗数据有三种类型
当前未收集的数据。
正在收集的数据,但很难在正确的时间和地点获取。
已收集并可用但尚未利用或充分应用的数据。
大数据问题不是因为数据的不易获取,而是因为数据的丰富。
由于客户意识到自己的问题,那些追求黑暗数据问题的公司通常不会在现有市场上进行交易。他们通过呈现新的数据类型并用这些数据创建特殊的应用程序来创造新市场。但当他们成功后,他们就成了大公司。
查看aiim市场情报总监道格•迈尔斯(doug miles)撰写的文章中的链接,了解更多关于这种差异的信息。

wvyml7n5

wvyml7n54#

暗数据是指狭义的实际数据(位和字节、文本、图像、声音等),具有一定的特征,大多围绕着被忽视或在某种程度上被低估。
因此,以下陈述是有意义的:
我们已经积累了100tb的黑暗数据,我们不知道该怎么办。
大数据是一组与以特定方式解决业务问题相关的技术、实践和解决方案,主要是收集和存储大量信息并将其用于某种目的的变体。大数据通常不是指狭义的数据(位和字节等)。
考虑一下:
我们已经在服务器上积累了100tb的大数据。
听起来不尴尬吗?
正如你所说,大数据更多的是一种营销/商业隐喻。当市场营销嗅到了黑暗数据的味道,并将其变成了大数据这样的时髦词汇时,我们就可以开始对它们进行比较了。但目前,我们有:

Dark Data == underutilized and underappreciated data 
Big Data == collecting, storing and analyzing vast bodies of information

考虑到这一点,我可以试着去揣摩“高达90%的大数据都是暗数据”这句话的含义(我个人认为这句话很蹩脚,主要是为了吸引眼球):
在大数据计划下收集的数据中,有高达90%的数据没有得到充分利用:其大部分实际价值仍然隐藏和未实现。
我猜这篇文章的其余部分谈到了数据科学如何还处于初级阶段,还有多少工作要做,如果我们希望挖掘所有这些看不见的见解的话。

相关问题