大数据是一个术语,对不同的人来说意味着不同的东西。对许多人来说,大数据是通常无法访问的信息和见解的关键。拥有最准确的信息可以做出更好的决策。

我们能用这些信息预测贫困吗?消费者行为?患者的健康问题?可能性是无止境。挑战在于拥有获取和分析大数据的工具和知识。

简而言之,大数据是指公司内部和外部的极大数据集,可以对其进行分析,以揭示趋势,模式和关联,尤其是与人类交互和行为相关的数据集。

组织从各种来源收集数据 – 想想业务交易,社交媒体和机器到机器数据。数据以各种格式存在于各种位置。想象一下医院 – 可以在一台机器上记录有关患者心率,血压和体温等生命体征的信息,而家庭健康史则可以存储在另一台机器中。财务和保险信息可以存储在另一台机器中,也可以存储在完全不同的部门中。更不用说定性说明,员工工作时间表和PTO信息。关键是,在以太网周围漂浮的任何时间都收集了大量信息。

10万亿只蜂拥而至的蚂蚁

那么“大数据”和“数据”之间的区别是什么呢?主要区别在于尺寸,速度和种类。

大小:在管理数据时,大小很重要。我们这里谈的是PB级(100万千兆字节)和艾字节(10亿千兆字节!)。如果它只是存储在一个地方太多了,更不用说在没有特殊数据分析软件的帮助下进行组织和分析,那么恭喜你 – 你正在处理“大数据!”

速度:不仅是大数据,而且很大,但它很快。数据流以前所未有的速度,并试图收集和组织它就像试图用吸管从间歇泉喝水。

多样性:如果尺寸和速度不够复杂,数据也有各种格式。存在多结构化数据 – 如数字数据,然后是非结构化数据 – 如视频,音频,图像,电子邮件和金融交易。每个都有自己的属性,必须解决,以便正确分析。

试图获取您需要的信息就像试图在100万亿只蚂蚁的巢中找到一只蚂蚁。现在这是大数据的挑战。

幸运的是,数据分析的分支在短短几年内已经走过了漫长的道路。专门设计的计算机程序扫描数百万行文本并识别与您的需求相关的数据并将其存储在云中,这也非常“大”,并且具有存储大数据的无限空间。从那里,数据架构师可以组织和提取推断洞察力所需的信息。

也许这就是“大数据”中真正的“大” – 利用大技术来理解那里的信息,从而改善决策制定,从而获得巨大的成功。