掘金 后端 ( ) • 2024-06-30 20:59

大数据的特性

3V特性

量大(Volume)

大数据的首先体现在数据量上。在实际应用中,大数据的数据量通常高达数十 TB,甚至数百 PB。

大数据的数据量庞大到无法通过人工、单台计算机在合理的时间内达到提取、管理、处理成为有价值的人类所能解读的信息;处理大数据所需的资源远远超过传统的数据库软件的能力范围,对分析系统的存储、计算能力提出了极高的要求。所以大数据分析往往需要大规模的分布式计算集群来共同完成。

这意味着您需要处理海量、低密度的结构化/非结构化数据。这些数据的价值可能是未知的,例如 Twitter 数据流、网页或移动应用点击流,以及设备传感器所捕获的数据等等。

作为对比,传统的数据库比如MySQL的数据量大多就是几百GB或者几个TB,达到数十TB的MySQL数据库非常罕见。

多样(Variety)

大数据的多样化是指数据类型众多。

通常来说,传统数据属于结构化数据,能够整齐地纳入关系数据库。随着大数据的兴起,各种新的非结构化数据类型不断涌现,例如文本、音频和视频等等,它们需要经过额外的预处理操作才能真正提供洞察和支持性元数据。这些不同种类的数据来源不一,包括多种来源和格式(例如 Web 日志、社交媒体互动、电子商务与在线交易、金融交易,等等)的数据。例如 Twitter 数据流、网页或移动应用点击流,以及设备传感器所捕获的数据等等。

作为对比,传统的数据库比如MySQL的表结构固定,存储的数据都有严格的格式要求;就算式NoSQL中的MongoDB,其一个集合中的数据结构也是大致固定不会任意变动

高速(Velocity)

大数据的高速指原始数据产生的速度非常快而且需要分析系统高速的处理。

在一些生产环境中源数据通常以数百MB每秒/数GB每秒甚至更高的速度直接流入分析系统,分析系统为了快速接受这些数据通常都是需求借助内存进行缓冲来最终写入磁盘。比如某些联网的智能产品需要实时或近乎实时地运行,要求基于数据实时评估和操作,而大数据只有具备高速特性才能满足这些要求。

5V特性

在过去几年,大数据又新增了两个 V 特性:价值 (value) 和真实性 (veracity)。首先,数据固然蕴含着价值,但是如果不通过适当方法将其价值挖掘出来,数据就毫无用处。其次,数据的真实性和可靠性也同样重要。

价值(value) 数据价值密度相对较低,或者说需要对大量的数据进行清洗、提取和挖掘才会产生实际价值,否则存储的海量数据就是一堆杂乱无章的数据垃圾。

随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。

作为对比,关系型数据库里面存储的数据每条都是非常有价值的信息,比如银行账户信息。

真实性(veracity) 数据的准确性和可信赖度,即数据的质量不一定完全真实。

例如互联网中的用户点击流事件,可能是脚本机器人产生了也可能是完全不会电脑的小孩或者老人随机产生了,但是统计意义上讲绝大多数数据是准确的可靠的。

参考