一、概念
大数据时常被人们提起,那到底什么是大数据呢?
大数据和数据库领域的超大规模数据库(VLDB)、==海量数据(massive data)==有什么不同呢?
“超大规模数据库”这个词是20世纪70年代中期出现的。在数据库领域一直享有盛誉的VLDB国际会议就是1975年开始举办的,当时数据库中管理的数据集有数百万条记录,就是超大规模了。
“海量数据”则是21世纪初出现的新词,用来描述更大的数据集以及更加丰富的数据类型。
2008年9月《自然》杂志出版专刊Big Data:science in the Petabyte Era,“大数据”这个词开始被广泛传播。
上述这些词都表示需要管理的数据规模很大,相对于当时的计算机存储和和处理技术水平而言遇到了技术挑战,需要研究和发展更加先进的技术才能有效的存储、管理和处理它们。
为了应对“ 海量数据 ”的挑战,人们研究了各种半结构化数据和非结构化数据的数据模型,以及对它们的有效管理、多源数据的集成问题等。因此,大数据并不是当前时代所独有的特征,而是伴随着社会发展和科技水平的提高而不断发展演化的。当前,人们从不同的角度在诠释大数据的内涵。关于大数据的一个定义是,一般意义上,大数据是指无法在可容忍的时间内用现有的信息技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。
还有一些专家给出的定义是,大数据通常被认为是PB(1024TB)或EB(1024×1024TB)或更高数量级的数据,包括结构化的,半结构化的和非结构化的数据,其规模或复杂程度超出了传统数据库和软件技术所能管理和处理的数据集范围。
也有一些专家按大数据的应用类型,将大数据分为海量事务处理数据(企业联机事务处理应用)、海量交互数据(社交网络、传感器、GPS 、web信息)和海量分析处理数据(企业连接分析处理应用)。
海量事物处理数据的应用特点是:
- 数据海量,读写操作比较简单
- 访问和更新频繁,一次处理的数据量不大,但要求支持事物的ACID特性
- 对数据的完整性和安全性要求高,必须保证强一致性
海量交互数据的应用特点是:
- 实时交互性强,但不要求支持事物特性
- 数据的典型特点是类型多样异构、不完备、噪声大、数据增长快,不要求具有强一致性
海量分析处理数据的应用特点是:
- 面向海量分数据分析,计算复杂,往往涉及多次迭代才能完成
- 追求数据分析的高效率,但不要求支持事物特性
- 一般采用并行与分布式处理框架实现
- 数据的特点是同构性(如关系数据、文本数据或列模式数据)和较好的稳定性(不存在频繁的更新操作)。
二、大数据的特征
1、数据量大
大数据的首要特征是数据量巨大,而且是持续、急剧地膨胀。很多研究机构估算,2020年全球数据总量已经超过了40ZB。
大规模数据的主要来源包括:科学研究、互联网应用、电子商务领域、自媒体网站、传感器数据、网站点击流数据、移动设备数据、射频识别数据、传统的数据库和数据仓库所管理的结构化数据。
2、类型多样性
越来越多的应用使用和产生的数据类型不再是纯粹的关系数据,更多的是非结构化、半结构化的数据,如文本、网络、图像、音频、视频、网页、推特和博客。现代互联网应用呈现出非结构化数据大幅增长的特点。
3、变化快
大数据的第三个特点是数据变化快,一方面指数据到达的速度很快,另一方面指有些场景需要数据进行处理的时间很短,或者要求响应速度很快,即实时响应。
4、蕴含价值
大数据的价值是潜在的、巨大的。大数据不仅具有经济价值和产业价值,而且具有科学价值。这是大数据最重要的特点,也是大数据的魅力所在。
大数据价值的潜在性是指数据蕴含的巨大价值只有通过对大数据以及数据之间蕴含的联系进行复杂的分析、反复深入的挖掘才能获得。而大数据自身存在的规模巨大、异构多样、快变复杂、安全隐私等问题,以及数据孤岛、信息私有、缺乏共享的客观现实都阻碍了数据价值的创造,其巨大潜力和目标实现之间还存在着巨大的鸿沟。