信息收敛三角
数据科学
数据科学将数据挖掘、统计分析和机器学习与数据集成整合,结合数据建模能力,去构建预测模型、探索数据内容模式。
分析对比
数仓和数据科学区别:
数据仓库主要用于描述性分析,提供事后的结论
数据科学侧重于预测性和规范性分析,旨在为未来提供预测和决策支持。
数据仓库关注已发生事情的总结,而数据科学强调对未来的洞察和预见。
数据科学:
预测性分析,洞察,未来可能会发生什么
规范性分析,预见,我们该做什么才能保证事情发生
数据科学的过程阶段
2. 业务驱动因素
从多种流程生成的数据集中发现的商机
3. 大数据
早期,人们通过3 V来定义大数据含义的特征:数据量大 (Volume)、数据更新快(Velocity)、数据类型多样/可变(Variety)(Laney,2001)。随着越来越多的组织开始深挖大数据的潜力,已经不止于以上三个V。
V列表有了更多的扩展:
1)数据量大(Volume)。大数据通常拥有上千个实体或数十亿个记录中的元素。
2)数据更新快(Velocity)。指数据被捕获、生成或共享的速度。大数据通常实时地生成、分发及进行分析。
3)数据类型多样/可变(Variety/Variability)。指抓取或传递数据的形式。大数据需要多种格式储存。通常,数据集内或跨数据集的数据结构是不一致的。
4)数据黏度大(Viscosity)。指数据使用或集成的难度比较高。
5)数据波动性大(Volatility)。指数据更改的频率,以及由此导 致的数据有效时间短。
6)数据准确性低(Veracity)。指数据的可靠程度不高。
总结:
数据量大(Volume)
数据更新快(Velocity)
数据更新快(Velocity)
数据黏度大(Viscosity)
数据波动性大(Volatility)
数据准确性低(Veracity)
2.1 大数据的来源?
结构化的数据(数仓)
非结构化的数据(进数据湖)
3. 数据湖
数据湖是一种可以提取,存储,评估和分析不同类型和结构海量数据的环境可供多种场景使用,例如:
1)数据科学家可以挖掘和分析数据的环境。
2)原始数据的集中存储区域,只需很少量的转换(如果需要的 话)。
3)数据仓库明细历史数据的备用存储区域。
4)信息记录的在线归档。
5)可以通过自动化的模型识别提取流数据的环境。
数据湖的风险在于:它可能很快会变成数据沼泽——杂乱、不干 净、不一致。为了建立数据湖中的内容清单,在数据被摄取时对元数据进行管理至关重要。
4. 基于服务的架构(Lambda架构)
SBA架构
批处理层(Batch Layer)
加速层(Speed Layer)
服务层(Serving Layer)
5. 机器学习(需要理解)
算法分类
监督学习(Supervised learning)
基于通用规则(如将SPAM邮件与非SPAM邮件分开)
(对于可能性的结果是可知的,比如预测一下明年的销售额比今年多还是少)
无监督学习(Unsupervised learning)
基于找到的那些隐藏的规律(数据挖掘)
(无监督学习可能性结果未知,比如预测一下明年的销售额是多少)
监督学习关注已发生动作的预测,无监督学习关注无限可能性。
强化学习(Reinforcement learning)
基于目标的实现(如在国际象棋中击败对手)
(前面那一次的结果会作为下面这一次的一个输入,所以它是不断的越来越好,越来越好的这么一个过程)
6. 语义分析 NLP(自然语言分析)
7. 数据和文本挖掘
剖析(Profiling)
数据缩减(Data reduction)
关联(Association)
聚类(Clustering)
自组织映射(Self-organizing maps)
8. 规范分析
规范分析(Prescriptive Analytics)比预测分析更进一步,它对将会影响结果的动作进行定义,而不仅仅是根据已发生的动作预测结果
9.数据可视化
通过使用图片或图形表示来解释概念、想法和事实的过程。
10. 活动
10.1 大数据战略评估标准
1)组织试图解决什么问题,需要分析什么
2)要使用或获取的数据源是什么
3)提供数据的及时性和范围
4)对其他数据结构的影响以及与其他数据结构的相关性
5)对现有建模数据的影响
11. 工具
MPP无共享技术和架构
基于分布式文件的数据库
数据库内算法
大数据云解决方案
统计计算和图形语言
数据可视化工具集
12. 度量指标
数据使用指标
响应和性能指标
和扫描指标
学习和故事场景