【大数据导论】大数据序言

avatar
作者
筋斗云
阅读量:2
各位大佬好 ,这里是阿川的博客,祝您变得更强

在这里插入图片描述 个人主页在线OJ的阿川

大佬的支持和鼓励,将是我成长路上最大的动力在这里插入图片描述

阿川水平有限,如有错误,欢迎大佬指正在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

目录

  • 数据概念及类型及可用及组织形式
    • 数据概念
    • 数据类型
    • 数据的可用
    • 数据组织形式
  • 大数据的时代
    • 大数据技术
  • 中国大数据未来

数据概念及类型及可用及组织形式

数据概念

数据

  • 客观事件进行记录可以鉴别符号
  • 构成信息基本单位

在这里插入图片描述

数据类型

数据类型

  • 文本(字符型数据)

在这里插入图片描述

文本文件常见格式

在这里插入图片描述

  • 图片

在这里插入图片描述

图片常见格式

在这里插入图片描述

  • 音频

在这里插入图片描述

音频常见格式

在这里插入图片描述

  • 视频

在这里插入图片描述

视频常见格式
在这里插入图片描述

数据的可用

step1.数据清洗
脏乱数据进行清洗;将数据缺失和语义模糊等数据进行处理;数据类型不符合进行转换及解析
其中转换及解析常用工具和脚本语言

在这里插入图片描述

step2.数据管理

  • 将第1步后的数据放入数据库系统中进行管理和使用

step3.数据分析

  • 将第2步后的数据利用数据挖掘机器学习算法构建统计模型(其中首选R语言及它的CRAN综合类库)及大数据处理技术(主要为谷歌分布式编程模型MapReduceHadoop对其进行开源实现)进行分析

补充环节
step3.1数据可视化

  • 用图像等可视化帮助人们进行直观理解数据

数据组织形式

文件

在这里插入图片描述

文件由文件系统进行管理

数据库软件开发基础与核心

在这里插入图片描述

其中,关系数据库之前主流的数据库,具有三种特性

  • 提供SQL语句进行各种查询操作
  • 支持事务一致性功能
  • 满足各种商业应用需求

在这里插入图片描述
其中,NoSQL数据库主要处理非结构化数据,而目前海量数据中90%都属于非结构化数据
在现在及未来的时代中,NoSQL数据库的使用将是大势所趋

大数据的时代

在如今的时代,数据的产生正处于爆炸式的增长
如今不管是移动端还是PC端、Mac端,甚至传感器、摄像头亦或是各种设备(家用电器电视汽车等等)无时无刻不在产生着大量的数据
大数据的时代已经来临,随着时代的发展越加迅猛
与此同时,对数据储存、处理与分析提出了更高的要求
与之所对应的 物联网、云计算和大数据孕育而生
大数据四个特性

  • 数据量大PB级别甚至到EP、ZP级别

在这里插入图片描述

  • 数据类型繁多 (可以是文本、图片、视频、音频等非结构化类型
  • 处理速度快 (每秒钟处理GB数据甚至更高
  • 价值密度低 (海量数据中,符合条件单点数据价值密度高
    在这里插入图片描述

大数据技术

大数据技术前提要求

  • 储存设备的容量需要
  • CPU处理能力需要
  • 网络宽带传输需要
    (抖个包袱:所以说搞大数据的电脑设备还是要有要求的)

大数据技术 四个流程

  • 数据采集与预处理
  • 数据储存与管理
  • 数据处理与分析
  • 数据可视化

中国大数据未来

大数据它是 赋能型专业 (可从大量的已知数据进行计算推出未知的理论
可以为各行业进行深度融合(可与制造业、金融业、交通行业、互联网行业、餐饮行业、能源行业、城市管理行业等等进行融合
也可以推动新技术和新应用不断涌现(其中大数据产业是一条相当庞大的产业链 [其中包含数据的贩卖、数据的储存与管理、数据的平台、数据的应用软件等产业] )

国家政策

2015年8月31日国务院发布了《促进大数据发展行动纲要》
2021年11月30日工业和信息化部发布了《“十四五”大数据产业发展规划》
2022年12月19日 国务院发布了 《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》
地方政策
《河南省大数据产业发展行动计划(2022-2025)》
《黑龙江省大数据产业发展规划(2021—2025年)》
顺便说说:
我抽时间把一些地方的产业集群详细地了解了一遍,如果要从事大数据、人工智能等高创新方向的人才,建议首选但残酷的北京,其次选积极向未来布局的广东和江苏
夹带一个私货,由于阿川是四川的,所以说这里贴一个四川的产业集群

在这里插入图片描述
再加一个重庆的哈

在这里插入图片描述

大数据专业
2016年开始,国内由北京大学、中南大学、对外经济贸易大学这三所大学,首个建立了"数据科学与大数据技术"的新工科专业。截至2023年,国内已有654所学校开展相关专业。
培养目标
掌握大数据相关技术具有较好数据、数理、编程、大数据的基础知识与技能,且能够运用大数据思维解决实际问题高级复合型人才
在学习中,与 数学、统计、计算机 三大领域密不可分
至少应该掌握概率论数理统计、线性代数、高等数学、离散数学、应用数学、统计学、程序设计、软件工程、计算机系统基础及组成原理、计算机网络、计算机操作系统、算法与数据结构、机器学习、深度学习、模式识别、云计算、网络爬虫、数据安全、数据清洗、数据挖掘、数据库系统、数据仓库、数据可视化、分布式并行编程、系统架构设计等编程语言建议选择Python、Java和R、Scala(尽量都学,如果实在没有时间,建议看下列图))

在这里插入图片描述

主要工作场所
互联网企业、金融机构、医疗机构、科研院所、高等院校、科技公司、传统企业

主要职位有:

在这里插入图片描述

好的,到此为止啦,祝您变得更强

在这里插入图片描述
想说的话

阿川的本篇博客,学习来源厦门大学林子雨老师的《大数据导论》(我反反复复学习了4遍哈并且做了相应的练习 然后才进行的这篇博客的书写)很累希望大佬支持一下

在这里插入图片描述

道阻且长 行则将至

个人主页:在线OJ的阿川大佬的支持和鼓励,将是我成长路上最大的动力 在这里插入图片描述

广告一刻

为您即时展示最新活动产品广告消息,让您随时掌握产品活动新动态!