个人主页:在线OJ的阿川
大佬的支持和鼓励,将是我成长路上最大的动力
阿川水平有限,如有错误,欢迎大佬指正
数据分析概要前必看
Python初阶
Python–语言基础与由来介绍
Python–注意事项
Python–语句与众所周知
数据分析系列文章偏学术
数据分析—技术栈和开发环境搭建
数据分析—Numpy和Pandas库基本用法及实例
数据分析—三前奏:获取/ 读取/ 评估数据
数据分析—数据清洗操作及众所周知
数据分析—数据整理操作及众所周知
数据分析—统计学基础及Python具体实现
数据分析—数据可视化Python实现超详解
数据分析—推断统计学及Python实现
数据分析—线性及逻辑回归模型
数据分析—AI交互及爬虫
大数据导论知识
【大数据导论】—大数据序言
【大数据导论】—大数据、人工智能、云计算、物联网、区块链序言
【大数据导论】—大数据基础知识
目录
数据概念
数据
- 对客观事件进行记录并可以鉴别的符号
- 是构成信息的基本单位
数据类别
数值型数据
由数字组成的变量类别型数据
由各种字符串和分组标签组成
数据四大优势
- 反复读取和使用
- 客观
- 量化
- 机器可处理
数据分析概念
只要是基于量化的信息提升生产力就是数据分析
数据岗位区别
基于业务
- 数据专员
- 数据运营
- 数据分析师
基于开发
- 数据工程师
- 数据产品经理
基于算法
- 算法优化师
- 算法科学家
- 算法工程师
数据分析适用场景
四大类
用数据去量化企业当前的经营现状或者业务事实
探究各种数据上的差距和异常,寻找背后的成因
搞清楚成因后给出具体的行动策略
方法计算使当前策略投入产出比最高的过程参数
方法
数据分析步骤
- 思考 问题
- 处理 数据
- 输出 结论
其中思考问题
发现问题
定义问题
选择问题
确认问题
- 目的
- 背景
- 思路
解决方法及例子
注意 一定要检查数据准确性,若数据过于异常,还要检查一下数据的处理与计算
拆解问题
初学阶段:学习大量经典分析框架,再搭建自己的分析矩阵
成熟分析师:搭建起自己的分析矩阵,对问题全方位地拆解,高效地找到答案量化问题
- 数据格式
- 日期
- 字符串
- 数字
注意 要统一统计口径,即什么时候一个数据才算有效数据
- 数据格式
其中处理数据
- 收集数据
- 内部数据
- 直接写SQL
- 从平台下载
- 提数据需求
- 从生产环境同步
- T+1更新
- 外部数据
- 来源:各大网站和APP
- 获取方式:爬虫和API
- 内部数据
爬虫常用工具:八爪鱼和后羿采集器或者Python中的爬虫工具包
处理数据
将各种脏数据通过筛选、清洗和计算处理成干净数据制作图表
将清洗过的标准数据借助工具处理成我们需要的各种图表上传发布
将我们的图表发布成一个个可以访问的页面输出结论
一句话一幅图
数据分析框架
其中五大基础理论
一、大数定律
大量重复某一实验时最后的频率会无限接近于事件的概率,即数据的样本量越大,预测和计算的概率就越准确
启发:对小样本量的分析结果保持客观的怀疑与观察,并尽可能地在大样本量下进行分析
二、罗卡定律
凡有接触必有痕迹,不要放弃去挖掘更多数据
启发:用户的一切行为都会留下数据,尽可能的拿来分析,找到数据背后隐藏的价值
三、幸存者偏差
统计样本的覆盖,会很大程度上直接影响分析的结果,即各种分析对象能取全量尽量取全量
启发:分析时要提前检查取样偏差,分析的样本要越能代表整体越好
四、辛普森悖论
两组分别讨论都满足某一性质的数据,一旦合并计算会得出完全相反的结论
启发:确保数据在同一量级和权重下进行分析
五、帕累托最优
在进行资源分配中,不增加资源仅通过调整分配方式,使整体的效率最大化
启发:在不投入资源的情况下,也总有优化现状的方法
其中一法则四方法
MECE法则
要求拆解出的各个部分都要满足相互独立,完全穷尽
时间流程法
根据时间顺序对问题进行拆解
经典AARRR模型
A—获取
A—激活
R—留存
R—收益
R—传播
该模型可以根据公司的具体业务进行细分
经典两大框架
PDCA
强调做事情一定要先规划再执行
P—计划
D—执行
C—检查
A—处理精益创业
强调根据想法快速构建产品,并基于数据反馈快速迭代创业
模型框架法
基于几个完全平行的维度,对问题进行划分
SWOT法
- SO战略
依靠内部优势 - WO战略
利用外部机会
克服内部弱点 - ST战略
利用内部优势
抵制外部威胁 - WT战略
减少内部弱点
回避外部威胁
- SO战略
RFM法
根据不同的维度,对客户划分成8个区间
量化公式法
解决涉及到指标计算的问题
将问题量化成指标的步骤
- 根据拆解的维度找到对应的数据指标
- 基于现有的数据指标进行发散的思考
常见的指标有三类
属性:描述分析对象有哪些特征
绝对值:衡量一件事最后的结果
转换率:衡量一个环节的完成度
穷尽要素法
将整体分为不同的构成部分
例如:电商平台将消费人群划分成八大人群
其中业务诊断
业务诊断通常用时间流程法、模型框架法、量化公式法、穷尽要素法四大分析方法一起上,对问题进行拆解、量化、取数、分析
其中业务增长
- 收集外部数据
- 估算市场空间
- 推算竞品规模
- 计算增长空间
- 确定增长目标
- 研究主流打法
- 设计增长策略
- 构建增长引擎
- 计算增长成本
- 核心指标选取
- 业务动作梳理
- 指标体系搭建
- 数据实验设计
- 专项策略输出
- 梳理可行方案
- 数据实验迭代
- 达到增长目标
数据分析中的可视化
取数作图
可视化原理
经历的环节
数据工具
- Excel 小量级一次性的数据处理
- Tableau、Power BI等BI工具 批量的数据读取与分析
- Python 复杂的数据清洗、爬虫和算法建模
注意:若不灵活学习和使用新工具,最终都会限制自身的发展
数据表达
基于数据化的表、图、文说明事实表达观点,从而更好地说明现状阐述事实,使人能基于数据准确地知道到底发生了什么,用数据说服他人认同我们自己想表达的观点
数据表达的原则
- 客观
- 直观
- 高效
数据表达的载体和形式
基于PPT的汇报总结
基于文档的专业分析
基于图文的沟通对话
表达格式:观点+数据+补充信息+图表
其中:提炼文字观点
- 打破认知
- 语出惊人
制作完善图表
根据问题和观点选择合适的图表类型
为图表准备数据
对观点拆解量化,然后梳理出数据,并且收集处理为数据库中的标准数据通过工具制作图表
优化视觉图形组合
制作出有效信息密度更大的高效图表
图形总结:比数字规模,上柱状图
多对象,上条形图
数据趋势,上折线图
多个对比对象,上多个折线图
各类占比分析,上饼图/环形图
多对象占比,上树图
两个度量上对比一个维度,上散点图
单一度量分布,上直方图
地理位置相关,上地图
即图表类型分类主要是从规模、趋势、占比、关系、分布
提出关键数据
- 日期时间说准确
时间日期要准确说明年月日 - 简化数字
对于大数据和小数点过长的数据,要四舍五入,并给出合适量级的单位 - 少用术语
要视对象使用术语和缩略语,不要跟业务拽专业指标,也不要跟技术说行业黑话 - 多说大白话
语言表述越直白、越简单越好,不要兜圈子
- 日期时间说准确
学习经验分享
- 先充分理解别人的学习框架
- 看已有框架能不能解决问题
- 果断学习新知识去解决问题
- 学会后归纳到自己的框架里
- 甚至放弃原有框架重新搭建一个
在进行数据分析时,反复问自己三个问题:
一、输出结论是能不能理解
二、做出的图表够不够直观
三、给出的策略可不可执行
注意:在数据分析领域中面对众多方向先学自己用得上的技能和知识
数据分析与问题本身关系
- 只有乐于解决问题
- 才会善于解决问题
- 当善于解决问题
- 就没有难解的问题
注意:在解决问题中一定不能只看量化的数据,大量非量化的业务细节和信息,甚至连一线执行时的情绪都是不可忽略的,它们往往才是最终决定你的分析和策略是否能真正落地实现价值的关键
好的,到此为止啦,祝您变得更强
想说的话
学习来源B站戴师兄(反反复复学习了3遍哈并且做了相应的笔记/相应的练习 然后才进行的这篇博客的书写)实不相瞒,写的这篇博客要写八个小时以上(加上自己学习和纸质笔记,共十小时吧),很累,希望大佬支持一下
道阻且长 行则将至 |
---|
个人主页:在线OJ的阿川大佬的支持和鼓励,将是我成长路上最大的动力 |