写在前面:
这里整理了111个数据分析的案例,每一个都进行了严格的筛选,筛选标准如下:
1. 有干货:杜绝纯可视化、统计性分析,有一定比例的讲解性文字
2. 可跑通:所有代码均经过测试,(大概率)可以一键跑通(因为库包更新,或者链接有效性问题,或多或少会存在个别失效情况)
数据集可下载:方便大家下载至本地仔细把玩(如果不行,请看我的另一篇博文)
希望这份资料可以帮到大家呀~
本文用一个实战案例,与大家共同探讨如何撰写一份有业务价值的分析报告
此数据集来自泰迪杯个人技能赛,为企业真实数据。该作品为特等奖并获泰迪杯,现在目前的基础之上对其进行进一步的复盘与优化
关于大五人格测试数据集的探索 本项目包含: 1.数据处理和清洗 2.数据可视化和探索性分析 3.k-means聚类分析以及结果的二维、三维可视化
以时序角度对家庭用电数据进行可视化分析
浏览数据的用户、作者、作品特征提取,特征数据分析、聚类,以及浏览行为是否点赞的二分类预测
本项目以沈阳市产业结构与经济增长数据作为例,对灰色关联分析进行简单的python实现与应用
价格是反映一定时期内房屋租赁价格水平变动趋势和变动程度,分析预测房屋租赁价格,对于发展完善房屋租赁市场有着重要的意义
商分实战:互联网运营
基于商家销售情况、用户消费情况、产品销量情况等,全面的分析
本项目基于Python实现整个项目分析的流程,包括数据预处理、数据可视化、数据挖掘、数据建模等,用户画像采用自定义的LRFMP模型,并以词云展示出来~
本文通过对新西兰偷车数据的处理,采用统计分析及pyecharts可视化的方法,结合相关实际资料进行有价值的分析
针对爬取结果的数据进行了数据可视化,正在求职或者找实习的小伙伴不要错过哦~
基于经济统计数据,对中国劳动力的发展趋势、行业分布、薪酬差异、性别差异等进行初步的观察。
对国内农产品批发价进行时间序列分析,发现农产品价格变化的季节性和趋势性。涉及到的农产品品种包含5种畜禽产品、5种水果、7种水产品以及28种蔬菜。
尝试探索航班信息与其是否延误之间的关联关系,并使用分类模型进行预测。
通过分析WTO和世界银行的国际贸易数据,对全球贸易格局及其商品结构进行初步的考察。
奥运健儿冲冲冲!中国队yyds!
关于2021年世界五百强排行榜的探索
对上海9万条餐饮数据进行分析
Fast Food Restaurants in America
你将了解到位于美国各地的 10,000 多家不同快餐店的信息,熟悉美国的快餐文化
本项目基于Python实现整个项目分析的流程,包括数据预处理、数据可视化、数据挖掘、数据建模等,用户画像采用自定义的LRFMP模型,并以词云展示出来~
为满足网店预测订单数量的需求,使用731天销售数据训练模型。模型交叉检验结果表明此模型能解释训练集96%的历史数据;此外模型在测试集上表现良好。
1.如何利用留存数字确定关键行为 2.借助AHP方法,建立渠道质量评估模型,对渠道获客的质量进行分析。
某游戏APP示例数据,对用户从下载安装到激活注册的数据进行统计分析
聚类分析是研究分类问题的分析方法,是洞察用户偏好和做用户画像的利器之一,也可作为其他数据分析任务的前置探索(如EDA)。能够理解K-Means的基本原理并将代码用于实际业务案例是本文的目标
通过5G用户的共46个特征数据分析什么样的用户更倾向于更换5G套餐,从而进行潜客营销
线上课程用户行为探索:用户分布、用户活跃度、用户流失情况、用户参与课程情况、用户课程推荐、收费课程与用户学习进度相关分析、线上课程综合推荐策略制定
通过对数据挖掘分析,对比分析寻找出门店的问题,以及建议;通过对销量波动寻找原因与对策;简历数据监控仪表板
对数据进行了深入的挖掘,寻找到了门店销量起伏的原因,通过分析挖掘,找出门店的长处与短板,并给予参考建议。对会员进行了RFM分析,及仪表板制作
通过对4个一线城市天气分析,探寻南北天气差异,探寻坏天气的元凶是什么
通过搜集明日方舟的营收数据结合微博社区和b站动态评论区的相关数据进行比较分析,了解二者之间是否有直接关联。
Pandas+Pyecharts | 2021中国大学综合排名分析+可视化
软科中国大学排以专业、客观、透明的优势赢得了高等教育领域和社会的广泛关注和认可,本次将利用Python对我国大学排名和分布情况进行一番研究。
基于链家二手房对湛江房价进行描述性探究和建立模型进行预测
商品子集都是偏服务类的商品,涵盖阿里巴巴集团十个主要的商品大类,例如汽车售后服务、摄影服务、餐饮、电影等,其特色是线上购买、线下服务。
pandas + pyecharts | ADX游戏广告投放渠道综合分析
游戏公司广告投放平台分析,看看游戏公司都喜欢投放在哪些平台
Pandas+Pyecharts | 北京某平台二手房数据分析+可视化
用pandas进行数据处理,pyecharts对处理后的数据进行可视化分析市面上二手房各项基本特征及房源分布情况,探索二手房大数据背后的规律。
B站美食视频的财富密码究竟是什么?快点跟着小编去看一看吧
分析可视化历近一周近一月等涨幅基金数,分析可视化各类型基金
从京东上以输入关键词的形式定向爬取了100页商品信息,做该商品的价格分析
Netflix是一家美国公司,在美国、加拿大提供互联网随选流媒体播放,定制DVD、蓝光光碟在线出租业务。在2018年,他们发布了一份有趣的报告,显示Netflix上的电视节目数量自2010年以来几乎增加了两倍。流媒体服务的电影数量自2010年以来减少了2,000多个,而其电视节目数量却几乎增加了两倍。你可以通过这同一个数据集探索还能有什么其他有趣的发现。
整理归纳历年的考研信息 + 2021年的考研调剂 + 多组图数据可视化
A/B/C/D/E/F六个参数可代表APP内六个不同功能,每一行代表一组有相同行为的用户,Action_1到Action_2记录了由用户数变化所代表的一步留存率。该数据来分析该APP内用户行为特征,不同参数值变化对留存率的影响等。
如何在资源有限的情况下最有效的投入从而提升消费额呢? 我们需要了解哪些资源投入对消费额的影响是最大的。 通过使用宝洁公司的销售数据来进行分析排序, 也许能对如何分配资源带去一点启发。
知乎上,大家都怎么形容拼多多,情感倾向 王太虚wary的视频,大家都怎么评 对不同的公司offer,大家看法有何不同 知乎上对各大厂工作体验比较
本文用一个实战案例,与大家共同探讨如何撰写一份有业务价值的分析报告
以天猫母婴商品数据集为例,探讨多维度多指标的数据该如何进行分析
分析用户消费情况及品牌情况,可视化消费变化趋势,从用户个体层面利用RFM用户分册分析各类用户差异
使用PageRank算法计算希拉里邮箱中人物的PR值,并将大于PR阈值的重要人物的关系进行可视化显示
分析当前的数据分析师求职需求
对招聘信息数据的分析,了解该岗位的市场需求、行业分布、薪资水平,以便明确求职方向
70000多条数据,全国各城市、各行业、各公司的招聘信息,都通过爬虫爬取下来整合分析
通过对租车数据进行统计以及可视化分析,对单车运营维护团队提出改善性意见
希望通过对于一次AB测试数据的分析判断新旧两版页面在用户转化上是否有显著区别,帮助公司决定是应当采用新的页面,还是保留老的页面。
对于快消品企业,能够对商超门店的销售额进行精准预测,尤其是能量化自身所能控制的各种促销因素产生的结果,是重要的数据应用。该项目统计分析某品牌各项广告投入与销售额之间的关系。
数据分析和建模的方法,挖掘数据中所蕴含的信息,分析学生在校园内的学习生活行为,为改进学校服务并为相关部门的决策提供信息支持。
根据用户的贷款信息,分析其违约的可能性
书籍是人类进步和文明的重要标志之一。 此项目对六万多条豆瓣读书的数据进行数据清洗以及可视化。
python爬虫爬取的分类排行榜,并进行各分类划分,清晰明了看清国内各大型漫画分布
本报告旨在通过对各类数据集的收集、分析,对以下问题进行初步探索:
2020大选结果解读 - “拜登到底赢了多少?”
得票归因 - “拜登赢在哪里?”
选前民调及大选历史分析 - “为什么拜登赢了?”
通过爬虫获取店铺及评论信息,包括评论的正负反馈进行可视化分析
本项目主要利用seaborn统计分析并可视化最容易被淘汰的行业和公司类型
本项目整理蔡徐坤100万+转发的微博《再见,“任性的”千千…》的10万条转发数据,并且分析蔡徐坤真假转发流量的比例以及真假粉丝的用户画像
什么样题材的电影评分会相对较高(较低);电影时长对评分是否有影响;不同年代什么类型电影较受欢迎
经过数据清洗,筛选对房价有显著影响的特征变量,探索兰州二手房整体情况,建立房价预测模型
利用k-means 聚类的方法学习对数据进行细分
假设用户购买金额(revenue)为因变量, 其它六个变量为自变量, 探寻不同特征的人群对总购买金额的贡献大小, 帮助企业定位消费人群并在营销推广等方面做出更好决策。 综合所有变量建立多线性数据模型并分析数据模型的准确性。 准确的数据模型能够帮助预测用户下单金额。
从不同维度分析探究顾客累积购买金额的影响因素
实现淘宝展示广告精准投放,提高广告投放效果。思路:从CPC和CPA出发,按渠道,时间,目标用户三个方向找出具有广告投放效果好的特征,提出优化建议。
A/B测试是互联网企业常用的一种基于数据的产品迭代方法,它的主要思想是在控制其他条件不变的前提下对不同(或同一、同质)样本设计不同实验水平(方案),并根据最终的数据变现来判断自变量对因变量的影响
分析外教的招聘状况,没经验没学历的外教为啥能拿1.4W+的高薪?
预测自然流失用户,并将即将流失的用户的特点与筛选规则提交给运营部门
以淘宝app平台为数据集,通过行业的指标对淘宝用户行为进行分析,从而探索淘宝用户的行为模式,具体指标包括:日PV和日UV分析,付费率分析,复购行为分析,漏斗流失分析和用户价值RFM分析。
本项目收集了Github热门项目996.ICU中Issues页面的10037条讨论数据和39987条点了star的程序员Github个人信息数据,并进行分析
该项目分析10万条数据中转发该条微博的真假比例,以及大家对于这首歌的情感倾向如何
对“实习僧网站”招聘数据挖掘、机器学习的实习岗位信息进行分析
从乐高销量、乐高产地、个省份销量分布、乐高价格高低及不同价格区间的数量、乐高种类销量等数据集进行分析
通过爬虫获取新榜的公众号榜单信息,可视化:新榜指数与在看人数排行榜、平均阅读数、当月发布文章与总文字章之比 三个维度数据
基于一个月的淘宝用户行为,给用户打标签 此项目为上部,包含用户属性标签和用户行为标签
包括用户个性化标签、用户偏好标签、群体偏好标签,涉及到TF-IDF算法、余弦相似度算法
以支付宝营销活动为例,通过广告点击率指标比较两组营销策略的广告投放效果。
节令食品市场情况分析(由于数据丰度限制,使用购买人数来代替相关指标,并不能真实反映市场情况)
筛选对房价有显著影响的特征变量,对假设结论进行检验,确定特征变量,建立房价预测模型,并对假设情景进行模拟
探索地理位置、单价、面积、房屋朝向、户型、楼层位置等因素对购房者关注热度的影响。
1. 剥离出信用卡用户画像,分析群体特征; 2.通过贷款信息及交易信息等数据,构建贷款违约预测模型
将客户进行价值分类,涉及到K-means的运用
分析订单转化率、销量趋势、地域分布等
对母婴市场销售数据集进行探索性可视化分析
建立分类模型,输出特征的重要度,用于判断哪些特征对最后的购买影响较大。
电商平台的用户-商品行为数据,脱敏字段对用户的行为进行分析,包括日常行为和活动时的行为
每日新增论文数折线图、各期刊占比饼图等。
针对用户在电商平台上留下的评论数据,对其进行分词、词性标注和去除停用词等文本预处理。基于预处理后的数据进行情感分析,并使用LDA主题模型提取评论关键信息,以了解用户的需求、意见、购买原因及产品的优缺点等,最终提出改善产品的建议
从提出问题、理解数据、数据清洗、可视化分析、用户流失预测、结论和建议方面进行详细分析!
电影数据的可视化
本文是基于120年来奥运会运动员数据集的可视化分析。探索分析奥运会的热门体育项目、得金牌数最多的国家,以及中国的在奥运会上的表现等分析。
NBA谁是历史的王者战队见仁见智,经典的梅西评分法对季后赛分数及逆行排名分析,再使用对数几率回归做个模型,并分析内部参数分布。
探索麦当劳产品营养成分
2550 个TED演讲视频的相关信息的可视化探索与分析。
分析为何公司员工过早离职,找出哪些因素会对员工的离职产生重要影响。
数据集来源于某健身房2019年3月至2020年2月会员消费购买行为,数据集一共包含四个字段:用户ID,购买日期,购买数量和购买金额。
从落户数据中的公司人数、落户分数和落户年龄三个方面进行具体分析
分析美妆品牌的销售类别、销售分布情况以及消费者关注度、双十一购买高峰时间等
本项目结合 matplotlib 可视化来做分析,以直观的方式展示各大城市从2015到2017年的变化情况,并加与文字说明。
以一个医院的销售数据集为例,做一个数据分析整个过程的案例。
本文主要通过分析CDNow网站的用户购买明细来分析该网站的用户消费行为,使运营部门在营销时更加具有针对性,从而节省成本,提升效率。
运用数据分析与挖掘技术对市财政收入进行分析,并对未来两年的财政收入进行预测,希望能够帮助政府合理地控制财政收支
使用航空公司客户数据,结合RFM模型,采用K-Means聚类算法,对客户进行分群,比较不同类别客户的价值,从而制定相应的营销策略。
购物篮分析是通过发现顾客在一次购买行为中放入购物篮中不同商品之间的关联,研究顾客的购买行为,从而辅助零售企业制定营销策略的一种数据分析方法。
依据BP神经网络算法构建洗浴事件识别模型,进而对不同地区的用户的洗浴事件进行识别,然后根据识别结果比较不同客户群的客户使用习惯。