【Hadoop】--基于hadoop和hive实现聊天数据统计分析，构建聊天数据分析报表[17]_业界新闻

发布时间:2024-07-17 23:12

阅读量:2

2、指标2：统计每小时消息量、发送量和接收用户数

3、指标3：统计今日各地区发送消息总量

4、指标4：统计今日发送和接收用户人数

5、指标5：统计发送消息条数最多的top10用户

6、指标6：统计接收消息条数最多的top10用户

7、指标7：统计发送人的手机型号分布情况

8、指标8：统计发送人的设备操作系统分布情况

2.4、step4：编辑标题文本框（注意字体大小、居中、文本框位置可调整）

一、需求分析

1、背景介绍

聊天平台每天都会有大量的用户在线，会出现大量的聊天数据，通过对聊天数据的统计分析，可以更好的对用户构建精准的用户画像，为用户提供更好的服务以及实现高ROI的平台运营推广，给公司的发展决策提供精确的数据支撑。我们将基于一个社交平台App的用户数据，完成相关指标的统计分析并结合BI工具对指标进行可视化展现。

2、目标

基于hadoop和hive实现聊天数据统计分析，构建聊天数据分析报表。

3、需求

统计今日总消息量
统计今日每小时消息量、发送和接收用户数
统计今日各地区发送消息数据量
统计今日发送消息和接收消息的用户数
统计今日发送消息最多的Top10用户
统计今日接收消息最多的Top10用户
统计发送人的手机型号分布情况
统计发送人的设备操作系统分布情况

4、数据内容

数据大小：30万条数据
列分隔符：Hive默认分隔符’\001’
数据字典及样例数据

5、建库建表

create table db_msg.tb_msg_source( msg_time string comment "消息发送时间", sender_name string comment "发送人昵称", sender_account string comment "发送人账号", sender_sex string comment "发送人性别", sender_ip string comment "发送人ip地址", sender_os string comment "发送人操作系统", sender_phonetype string comment "发送人手机型号", sender_network string comment "发送人网络类型", sender_gps string comment "发送人的GPS定位", receiver_name string comment "接收人昵称", receiver_ip string comment "接收人IP", receiver_account string comment "接收人账号", receiver_os string comment "接收人操作系统", receiver_phonetype string comment "接收人手机型号", receiver_network string comment "接收人网络类型", receiver_gps string comment "接收人的GPS定位", receiver_sex string comment "接收人性别", msg_type string comment "消息类型", distance string comment "双方距离", message string comment "消息内容" );

将数据文件上传到/home/hadoop目录下，随后上传到HDFS中，加载数据到表中。

二、ETL数据清洗

1、数据问题

问题一：当前数据中，有一些数据的字段为空，不是合法数据。

问题二：需求中，需要统计每天、每个小时的消息量，但是数据中没有天和小时字段、只有整体时间字段、不好处理。分离出年月日、小时字段

问题三：需求中，需要对经度和维度构建地区的可视化地图，但是数据中GPS经纬度为一个字段，不好处理。需要把经纬度分离出来。

2、需求

需求1：对字段为空的不合法数据进行过滤
- where过滤 where length(sender_gps) > 0
需求2：通过时间字段构建天和小时字段
- date hour函数 date(msg_time) hour(msg_time)
需求3：从gps的经纬度中提取经度和纬度
- split函数 split(sender_gps, ',')[0] split(sender_gps, ',')[1]
需求4：将ETL以后的结果保存到一张新的Hive表中

3、实现

将数据添加到新的列。

SELECT *, 	date(msg_time) as msg_day,  	HOUR (msg_time) as msg_hour, 	split(sender_gps,',')[0] as sender_lng, 	split(sender_gps,',')[1] as sender_lat from tb_msg_soure  where LENGTH (sender_gps) > 0;

先创建一个新的表用于存储清洗过的数据

create table db_msg.tb_msg_et1( msg_time string comment "消息发送时间", sender_name string comment "发送人昵称", sender_account string comment "发送人账号", sender_sex string comment "发送人性别", sender_ip string comment "发送人ip地址", sender_os string comment "发送人操作系统", sender_phonetype string comment "发送人手机型号", sender_network string comment "发送人网络类型", sender_gps string comment "发送人的GPS定位", receiver_name string comment "接收人昵称", receiver_ip string comment "接收人IP", receiver_account string comment "接收人账号", receiver_os string comment "接收人操作系统", receiver_phonetype string comment "接收人手机型号", receiver_network string comment "接收人网络类型", receiver_gps string comment "接收人的GPS定位", receiver_sex string comment "接收人性别", msg_type string comment "消息类型", distance string comment "双方距离", message string comment "消息内容", msg_day string comment "消息日", msg_hour string comment "消息小时", sender_lng double comment "经度", sender_lat double comment "纬度" );

将清洗的数据导入新建的表

INSERT overwrite table tb_msg_et1  SELECT *, 	date(msg_time) as msg_day,  	HOUR (msg_time) as msg_hour, 	split(sender_gps,',')[0] as sender_lng, 	split(sender_gps,',')[1] as sender_lat from tb_msg_soure  where LENGTH (sender_gps) > 0;

在导入数据时，多次报错我的yarn资源不足，导致每次都导入不成功，这里我修改了/export/server/hadoop/etc/hadoop目录下的yarn配置文件yarn-site.xml，添加以下代码：

<property>    <name>yarn.scheduler.minimum-allocation-mb</name>    <value>2048</value>    <description>default value is 1024</description> </property>

数据导入成功

4、扩展概念：ETL

其实我们刚刚完成了从表tb_msg_source查询数据进行数据过滤和转换，并将结果写入到：tb_msg_etl表中的操作，本质上是一种简单的ETL行为。

ETL:

E，Extract，抽取
T，Transfrom，转换
L，Load，加载

从A抽取数据(E)，进行数据转换过滤(T)，将结果加载(L)到B，就是ETL啦。

三、指标计算

回顾一下我们的需求

统计今日总消息量
统计今日每小时消息量、发送和接收用户数
统计今日各地区发送消息数据量
统计今日发送消息和接收消息的用户数
统计今日发送消息最多的Top10用户
统计今日接收消息最多的Top10用户
统计发送人的手机型号分布情况
统计发送人的设备操作系统分布情况

1、指标1：统计今日消息总量

--需求1：统计今日消息总量 CREATE table db_msg.tb_rs_total_msg_cnt comment '每日消息总量' as SELECT msg_day,COUNT(*) as total_msg_cnt from db_msg.tb_msg_et1 group by msg_day ;

2、指标2：统计每小时消息量、发送量和接收用户数

---需求2：统计每小时消息量、发送量和接收用户数 CREATE table db_msg.tb_rs_hour_msg_cnt comment '每日消息总量' as SELECT  	msg_hour , 	COUNT(*) as total_msg_cnt, 	count(distinct sender_account) as sender_user_cnt, 	count(distinct receiver_account) as receiver_user_cnt from db_msg.tb_msg_et1 group by msg_hour ;

3、指标3：统计今日各地区发送消息总量

--需求3：统计今日各地区发送消息总量 create table db_msg.tb_rs_loc_cnt comment '每日各地区发消息总量' as SELECT  	msg_day ,sender_lng ,sender_lat ,COUNT(*) as total_msg_cnt  from db_msg.tb_msg_et1  group by msg_day ,sender_lng, sender_lat

4、指标4：统计今日发送和接收用户人数

--指标4：统计今日发送和接收用户人数 create table db_msg.tb_rs_user_cnt comment '今日发送和接收消息的人数' as SELECT  	msg_day , 	count(DISTINCT  sender_account) as sender_user_cnt, 	COUNT(distinct receiver_account) as receiver_user_cnt  from db_msg.tb_msg_et1  group by msg_day;

5、指标5：统计发送消息条数最多的top10用户

--指标5：统计发送消息条数最多的top10用户 create table db_msg.tb_rs_user_top10 comment '发送消息最多的10个用户' as SELECT  	sender_name , 	COUNT(*) as sender_msg_cnt  FROM db_msg.tb_msg_et1  group by sender_name  order by sender_msg_cnt DESC  limit 10;

6、指标6：统计接收消息条数最多的top10用户

--指标6：统计接收消息条数最多的top10用户 create table db_msg.tb_rs_r_user_top10 comment '接收消息最多的10个用户' as SELECT  	receiver_name  , 	COUNT(*) as receiver_msg_cnt  FROM db_msg.tb_msg_et1  group by receiver_name  order by receiver_msg_cnt DESC  limit 10;

7、指标7：统计发送人的手机型号分布情况

--指标7：统计发送人的手机型号分布情况 CREATE table db_msg.tb_rs_sender_phone comment '发送人的手机型号' as SELECT  	sender_phonetype , 	count(*) as cnt from db_msg.tb_msg_et1  group by sender_phonetype

8、指标8：统计发送人的设备操作系统分布情况

CREATE table db_msg.tb_rs_sender_os comment '发送人的os分布' as SELECT   	sender_os , 	count(*) as cnt from db_msg.tb_msg_et1  group by sender_os

四、可视化展示

1、BI概述

BI：Business Intelligence，商业智能。

指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行分析以实现商业价值。

简单来说，就是借助BI工具，可以完成复杂的数据分析、数据统计等需求，为公司决策带来巨大的价值。

所以，一般提到BI，我们指代的就是工具软件。常见的BI软件很多，比如：

FineBI
SuperSet
PowerBI
TableAu

详细的finebi的介绍与安装可跳转到【Hadoop】-FineBI的介绍及安装[16] 阅读。

支持

资讯

【Hadoop】--基于hadoop和hive实现聊天数据统计分析，构建聊天数据分析报表[17]

一、需求分析

1、背景介绍

2、目标

3、需求

4、数据内容

5、建库建表

二、ETL数据清洗

1、数据问题

2、需求

3、实现

4、扩展概念：ETL

三、指标计算

1、指标1：统计今日消息总量

2、指标2：统计每小时消息量、发送量和接收用户数

3、指标3：统计今日各地区发送消息总量

4、指标4：统计今日发送和接收用户人数

5、指标5：统计发送消息条数最多的top10用户

6、指标6：统计接收消息条数最多的top10用户

7、指标7：统计发送人的手机型号分布情况

8、指标8：统计发送人的设备操作系统分布情况

四、可视化展示

1、BI概述

2、可视化展示

2.1、step1：创建报表

2.2、step2：选择仪表板样式

2.3、step3：添加标题

2.4、step4：编辑标题文本框（注意字体大小、居中、文本框位置可调整）

2.5、step5：添加文本内容

2.6、step6：添加地图

2.7、step7：添加雷达图

2.8、step8：添加柱状图

2.9、step9：添加环饼状图

2.10、step10：添加词汇云图

2.11、step11：添加趋势曲线图

2.12、step12：报表预览

相关阅读

广告一刻