禁止转载,原文:https://blog.csdn.net/qq_45801887/article/details/140087686
参考教程:B站视频讲解——https://space.bilibili.com/3546616042621301
2019慈善排行
描述
附件中为2019年中国福布斯慈善排行榜前100名的相关数据,请按照下列要求对文件数据进行统计和输出
输入n
如果输入为‘total’(不区分大小写),输出排行榜中所有慈善捐款的总额,格式见示例。
如果输入为1-100之间的排名编号(并列排名相同),输入对应该排名的所有数据信息,英文空格间隔,格式见示例。
本题保证用例测试中排名编号均有数据。如果输入为排行榜中企业 总部(省份) 的名称,如‘广东’,则依次输出文件中上榜的广东省慈善信息,
包含‘排名,姓名,企业简称,总部(省份)',排名按文件数据顺序,英文空格间隔,格式见示例。如果非以上输入,输出’No Record‘,格式见示例。
输入输出示例示例仅做格式参考,其中数据与文件无关。
示例 1
输入: Total 输出: Total:1921705万元
示例 2
输入: 27 输出: 27 苏志刚 长隆集团 广东 广州 15000 27 李书福 吉利控股集团 浙江 杭州 15000 27 许应裘 凯源房地产 广东 广州 15000
示例 3
输入: 湖北 输出: 32 吴少勋 劲牌 湖北 37 阎志 卓尔控股 湖北 52 艾路明 当代集团 湖北 99 刘道明 美好置业 湖北
示例 4
输入: 901 输出: No Record
酒店评价数据分析
类型:文件
描述
根据附件文件对酒店评价数据进行分析,本题使用jieba库中的lcut函数对数据进行分词。
import jieba
test_str = ‘武汉理工大学是一所世人仰慕的大学’ result = jieba.lcut(test_str) # 参数是字符串,结果是将字符串切分为词的列表 print(result) # [‘武汉理工大学’, ‘是’, ‘一所’, ‘世人’, ‘仰慕’, ‘的’, ‘大学’]
文件数据每行包括评论属性和评论内容两个数据,其中评论属性中’1‘代表好评,’0‘代表差评。
要求实现以下功能:
文件编码格式为GBK,读取函数示例如下:
with open('comment.csv', 'r', encoding='GBK') as f: ls=[i.strip().split(',',maxsplit=1) for i in f.readlines()[1:]]
输入n
如果n为’总评‘,分别输出该文件评论总数,好评条数,差评条数,输出格式参照示例一。
如果n为’平均‘,输出该文件中所有评论内容的平均长度(不需要排除字母,标点符号和数字),输出四舍五入后的整数,输出格式参 照示例二。
如果n为’好评‘,对文件中所有好评进行词频分析,并输出词频出现最多的前15个词以及出现次数,输出格式参照示例三
如果n为’差评‘,对文件中所有差评进行词频分析,并输出词频出现最多的前15个词以及出现次数,输出格式参照示例四
注:3,4两项功能中统计的词语,要求长度不小于2,不是数字组成,并且不是排除词.
#排除词 ex=[‘不错’,‘比较’,‘可以’,‘感觉’,‘没有’, ‘我们’,‘就是’,‘还是’,‘非常’,‘但是’, ‘不过’,‘有点’,‘一个’,‘一般’,‘下次’, ‘携程’,‘不是’,‘晚上’,‘而且’,‘他们’, ‘什么’,‘不好’,‘时候’,‘知道’,‘这样’, ‘这个’,‘还有’,‘总体’,‘位置’,‘客人’, ‘因为’,‘如果’,‘这里’,‘很多’,‘选择’, ‘居然’,‘不能’,‘实在’,‘不会’,‘这家’, ‘结果’,‘发现’,‘竟然’,‘已经’,‘自己’, ‘问题’,‘不要’,‘地方’,‘只有’,‘第二天’, ‘酒店’,‘房间’,‘虽然’]
如果n非以上输入,输出’无数据‘,格式参照示例五
输入输出示例
示例只是输出格式示例,其中数据均与题目无关!
示例 1
输入: 总评 输出: 总评论: 8888 好评: 6666 差评: 2222
示例 2
输入: 平均 输出: 86
示例 3
输入: 好评 输出: 好像: 1000 也许: 901 早餐: 817 偶尔: 749 环境: 694 设施: 669 无论: 596 价格: 495 干净: 428 程序: 419 服务员: 337 免费: 269 交通: 206 餐厅: 162 性价比: 154
示例 4
输入:差评 输出: 恶劣: 857 服务: 788 前台: 766 服务员: 681 早餐: 632 宾馆: 632 胡说: 502 价格: 432 退房: 344 老虎: 324 电话: 319 态度: 317 卫生间: 315 点评: 214 方便: 204
示例 5
输入: 1234 输出: 无数据
附件
comment.csv