(图片来源网络,侵删)
功能不多说,直接上图词频分析结果输入文章,输出词频结果工具Python、jieba步骤1、安装jieba库pip install jieba2、 导入引用,并读取文件import jiebatxt_f = open('./七月与安生.txt')s = txt_f.read()txt_f.close()3、用jieba库进行分词,并统计各个词的频率seg_list = jieba.cut(s)dict_list = {}for seg in seg_list: if(dict_list.get(seg) != None): dict_list[seg] += 1 else: dict_list[seg] = 14、 对每个词进行频率大小排序sort_list = sorted(dict_list.items(), key=lambda item: item[1], reverse=True)5、 以csv格式写入文件,输出结果保存在output文件夹内f = open(\"./output/StatisticsSorted.csv\", mode='w')for item in sort_list: f.write(item[0] + \",\" + str(item[1]) + \"\n\")f.close()6、 (扩展)去除英文以及标点符号,并写入文件f = open(\"./output/StatisticsSortedChinese.csv\", mode='w')for item in sort_list: flag = False for i in item[0]: if(i < u'\u4e00' or i > u'\u9fa5'): flag = True if flag == True: continue f.write(item[0] + \",\" + str(item[1]) + \"\n\")f.close()7、 (扩展)去除英文、标点符号、单字词,并写入文件f = open(\"./output/StatisticsSortedChineseTwo.csv\", mode='w')for item in sort_list: flag = False for i in item[0]: if(i < u'\u4e00' or i > u'\u9fa5'): flag = True if flag == True: continue if len(item[0]) <= 1: continue f.write(item[0] + \",\" + str(item[1]) + \"\n\")f.close()如果对你有所帮助,别忘了关注收藏点赞如果想要具体代码,可以私信我
0 评论