词频分析器词语次数文章Python(词频小男孩文件分析器标点符号)「词频分析工具」

功能不多说，直接上图
词频分析结果输入文章，输出词频结果
工具Python、jieba步骤1、安装jieba库
pip install jieba2、导入引用，并读取文件
import jiebatxt_f = open('./七月与安生.txt')s = txt_f.read()txt_f.close()3、用jieba库进行分词，并统计各个词的频率
seg_list = jieba.cut(s)dict_list = {}for seg in seg_list: if(dict_list.get(seg) != None): dict_list[seg] += 1 else: dict_list[seg] = 14、对每个词进行频率大小排序
sort_list = sorted(dict_list.items(), key=lambda item: item[1], reverse=True)5、以csv格式写入文件，输出结果保存在output文件夹内
f = open(\"./output/StatisticsSorted.csv\", mode='w')for item in sort_list: f.write(item[0] + \",\" + str(item[1]) + \"\n\")f.close()6、（扩展）去除英文以及标点符号，并写入文件
f = open(\"./output/StatisticsSortedChinese.csv\", mode='w')for item in sort_list: flag = False for i in item[0]: if(i < u'\u4e00' or i > u'\u9fa5'): flag = True if flag == True: continue f.write(item[0] + \",\" + str(item[1]) + \"\n\")f.close()7、（扩展）去除英文、标点符号、单字词，并写入文件
f = open(\"./output/StatisticsSortedChineseTwo.csv\", mode='w')for item in sort_list: flag = False for i in item[0]: if(i < u'\u4e00' or i > u'\u9fa5'): flag = True if flag == True: continue if len(item[0]) <= 1: continue f.write(item[0] + \",\" + str(item[1]) + \"\n\")f.close()如果对你有所帮助，别忘了关注收藏点赞
如果想要具体代码，可以私信我