当前位置: 首页 > news >正文

最后一次大作业:西游记相关的jieba分词,出现次数最高的20个

import jieba from collections import Counter # 人物别名统一映射,全部归一化为标准人名 alias_dict = { "孙悟空": "孙悟空", "孙行者": "孙悟空", "行者": "孙悟空", "美猴王": "孙悟空", "孙猴子": "孙悟空", "齐天大圣": "孙悟空", "大圣": "孙悟空", "唐三藏": "唐僧", "玄奘": "唐僧", "唐长老": "唐僧", "长老": "唐僧", "猪八戒": "猪八戒", "猪悟能": "猪八戒", "八戒": "猪八戒", "呆子": "猪八戒", "沙悟净": "沙和尚", "沙僧": "沙和尚", "沙和尚": "沙和尚", "白龙马": "白龙马", "敖烈": "白龙马", "观音": "观音菩萨", "观世音": "观音菩萨", "如来": "如来佛祖", "玉帝": "玉皇大帝", "玉皇": "玉皇大帝", "牛魔王": "牛魔王", "牛魔王": "牛魔王", "铁扇公主": "铁扇公主", "罗刹女": "铁扇公主" } # 扩充停用词:标点、虚词、副词、单字、方位词、语气词 stopwords = { "的", "了", "就", "便", "又", "也", "都", "只", "才", "已", "在", "与", "及", "从", "被", "叫", "来", "去", "这", "那", "何", "此", "每", "个", "处", "边", "内", "中", "前", "后", "上", "下", ",", "。", "、", ":", ";", "?", "!", "“", "”", "‘", "’", "(", ")", "《", "》", "一日", "只见", "不知", "遂", "即", "忽", "俱", "皆", "未曾", "可以", "如何", "这般", "那般", "道", "说", "看", "问", "闻", "听", "开", "入", "出", "行", "有", "无", "是", "非" } # 读取西游记文本文件 with open("西游记.txt", "r", encoding="utf-8") as f: content = f.read() # 分词 raw_words = jieba.lcut(content) processed = [] for word in raw_words: if word in alias_dict: processed.append(alias_dict[word]) else: processed.append(word) # 过滤:长度大于1,不在停用词内 filter_words = [w for w in processed if len(w) > 1 and w not in stopwords] # 统计词频,取出前20 word_count = Counter(filter_words) top_20 = word_count.most_common(20) print("频次最高的前20个词汇:") for idx, (name, count) in enumerate(top_20, 1): print(f"{idx}. {name}:{count} 次")

http://www.jsqmd.com/news/1049279/

相关文章:

  • DeepSeek-V4原生稀疏注意力:CSA/HCA内核与TileLang实现解析
  • 2026年深圳家装白皮书:五家装修公司实力排名及避坑指南 - 速递信息
  • 纠结!长寿CPA考生择校优先AI智能匹配推荐学习方案 - 秋山寄远
  • 最新发布:安徽理工技师学院怎么报名?有哪些专业?——2026淮南初三家长必看 - 我叫小周
  • Delta-1A激光雷达+Autolabor Pro1小车的ROS SLAM建图与导航全套C++工程(含gmapping/cartographer双方案及IMU融合定位)
  • 烟台翻译盖章2026最新办理流程 - 速递信息
  • 车辆底盘合格证丢失怎么登报?2026最新办理流程 - 速递信息
  • 二手商家定制手办二手交易平台哪家靠谱?智能撮合匹配买卖双方需 - 云溪自乐
  • 2026福州拒绝流动回收商贩,五家实体名表回收门店附地址 - 讯息早知道
  • 高效实用的iwck键盘鼠标防误触工具完整使用指南
  • 2026在西安过时、破损、闲置首饰全都收,不用配件也能给出合理价格 - 讯息早知道
  • 如何彻底解决Visual C++运行库缺失问题:3步终极修复指南
  • GPT-4.1不存在:揭穿版本幻觉,聚焦真实能力演进路径
  • 如何让经典老游戏在现代Windows上流畅运行?DDrawCompat完整使用指南
  • 2026天津高考排名2000适配指南:985人工智能专业适配性深度解析——中南大学人工智能领域场景化介绍 - 万事通达
  • pytest自动化测试实战:从零搭建可维护的Python测试框架
  • FastAPI项目测试覆盖率实战:pytest-cov配置与高覆盖测试编写指南
  • LyricsX:为macOS音乐爱好者打造的智能桌面歌词解决方案
  • 激动!资深藏家定制全球手办交易平台,全球渠道货源种类齐全 - 晴光转树
  • 2026苏州定制高定推荐榜:工艺面料价格全知晓 - 生活测评君
  • Selenium自动化测试的AR增强实践:可视化调试与智能辅助
  • 加解密算法实战指南:从核心原理到工程实践
  • 2026郑州黄金回收优选线路:按行政区划推荐,每家门店均支持远程看金价再出门 - 商业快讯早知道
  • 开柴油皮卡的终于找到了对口粮:戴文CH-4柴油机油实测不拉胯 - 技术实力派
  • 2026 亳州|中考二三百分想学护理 3+2,2026 招生简章更新,咨询号码多少 - 我叫小周
  • DeepSeek模型版本演进与技术命名规范解析
  • FastAPI项目测试覆盖率精准配置:pytest-cov与.coveragerc实战指南
  • 2026年6月劳力士官方售后维修服务中心|全国官方统一咨询电话,各门店详细地址查询 - 速递信息
  • AI智能体平台命令注入漏洞深度剖析:从原理到防御实战
  • Claude Sonnet 4.6深度解析:百万上下文与操作系统级Computer Use