当前位置: 首页 > news >正文

5.3小记1

现在已经爬取了猫途鹰上九寨沟风景区和澳门所有评论数量大于两百的景点的评论了,筛选条件是总评论数量大于两百,爬取数据是中文简体内容,所以数量实际并不多。而且九寨沟景区的景点并不仅仅有九寨沟风景区,这只是一个总的,其下还包括30多个景点,如果需要使用猫途鹰上的评论数据还需要进行爬取补充。

猫途鹰数据初步计划放弃使用,原因在于八爪鱼无法爬取评分,而且评论时间集中于18年之前,对目前的研究价值可能不是很大。

现在正在爬取携程上澳门景点评论数量大于两百的景点评论,和九寨沟36个景点的评论信息(九寨沟景点评论数量不做要求)。目前计划,全部使用携程的评论进行下一步的研究。等八爪鱼爬完,就对数据进行清洗,初步的清洗计划是删掉空格和换行,删除重复评论,表情符号。但是实际上有些评论会使用很多个符号,有些无意义的评论,陈述性评论等等。清洗过后就开始进行情感标注,计划标注1000个。从九寨沟和澳门数据集中按比例抽取,计划对2025年全年的数据进行预测,所以使用2025年之前的数据进行标注和训练模型。

http://www.jsqmd.com/news/747910/

相关文章:

  • 【RT-DETR涨点改进】TGRS 2026 |独家创新首发、特征融合改进篇| 引入HEWL小波特征融合模块,通道-空间-频域交互联合高频增强,助力红外小目标检测,多模态目标检测有效涨点
  • 孤舟笔记 并发篇三十 CompletableFuture到底是个啥?为什么说它是异步编程的王者
  • 嵌入式多任务状态机设计与优化实践
  • 终极指南:APK Installer在Windows平台的高效安卓应用部署方案
  • 如何永久保存微信聊天记录:WeChatMsg完整备份与数据自主管理终极指南
  • 推理服务为什么一接函数调用就开始拖慢吞吐:从 Tool Choice 约束到 Mixed Decode 调度的工程实战
  • 写一个日志!自述
  • 通过Python快速编写第一个调用Taotoken多模型聊天补全的程序
  • TDD + DDD 双剑合璧:我是如何用测试驱动出清晰领域模型的
  • 长时运行智能体的5种设计模式
  • 深度算子网络在流体力学预测中的应用与优化
  • CyberpunkSaveEditor:5个关键技术点揭秘《赛博朋克2077》存档编辑的终极解决方案
  • KeymouseGo开源自动化终极指南:10个技巧实现鼠标键盘高效录制
  • Cursor Free VIP终极指南:如何永久免费使用AI编程助手的完整教程
  • Claude Code 浏览器自动化插件 Browserbase Skills 完整上手指南。
  • 从课后题到实战:手把手教你用Docker和Kubernetes搭建自己的第一个私有云环境
  • 用PyTorch和ResNet-18复现FCN语义分割:从预训练模型到像素级预测的完整流程
  • 多核处理器内存分区技术解析与工程实践
  • xFasterTransformer:英特尔CPU大模型推理加速实战指南
  • RK3568之输入子系统
  • 从失败到 87.5%:OpenClaw 的任务进化
  • GraphRAG与Dify集成实战:构建基于知识图谱的智能问答应用
  • 【RT-DETR涨点改进】TGRS 2026 |独家创新首发、下采样涨点改进篇| 引入MWHL最大池化-小波下采样,同时融合最大池化与小波变换的优势,助力红外小目标检测,遥感目标检测有效涨点
  • 2026年值得关注!AI大模型接口代理网站推荐,满足不同场景需求
  • 软件行业TOP6 GEO优化公司2026:对比+评测,推荐避坑指南 - GEO优化
  • 爬虫进阶必修课:从正则表达式到re.sub实战,手把手教你打造智能文本清洗引擎
  • ChatGPT Shell CLI:零依赖终端AI助手,无缝集成命令行工作流
  • OpenClaw授权防火墙:从原理到实践,构建Web3代币授权主动防御体系
  • 基于Dify AI工作流构建智能文档系统:实现文档自动化更新与维护
  • 多智能体协同推荐系统RecGPT-V2架构解析与实践