当前位置: 首页 > news >正文

途知抖音多模态数据采集与AI融合解析

途知·抖音多模态数据采集与AI融合解析
- 要求:
在抖音上搜索指定的旅游景点,抓取相关视频的评论,利用 AI 总结这些评论,最后结合本地的景点元数据,生成一份包含景点详情和用户真实评价的 CSV 报告。
• Gitee文件夹链接:
https://gitee.com/sui123feng/20251015/tree/master/实践大作业
1. 系统库导入
playwright: 一个强大的浏览器自动化工具,用于模拟真实用户操作(打开网页、点击、滚动、抓取数据)。这里用来处理抖音这种动态加载极多的网站。
pandas: 用于数据处理,读取输入的 fuzhou.csv 和保存输出的 CSV 文件。
openai: 这里虽然库名叫 openai,但实际配置的是 DeepSeek (阿里千问) 的 API,用于调用大模型进行文本分析。
图片

2.数据读取模块
编码兼容:尝试 utf-8, gbk, utf_8_sig 三种编码格式,防止因为文件编码问题导致读取失败
字段统一:如果 CSV 里有 prirating 字段,会自动重命名为 rating,保证后续处理的一致性。
3. AI 分析模块
输入:一长串从抖音抓取的原始评论字符串。
处理:
构建了一个详细的 Prompt (提示词),指示 AI 扮演“旅游信息分析师”。
要求 AI 执行三个步骤:清洗数据(去噪)、提取干货(体验、避雷、建议)、总结输出。
调用:使用 client.chat.completions.create 异步调用 DeepSeek 模型。
输出:一段精炼的景点描述/评价总结。

图片

4. 评论抓取模块

获取标题:尝试获取视频描述作为标题,如果失败则获取网页标题。
滚动加载:抖音的评论是懒加载的(滚动到底部才加载更多)。代码使用 page.mouse.wheel 模拟鼠标滚轮向下滚动。
去噪逻辑:定义了 NOISE_KEYWORDS(如“回复”、“分享”、“作者”等),过滤掉无效的互动信息,只保留有实质内容的评论。
去重:防止抓取到重复的评论。

图片

5. 单个景点处理流程
匹配元数据:先在 fuzhou.csv 里查找当前景点的信息(如地址、票价),填入结果字典。
搜索景点:控制浏览器跳转到抖音搜索页 https://www.douyin.com/search/{keyword}。
提取视频链接:等待搜索结果加载。
人工验证处理:代码中包含了一个检测机制,如果搜索结果没加载出来(通常是因为触发了滑块验证码),它会暂停并提示你在控制台按回车,给你时间手动去浏览器里滑滑块。
点击视频卡片,获取视频详情页的 URL。
抓取评论:遍历提取到的视频 URL,调用 scrape_comments_and_title 抓取评论。
AI 总结:将所有评论合并,调用 AI 进行总结,填入 description 字段。

图片

- ppt制作:

图片

“途知·智能旅行助手”项目旨在解决用户从社交媒体“种草”到实际出行规划之间的鸿沟。项目核心是一个基于LLM(大语言模型)和RAG(检索增强生成)的Web应用,主要面向大学生及年轻职场人群,通过智能解析用户粘贴的社交媒体链接(如小红书、抖音)或自然语言输入,自动提取POI(兴趣点)信息,并集成高德/飞猪API获取实时交通数据,结合TSP(旅行商问题)算法与AIAgent生成最优路线。文档详细阐述了项目的NABCD模型(需求、方法、好处、竞争、推广),并对标携程等竞品进行了差异化分析,明确了前端(React)和后端(集成爬虫、AI Agent、华为OpenGauss数据库)的功能模块。此外,文档还包含了采用Figma工具设计的界面原型、UML(用例图、活动图、类图)以及详细的数据库ER图与表结构设计,为项目的技术实现提供了全面的蓝图。

http://www.jsqmd.com/news/116277/

相关文章:

  • AI教师上岗记:Linly-Talker在K12教育中的实际效果测评
  • 人生的机会,从来不在计划之中?(说说我在百度的故事...)
  • 海南自由贸易港全岛封关首日,西门子能源在海南启动建设燃机总装基地及服务中心 | 美通社头条
  • Linly-Talker音频频谱可视化:调试语音合成质量的利器
  • 复星与比亚迪达成全球战略合作,引领“出行+度假“新生态
  • cesium126,230816,Ce for Ue 加载服务器上的地图(GeoServerWMS):
  • 用Linly-Talker生成旅游景点解说视频?文旅宣传新手段
  • Linly-Talker如何应对长文本输入?分段处理策略解析
  • Linly-Talker音频响度标准化,符合广电播出规范
  • 万字长文!关于AI绘图,一篇超详细的总结发布
  • 【博士论文复现】【阻抗建模、验证扫频法】光伏并网逆变器扫频与稳定性分析(包含锁相环电流环)(Simulink仿真实现)
  • Linly-Talker支持模型加密传输,防止中间人攻击
  • Linly-Talker如何保证语音时序对齐?CTC损失函数应用解析
  • Linly-Talker支持CUDA核心监控,实时掌握GPU利用率
  • 用Linly-Talker生成天气预报视频?气象服务智能化尝试
  • TOSA ROSA
  • 一次优化sql的实践
  • 一次优化sql的实践
  • 数字人直播带货合规提醒:必须标明AI身份
  • 用Linly-Talker生成律师咨询视频?法律科技新动向
  • Linly-Talker支持多实例并行,服务器资源最大化利用
  • QSFP、SFP、CFPx
  • BUUCTF-[ZJCTF 2019]NiZhuanSiWei
  • Electerm(桌面终端模拟软件)
  • 用Linly-Talker生成法律条款解读视频?普法教育新形式
  • 数字人会议主持:Linly-Talker在远程会议中的创新应用
  • 文本编辑器CudaText
  • AB Download Manager 下载管理器
  • Linly-Talker支持混合精度训练,降低显存消耗
  • Linly-Talker语音抗延迟设计:网络波动下的稳定表现