当前位置: 首页 > news >正文

102302110_高悦_综合实践个人总结报告

一、食材、菜谱数据库整理

在组员爬取的生鲜商品信息和菜谱数据存在字段冗余、数值缺失、内容重复等问题,无法直接用于我们的项目。因此,我主要负责对这些原始数据进行系统化整理与清洗。
具体工作包括:

1.字段规范化处理

对不同来源的数据字段进行统一命名,例如保留商品名关键字,去除多余的修饰词,使我们页面上的品名更加直观。

2.数据去重与筛选

针对重复爬取的生鲜商品和菜谱信息,利用主键字段和内容比对方式进行去重,保留信息完整、质量较高的数据记录,提高数据库整体可靠性。

3.缺失值与异常值处理

对价格、简介等缺失的的数据进行补充或删除。

4.数据格式统一

将不同格式的数据统一为项目所需的数据库格式,为后续页面展示、查询和功能实现打下基础。

清洗前

image

清洗后

image

通过以上整理与清洗工作,使原本杂乱的原始数据转变为可直接使用的数据库。

二、页面前端逻辑调整与优化

我调整了首页“水果”部分的展示逻辑,将前面的图片换成了拥有菜谱的食材。

image

三、综合实践报告的撰写与整合

最后,我承担了综合实践报告的撰写与整合工作。对项目过程进行整体的复盘和总结,也对技术路线、分工情况和成果进行系统梳理。

四、心得体会

在数据清洗中,我更深刻认识到数据清洗在实际项目中的重要性。在实际爬虫的过程中,可能由于页面反爬、具体字段匹配有差错等种种问题,导致爬取下来的原始数据无法直接为数据库所用,这是就需要对数据进行清洗和处理。一开始我用了pandas库对里面的数据进行提炼,但是发现提取关键词的功能很鸡肋,总是还有特别多冗余的信息,于是我再多次清洗以后再自己检查补全了。
能和大家一起完成这样一个项目,非常感谢同组大家的付出,不厌其烦地帮助我解决一些我工作上出现的问题,我也学习到了更多的前后端、数据库、数据采集等等方面的知识。

http://www.jsqmd.com/news/125430/

相关文章:

  • Java 将 PowerPoint 转换为 HTML:实现跨平台展示与Web集成
  • Windows Defender永久禁用:系统优化终极解决方案
  • SMC磁耦合式无杆缸清洁
  • 如何通过ERP系统提升服装公司的管理效率?
  • I2S硬件连接:入门必看的引脚分配说明
  • Hotkey Detective终极指南:3步解决Windows热键冲突难题
  • Java代码
  • 使用 Git LFS 管理大文件
  • 从零实现UDS 28服务安全访问请求响应
  • 2025写文盘点:为了不被日更逼疯,我亲测了10款主流【ai写小说】工具
  • 基于java的SpringBoot/SSM+Vue+uniapp的新能源汽车服务系统的详细设计和实现(源码+lw+部署文档+讲解等)
  • 使用NPN三极管构建蜂鸣器电路手把手教程
  • 工业报警系统设计:蜂鸣器选型完整指南
  • 应用——MPlayer 媒体播放器系统代码详解
  • 终极Windows快捷键占用检测工具 | 一键排查热键冲突解决方案
  • STM32F1系列实现I2C HID从机操作指南
  • PLC 编程的工业用途:为什么现代工厂离不开它?
  • AI学习:什么是MCP,写第一个MCP
  • 【Mol Plant综述精读】植物中的染色质重塑:复合物组成、机制多样性及生物学功能
  • java学习--Math 类常用方法
  • 新人写文必看:如何用【ai生成小说】搞定日更?这篇万字实操干货告诉你
  • PostgreSQL 18 从新手到大师:实战指南 - 1.1 PostgreSQL 18简介
  • 2025年值得尝试的AI论文写作工具,支持LaTeX编辑与自动格式修正
  • 使用树莓派打造语音控制家居的超详细版教程
  • MECE法则,分析问题方法
  • 2025年10款AI论文辅助软件,提供LaTeX模板与精准格式校验功能
  • TensorFlow/Keras模型搭建、训练与保存超详细教程(2025实战版)
  • AI编程工具推荐:根据你的合作模式,寻找最佳“AI伙伴”
  • 适用于嵌入式设备的轻量级framebuffer驱动设计
  • 稳定性进程监控工具