当前位置: 首页 > news >正文

2025_NIPS_Sheetpedia: A 300K-Spreadsheet Corpus for Spreadsheet Intelligence and LLM Fine-Tuning

文章主要内容与创新点总结

一、主要内容

  1. 数据集构建:提出Sheetpedia,一个包含超29万张独特工作表(源自32.4万+工作簿)的大规模电子表格语料库。数据来源涵盖企业邮件档案(Enron数据集)、网络语料库(Fuse数据集)及Excel论坛爬取内容,经格式标准化、语言过滤(78%+为英文内容)、去重(剔除48%近重复项)等严格预处理流程,确保数据质量与多样性,覆盖金融模型、库存清单、学术数据等多个领域。
  2. 任务定义:设计两个新型电子表格理解任务——自然语言到语义范围(NL2SR)和自然语言到公式(NL2Formula)。前者需将自然语言查询映射到电子表格中正确的单元格范围,后者要求根据自然语言描述生成有效的Excel公式,模拟实际使用场景中的数据查询与计算需求。
  3. 数据生成与模型微调:采用拒绝采样策略生成高质量训练数据,通过LLM生成候选内容后,由专用判断模型筛选有效样本;基于Sheetpedia对主流大语言模型进行微调,对比LoRA微调与全参数微调效果,并设置零样本、少样本基线模型进行性能评估。
  4. 实验结果:微调后的模型在NL2SR任务中准确率高达97.5%,在NL2Formula任务中准确率达71.7%,显著优于GPT-4o等基线模型,验证了领域专用语料库对提升任务性能的关键作用。

二、创新点

  1. 大规模高质量语料库填补空白:Sheetp
http://www.jsqmd.com/news/669109/

相关文章:

  • SAP HCM SCHEMA-001 AMT=*与FILLF功能
  • YOLO12农业AI应用:田间作物病害识别与农机导航目标检测案例
  • 沉默的数据,喧嚣的资本:AI估值泡沫与价值回归的必然逻辑
  • 如何快速上手Ultralytics YOLO:计算机视觉开发的终极指南
  • java之网络编程
  • 算法---滑动窗口
  • 基于OpenClaw的Alibaba Cloud Linux 3自动化部署YashanDB深度方案
  • 2025_NIPS_InterMT: Multi-Turn Interleaved Preference Alignment with Human Feedback
  • Data Matrix (ECC200) 选型指南:对比libdmtx、ZXing和huBarcode,你的项目该用哪个开源库?
  • Phi-4-Reasoning-Vision开源大模型部署教程:双卡4090免配置镜像实战
  • 前端可视化构建
  • CSS如何快速实现提示框效果_利用Sass @mixin编写Tooltip
  • WordPress 自定义查询分页失效的完整解决方案
  • STM32标准库开发步骤速览,适用于电赛入门学习
  • ofa_image-caption新手友好设计:明确标注‘仅英文输出’降低用户认知负荷
  • 滴水逆向 Day05:函数嵌套调用的内存布局(图文版)
  • Elasticsearch 多标签高亮配置:多关键词不同颜色高亮完整实战
  • 告别截图!用mutool draw命令把PDF批量转成高清PNG图片(附Python脚本)
  • Verilog实战:用SystemVerilog验证你的跨时钟域(CDC)设计是否可靠
  • 智慧金融——解读DeepSeek金融审计应用场景1000问【附全文阅读】
  • 别再买错USB转串口模块了!手把手教你读懂CH340G芯片引脚与典型电路
  • intv_ai_mk11实战教程:用intv_ai_mk11构建内部知识库问答前端原型
  • 告别二维码!用NXP NTA5332 NFC标签,5分钟打造你的智能家居自动化触发器
  • 备案后别忘了这件事!手把手教你为已备案域名配置HTTPS(阿里云SSL证书+Tomcat)
  • 今天爬山去了 , 所以就刷了一道力扣
  • 用于 VoIP 隐写分析的校准感知跨视图注意力网络
  • Windows 安装云崽
  • org.openpnp.vision.pipeline.stages.Normalize
  • 锁相环调频系统避坑指南:VCO中心频率不稳、环路失锁怎么办?
  • Elasticsearch 磁盘水位阈值设置:最合理配置 + 生产实战