当前位置: 首页 > news >正文

首批!景联文入选杭州语料库高质量数据集建设先行先试清单

|首批高质量数据集建设先行先试清单的发布,不仅是官方对数据价值的认证,更是景联文科技从数据服务商迈向“AI数据基础设施”的关键一步。

近日,在浙江省数据局指导下,杭州市数据资源管理局联合杭州市数据集团等单位,通过“揭榜挂帅”机制,正式发布首批50个杭州语料库高质量数据集建设先行先试清单。景联文《教育大模型英文知识数据集》成功入选,成为教育教学领域代表性高质量数据产品,标志着公司在教育垂直领域的数据服务能力获得了官方与市场的双重认可

5637万道结构化英文试题,打造教育大模型“黄金语料”

本次入选的《教育大模型英文知识数据集》,是景联文科技历时一年自主研发的行业专用类高质量数据资产。数据集总量超5760万道英文试题,其中:

  • K12英文试题5637万道,覆盖商业、计算机、教育等20+学科,76%配备详细解析;
  • 大学英文试题9.7万道,涵盖英语、数学、生物等19门核心课程,每题均含专业解析;
  • 多模态试题150万道,图像规格不低于768×1024像素,支持图文理解与跨模态训练;
  • 指令微调数据达5637万条提示问答对,重复率<0.05%,专为大模型对齐优化设计。

所有数据采用JSONL结构化格式,字段完整覆盖学科、考点、题型、学段、年级、难度、题干、选项、答案、解析及媒体资源,严格遵循《2025高质量数据集实践指南(1.0)》标准,题目完整度≥95%,答案准确率≥95%。

接入杭州语料库,推动教育数据要素市场化流通

根据杭州市数据资源局政策,首批高质量数据集将通过数据产权确认,接入杭州语料库,面向社会提供创新性、示范性数据服务。此次入选,不仅验证了景联文数据产品的技术领先性,更打通了从“数据资源”到“数据资产”再到“数据产品”的转化路径。

景联文构建了“采集-清洗-标注-质检-迭代”全生命周期治理体系,自研AI治理平台支撑百万级数据日处理能力,已为教育科技公司、出版集团及大模型研发机构提供专项数据服务,助力智能教育生态高质量发展。

景联文也明确了下一步方向:持续提升数据质量至更高标准。并计划向STEM、前沿科技等更高价值学科拓展,构建包含音视频的多模态3.0版本题库,以适配教育大模型更复杂的交互需求。让AI真正赋能因材施教,促进教育公平与质量提升。

http://www.jsqmd.com/news/105236/

相关文章:

  • ESP32-S3多SPI设备完美共存:TFT屏幕与SD卡零冲突配置实战
  • ffmpeg-python智能视频质量优化实战指南
  • 泛微.采知连知识管理平台深度应用DeepSeek,自动采集数据,让问答更安全·准确
  • 外汇Tick数据免费下载:开发者必备指南
  • 企业级容器安全防线构建:Docker Scout集成测试的7个核心技巧
  • 【量子模拟器扩展的VSCode性能优化】:揭秘提升开发效率的5大核心技术
  • 实施CRM系统前,中小企业需要做好哪些内部准备以确保成功?
  • LobeChat入门教程:打造你的私有AI聊天助手
  • 12、Linux网络配置与安全优化指南
  • VSCode中Qiskit代码补全失效?5步精准排查并彻底解决
  • ONNX模型下载终极指南:5种场景化解决方案让你告别龟速下载
  • 3步彻底优化风扇控制:滞后效应深度调校指南
  • Mermaid实战指南:10个场景教你用代码绘制专业图表
  • folium桌面应用深度实战:从网页到独立可执行程序的完整转型方案
  • 3大核心技巧:YOLO11在Docker环境下的RTSP流延迟优化实战
  • 别再问资质认证怎么查了!看这家公司如何用“大模型搜索”帮客户7天拿下高新认证
  • 爱创猫靠谱吗?省钱实测报告:无套路功能真的香
  • 【Agent异常无从下手?】:基于Docker日志的7种典型故障模式解析
  • 52、网络故障排除、参考资料及术语详解
  • Nginx访问限制实验
  • Cap录屏工具完整指南:从零开始掌握开源屏幕录制
  • vue基于Spring Boot框架的技术的课程试卷信息信息管理系统_h83gkh9v
  • 7、量子计算的根源探索
  • ABC+PSO混合算法在机器人路径规划中的应用
  • 为什么你的量子模型总出错?VSCode调试面板告诉你真相
  • 车载网关前装和后装专业区别及精选产品
  • 2025年漆包机厂商排行榜,新测评精选漆包机专业供应商推荐 - mypinpai
  • 阿里云OSS文件上传案例
  • 8、量子计算与技术发展:从理论根源到实际应用
  • 10、日志记录与事件处理:Linux 系统的高效解决方案