当前位置: 首页 > news >正文

【专辑】AI大模型应用开发入门-拥抱Hugging Face与Transformers生态 - 使用datasets库加载Huggingface数据集

大家好,我是java1234_小锋老师,最近更新《AI大模型应用开发入门-拥抱Hugging Face与Transformers生态》专辑,感谢大家支持。

本课程主要介绍和讲解Hugging Face和Transformers,包括加载预训练模型,自定义数据集,模型推理,模型微调,模型性能评估等。是AI大模型应用开发的入门必备知识。

使用datasets库加载Huggingface数据集

Huggingface以及魔塔社区提供了很多数据集,我们可以使用这些数据集来训练和微调模型。

我们首先要安装下datasets库。

pip install datasets -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com

IMDb 数据集包含电影评论和相应的情感标签(正面或负面)。这个数据集非常适合情感分析和舆情分析的任务。

https://huggingface.co/datasets/stanfordnlp/imdb

我们用里面的测试集和训练集文件。

Parquet是一种‌列式存储文件格式‌,专为高效存储和处理大规模数据设计,广泛应用于大数据生态系统(如Spark、Hadoop)。其核心特点包括:

1‌,高效压缩‌:通过列式存储实现高压缩比(如Snappy、Gzip编码),显著减少磁盘空间占用。‌‌‌

2,查询优化‌:支持映射下推(仅读取所需列)和谓词下推(过滤无效数据),提升查询性能。‌‌ ‌3,嵌套数据支持‌:原生处理复杂嵌套结构(如JSON、Map),无需扁平化存储。‌‌

我们可以通过datasets库的load_dataset()方法来加载数据集。

测试代码:

from datasets import load_dataset ​ # 加载 IMDb 数据集 dataset = load_dataset(path="./imdb") ​ train = dataset['train'] # 获取训练集 test = dataset['test'] # 获取测试集 print(train, type(train)) print(train[0], type(train[0])) # 每个元素是一个字典 print(train[0]['label'], train[0]['text']) print(test, type(test)) ​ # 遍历数据集 for i in train: print(i)

运行输出:

微博评论csv下载

https://www.modelscope.cn/datasets/Sunnyshan/weibo_sentiment

csv文件的数据集获取代码:

from datasets import load_dataset ​ # 加载微博数据集 dataset = load_dataset(path="csv", data_files="./weibo_senti_100k.csv") ​ # 获取数据集 train = dataset['train'] ​ for i in train: print(i)

运行输出:

http://www.jsqmd.com/news/275888/

相关文章:

  • 【专辑】AI大模型应用开发入门-拥抱Hugging Face与Transformers生态 - 基于BERT文本分类模型微调
  • 液体冷却工作原理、系统组件及其仿真分析
  • JVM学习感悟笔记
  • Glyph语音转写可视化:声谱图推理部署实战
  • Z-Image-Turbo权限管理:限制访问保障模型安全使用
  • 电子信息毕设 stm32智能鱼缸监控投喂系统(源码+硬件+论文)
  • 第十五章 KUKA机器人与S7-1200进行Profinet通讯
  • godot引擎基础学习笔记9(C#)
  • 专为细菌吞噬研究设计的智能荧光工具
  • GPEN输出文件命名规则?自定义保存路径实战说明
  • OCR未来方向:cv_resnet18_ocr-detection支持动态输入尺寸
  • Java Web 人口老龄化社区服务与管理平台系统源码-SpringBoot2+Vue3+MyBatis-Plus+MySQL8.0【含文档】
  • Java SpringBoot+Vue3+MyBatis 宠物领养系统系统源码|前后端分离+MySQL数据库
  • HeartMuLa - 用AI创作歌曲 输入歌词即可创作音乐 支持50系显卡 一键整合包下载
  • 基于SpringBoot+Vue的华强北商城二手手机管理系统管理系统设计与实现【Java+MySQL+MyBatis完整源码】
  • 性价比高的半自动穿管机企业
  • 三轴MEMS加速度计感知万物运动,精准赋能无限可能
  • 动态住宅IP是什么呢?都有什么用途?
  • 基于SpringBoot+Vue的夕阳红公寓管理系统管理系统设计与实现【Java+MySQL+MyBatis完整源码】
  • 4款免费低代码工具推荐:中小企业数字化转型的零成本解决方案
  • 2026年 GIS工具精选:从专业级到轻量化的5款实用软件
  • 从初级测试工程师进阶中级测试岗,一篇避开弯路...
  • GPEN判别器训练技巧?学习率与epoch数调参经验分享
  • 基于PLC的六部十层电梯控制系统设计
  • GPT-OSS与RAG结合:知识库问答系统搭建案例
  • Go语言对接天远车辆二要素核验API接口调用代码流程、接入方法以及应用场景
  • Java Web 在线家具商城设计与实现系统源码-SpringBoot2+Vue3+MyBatis-Plus+MySQL8.0【含文档】
  • 德风新征程冲刺港股:9个月营收2.75亿亏1亿 创新工场与招商局创新是股东
  • GPEN批量处理失败图片保留原图机制说明
  • 大模型训练学习方法详解:从有监督到强化学习,一篇全掌握(建议收藏)