当前位置: 首页 > news >正文

带你快速入门HuggingFace!

1 Hugging Face是什么?

如果你正在学习机器学习、大模型相关的内容,那么Hugging Face是你一定不要错过的社区。其实Hugging Face和Github挺相似的,相当于是机器学习界的github。

Hugging Face一开始只是一家纽约的聊天机器人服务商,本来是打算启动做聊天机器人的,在github上开源了Transformer库,结果有心栽花花不成,无心栽柳柳成荫,聊天机器人没做出个眉目,倒是transformer库在社区里迅速火爆起来。

下面我们来了解一下Hugging Face主要提供的服务。

2 预训练模型

Hugging Face提供了大量的预训练模型,帮助到哪怕是小白也可以快速上手大佬们训练出来的模型。

一开始主要涉及到的领域主要是NLP领域相关的任务,比如文本分类、情感分析、对话问答以及命名实体识别等等。

目前平台已经进一步壮大,只要你能想得到的厉害的模型,在上面基本上都可以找到。

Hugging Face大量的预训练模型使得业界的研究者们不用再去重复造轮子,可以更加关注自己的问题,模型的开源反过来进一步推动了平台的发展。

在Hugging Face上,Transformer库是其中最核心的项目,Transformer库提供了十分简洁的API接口,使得模型加载、使用和训练变得非常简单。

2.1 Transformer的安装

它的安装非常简单,我们在自己的虚拟环境中直接安装即可:

pip install transformers

2.2 使用Transformer库

假设我们的任务比较简单,一般可以直接调用API就可以完成。 比如实现一个翻译任务:

from transformers import pipeline en_fr_translator = pipeline("translation_en_to_fr") print(en_fr_translator("How old are you?"))

将以上代码执行,将会得到翻译:

[{'translation_text': ' quel âge êtes-vous?'}]

或者实现文本分类任务:

from transformers import pipeline classifier = pipeline("sentiment-analysis") result = classifier("I love using HuggingFace transformers!") print(result)

最终我们会得到结果:

[{'label': 'POSITIVE', 'score': 0.9998}]

表明这是一句积极的话。

或者实现文本生成的任务:

from transformers import pipeline generator = pipeline("text-generation", model="gpt2") result = generator("Once upon a time,") print(result[0]['generated_text'])

看的出来,其实还是有些在自说自话。

除了Transformer之外,我们也可以使用其他的模型,比如BERT:

from transformers import pipeline unmasker = pipeline('fill-mask', model='bert-base-chinese') unmasker("中国的首都是[MASK].")

运行结果:

因此说白了Hugging Face其实就是将一堆牛叉的模型库封装好,然后给你提供一份特定的使用说明书,你直接去用就行了,比如gpt、kimi、Qwen这些大模型我们没有必要去写代码,也没有必要去重新训练(也不是你我能训练得了的),直接按照说明书直接用就ok。

详细使用方法:

https://huggingface.co/docs/transformers/v4.21.0/en/main_classes/pipelines

我们通过实际的界面来看:

比如在以上Hugging face的界面给出了一堆大模型,就拿deepseek-ai/DeepSeek-OCR-2来说吧,我们点击去看:

好家伙,27W下载。

下面给出了环境配置和具体使用代码:

以上代码是使用了DeepSeek-OCR-2模型进行OCR(光学字符识别)任务,并将结果转换为markdown格式。

因此想体验哪个大模型,代码都不用你写了,别人都给你写好了。

3 数据集

Hugging Face提供了大量的数据集,包括音视频、计算机视觉、自然语言处理领域的任务。

首先需要安装好Datasets库,也是一行命令搞定:

pip install datasets

我们来看看数据集的界面:

总共81万个数据集。

3.1 数据集概览

一般在下载数据集之前,我们需要检查一下数据集信息,比如Rotten Tomatoes 电影评论数据集:

from datasets import load_dataset_builder ds_builder = load_dataset_builder("cornell-movie-review-data/rotten_tomatoes") ds_builder.info.description ds_builder.info.features

最终得到数据集的关键信息:

Rotten Tomatoes movie review dataset for binary sentiment classification...

  • 任务:二元情感分类(positive/negative)

  • 规模:10,662条评论(5,331条正面 + 5,331条负面)

  • 来源:Rotten Tomatoes 电影评论

  • 用途:常用于情感分析基准测试

3.2 数据集加载

此时我们对数据集满意的话,就可以使用load_dataset()加载它。

from datasets import load_dataset dataset = load_dataset("cornell-movie-review-data/rotten_tomatoes", split="train")

3.3 数据集划分

使用函数 get_dataset_split_names() 可以列出数据集的分划名称。

from datasets import get_dataset_split_names get_dataset_split_names("cornell-movie-review-data/rotten_tomatoes")

最终结果为['train', 'validation', 'test']

我们也可以只操作Train:

from datasets import load_dataset dataset = load_dataset("cornell-movie-review-data/rotten_tomatoes", split="train")

得到结果:

Dataset({ features: ['text', 'label'], num_rows: 8530 })

返回所有:

from datasets import load_dataset dataset = load_dataset("cornell-movie-review-data/rotten_tomatoes")

得到结果:

DatasetDict({ train: Dataset({ features: ['text', 'label'], num_rows: 8530 }) validation: Dataset({ features: ['text', 'label'], num_rows: 1066 }) test: Dataset({ features: ['text', 'label'], num_rows: 1066 }) })

详细使用方法参考中文网站:

https://hugging-face.cn/docs/datasets/index

除此之外,Hugging Face还提供了Doc界面,包括一些参考文档,以及社区文章,类似于大家发发朋友圈:

一篇文章可能没有办法详细的说明Hugging Face的使用说明,但是作为快速入门,使用Model设Datasets已经够了,剩下的大家可以多多探索哦,用的越多越熟悉。

Hugging Face作为目前机器学习领域最大的开源平台,大家没事多逛逛,还是很有好处的。

欢迎大家关注我的gzh:阿龙AI日记

http://www.jsqmd.com/news/347675/

相关文章:

  • 2026年作业指导书看板厂家最新推荐:SOP生产看板、SOP电子作业系统、SOP电子显示系统、SOP看板系统、智能静电监控选择指南 - 优质品牌商家
  • 卫星制造商York Space Systems纽交所上市:市值33亿美元 已较发行价跌22%
  • ONLYOFFICE 自动化工具:宏和 AI 函数如何选择?
  • 小巧关机工具,倒计时定时关机一键操作
  • 【课程设计/毕业设计】Flask基于CS架构的医院财务管理系统基于python+CS架构的医院财务管理系统【附源码、数据库、万字文档】
  • 安卓喝水提醒工具,设定量定时提醒超贴心
  • 计算机Python毕设实战-Python+Flask基于CS架构的医院财务管理系统基于python+CS架构的医院财务管理系统【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • 【教程4>第10章>第5节】基于FPGA的图像直方图均衡化算法——理论分析与matlab仿真
  • 【课程设计/毕业设计】基于springboot积分制零食自选销售平台springboot基于B_S架构的积分制零食自选平台【附源码、数据库、万字文档】
  • 安卓透明屏幕工具,无广告免费镜子壁纸
  • Python毕设选题推荐:Python Flask基于CS架构的医院财务管理系统基于python+CS架构的医院财务管理系统【附源码、mysql、文档、调试+代码讲解+全bao等】
  • 什么是Java 的“显式哲学”?
  • 最强因果推断方法,必须是这个组合(超级学习者+双重稳健估计)
  • 佛山灯饰铝型材厂商深度测评:6家顶尖企业助力2026业务增长 - 2026年企业推荐榜
  • 计算机三端毕设实战-springboot基于B_S架构的积分制零食自选平台基于SpringBoot+Vue的积分制零食自选销售平台设计与实现【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • Python计算机毕设之基于python+CS架构的医院财务管理系统Python Flask基于CS架构的医院财务管理系统(完整前后端代码+说明文档+LW,调试定制等)
  • 2026年评价高的车辆报废解体回收公司推荐:北京汽车报废解体厂、新能源车辆报废、汽车报废回收、汽车报废注销、汽车报废解体回收选择指南 - 优质品牌商家
  • 2026年汽车报废解体回收厂家权威推荐榜:汽车报废解体注销/老旧汽车报废/车辆报废回收/车辆报废注销/车辆报废补贴/选择指南 - 优质品牌商家
  • 三端毕设选题推荐:基于BS架构的积分制零食百货平台购物返积分、积分兑换零食springboot基于B_S架构的积分制零食自选平台【附源码、mysql、文档、调试+代码讲解+全bao等】
  • 70、IMX6ULL LED驱动实战
  • 三端计算机毕设之基于SpringBoot+Vue的积分制零食自选销售平台设计与实现springboot基于B_S架构的积分制零食自选平台(完整前后端代码+说明文档+LW,调试定制等)
  • 2026年江苏优质床上用品供应商深度解析与推荐 - 2026年企业推荐榜
  • 洛谷P055-字符串、字符型的应用
  • 有了这个迹象,说明你就该被辞退了!
  • 2026年车辆报废解体公司权威推荐:事故汽车报废/事故车辆报废/北京汽车报废解体厂/新能源车辆报废/汽车报废注销/选择指南 - 优质品牌商家
  • 高吞吐与性能优化:Kamailio调优指南
  • 2026年Q1武汉货架选购指南:技术、品牌与实战案例深度解析 - 2026年企业推荐榜
  • 抱歉,SpringBoot 已经跌出第一梯队!
  • Qwen3-4B-Instruct实战案例:用CPU版‘最强智脑’写小说+写代码
  • 2026年合肥旧房翻新服务商深度评测与选择指南 - 2026年企业推荐榜