当前位置: 首页 > news >正文

大模型落地实战:深度解析 Transformers、vLLM、Ollama 等 6 大主流部署框架

前言

本文详细介绍Transformers‌、‌ModelScope‌、‌vLLM‌、‌Llama.cpp‌、‌Ollama‌、‌TGI‌ 这几种常用的大模型部署方式,包含具体的部署方法、适用情况以及优缺点分析,为大家做大模型部署技术选型提供依据。

1. Transformers

1‌.1 部署方法‌:

1.2 适用情况‌:

1.3 优缺点‌:

案例:

1、安装依赖

pip install transformers torch fastapi uvicorn

2、加载预训练模型和分词器‌

from transformers import BertForSequenceClassification, BertTokenizer model_name = 'Qwen/Qwen3-8B'model = BertForSequenceClassification.from_pretrained(model_name)tokenizer = BertTokenizer.from_pretrained(model_name)

3、构建API服务

from fastapi import FastAPI, HTTPExceptionfrom pydantic import BaseModelimport torch app = FastAPI() class TextIn(BaseModel): text: str @app.post("/predict")async def predict(text_in: TextIn):try:# 对输入文本进行编码 inputs = tokenizer(text_in.text, return_tensors="pt", padding=True, truncation=True, max_length=512)# 使用模型进行预测with torch.no_grad(): outputs = model(**inputs)# 获取预测结果 predictions = torch.nn.functional.softmax(outputs.logits, dim=-1) predicted_class = predictions.argmax().item()return {'predicted_class': predicted_class, 'probabilities': predictions.tolist()[0]}except Exception as e:raise HTTPException(status_code=500, detail=str(e))

4、运行运行API服务‌

uvicorn app:app --reload --host 0.0.0.0 --port 8000

2. ModelScope

2‌.1 部署方法‌:

2‌.2 适用情况‌:

2.3 优缺点‌:

3. vLLM

‌3.1 部署方法‌:

3‌.2 适用情况‌:

3.3 优缺点‌:

案例:

1、安装vLLM

pip install vllm

或者源码安装

git clone https://github.com/vllm-project/vllm.gitcd vllmpip install -e .

2、加载运行模型

从 Hugging Face 加载模型‌

vllm serve Qwen/Qwen2-7B-Instruct

加载本地模型

vllm serve /path/to/local/model

3、启动方式

单卡启动

vllm serve deepseek-ai/DeepSeek-V3-0324 --port 8000

多卡启动

vllm serve deepseek-ai/DeepSeek-V3-0324 --tensor-parallel-size 4

4. Llama.cpp

‌4.1 部署方法‌:

4.2 适用情况‌:

4‌.3 优缺点‌:

案例:

1、下载代码

git clone https://github.com/ggerganov/llama.cppcd llama.cpp

2、编译

cmake -B build -DGGML_CUDA=ON -DGGML_CUDA_ENABLE_UNIFIED_MEMORY=1cmake --build build --config Release -j 8

3、下载模型和格式转换

从 Hugging Face 或其他模型库下载所需的 LLM 模型,通常是以 .pth(PyTorch 格式)或 .safetensors 格式存在

‌转换为 GGUF 格式‌

python convert.py ./models/your-model-path --vocabtype spm

4、部署模型

./llama-server -m ./models/your-model-q8.gguf --port 8080

5. Ollama

‌5.1 部署方法‌:

5.2 适用情况‌:

5.3 优缺点‌:

案例:

安装ollama

curl -fsSL https://ollama.com/install.sh | sh

下载和运行模型

ollama run qwen3

6. TGI

6‌.1 部署方法‌:

6.2 适用情况‌:

6.3 优缺点‌:

案例:

1、安装TGI需要的环境

sudo apt-get install libssl-dev gcc -ycurl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | shPROTOC_ZIP=protoc-21.12-linux-x86_64.zipcurl -OL https://github.com/protocolbuffers/protobuf/releases/download/v21.12/$PROTOC_ZIPsudo unzip -o $PROTOC_ZIP -d /usr/local bin/protocsudo unzip -o $PROTOC_ZIP -d /usr/local 'include/*'rm -f $PROTOC_ZIP

2、克隆 TGI 仓库

git clone https://github.com/huggingface/text-generation-inference.gitcd text-generation-inference

3、编译和安装 TGI‌:

conda activate llm-plus # 激活一个虚拟环境(可选)BUILD_EXTENSIONS=True make install -j

4、下载和部署模型

从 Hugging Face 或其他模型库下载所需的大模型,确保模型格式与 TGI 兼容。

使用 TGI 提供的命令行工具启动模型服务

text-generation-launcher --model-id /path/to/your/model --trust-remote-code --port 4000

好的,以上就是这6种大模型的详细部署方式,你可以根据项目需求、硬件条件等因素进行选择。


如今传统技术岗位大批缩水!

85%企业计划2025年前“淘汰纯业务型程序员”!

未来,传统技术岗将失去竞争力!

转型大模型方向,才是又一轮的时代红利!

那么作为技术人:

如何成功掌握大模型技术、拿到AI方向高薪岗?

如果你想通过学习大模型技术实现就业或转行!我可以把自己录制的199节

从零基础到精通的视频课程+配套学习资料无偿分享给您!

希望能帮你在AI这条路上走得更远。

2026最新AI大模型资料预览

一、199节视频教程

199集从入门到精通的全套视频教程(包含提示词工程、RAG、Agent等技术点)

二、AI大模型学习路线图

全过程AI大模型学习路线

想要学习AI大模型,作为新手一定要先按照路线图学习方向不对,努力白费。对于从来没有接触过AI大模型的同学,我帮大家准备了从零基础到精通学习成长路线图以及学习规划。可以说是最科学最系统的学习路线,大家跟着这个路线图学习准没错。

三、配套项目实战/源码

所有视频教程所涉及的实战项目和项目源码

四、学习电子书籍

学习AI大模型必看的书籍和文章的Pdf

市面上的大模型书籍确实太多了,这些是我精选出来的

五、面试真题/经验


👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈

作者有话说

1、为什么我要分享这些资料?

只要你是真心想学习人工智能大模型技术,我愿意将这份精心整理的资料无偿分享给你。

2、这些资料真的有用吗?

这份资料由我与鲁为民博士共同整理。鲁博士毕业于清华大学(学士)和美国加州理工学院(博士),在人工智能领域深耕多年,先后在包括IEEE Transactions在内的国际权威期刊和会议上发表论文超过50篇,拥有多项中美发明专利,并曾荣获吴文俊人工智能科学技术奖

目前,我正与鲁博士在人工智能领域展开深入合作。本次整理的资料内容系统全面,涵盖从零基础入门实战进阶199节视频教程,以及配套的学习资料与实战项目。无论你是完全零基础的小白,还是已有一定技术背景的学习者,都能从中获得切实提升,助力你转行大模型岗位、提升薪资待遇

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈

http://www.jsqmd.com/news/497895/

相关文章:

  • 违章真的会让车险涨价吗?很多车主都搞错了,看完少花几千块!(违章真的会影响车险保费吗?一文讲清楚交强险和商业险的浮动规则)
  • HarmonyOS6 半年磨一剑:RcTag 组件实战案例(一)内容展示与商品筛选
  • LangChain大模型应用开发指南:小白也能轻松掌握,收藏必备!
  • 当LSTM戴上“概率眼镜“:用贝叶斯视角玩转时间序列预测
  • 热销榜单:2026年北京本凡科技推荐的最值得的小程序开发平台TOP3,助力企业数字化转型
  • 【Python × AI】Memory 机制深度解析:为大模型植入“长期记忆”的艺术
  • 中文乱码,解决
  • 2026普通人转行,推荐一个好就业的方向——人工智能大模型,非常详细!
  • 低空经济+电力:输电线路无人机巡检及要求
  • 72 编辑距离
  • Vue.js如何通过WebUploader控件解决汽车制造CAD图纸的超大附件分片校验上传?
  • GitNexus:零服务器代码知识图谱引擎,让代码理解更智能
  • 重庆包装袋制作供应厂家排行
  • 飞腾平台 UEFI 与 U-Boot 启动方案对比及选型建议
  • 2-3层网络测试仪全面解析北京网测科技--Supernova 系列产品介绍与选型指南
  • [Win11 Vmware17 CentOS7.6]安装Linux操作系统详细步骤(附VMware17+CentOS7下载链接)
  • 干货!跨境电商出海短视频矩阵工具怎么选?
  • 如何解决帝国CMS 7.5编辑器粘贴Word文档时格式和图片丢失的问题?
  • python+Ai技术框架的健身房课程预约管理系统的设计与实现django flask
  • 深入理解 async/await:现代异步编程的终极解决方案
  • 医疗行业票据合规要求高?智能接口严守风控关
  • 吉林省GEO营销哪个服务商技术强
  • 【CANoe】使用IG发报文触发busOff后不能恢复教程
  • 探索六自由度并联 Stewart Platform 平台的奇妙之旅
  • 基于秃鹰搜索算法优化BP神经网络的多变量时间序列预测
  • 东华复试OJ二刷复盘11
  • 三相调速永磁同步电动机maxwell模型 1、案例采用180-8极一字型冲片 2、转速为150...
  • 别再浪费硬盘了!用MediaMTX打造自动录制+HLS点播系统,还能钩子转码!
  • EasyDSS视频流媒体WebRTC技术解析:智慧校园直播、点播与会议一体化融合实践
  • Agent 4大协议:MCP/ACP/A2A/ANP