当前位置：首页 > news >正文

大模型工具使用

news 2026/3/26 17:10:40

介绍

模型下载
API测试
本地平台搭建
- 对比表格
- 详细说明
- - Transformers
  - FastChat
  - Ollama
  - vLLM
- 关键差异

介绍大模型一些简单的使用

模型下载

模型快捷的下载
魔搭社区
Ollama【可以直接在Ollama软件中下载】

API测试

通过API测试的平台：硅基流动

本地平台搭建

对比表格

工具/框架	核心依赖/工具	复杂度	核心优势	核心劣势	适用场景
Transformers	transformers/torch	极低	灵活可控，无额外依赖	仅命令行，无API/可视化	新手学习，快速验证模型功能
FastChat	fschat	低	一键Web UI/OpenAI API	高并发性能一般	个人测试，小型团队服务
Ollama	Ollama客户端	极低	跨平台，一键运行	本地模型需额外配置	个人本地体验，跨平台轻量部署
vLLM	vllm	中	~4GB（量化后）	高吞吐量，低延迟	硬件适配成本高

详细说明

Transformers

使用方式：直接调用Hugging Face的transformers库，支持PyTorch或TensorFlow后端。
特点：提供基础模型加载和推理接口，适合自定义开发。

安装

# 安装指令 python -m pip install "fschat[model_worker,webui]" transformers accelerate torch sentencepiece --upgrade # 验证是否安装完成指令 python -c "import fastchat; print(fastchat.__version__)"

代码示例：

fromtransformersimportAutoModelForCausalLM,AutoTokenizer model=AutoModelForCausalLM.from_pretrained("meta-llama/Llama-2-7b-hf")tokenizer=AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b-hf")

FastChat

使用方式：通过fschat命令行工具启动Web UI或OpenAI兼容API。
特点：集成Gradio界面，支持多模型管理。

部署命令：

python-mfastchat.serve.controller python-mfastchat.serve.model_worker --model-path meta-llama/Llama-2-7b-hf python-mfastchat.serve.gradio_web_server

Ollama

下载地址: Ollama下载
使用方式：通过命令行下载和运行模型，支持量化版本。
特点：跨平台（Windows/macOS/Linux），内置模型仓库。
示例命令：
```
ollama pull llama2 ollama run llama2
```

vLLM

使用方式：基于Python API或RESTful服务部署，支持连续批处理。
特点：利用PagedAttention技术优化显存和吞吐。

API示例：

fromvllmimportLLM,SamplingParams llm=LLM(model="meta-llama/Llama-2-7b-hf")sampling_params=SamplingParams(temperature=0.8)outputs=llm.generate(["Hello, world!"],sampling_params)