当前位置：首页 > news >正文

开源大模型入门必看：Phi-3-mini-128k-instruct在星图GPU平台的保姆级部署教程

news 2026/4/9 16:29:43

开源大模型入门必看：Phi-3-mini-128k-instruct在星图GPU平台的保姆级部署教程

想试试最近很火的开源小模型Phi-3-mini，但被复杂的本地环境配置劝退？或者看着动辄几十G的模型文件，担心自己的电脑跑不动？

别担心，今天带你体验一种更简单的方式——直接在云端GPU平台上“开箱即用”。整个过程就像在应用商店安装一个App，不需要你懂CUDA、Docker，甚至不需要你下载模型文件。这篇教程就是为你准备的，哪怕你之前没接触过大模型部署，也能在10分钟内，从零开始完成部署并成功调用。

我们的目标很简单：在星图GPU平台上，找到Phi-3-mini-128k-instruct的预置镜像，一键启动，然后立刻用代码跟它聊上天。

1. 为什么选择云端部署Phi-3-mini？

在动手之前，我们先花一分钟了解一下为什么推荐这个方法，特别是对于初学者。

Phi-3-mini是微软推出的一款“小身材、大能量”的开源模型。它参数规模相对较小（38亿），但对硬件的要求也友好得多，更重要的是，它在常识推理、代码生成等任务上表现出了超越同尺寸模型的实力。128k的上下文长度，意味着它能处理很长的文本，非常实用。

但是，“友好”不等于“无门槛”。传统的本地部署依然需要：

准备Python环境、安装PyTorch等深度学习框架。
拥有足够显存的GPU（至少8G以上会比较舒适）。
下载庞大的模型文件（好几个G）。
可能还需要处理版本兼容、依赖冲突等各种令人头疼的问题。

而通过星图GPU平台的预置镜像，上面所有步骤都被打包解决了。你只需要：

选择这个模型镜像。
点击部署。
获得一个可以直接访问的API地址。

相当于平台已经帮你配好了一台装好了所有软件、驱动和模型的“超级电脑”，你直接远程登录使用就行。这对于快速体验、原型验证、学习测试来说，效率提升了不止一个量级。

2. 第一步：找到并启动你的模型镜像

整个过程就像在云服务器上租用一台已经配置好的电脑。

2.1 登录与镜像广场

首先，你需要登录星图GPU平台。进入控制台后，找到“镜像”或“应用市场”相关的入口（通常叫“镜像广场”或“AI应用”）。

这里就像一个AI模型的应用商店，里面陈列了各种预置好的模型环境，包括文生图、对话大模型、语音合成等等。我们要做的，就是在搜索框里输入“Phi-3-mini-128k-instruct”。

很快，你应该能看到对应的镜像。点击它，查看详情页。详情页里通常会简要介绍这个模型的特点，比如它的基本信息、支持的功能等。确认是我们要的模型后，就可以进行下一步了。

2.2 一键部署与实例配置

找到镜像后，你会看到一个非常醒目的按钮，比如“立即部署”或“创建实例”。点击它。

接下来，你需要配置一下即将租用的这台“云电脑”的基本信息：

实例名称：给你这个模型服务起个名字，比如my-phi3-test。
资源配置：这是关键一步。Phi-3-mini虽然小，但为了流畅运行，建议选择配备GPU的规格。平台通常会提供不同档位的选项，选择一款含有GPU（如NVIDIA T4、V100等）且显存不小于8GB的配置，就能获得很好的体验。CPU也能跑，但速度会慢很多。
其他设置：像磁盘空间（默认的50GB通常足够）、网络设置（通常保持默认即可）等，按平台引导操作或使用默认值。

所有这些配置，基本都是在网页上点选完成，完全不需要你输入任何命令行。配置好后，点击“确认”或“创建”，平台就会开始为你自动部署这个实例。

2.3 等待与获取访问密钥

部署过程需要几分钟时间。你可以喝杯咖啡，等待状态变为“运行中”。

当实例状态变成“运行中”后，最重要的一步来了：获取API访问地址和密钥。

在实例的管理页面，你需要找到类似“访问方式”、“端点信息”或“API网关”的栏目。这里会提供一个URL地址（Endpoint），看起来像https://xxxxx.infer.xxxx.com。同时，平台通常会提供一个API Key（密钥），用于鉴权。

请务必妥善保存这两个信息：API地址和API Key。它们就是你接下来和模型对话的“门牌号”和“钥匙”。

3. 第二步：发起你的第一次模型对话

拿到“门牌号”和“钥匙”后，我们就可以开始呼叫模型了。这里介绍两种最常用的方式：用简单的命令行工具curl，或者用万能的Python。

3.1 方法一：使用curl快速测试（推荐初学者）

如果你只是想最快地验证服务是否通畅，curl是最直接的工具。打开你的终端（Windows用PowerShell或CMD，Mac/Linux用Terminal）。

我们需要向之前获取的API地址发送一个HTTP POST请求。请求里要包含你的API Key（放在请求头里）和你想对模型说的话（放在请求体里）。

下面是一个完整的命令示例，你需要将其中的YOUR_API_ENDPOINT和YOUR_API_KEY替换成你实际的信息：

curl -X POST \ YOUR_API_ENDPOINT/v1/chat/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_KEY" \ -d '{ "model": "Phi-3-mini-128k-instruct", "messages": [ {"role": "user", "content": "你好，请介绍一下你自己。"} ], "max_tokens": 200, "temperature": 0.7 }'

参数简单解释一下：

-X POST: 表示这是一个POST请求。
-H “Authorization: Bearer YOUR_API_KEY”: 这是认证头，告诉服务器你的钥匙。
-d ‘{…}’: 这是请求体，里面包含了我们的具体指令。
- ”model”: 指定要使用的模型，填镜像名称即可。
- ”messages”: 对话历史。我们这里只发了一条用户（”user”）消息。
- ”max_tokens”: 限制模型回复的最大长度。
- ”temperature”: 控制回复的随机性（0.0更确定，1.0更随机）。

执行命令后，如果一切正常，你会在终端看到一串JSON格式的返回结果。在其中找到”choices”->”message”->”content”字段，里面的内容就是模型的回复了！恭喜你，第一次调用成功了。

3.2 方法二：使用Python进行集成

大部分实际应用场景下，我们会用Python来调用。这同样非常简单。

首先，确保你的Python环境安装了requests库。如果没有，用pip install requests安装一下。

然后，创建一个Python脚本（比如call_phi3.py），写入下面的代码。同样，记得替换api_endpoint和api_key。

import requests import json # 替换成你的实际信息 api_endpoint = “YOUR_API_ENDPOINT/v1/chat/completions” api_key = “YOUR_API_KEY” # 准备请求头 headers = { “Content-Type”: “application/json”, “Authorization”: f”Bearer {api_key}” } # 准备请求数据 data = { “model”: “Phi-3-mini-128k-instruct”, “messages”: [ {“role”: “user”, “content”: “用Python写一个函数，计算斐波那契数列的前n项。”} ], “max_tokens”: 300, “temperature”: 0.7 } # 发送请求 try: response = requests.post(api_endpoint, headers=headers, data=json.dumps(data)) response.raise_for_status() # 检查请求是否成功 # 解析回复 result = response.json() reply = result[“choices”][0][“message”][“content”] print(“模型回复：”) print(reply) except requests.exceptions.RequestException as e: print(f”请求出错：{e}”) except (KeyError, json.JSONDecodeError) as e: print(f”解析响应出错：{e}”) print(f”原始响应：{response.text}”)

运行这个脚本，你就能看到模型生成的Python代码了。这种方式便于你后续将模型集成到自己的应用程序或自动化脚本中。

4. 玩转你的模型：一些实用技巧

成功调用只是开始。这里有几个小技巧，能帮你更好地使用Phi-3-mini。

调整“温度”（Temperature）：这个参数很好玩。如果你想要一个确定、专业的答案（比如解答数学题），可以设低一点（如0.1-0.3）。如果你想要更有创意、更多样化的回答（比如写故事、想点子），可以设高一点（如0.7-0.9）。
使用系统提示词（System Prompt）：你可以通过”messages”列表，在用户提问前插入一条”role”: “system”的消息，来设定模型的角色和回答风格。例如，{“role”: “system”, “content”: “你是一个乐于助人且幽默的编程助手。”}，这样模型的回复就会更偏向这个风格。
管理对话历史：”messages”列表可以包含多轮对话。你可以把之前的用户提问和模型回复都放进去，模型就能根据上下文进行连贯的对话。这对于复杂的、多轮的任务非常有用。
关注Token限制：max_tokens参数限制了单次回复的长度，而模型本身有上下文窗口限制（这里是128k）。注意你的输入+输出的总长度不要超过这个限制。对于长文档处理，可能需要分段进行。