当前位置：首页 > news >正文

Phi-3-mini-4k-instruct快速上手：Ollama中使用curl命令行调用Phi-3-mini API

news 2026/6/30 18:39:45

Phi-3-mini-4k-instruct快速上手：Ollama中使用curl命令行调用Phi-3-mini API

你是不是已经用Ollama的Web界面玩过Phi-3-mini模型了？点点按钮，输入问题，就能看到回答，确实很方便。但如果你想把这个能力集成到自己的脚本里，或者想批量处理一些文本任务，每次都打开网页就太麻烦了。

今天，我就带你换个玩法——用最经典的命令行工具curl，直接调用部署在Ollama里的Phi-3-mini模型API。这就像给你的工具箱里加了一把瑞士军刀，灵活又强大。整个过程非常简单，不需要复杂的编程，跟着我做，10分钟就能搞定。

1. 准备工作：认识我们的工具

在开始动手之前，我们先快速了解一下今天要用到的两个核心：模型和工具。

1.1 轻量级明星：Phi-3-mini-4k-instruct

Phi-3-mini-4k-instruct是微软Phi-3系列里的小个子成员，别看它只有38亿参数，在轻量级模型里表现相当出色。

它有几个特点很适合我们日常使用：

身材小巧：38亿参数，对硬件要求不高，普通电脑也能跑得动。
理解力强：专门针对“跟随指令”做了优化，你让它干什么，它就能很好地理解并执行。
上下文够用：支持4K的上下文长度，处理几页文档的总结或者一段不短的对话都没问题。
用途广泛：在常识问答、语言理解、基础数学和代码逻辑方面都有不错的表现。

简单说，这就是一个为你准备好的、聪明又听话的文本生成助手。

1.2 万能胶水：curl命令

curl可能是在命令行世界里最常用的工具之一了，它的核心功能就是和网络服务器“对话”。你可以用它来下载文件，当然，也可以用它来发送HTTP请求，访问像Ollama模型API这样的服务。

我们今天要做的，就是用curl这个“信使”，把我们的问题包装成一个HTTP请求，发送给Ollama服务，然后再把Ollama返回的模型答案“带”回来。你不需要安装任何额外的东西，因为curl在Linux、macOS系统里基本是自带的，Windows 10及以上版本也内置了。

2. 第一步：确保Ollama和模型在运行

用API调用，前提是服务端得在干活。我们得先确认两件事。

2.1 检查Ollama服务

打开你的终端（或命令提示符/PowerShell），输入以下命令：

curl http://localhost:11434/api/tags

如果一切正常，你会看到一个JSON格式的响应，里面列出了你本地Ollama已经拉取（下载）好的所有模型。它可能长这样：

{"models":[{"name":"phi3:mini","modified_at":"2024-05-10T08:00:00.000000Z"}]}

如果你看到的是连接错误（比如Connection refused），那说明Ollama服务没有运行。你需要回到Ollama应用，把它启动起来。

2.2 确认Phi-3-mini模型已就位

在上一步的响应里，找找有没有"phi3:mini"这个模型名字。如果没有，你需要先通过Ollama把它下载到本地。虽然通常用Web界面点选时就已经完成了下载，但确认一下总没错。

如果确实没有，你可以在终端运行：

ollama pull phi3:mini

等待它下载完成即可。这个模型不大，下载应该很快。

3. 核心步骤：使用curl调用模型API

好了，服务在线，模型就位，现在可以开始真正的对话了。Ollama提供了一个统一的API端点（/api/generate）来生成文本。

3.1 发起一次简单的对话

最基本的调用只需要告诉模型“我说什么”和“你是谁”。在终端输入下面的命令：

curl http://localhost:11434/api/generate -d '{ "model": "phi3:mini", "prompt": "请用一句话解释什么是人工智能。", "stream": false }'

让我拆解一下这个命令：

curl http://localhost:11434/api/generate：这是告诉curl去向本机11434端口的/api/generate地址发送请求。
-d ‘{...}’：-d参数表示后面跟着要发送的数据（request body）。我们发送的是一个JSON对象。
JSON对象里的三个关键信息：
- "model": "phi3:mini"：指定使用哪个模型。
- "prompt": "..."：这就是我们给模型的指令或问题。
- "stream": false：这里我们设为false，意思是让模型一次性生成完整回复再返回给我们。如果设为true，则会像打字机一样一个字一个字地流式返回，适合需要实时看到的场景。

敲下回车，稍等片刻，你就会看到模型返回的答案了。返回的也是一个JSON，其中"response"字段里的内容就是模型的回答。

3.2 解读模型的回复

一次成功的调用，返回的JSON结构很清晰，我们关心几个字段：

{ "model": "phi3:mini", "created_at": "2024-05-10T08:00:00.000000Z", "response": "人工智能是计算机科学的一个分支，旨在创造能够执行通常需要人类智能的任务的机器或软件。", "done": true, "total_duration": 5141913750 }

"response"：这是核心，模型的回答文本就在这里。
"done": true：表示生成任务已顺利完成。
"total_duration"：模型生成所花费的总时间，单位是纳秒。上面这个例子大约花了5.14秒。

3.3 让对话更丰富：使用系统提示词

有时候，我们想给模型设定一个角色，或者规定它回答的风格。这就要用到system参数了。比如，我们想让模型扮演一个幽默的哲学家：

curl http://localhost:11434/api/generate -d '{ "model": "phi3:mini", "system": "你是一位说话幽默、喜欢用比喻的哲学家。", "prompt": "人生的意义是什么？", "stream": false }'

加了"system"提示后，模型的回答风格通常会向你设定的方向靠拢，可能会给出像“人生就像一场没有排练的戏剧，意义在于你即兴创作的每一个瞬间……”这类更有趣的回答。

4. 进阶技巧：玩转更多参数

只会问问题还不够，我们来看看如何通过调整参数，更好地控制模型的输出。

4.1 控制“创造力”：temperature参数

模型回答的随机性和创造性可以通过temperature（温度）来控制。你可以这样理解：

低温度（如0.1）：模型更保守、更确定。对于同一个问题，它每次的回答都会非常相似，甚至一样。适合需要事实准确、风格一致的场景，比如总结摘要。
高温度（如0.9）：模型更“放飞自我”，更有创意，每次的回答可能都不一样。适合写故事、想点子。

试试对比一下：

# 低温度，回答更稳定 curl http://localhost:11434/api/generate -d '{ "model": "phi3:mini", "prompt": "写一句关于春天的诗。", "options": { "temperature": 0.1 }, "stream": false }' # 高温度，回答更多变 curl http://localhost:11434/api/generate -d '{ "model": "phi3:mini", "prompt": "写一句关于春天的诗。", "options": { "temperature": 0.9 }, "stream": false }'

多运行几次高温度的版本，你会发现每次生成的诗句都不太一样。

4.2 节省令牌：限制生成长度

模型生成内容是按“令牌”（可以粗略理解为词或字）收费的（这里指计算资源）。我们可以通过num_predict参数来限制它最多生成多少个令牌，防止它滔滔不绝。

curl http://localhost:11434/api/generate -d '{ "model": "phi3:mini", "prompt": "介绍法国的首都巴黎。", "options": { "num_predict": 50 # 限制最多生成50个令牌 }, "stream": false }'

这样，模型就会给出一个非常简短的介绍，适合需要摘要的场景。

4.3 保持连贯：在对话中使用上下文

真正的对话是有来有回的。要让模型记住之前的对话，我们需要把历史记录也传给它。这通过context字段实现。

不过，/api/generate端点本身不直接维护多轮对话状态。更简单的方法是使用另一个端点：/api/chat。这个接口是专门为多轮对话设计的。

curl http://localhost:11434/api/chat -d '{ "model": "phi3:mini", "messages": [ { "role": "user", "content": "我最喜欢的颜色是蓝色。" }, { "role": "assistant", "content": "好的，蓝色是一种宁静而深邃的颜色，像天空和海洋。" }, { "role": "user", "content": "那你能根据这个颜色，推荐一个旅游目的地吗？" } ] }'

在这个例子里，我们把整个对话历史（用户说的话和模型之前的回复）都放在"messages"这个列表里，按顺序排列。模型在回答第三个问题时，就能“看到”前面关于喜欢蓝色的对话，从而给出更相关的推荐（比如希腊的圣托里尼）。

5. 实战演练：组合成一个实用脚本

知道了单个命令怎么用，我们就可以把它们组合起来，做成一个真正有用的小工具。下面是一个简单的Bash脚本示例，它从文件里读取问题，调用模型，然后把回答保存到另一个文件里。

5.1 创建脚本文件

创建一个新文件，比如叫ask_phi3.sh，用文本编辑器打开，输入以下内容：

#!/bin/bash # 定义模型名称和API地址 MODEL="phi3:mini" OLLAMA_HOST="http://localhost:11434" # 检查是否提供了问题文件 if [ -z "$1" ]; then echo "用法: $0 <包含问题的文本文件>" exit 1 fi QUESTION_FILE="$1" ANSWER_FILE="${QUESTION_FILE%.*}_answer.txt" echo "正在使用 $MODEL 处理问题..." echo "问题文件: $QUESTION_FILE" echo "答案将保存到: $ANSWER_FILE" # 读取问题文件内容 PROMPT=$(cat "$QUESTION_FILE") # 调用Ollama API curl -s -X POST "$OLLAMA_HOST/api/generate" \ -H "Content-Type: application/json" \ -d "{ \"model\": \"$MODEL\", \"prompt\": \"$PROMPT\", \"stream\": false, \"options\": { \"temperature\": 0.7 } }" | jq -r '.response' > "$ANSWER_FILE" if [ $? -eq 0 ]; then echo "处理完成！" echo "--- 模型回答 ---" cat "$ANSWER_FILE" else echo "处理过程中出现错误。" fi

注意：这个脚本用到了jq这个命令行JSON处理工具来从返回结果中提取response字段。如果你的系统没有安装，可以用sudo apt install jq（Ubuntu/Debian）或brew install jq（macOS）来安装。如果不想安装，也可以去掉| jq -r '.response'这部分，但这样保存到文件里的就会是完整的JSON。

5.2 使用脚本

首先，给脚本加上可执行权限：
```
chmod +x ask_phi3.sh
```
创建一个文本文件，比如my_question.txt，在里面写上你的问题，例如：
```
为我制定一个为期一周的初学者健身计划，每天不超过30分钟。
```
运行脚本：
```
./ask_phi3.sh my_question.txt
```

脚本会自动调用模型，生成答案，并保存到my_question_answer.txt文件中，同时在终端显示出来。这样一来，批量处理多个问题文件就非常方便了。

6. 总结

走完这一趟，你会发现用curl调用Ollama的API，并没有想象中那么神秘。它其实就是一种标准、灵活的与AI模型交互的方式。

我们来回顾一下关键点：

基础调用是核心：记住/api/generate这个端点，以及model、prompt这两个必填参数。
参数控制输出：用temperature调节创意，用num_predict控制长度，用system设定角色，这些小开关能让你得到更符合心意的结果。
对话需用专用接口：进行多轮聊天时，使用/api/chat端点和messages数组会更方便。
集成到自动化流程：通过Shell脚本、Python脚本或其他任何能发送HTTP请求的工具，你可以轻松地将Phi-3-mini的文本生成能力嵌入到你的工作流中，比如自动回复邮件、生成报告草稿、分析用户反馈等等。