当前位置：首页 > news >正文

PHP集成Ollama本地大模型实战：从环境部署到Laravel应用开发

news 2026/6/25 19:46:55

1. 项目概述与核心价值

如果你正在用 PHP 开发应用，同时又对当前火热的本地大模型（比如 Llama 3、Mistral、Qwen 等）感兴趣，想把它们的能力集成到你的网站、后台或者自动化脚本里，那么你很可能需要一个桥梁。这个桥梁就是ArdaGnsrn/ollama-php。简单来说，它是一个 PHP 客户端库，专门用来和Ollama这个工具进行通信。

Ollama 是什么？你可以把它理解为一个本地大模型的“运行器和管理器”。它让你能在自己的电脑或者服务器上，用一条简单的命令就能下载、运行各种开源大模型，并通过一个标准的 HTTP API 提供服务。而ollama-php这个库，就是帮你用 PHP 代码去调用这个 API，从而在你的 PHP 应用里实现对话生成、内容总结、代码补全等一系列 AI 功能。

我最初接触这个项目，是因为需要在一个内部知识库系统中增加智能问答模块。系统是 Laravel 写的，模型跑在团队的测试服务器上。我不想用第三方闭源的 API（成本、隐私都是问题），又希望集成过程足够简单、符合 PHP 开发者的习惯。找了一圈，发现这个库几乎完美匹配需求：它没有复杂的依赖，接口设计得很直观，完全围绕 Ollama 的 API 功能展开。用了之后，感觉就像在调用一个本地的数据库服务一样自然。接下来，我就结合自己的使用经验，把这个库的核心功能、怎么用、以及踩过的坑，详细拆解一遍。无论你是想做个 AI 小工具，还是给现有系统增加智能特性，这篇文章都能给你一份清晰的“操作手册”。

2. 环境准备与 Ollama 基础部署

在开始写 PHP 代码之前，我们得先把“后台”——Ollama 给搭起来。这是整个流程的基石。

2.1 Ollama 的安装与模型拉取

Ollama 的安装极其简单，它支持 macOS、Linux 和 Windows（通过 WSL2）。以 Linux 服务器为例，通常就是一行命令：

curl -fsSL https://ollama.com/install.sh | sh

安装完成后，Ollama 服务会自动启动。你可以通过systemctl status ollama来检查服务状态。默认情况下，它会监听11434端口。

服务起来后，第一件事就是拉取一个模型。Ollama 官方维护了一个模型库，包含很多热门模型。对于刚开始尝试，我推荐llama3.2:1b或qwen2.5:0.5b这类参数较小的模型。它们对硬件要求低（通常 2GB 左右内存就够了），响应速度快，适合功能验证和开发调试。

# 拉取 Llama 3.2 的 1B 参数版本 ollama pull llama3.2:1b # 拉取后，运行这个模型试试看 ollama run llama3.2:1b

执行run命令后，会进入一个交互式命令行，你可以直接输入问题，模型会给出回答。这能最直观地验证 Ollama 和模型是否工作正常。

注意：模型名称中的标签（如:1b,:7b,:instruct,:text）很重要。:1b、:7b表示参数量，越大能力通常越强，但所需资源也越多。:instruct表示该版本经过指令微调，更适合对话任务；:text则可能更适合纯文本补全。根据你的需求选择。

2.2 Composer 安装 ollama-php 客户端

你的 PHP 项目需要通过 Composer 来引入这个客户端库。确保你的项目根目录下有composer.json文件。

composer require ardagnsrn/ollama-php

这个命令会从 Packagist 上拉取最新的稳定版本。安装完成后，你可以在vendor/ardagnsrn/目录下找到这个库的源码。它的依赖非常干净，主要就是guzzlehttp/guzzle用于处理 HTTP 请求，以及psr/http-client和psr/http-factory这些 PSR 标准接口，保证了良好的兼容性。

2.3 基础连接测试

安装好客户端后，我们写一个最简单的脚本来测试与 Ollama 服务的连接是否通畅。创建一个test_connection.php文件：

<?php require __DIR__ . '/vendor/autoload.php'; use ArdaGnsrn\Ollama\Ollama; // 初始化客户端，默认连接本地的 11434 端口 $ollama = new Ollama(); try { // 调用 /api/tags 接口，列出本地已拉取的所有模型 $models = $ollama->tags(); echo "连接成功！本地可用模型有：\n"; foreach ($models as $model) { echo "- {$model->name}\n"; } } catch (Exception $e) { echo "连接失败，错误信息：{$e->getMessage()}\n"; // 常见问题：Ollama服务未启动，或防火墙阻止了端口访问 }

运行这个脚本 (php test_connection.php)，如果能看到你之前用ollama pull下载的模型列表，那么恭喜你，基础环境已经全部就绪。如果失败，请检查：

ollama serve是否正在运行？(可以用ps aux | grep ollama查看)
PHP 脚本所在的机器是否能访问运行 Ollama 服务的机器的11434端口？(可以用telnet <ollama主机ip> 11434测试)
如果 Ollama 不在本地，需要在初始化时指定主机地址：new Ollama('http://your-ollama-server:11434')

3. 核心功能详解与实战应用

ollama-php库几乎覆盖了 Ollama REST API 的所有端点。我们挑几个最核心、最常用的功能来深入讲讲。

3.1 文本生成：与模型对话的核心

generate方法是使用频率最高的。它向指定的模型发送一段提示词（prompt），并获取模型生成的文本回复。

use ArdaGnsrn\Ollama\Ollama; use ArdaGnsrn\Ollama\Requests\GenerateRequest; $ollama = new Ollama(); $request = new GenerateRequest( model: 'llama3.2:1b', prompt: '用 PHP 写一个函数，计算斐波那契数列的第 n 项。' ); $response = $ollama->generate($request); echo "生成的代码：\n"; echo $response->response . "\n\n"; echo "本次生成消耗的 token 数：{$response->prompt_eval_count} (输入) / {$response->eval_count} (输出)\n";

这里的关键是GenerateRequest对象。除了必填的model和prompt，它还有很多可选参数用来控制生成过程：

stream(bool): 是否启用流式响应。对于生成长文本时，可以边生成边输出，提升用户体验。默认为false。
options(array): 一组模型推理参数，这是控制生成质量的“旋钮”。
- num_predict: 最大生成 token 数，防止模型“胡说八道”停不下来。
- temperature: 温度，控制随机性。0.0 最确定（每次输出可能都一样），1.0 以上创造性更强。对话通常用 0.7-0.9。
- top_p: 核采样，另一种控制随机性的方式，常与 temperature 配合使用。
- seed: 随机种子。设置一个固定值后，相同的输入会得到完全相同的输出，便于调试和复现。
system(string): 系统提示词。用于设定模型的角色和行为准则，比如“你是一个乐于助人的编程助手”。

一个更完整的、带有参数设置的例子：

$request = new GenerateRequest( model: 'llama3.2:1b', prompt: '给我讲一个关于人工智能的短故事。', system: '你是一个富有想象力的科幻作家，擅长创作简短有趣的故事。', stream: false, options: [ 'num_predict' => 150, // 最多生成150个token 'temperature' => 0.8, 'top_p' => 0.9, 'seed' => 42, ] );

实操心得：temperature和top_p需要根据任务类型调整。对于代码生成、事实问答，温度可以低一些（0.1-0.3），让输出更确定、更准确。对于创意写作、头脑风暴，温度可以调高（0.8-1.2）。num_predict一定要设置，否则模型可能会生成非常长的无关内容，直到达到其上下文长度限制。

3.2 流式生成：实现“打字机”效果

当生成较长内容时，等待模型完全生成再返回给用户，体验会很差。流式生成允许我们逐块（chunk）地获取输出，就像聊天工具里看到对方正在输入一样。

在ollama-php中，启用流式生成需要将stream设为true，然后遍历返回的生成器（Generator）。

$request = new GenerateRequest( model: 'llama3.2:1b', prompt: '请详细解释一下什么是 RESTful API。', stream: true ); echo "模型回答："; foreach ($ollama->generate($request) as $chunk) { // $chunk 是一个 GenerateResponse 对象，但只包含当前片段的 response echo $chunk->response; // 如果需要，可以在这里将内容实时推送到前端（如使用WebSocket） flush(); // 刷新PHP输出缓冲区，对于命令行或某些场景有用 } echo "\n--- 生成结束 ---\n";

流式响应返回的每个$chunk，其response属性就是当前新生成的一小段文本。你可以边接收边处理，比如实时显示在网页上，或者写入一个文件流。

注意事项：流式生成时，最终的prompt_eval_count和eval_count等信息会在最后一个 chunk 中返回。如果你需要统计总 token 数，需要捕获最后一个 chunk 的数据。另外，在网络不稳定的环境下，要做好流中断的重连或错误处理。

3.3 对话与上下文管理：让模型拥有“记忆”

单次的generate调用是独立的，模型不会记住之前的对话。为了实现多轮对话，我们需要使用chat方法，并精心管理消息历史。

chat方法接受一个ChatRequest对象，其核心是messages数组。数组中的每个元素都是一个消息对象，包含role(角色) 和content(内容)。角色通常是user(用户)、assistant(助手) 或system(系统)。

use ArdaGnsrn\Ollama\Requests\ChatRequest; use ArdaGnsrn\Ollama\Message; // 初始化对话历史 $messages = [ new Message(role: 'system', content: '你是一个专业的科技百科助手，回答要简洁准确。'), new Message(role: 'user', content: '什么是神经网络？'), // 上轮对话中模型的回复，也需要加入历史 // new Message(role: 'assistant', content: '神经网络是...') ]; $ollama = new Ollama(); // 第一轮对话 $chatRequest = new ChatRequest(model: 'llama3.2:1b', messages: $messages); $response = $ollama->chat($chatRequest); // 获取模型回复 $assistantReply = $response->message->content; echo "助手: {$assistantReply}\n"; // 将助手的回复加入历史，以便进行下一轮 $messages[] = new Message(role: 'assistant', content: $assistantReply); // 用户提出后续问题 $messages[] = new Message(role: 'user', content: '它和深度学习有什么关系？'); // 第二轮对话，传入完整的上下文历史 $chatRequest2 = new ChatRequest(model: 'llama3.2:1b', messages: $messages); $response2 = $ollama->chat($chatRequest2); echo "助手: {$response2->message->content}\n";

上下文长度与截断：所有模型都有一个固定的上下文窗口（例如 4096、8192 tokens）。当messages历史的总 token 数超过这个限制，模型就无法有效处理。因此，在实际应用中，你需要一个“上下文管理”策略：

简单截断：只保留最近 N 轮对话。
滑动窗口：保持总 token 数不超过限制，优先丢弃最早的消息。
总结压缩：当历史过长时，调用模型自己将之前的对话总结成一段精简的描述，然后用这个总结作为新的“系统提示”或历史起点。这是更高级但更有效的做法。

ollama-php库本身不提供自动的上下文管理，这需要你在应用层根据模型的上下文长度（需要查询模型信息）和每次请求的 token 消耗（prompt_eval_count会告诉你本次请求中“输入”的 token 数）来实现。

3.4 模型管理与信息获取

除了核心的生成和对话，这个库也提供了管理模型的能力。

列出模型 (tags)这个我们之前测试连接用过，它对应 Ollama 的/api/tags接口，返回一个Model对象数组，包含每个模型的名称、修改时间、大小等信息。

拉取模型 (pull)如果你的应用需要动态部署模型，可以使用pull方法。这是一个异步操作，会返回一个生成器，用于流式获取拉取进度。

use ArdaGnsrn\Ollama\Requests\PullRequest; $pullRequest = new PullRequest(model: 'llama3.2:3b'); echo "开始拉取模型 llama3.2:3b ...\n"; foreach ($ollama->pull($pullRequest) as $status) { // $status 包含当前状态，如 downloading, verifying, 以及进度百分比 echo "状态: {$status->status}, 进度: {$status->completed}/{$status->total}\n"; } echo "模型拉取完成！\n";

删除模型 (delete)删除本地不再需要的模型，释放磁盘空间。

use ArdaGnsrn\Ollama\Requests\DeleteRequest; $deleteRequest = new DeleteRequest(model: 'llama3.2:1b'); $ollama->delete($deleteRequest); echo "模型已删除。\n";

注意：pull和delete操作需要确保 Ollama 服务有相应的权限（尤其是写模型存储目录的权限）。在生产环境中，这类操作应通过严格的管理后台或命令行触发，而非直接暴露给前端用户。

4. 集成到实际项目：以 Laravel 为例

理论讲完了，我们看一个实战场景：将一个智能客服聊天机器人集成到 Laravel 应用中。

4.1 服务封装与配置

首先，我们创建一个 Service 类来封装 Ollama 的操作，这样便于统一管理配置和错误处理。

// app/Services/OllamaService.php namespace App\Services; use ArdaGnsrn\Ollama\Ollama; use ArdaGnsrn\Ollama\Requests\ChatRequest; use ArdaGnsrn\Ollama\Requests\GenerateRequest; use ArdaGnsrn\Ollama\Message; use Illuminate\Support\Facades\Log; class OllamaService { protected Ollama $client; protected string $defaultModel; public function __construct() { // 从 Laravel 配置文件中读取 Ollama 服务器地址和默认模型 $host = config('ollama.host', 'http://localhost:11434'); $this->defaultModel = config('ollama.default_model', 'llama3.2:1b'); $this->client = new Ollama($host); } /** * 单次生成文本 */ public function generateText(string $prompt, ?string $model = null, array $options = []): string { $model = $model ?? $this->defaultModel; $request = new GenerateRequest( model: $model, prompt: $prompt, options: array_merge(['num_predict' => 500], $options) // 提供默认选项 ); try { $response = $this->client->generate($request); return $response->response; } catch (\Exception $e) { Log::error('Ollama 生成请求失败', ['error' => $e->getMessage(), 'prompt' => $prompt]); throw new \RuntimeException('AI 服务暂时不可用，请稍后重试。'); } } /** * 进行多轮对话（带简单的上下文管理） */ public function chat(array $messageHistory, ?string $model = null): array { $model = $model ?? $this->defaultModel; // 简单的上下文截断：只保留最近10轮对话（假设每轮消息不长） if (count($messageHistory) > 20) { // 10轮 * 2条消息（user+assistant） $messageHistory = array_slice($messageHistory, -20); } // 将历史数组转换为 Message 对象数组 $messages = array_map(function ($msg) { return new Message(role: $msg['role'], content: $msg['content']); }, $messageHistory); $request = new ChatRequest(model: $model, messages: $messages); try { $response = $this->client->chat($request); // 返回助手的回复和本次消耗的token数（用于更精细的上下文管理） return [ 'reply' => $response->message->content, 'prompt_tokens' => $response->prompt_eval_count, 'completion_tokens' => $response->eval_count, ]; } catch (\Exception $e) { Log::error('Ollama 对话请求失败', ['error' => $e->getMessage(), 'history' => $messageHistory]); throw new \RuntimeException('对话服务出错，请稍后再试。'); } } }

然后，在config/ollama.php中添加配置文件：

<?php // config/ollama.php return [ 'host' => env('OLLAMA_HOST', 'http://localhost:11434'), 'default_model' => env('OLLAMA_DEFAULT_MODEL', 'llama3.2:1b'), ];

在.env文件中配置：

OLLAMA_HOST=http://192.168.1.100:11434 # 你的 Ollama 服务器地址 OLLAMA_DEFAULT_MODEL=llama3.2:3b

最后，在app/Providers/AppServiceProvider.php中注册这个服务：

public function register(): void { $this->app->singleton(OllamaService::class, function ($app) { return new OllamaService(); }); }

4.2 控制器与路由

创建一个控制器来处理聊天请求。

// app/Http/Controllers/ChatController.php namespace App\Http\Controllers; use App\Services\OllamaService; use Illuminate\Http\Request; use Illuminate\Support\Facades\Cache; class ChatController extends Controller { protected OllamaService $ollama; public function __construct(OllamaService $ollama) { $this->ollama = $ollama; } public function sendMessage(Request $request) { $request->validate([ 'message' => 'required|string', 'session_id' => 'required|string', // 用于区分不同用户的会话 ]); $userMessage = $request->input('message'); $sessionId = $request->input('session_id'); // 从缓存中获取该会话的历史记录 $cacheKey = "chat_history:{$sessionId}"; $history = Cache::get($cacheKey, []); // 将用户的新消息加入历史 $history[] = ['role' => 'user', 'content' => $userMessage]; // 调用 Ollama 服务进行对话 $result = $this->ollama->chat($history); // 将助手的回复加入历史 $history[] = ['role' => 'assistant', 'content' => $result['reply']]; // 将更新后的历史存回缓存，设置过期时间（例如30分钟无活动则清除） Cache::put($cacheKey, $history, now()->addMinutes(30)); return response()->json([ 'reply' => $result['reply'], 'token_usage' => [ 'prompt' => $result['prompt_tokens'], 'completion' => $result['completion_tokens'], ], ]); } public function newSession(Request $request) { $sessionId = uniqid('chat_', true); // 可以在这里初始化一个系统提示词 $initialHistory = [ ['role' => 'system', 'content' => '你是一个友好的客服助手，请用简洁明了的语言回答用户关于产品的问题。'] ]; Cache::put("chat_history:{$sessionId}", $initialHistory, now()->addMinutes(30)); return response()->json(['session_id' => $sessionId]); } }

定义路由：

// routes/api.php use App\Http\Controllers\ChatController; Route::post('/chat/new-session', [ChatController::class, 'newSession']); Route::post('/chat/send', [ChatController::class, 'sendMessage']);

4.3 前端简单示例

一个极简的 HTML/JS 前端，展示如何与后端交互：

<!DOCTYPE html> <html> <head> <title>智能客服</title> </head> <body> <div id="chatBox" style="height: 400px; overflow-y: scroll; border: 1px solid #ccc; padding: 10px;"></div> <input type="text" id="messageInput" placeholder="输入你的问题..." /> <button onclick="sendMessage()">发送</button> <script> let sessionId = null; // 页面加载时创建新会话 fetch('/api/chat/new-session', { method: 'POST' }) .then(r => r.json()) .then(data => { sessionId = data.session_id; console.log('新会话 ID:', sessionId); }); function sendMessage() { const input = document.getElementById('messageInput'); const message = input.value.trim(); if (!message || !sessionId) return; // 显示用户消息 appendMessage('user', message); input.value = ''; // 发送到后端 fetch('/api/chat/send', { method: 'POST', headers: { 'Content-Type': 'application/json' }, body: JSON.stringify({ message, session_id: sessionId }) }) .then(r => r.json()) .then(data => { appendMessage('assistant', data.reply); }) .catch(err => { console.error('发送失败:', err); appendMessage('system', '抱歉，服务暂时不可用。'); }); } function appendMessage(role, content) { const chatBox = document.getElementById('chatBox'); const div = document.createElement('div'); div.innerHTML = `<strong>${role}:</strong> ${content}`; chatBox.appendChild(div); chatBox.scrollTop = chatBox.scrollHeight; } </script> </body> </html>

这样，一个具备基本会话记忆功能的 AI 客服后端就搭建起来了。前端发送消息时携带session_id，后端根据这个 ID 维护各自的对话历史，实现了简单的多轮对话。

5. 性能优化、监控与常见问题排查

将大模型集成到生产环境，性能和稳定性是关键。

5.1 性能优化策略

连接池与 HTTP 客户端优化：ollama-php底层使用 Guzzle HTTP 客户端。在生产环境中，应该配置一个持久化的连接池，避免为每个请求重复建立 TCP 连接，这能显著降低高并发下的延迟。

// 在 OllamaService 的 __construct 中自定义 Guzzle 客户端 use GuzzleHttp\Client; $httpClient = new Client([ 'base_uri' => $host, 'timeout' => 60.0, // 根据生成文本长度调整超时 'connect_timeout' => 5.0, 'pool' => [ 'max_connections' => 100, // 连接池大小 ], ]); // 遗憾的是，当前的 ollama-php 库构造函数不支持直接传入自定义的 Guzzle 实例。 // 这是一个可以给库提 PR 的优化点。目前，确保你的 PHP-FPM 或 Swoole 等应用服务器本身有良好的连接复用机制。

请求超时设置：生成长文本可能很耗时。务必根据模型大小和生成长度设置合理的超时时间。可以在初始化Ollama客户端时，通过第二个参数传递 Guzzle 配置数组（如果库版本支持）。
模型选择与量化：
- 选择合适尺寸的模型：如果应用场景简单（如分类、简单问答），小模型（1B, 3B）在速度和资源消耗上远优于大模型（7B, 13B+）。
- 使用量化模型：Ollama 支持 GGUF 格式的量化模型（如q4_0,q8_0）。量化能在几乎不损失精度的情况下，大幅减少模型内存占用和提升推理速度。在拉取模型时可以选择量化版本，例如llama3.2:3b-q4_0。
缓存策略：对于一些相对固定的提示词和回复（如常见问题问答、模板内容生成），可以将模型的输出结果缓存起来（使用 Redis 或 Memcached）。下次遇到相同输入时直接返回缓存，避免重复调用模型。

5.2 监控与日志

记录 Token 消耗：每次生成请求的响应中都包含prompt_eval_count和eval_count。记录这些数据有助于：
- 成本估算：如果你未来使用按 token 计费的云服务，这是成本核算的基础。
- 性能分析：监控平均生成长度和耗时。
- 异常检测：如果某个请求的eval_count异常高，可能是遇到了导致模型“循环”的提示词。
记录请求与响应时间：在 Service 层记录每个请求的耗时，便于发现性能瓶颈是在网络传输还是模型推理本身。
健康检查：编写一个定期的健康检查任务（如 Laravel 的 Scheduled Command），调用/api/tags或/api/version接口，确保 Ollama 服务存活。

5.3 常见问题排查表

以下是我在开发和运维中遇到的一些典型问题及解决方法：

问题现象	可能原因	排查步骤与解决方案
连接超时或拒绝连接	1. Ollama 服务未启动。 2. 防火墙/安全组阻止了端口访问。 3. 客户端初始化时主机地址或端口错误。	1. 在服务器执行`ollama serve`并检查进程。 2. 使用`curl http://<host>:11434/api/tags`测试连通性。 3. 检查 PHP 代码中`Ollama`客户端初始化参数。
模型不存在错误	1. 指定的模型名称错误。 2. 模型未下载到本地。	1. 通过`ollama list`确认本地模型列表，检查拼写和标签。 2. 使用`ollama pull <model>`拉取所需模型。
生成速度极慢	1. 服务器 CPU/内存资源不足。 2. 模型过大，硬件带不动。 3. 生成长度 (`num_predict`) 设置过高。	1. 使用`top`或`htop`监控服务器资源。 2. 换用更小的模型或量化版本。 3. 合理设置`num_predict`，并考虑启用流式响应改善用户体验。
返回乱码或无关内容	1. 提示词 (prompt) 不清晰或格式不对。 2. 温度 (`temperature`) 设置过高，导致随机性太大。 3. 模型本身能力有限或未针对任务微调。	1. 优化提示词工程，给出更明确的指令和示例。 2. 降低`temperature`(如设为 0.1-0.3)。 3. 尝试不同的模型，或使用`system`参数强化角色设定。
流式响应中途中断	1. 网络不稳定。 2. PHP 脚本执行超时。 3. 客户端或服务器缓冲区问题。	1. 检查网络连接。 2. 设置`set_time_limit(0)`防止 PHP 超时。 3. 对于 Web 场景，考虑使用 WebSocket 或 Server-Sent Events (SSE) 获得更好的流式支持。
内存不足 (OOM)	1. 同时处理多个并发请求，内存占用叠加。 2. 模型本身所需内存超过物理内存。	1. 限制并发请求数，使用队列异步处理。 2. 为 PHP-FPM 设置合理的`pm.max_children`。 3. 换用更小的模型，或增加服务器内存。

5.4 安全考虑

输入验证与过滤：永远不要将用户输入直接、未经处理地发送给模型。必须进行严格的验证、过滤和转义，防止提示词注入攻击（Prompt Injection）。例如，用户输入中可能包含试图让模型忽略之前指令或泄露系统提示词的恶意文本。
访问控制：确保调用 Ollama API 的端点有适当的身份验证和授权，避免被未授权用户滥用，产生不可控的计算成本。
输出审查：对于面向公众的应用，需要对模型的输出进行内容安全审查，过滤不当、偏见或有害内容。可以结合其他规则引擎或审查 API 进行二次处理。
非公开模型：如果你使用了私有或微调过的模型，确保 Ollama 服务器的访问权限受到严格控制，模型文件不会被轻易窃取。

ArdaGnsrn/ollama-php这个库，就像一个精心设计的适配器，把 Ollama 强大的本地模型能力，无缝地接到了我们熟悉的 PHP 生态里。从快速原型验证到生产级集成，它都提供了清晰的路径。最大的优势在于“本地化”和“可控性”，数据不出私域，成本相对固定，响应速度也取决于你自己的硬件。当然，它也对运维提出了一点要求，比如要自己维护模型服务器。但总的来说，对于想要在 PHP 应用中低成本、高可控地引入 AI 能力的团队和个人开发者，这无疑是一个值得投入学习和使用的利器。在实际使用中，多关注提示词工程、上下文管理和性能监控，就能让这个组合发挥出最大的价值。

查看全文

http://www.jsqmd.com/news/752049/