当前位置：首页 > news >正文

通义千问1.5-1.8B-Chat-GPTQ-Int4与Node.js集成：构建轻量级AI聊天服务

news 2026/7/6 18:03:43

通义千问1.5-1.8B-Chat-GPTQ-Int4与Node.js集成：构建轻量级AI聊天服务

最近在捣鼓一些AI小应用，发现很多朋友都想在自己的项目里加个聊天机器人，但又担心大模型太“重”，部署麻烦还费资源。正好，通义千问1.5-1.8B-Chat这个轻量级模型，加上GPTQ-Int4量化技术，让它在保持不错对话能力的同时，变得非常小巧高效。今天，我就来分享一下怎么用咱们熟悉的Node.js，快速搭一个能调用这个模型的聊天服务后端。整个过程不复杂，从搭服务器到调接口，咱们一步步来。

1. 为什么选择这个技术栈？

在开始动手之前，咱们先聊聊为什么这么搭配。Node.js大家都很熟了，用它写Web服务又快又方便，生态也好。而通义千问1.5-1.8B-Chat模型，经过GPTQ-Int4量化后，模型体积大幅减小，对内存和显存的要求也低了很多，非常适合在资源有限的个人服务器或者容器里跑。

简单来说，这个组合的目标就是：用最少的资源，跑起一个能聊天的AI服务。它可能没法跟你深入探讨哲学，但处理一些日常问答、简单对话、内容生成或者当个智能助手，是完全够用的，特别适合集成到工具、客服机器人或者需要一点智能交互的应用里。

2. 环境准备与项目初始化

咱们先从零开始，把环境搭起来。这里假设你已经有了Node.js环境，如果还没有，去官网下载安装包，一路下一步就行，记得把node和npm加到系统路径里。

首先，创建一个新的项目目录，并初始化它：

mkdir qwen-chat-service cd qwen-chat-service npm init -y

这会在目录下生成一个package.json文件。接下来，安装我们需要的核心依赖。我们主要用Express来构建Web服务器，用axios来调用模型API（假设模型已经通过某个服务启动，例如Ollama、vLLM或者Transformers的HTTP服务）。

npm install express axios cors dotenv npm install -D nodemon

express: Node.js最流行的Web框架。
axios: 用来发送HTTP请求，调用模型API。
cors: 处理跨域请求，方便前端调用。
dotenv: 管理环境变量，比如API地址、端口号。
nodemon: 开发工具，代码改动后自动重启服务。

安装好后，你的package.json里的dependencies应该类似这样：

{ "name": "qwen-chat-service", "version": "1.0.0", "description": "A lightweight AI chat service with Qwen-1.8B-Chat", "main": "index.js", "scripts": { "start": "node index.js", "dev": "nodemon index.js" }, "dependencies": { "express": "^4.18.2", "axios": "^1.6.2", "cors": "^2.8.5", "dotenv": "^16.3.1" }, "devDependencies": { "nodemon": "^3.0.1" } }

3. 搭建Express.js服务器骨架

现在来写服务的主文件。在项目根目录创建一个index.js（或者app.js）。

// index.js const express = require('express'); const cors = require('cors'); require('dotenv').config(); // 加载.env文件中的环境变量 const app = express(); const PORT = process.env.PORT || 3000; // 中间件配置 app.use(cors()); // 启用CORS，允许前端跨域访问 app.use(express.json()); // 解析JSON格式的请求体 // 一个简单的健康检查路由 app.get('/', (req, res) => { res.json({ message: 'Qwen Chat Service is running!' }); }); // 聊天接口路由 - 我们稍后在这里实现 app.post('/api/chat', async (req, res) => { // 待实现 res.json({ message: 'Chat endpoint under construction.' }); }); // 启动服务器 app.listen(PORT, () => { console.log(`Server is running on http://localhost:${PORT}`); });

同时，创建一个.env文件来存放配置，这样更安全，也方便切换环境：

# .env PORT=3000 MODEL_API_URL=http://localhost:11434/api/generate # 示例：假设使用Ollama MODEL_NAME=qwen:1.8b-chat-q4_0 # 模型名称，根据你的实际部署调整

这里MODEL_API_URL需要替换成你实际部署的模型服务地址。比如你用Ollama部署了量化后的通义千问模型，它的API地址可能就是http://localhost:11434/api/generate。如果你用的是其他方式（比如用Python启动了一个FastAPI服务），地址就相应改变。

4. 实现核心聊天接口

这是最核心的部分。我们需要在/api/chat这个POST接口里，接收用户的消息，转发给模型API，然后把模型的回复返回给前端。

我们先实现一个基础的非流式响应版本。在index.js中完善/api/chat路由：

const axios = require('axios'); // 环境变量中读取配置 const MODEL_API_URL = process.env.MODEL_API_URL; const MODEL_NAME = process.env.MODEL_NAME; app.post('/api/chat', async (req, res) => { try { const { message, history = [] } = req.body; if (!message) { return res.status(400).json({ error: 'Message is required.' }); } // 1. 构造符合模型API要求的请求体 // 注意：不同模型服务的API格式可能不同，这里以Ollama为例 const payload = { model: MODEL_NAME, prompt: message, stream: false, // 先关闭流式，一次返回完整结果 // 可以添加其他参数，如 temperature, top_p 等 options: { temperature: 0.7, top_p: 0.9, } }; // 如果有历史对话，需要构造更复杂的prompt，这里简单处理 // 实际使用通义千问Chat模型，可能需要按照其对话格式组织消息 // 例如: `<|im_start|>user\n${message}<|im_end|>\n<|im_start|>assistant\n` // 2. 发送请求到模型服务 const response = await axios.post(MODEL_API_URL, payload, { headers: { 'Content-Type': 'application/json' }, timeout: 60000, // 设置超时时间，模型推理可能需要一点时间 }); // 3. 解析模型返回的数据 // Ollama返回格式: { model, created_at, response, done, ... } const modelResponse = response.data.response || ''; // 4. 返回给前端 res.json({ reply: modelResponse, // 可以返回更多信息，如本次对话的ID、时间戳等 timestamp: new Date().toISOString(), }); } catch (error) { console.error('Chat API error:', error.message); // 根据错误类型返回更具体的错误信息 if (error.code === 'ECONNREFUSED') { res.status(503).json({ error: 'Model service is unavailable. Please ensure it is running.' }); } else if (error.response) { // 模型服务返回的错误 res.status(error.response.status).json({ error: error.response.data }); } else { res.status(500).json({ error: 'Internal server error.' }); } } });

这段代码做了几件事：接收前端发来的消息，按照模型API的格式包装好，用axios发过去，拿到回复后再返回给前端。还加了简单的错误处理。

5. 进阶：支持流式响应

如果模型服务支持流式输出（比如Ollama的stream: true），我们可以实现类似打字机效果的回答，用户体验会好很多。这需要用到Server-Sent Events (SSE) 或者直接流式转发。

修改/api/chat路由，增加一个stream查询参数来控制是否启用流式：

app.post('/api/chat', async (req, res) => { try { const { message, history = [] } = req.body; const useStream = req.query.stream === 'true'; // 通过 ?stream=true 启用 if (!message) { return res.status(400).json({ error: 'Message is required.' }); } const payload = { model: MODEL_NAME, prompt: message, stream: useStream, // 根据前端需求决定是否流式 options: { temperature: 0.7, } }; if (useStream) { // 流式响应模式 res.setHeader('Content-Type', 'text/event-stream'); res.setHeader('Cache-Control', 'no-cache'); res.setHeader('Connection', 'keep-alive'); const modelResponse = await axios.post(MODEL_API_URL, payload, { headers: { 'Content-Type': 'application/json' }, responseType: 'stream', // 重要：接收流式响应 }); // 将模型服务的流式输出直接转发给前端 modelResponse.data.pipe(res); // 处理连接关闭 req.on('close', () => { modelResponse.data.destroy(); }); } else { // 非流式响应模式（原有逻辑） const response = await axios.post(MODEL_API_URL, payload, { headers: { 'Content-Type': 'application/json' }, timeout: 60000, }); const modelResponse = response.data.response || ''; res.json({ reply: modelResponse, timestamp: new Date().toISOString() }); } } catch (error) { console.error('Chat API error:', error); if (!res.headersSent) { if (error.code === 'ECONNREFUSED') { res.status(503).json({ error: 'Model service is unavailable.' }); } else { res.status(500).json({ error: 'Internal server error.' }); } } } });

这样，前端就可以通过设置stream=true来获取流式响应，每个词或句子都会实时传回来。

6. 完善与测试

为了让服务更健壮，我们可以再添加一些功能。

6.1 添加请求日志和限流

使用morgan记录访问日志，用express-rate-limit防止滥用。

npm install morgan express-rate-limit

在index.js开头添加：

const morgan = require('morgan'); const rateLimit = require('express-rate-limit'); // 日志 app.use(morgan('combined')); // 对聊天接口进行限流 const chatLimiter = rateLimit({ windowMs: 15 * 60 * 1000, // 15分钟 max: 100, // 每个IP最多100次请求 message: { error: 'Too many requests, please try again later.' }, standardHeaders: true, legacyHeaders: false, }); app.use('/api/chat', chatLimiter);

6.2 编写一个简单的前端测试页面

在项目根目录创建一个public文件夹，里面放一个index.html，用于测试。

<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>Qwen Chat Test</title> <style> body { font-family: sans-serif; max-width: 800px; margin: 40px auto; padding: 20px; } #chatBox { border: 1px solid #ccc; height: 300px; overflow-y: auto; padding: 10px; margin-bottom: 10px; } .user { color: blue; text-align: right; } .bot { color: green; } input { width: 70%; padding: 10px; } button { padding: 10px 20px; } </style> </head> <body> <h2>通义千问轻量版聊天测试</h2> <div id="chatBox"></div> <input type="text" id="messageInput" placeholder="输入你的消息..." /> <button onclick="sendMessage()">发送</button> <label><input type="checkbox" id="streamCheckbox"> 启用流式响应</label> <script> const chatBox = document.getElementById('chatBox'); const messageInput = document.getElementById('messageInput'); const streamCheckbox = document.getElementById('streamCheckbox'); function addMessage(sender, text) { const div = document.createElement('div'); div.className = sender; div.innerHTML = `<strong>${sender}:</strong> ${text}`; chatBox.appendChild(div); chatBox.scrollTop = chatBox.scrollHeight; } async function sendMessage() { const message = messageInput.value.trim(); if (!message) return; addMessage('user', message); messageInput.value = ''; const useStream = streamCheckbox.checked; const url = `/api/chat${useStream ? '?stream=true' : ''}`; if (useStream) { // 流式处理 addMessage('bot', ''); const botDiv = chatBox.lastChild; const eventSource = new EventSource(url + `&prompt=${encodeURIComponent(message)}`); // 注意：SSE通常用GET，这里仅为示例逻辑，实际需调整 // 实际实现需要根据你的服务端流式API设计来调整前端代码，可能使用Fetch API读取stream。 console.log('Streaming mode selected. Implementation depends on your server API design.'); // 此处省略具体的SSE或Fetch Stream处理代码 return; } // 非流式处理 try { const response = await fetch('/api/chat', { method: 'POST', headers: { 'Content-Type': 'application/json' }, body: JSON.stringify({ message: message }) }); const data = await response.json(); if (response.ok) { addMessage('bot', data.reply); } else { addMessage('system', `Error: ${data.error}`); } } catch (error) { addMessage('system', `Network error: ${error.message}`); } } messageInput.addEventListener('keypress', (e) => { if (e.key === 'Enter') sendMessage(); }); </script> </body> </html>

然后在index.js中，添加静态文件服务中间件，以便能访问这个页面：

app.use(express.static('public')); // 放在其他路由之前

6.3 启动与测试

确保你的通义千问模型服务已经启动并运行在MODEL_API_URL指定的地址。
在项目目录下运行npm run dev。
打开浏览器，访问http://localhost:3000。
在输入框里发条消息，比如“你好，介绍一下你自己”，看看能不能收到回复。

7. 部署与后续优化建议

服务在本地跑通后，就可以考虑部署了。你可以把它部署到任何支持Node.js的云服务器或容器平台。

进程管理：在生产环境，建议使用pm2来管理Node.js进程，保证服务稳定运行和自动重启。
```
npm install -g pm2 pm2 start index.js --name qwen-chat-service
```
环境变量：在生产环境的服务器上，通过系统环境变量或平台提供的配置功能来设置.env里的参数，不要将敏感信息提交到代码仓库。
安全性：考虑添加API密钥认证（如JWT），防止服务被随意调用。
性能监控：可以集成一些简单的健康检查接口和日志监控。
模型服务：确保你的模型服务（如Ollama）也是常驻的，并且有足够的资源。对于1.8B-Int4模型，通常有4-8GB内存的服务器就足够了。

整个搭建过程就是这样。用Node.js集成这类轻量级AI模型，其实门槛不高，核心就是做好HTTP桥接和错误处理。这个简单的后端服务，已经可以作为一个功能核心，支撑起一个小型聊天应用了。你可以根据实际需求，继续扩展它的功能，比如支持多轮对话历史管理、对接不同的模型API、增加管理后台等等。