当前位置：首页 > news >正文

Qwen3-14b_int4_awq代码实例教程：Python调用vLLM API + Chainlit UI定制开发

news 2026/3/27 1:46:48

Qwen3-14b_int4_awq代码实例教程：Python调用vLLM API + Chainlit UI定制开发

1. 模型简介与部署准备

Qwen3-14b_int4_awq是基于Qwen3-14b模型的int4量化版本，采用AWQ（Activation-aware Weight Quantization）技术进行压缩优化。这个版本特别适合在资源有限的环境中部署，同时保持较高的文本生成质量。

1.1 模型特点

高效量化：使用int4精度，显著减少模型体积和内存占用
性能保留：通过AWQ技术，在量化后仍保持接近原始模型的生成质量
快速推理：优化后的模型在vLLM框架下能实现高效的文本生成

1.2 部署检查

部署完成后，可以通过以下命令检查服务状态：

cat /root/workspace/llm.log

成功部署后，日志中会显示模型加载完成的相关信息。确保看到类似"Model loaded successfully"的提示后再进行后续操作。

2. Python调用vLLM API

2.1 基础API调用

首先安装必要的Python包：

pip install vllm

然后使用以下代码进行基础调用：

from vllm import LLM, SamplingParams # 初始化模型和采样参数 llm = LLM(model="Qwen3-14b_int4_awq") sampling_params = SamplingParams(temperature=0.7, top_p=0.9) # 生成文本 prompt = "请用简洁的语言解释量子计算的基本原理" outputs = llm.generate([prompt], sampling_params) # 输出结果 for output in outputs: print(f"Prompt: {prompt}") print(f"Generated text: {output.outputs[0].text}")

2.2 批量处理与流式输出

对于需要处理多个提示或希望实时看到生成结果的场景：

from vllm import LLM, SamplingParams llm = LLM(model="Qwen3-14b_int4_awq") sampling_params = SamplingParams(temperature=0.7, top_p=0.9, max_tokens=200) # 批量处理多个提示 prompts = [ "写一篇关于人工智能未来发展的短文", "用Python实现一个快速排序算法", "解释区块链技术的基本原理" ] # 流式输出 for output in llm.generate(prompts, sampling_params): print(f"\nPrompt: {output.prompt}") print(f"Generated text:\n{output.outputs[0].text}\n{'='*50}")

3. Chainlit UI定制开发

3.1 基础Chainlit应用

安装Chainlit并创建基础应用：

pip install chainlit

创建app.py文件：

import chainlit as cl from vllm import LLM, SamplingParams # 初始化模型 llm = LLM(model="Qwen3-14b_int4_awq") sampling_params = SamplingParams(temperature=0.7, top_p=0.9) @cl.on_message async def main(message: cl.Message): # 生成响应 response = llm.generate([message.content], sampling_params) generated_text = response[0].outputs[0].text # 发送响应 await cl.Message( content=generated_text, ).send()

启动应用：

chainlit run app.py

3.2 增强UI功能

扩展基础应用，添加更多交互功能：

import chainlit as cl from vllm import LLM, SamplingParams from typing import Dict, Optional # 初始化模型 llm = LLM(model="Qwen3-14b_int4_awq") @cl.on_chat_start async def start_chat(): # 初始化会话设置 settings = await cl.ChatSettings( [ cl.input_widget.Slider( id="temperature", label="Temperature", initial=0.7, min=0, max=1, step=0.1 ), cl.input_widget.Slider( id="top_p", label="Top P", initial=0.9, min=0, max=1, step=0.05 ), cl.input_widget.Slider( id="max_tokens", label="Max Tokens", initial=200, min=50, max=500, step=10 ) ] ).send() # 保存初始设置 cl.user_session.set("settings", { "temperature": 0.7, "top_p": 0.9, "max_tokens": 200 }) @cl.on_settings_update async def update_settings(settings: Dict): # 更新会话设置 cl.user_session.set("settings", settings) @cl.on_message async def main(message: cl.Message): # 获取当前设置 settings = cl.user_session.get("settings") # 创建采样参数 sampling_params = SamplingParams( temperature=settings["temperature"], top_p=settings["top_p"], max_tokens=settings["max_tokens"] ) # 显示加载指示器 msg = cl.Message(content="") await msg.send() # 流式生成响应 response = "" for output in llm.generate([message.content], sampling_params): token = output.outputs[0].text[len(response):] response += token await msg.stream_token(token) # 更新最终消息 await msg.update()

4. 高级功能与优化

4.1 模型参数调优

根据不同的应用场景调整模型参数：

# 创意写作参数 creative_params = SamplingParams( temperature=0.85, # 更高的随机性 top_p=0.95, # 更广的采样范围 presence_penalty=0.2, # 鼓励新内容 frequency_penalty=0.2, # 减少重复 max_tokens=300 ) # 技术问答参数 technical_params = SamplingParams( temperature=0.3, # 更低的随机性 top_p=0.7, # 更严格的采样 presence_penalty=0.1, frequency_penalty=0.1, max_tokens=150 )

4.2 上下文管理

实现多轮对话的上下文保持：

@cl.on_chat_start async def start_chat(): # 初始化对话历史 cl.user_session.set("conversation_history", []) @cl.on_message async def main(message: cl.Message): # 获取对话历史和设置 history = cl.user_session.get("conversation_history") settings = cl.user_session.get("settings") # 构建完整提示 full_prompt = "\n".join(history + [f"用户: {message.content}", "助手: "]) # 生成响应 sampling_params = SamplingParams( temperature=settings["temperature"], top_p=settings["top_p"], max_tokens=settings["max_tokens"] ) response = llm.generate([full_prompt], sampling_params) generated_text = response[0].outputs[0].text # 更新对话历史 history.extend([ f"用户: {message.content}", f"助手: {generated_text}" ]) cl.user_session.set("conversation_history", history[-6:]) # 保留最近3轮 # 发送响应 await cl.Message(content=generated_text).send()