当前位置：首页 > news >正文

DASD-4B-Thinking实战教程：Chainlit集成LangChain实现工具调用

news 2026/5/12 4:56:29

DASD-4B-Thinking实战教程：Chainlit集成LangChain实现工具调用

1. 模型介绍与环境准备

DASD-4B-Thinking是一个专门为复杂推理任务设计的40亿参数语言模型。这个模型在数学计算、代码生成和科学推理等需要多步思考的任务上表现突出，特别擅长长链式思维推理。

1.1 模型技术特点

DASD-4B-Thinking基于Qwen3-4B-Instruct模型进行训练，通过先进的蒸馏技术从更大的教师模型中学习。最值得关注的是，它只用了44.8万个训练样本就达到了出色的推理能力，这比很多大型模型需要的训练数据要少得多。

1.2 环境检查与确认

在开始使用之前，我们需要确认模型服务已经正常启动。打开终端，运行以下命令：

cat /root/workspace/llm.log

如果看到类似下面的输出，说明模型已经成功部署：

重要提示：请确保模型完全加载完成后再进行提问，否则可能得到不完整的结果。

2. Chainlit前端集成

Chainlit是一个专门为AI应用设计的聊天界面框架，可以快速构建交互式应用。我们将用它来调用DASD-4B-Thinking模型。

2.1 安装必要依赖

首先确保你的环境中安装了必要的Python包：

pip install chainlit langchain openai

2.2 创建Chainlit应用

创建一个名为app.py的文件，添加以下代码：

import chainlit as cl from langchain.chains import LLMChain from langchain.prompts import PromptTemplate from langchain_community.llms import VLLM # 初始化DASD-4B-Thinking模型 def setup_model(): llm = VLLM( model="/path/to/dasd-4b-thinking", # 替换为你的模型路径 trust_remote_code=True, max_new_tokens=1024, temperature=0.1, top_p=0.9 ) return llm # Chainlit应用入口 @cl.on_chat_start async def start_chat(): llm = setup_model() cl.user_session.set("llm", llm) await cl.Message(content="DASD-4B-Thinking模型已就绪，可以开始提问了！").send() @cl.on_message async def handle_message(message: cl.Message): llm = cl.user_session.get("llm") # 构建提示词模板 prompt_template = """你是一个擅长复杂推理的AI助手。请仔细思考并逐步回答以下问题： 问题：{question} 请一步步推理，最后给出清晰的答案：""" # 创建LangChain链 prompt = PromptTemplate(template=prompt_template, input_variables=["question"]) chain = LLMChain(llm=llm, prompt=prompt) # 调用模型 response = await chain.arun(question=message.content) # 发送回复 await cl.Message(content=response).send()

3. 启动和使用应用

3.1 启动Chainlit服务

在终端中运行以下命令启动应用：

chainlit run app.py

服务启动后，会自动打开浏览器显示聊天界面：

3.2 进行提问测试

在输入框中输入你的问题，比如：

"请解释相对论的基本原理，并用简单的例子说明"

模型会展示其强大的推理能力，逐步给出详细的解答：

4. 高级功能扩展

4.1 添加工具调用功能

DASD-4B-Thinking支持工具调用，我们可以通过LangChain实现更复杂的功能：

from langchain.tools import Tool from langchain.agents import initialize_agent, AgentType # 定义自定义工具 def calculator_tool(expression: str) -> str: """计算数学表达式""" try: result = eval(expression) return f"计算结果: {result}" except: return "无法计算该表达式" # 创建工具列表 tools = [ Tool( name="Calculator", func=calculator_tool, description="用于计算数学表达式" ) ] # 在Chainlit中集成工具调用 @cl.on_message async def handle_message_with_tools(message: cl.Message): llm = cl.user_session.get("llm") # 初始化带工具的agent agent = initialize_agent( tools, llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True ) response = await agent.arun(input=message.content) await cl.Message(content=response).send()

4.2 支持多轮对话

为了让对话更加连贯，我们可以添加对话历史功能：

@cl.on_message async def handle_message_with_history(message: cl.Message): llm = cl.user_session.get("llm") # 获取对话历史 history = cl.user_session.get("history", []) history.append({"role": "user", "content": message.content}) # 构建包含历史的提示词 conversation_context = "\n".join([f"{msg['role']}: {msg['content']}" for msg in history[-5:]]) prompt_template = f"""之前的对话： {conversation_context} 当前问题：{message.content} 请基于对话历史回答：""" prompt = PromptTemplate(template=prompt_template, input_variables=[]) chain = LLMChain(llm=llm, prompt=prompt) response = await chain.arun() # 更新历史 history.append({"role": "assistant", "content": response}) cl.user_session.set("history", history) await cl.Message(content=response).send()

5. 性能优化建议

5.1 响应速度优化

对于需要快速响应的场景，可以调整模型参数：

llm = VLLM( model="/path/to/dasd-4b-thinking", trust_remote_code=True, max_new_tokens=512, # 减少生成长度 temperature=0.1, # 降低随机性 top_p=0.8, # 调整采样范围 repetition_penalty=1.1 # 减少重复 )

5.2 内存使用优化

如果遇到内存不足的问题，可以尝试以下配置：

llm = VLLM( model="/path/to/dasd-4b-thinking", trust_remote_code=True, gpu_memory_utilization=0.8, # 控制GPU内存使用 max_model_len=2048, # 限制输入长度 quantization="fp16" # 使用半精度浮点数 )