当前位置：首页 > news >正文

多模态MCP服务器实现：让AI看懂图像、听懂语音的完整架构指南

news 2026/5/3 2:29:19

1. 项目概述：一个多模态MCP的完整实现

最近在折腾AI应用开发，特别是想让大语言模型（LLM）能“看见”和“操作”真实世界。如果你也研究过AI Agent或者工具调用，肯定对MCP（Model Context Protocol）不陌生。简单说，它就像给LLM装上了一套标准化的“手”和“眼睛”，让模型能通过一套统一的协议，安全、可控地调用外部工具、读取文件、访问数据库，甚至操作GUI。但市面上的MCP实现，大多还停留在文本和代码层面。

当我看到Ashot72/Multi-Modal-MCP-Server-Client这个项目时，眼前一亮。它直接瞄准了“多模态”这个核心痛点。这个项目不是一个简单的库，而是一个完整的、开箱即用的MCP服务器与客户端实现，其核心目标就是让LLM不仅能处理文本，还能原生地理解图像、音频，并调用相应的多模态工具。这相当于为AI Agent构建了一个感知与行动的“多模态中枢神经系统”。

想象一下这个场景：你让AI助手“帮我看一下这张图表，总结趋势，并把关键数据保存到表格里”。传统方式可能需要你把图片上传到某个平台，再手动操作。而基于这个多模态MCP架构，AI可以直接“看到”你屏幕截图或上传的图片，调用视觉模型进行分析，理解图表内容，再调用表格处理工具生成文件，整个过程在一个连贯的对话中完成。这个项目就是实现这类场景的基石。

它适合谁呢？首先是AI应用开发者，尤其是那些想构建具备视觉、听觉交互能力智能助手的团队。其次是研究AI Agent和工具调用的工程师，这个项目提供了一个绝佳的研究范本，展示了如何将多模态能力无缝集成到工具调用框架中。最后，对于任何对下一代人机交互感兴趣的技术爱好者，通过复现和修改这个项目，你能深刻理解未来AI如何更自然地理解并响应用户的多模态指令。

2. 核心架构与设计思路拆解

要理解这个项目，我们必须先拆解MCP和多模态这两个核心概念，再看它们是如何被精巧地结合在一起的。

2.1 MCP协议的精髓：标准化工具调用

MCP不是一个具体的产品，而是一个协议规范。你可以把它想象成USB协议。在USB出现之前，鼠标、键盘、打印机各有各的接口，混乱不堪。USB协议定义了一套标准，让所有外设都能通过同一种方式与电脑通信。MCP之于LLM，就如同USB之于电脑。

它的核心价值在于：

标准化：为LLM定义了一套统一的、与模型无关的工具描述、调用和返回格式。无论底层工具是Python函数、HTTP API还是一个命令行程序，对LLM来说，它们都被抽象成了统一的“工具”。
安全性：服务器（提供工具的一方）可以严格定义每个工具所需的参数、权限和资源访问范围。客户端（LLM或用户）无法越权调用。这解决了直接让LLM执行代码或系统命令的巨大安全风险。
可发现性：LLM在会话开始时，可以向服务器“询问”你有哪些可用的工具（tools/list），以及每个工具的具体用法（tools/describe）。这实现了工具的动态发现和自描述，无需在提示词里硬编码。

在这个项目中，MCP服务器就是那个提供了“看图”、“听音”、“读文档”等一系列多模态工具的“工具箱”，而客户端（通常是连接了LLM的应用）则是使用这些工具的“大脑”。

2.2 多模态能力的注入：超越文本的感知

“多模态”意味着模型能处理和生成多种类型的数据，主要是图像和音频。在MCP的上下文中，多模态化面临几个关键挑战：

数据表示：如何把一张图片或一段音频，通过JSON-RPC（MCP的传输协议）传递给LLM？文本可以直接用字符串，但二进制数据（如图片）需要编码（如Base64）或通过资源引用（resource://URI）来传递。
工具设计：一个多模态工具应该接收什么参数？返回什么结果？例如，一个“图像描述”工具，输入可能是一个图片文件路径或Base64字符串，输出是文本描述。但一个“图像生成”工具，输入是文本提示词，输出则可能是一个图片资源URI。
上下文管理：LLM如何“记住”它刚才“看”到的图片？这需要服务器能妥善管理“资源”（Resources），让客户端可以通过URI在后续对话中引用之前处理过的多模态数据。

Ashot72/Multi-Modal-MCP-Server-Client项目的设计思路，正是围绕解决这些挑战展开的。它没有重新发明轮子，而是在MCP协议的基础上，扩展了多模态数据的处理流水线。服务器端集成了像CLIP、Whisper、Stable Diffusion（或类似）这样的开源模型，将它们封装成符合MCP标准的工具。客户端则负责处理与LLM的交互，将用户的自然语言指令解析成对特定多模态工具的调用，并将工具返回的多模态结果（如图片）巧妙地整合进给LLM的上下文中。

2.3 服务器-客户端分离架构的优势

项目采用清晰的Server-Client分离架构，这是非常明智的设计。

服务器端是一个长期运行的后台进程，它：

承载重型模型：负责加载和运行视觉、语音等计算密集型的AI模型。这些模型通常需要GPU和大量内存，让它们独立运行，避免了拖垮客户端应用。
暴露标准化接口：通过MCP协议（通常是Stdio或HTTP）暴露出一系列工具函数。它不关心客户端是Claude Desktop、Cursor还是自定义应用。
管理资源生命周期：负责生成、存储并提供对多模态资源（如图片、音频片段）的访问。

客户端端则是与用户或LLM直接交互的部分，它：

实现协议连接：负责与MCP服务器建立连接（启动子进程或连接网络端口）。
桥接LLM：将MCP工具列表和描述整合到给LLM的系统提示词中，并将LLM的“工具调用”请求转发给服务器，再把服务器的结果返回给LLM。
处理多模态上下文：当服务器返回一个图片URI时，客户端需要决定如何将其呈现给LLM（例如，通过特殊的标记格式，或在支持多模态的模型上下文中直接嵌入图像特征）。

这种分离带来了巨大的灵活性。你可以升级服务器端的模型而无需改动客户端，也可以为同一个服务器开发不同的客户端（如命令行客户端、Web客户端、IDE插件）。更重要的是，它将能力提供与能力使用解耦，符合现代微服务的设计哲学。

3. 核心模块与多模态工具解析

接下来，我们深入项目内部，看看它具体提供了哪些“武器”。一个典型的多模态MCP服务器会包含以下几类核心工具模块。

3.1 视觉感知模块：让AI“看见”

这是最核心的部分。服务器可能会集成以下视觉能力工具：

图像描述与问答：
- 工具名：可能是describe_image或visual_qa。
- 输入：一个图像资源URI（如resource://image/uploaded/photo.jpg）或Base64编码的图片数据。
- 内部实现：调用类似BLIP-2、LLaVA、GPT-4V的视觉语言模型。BLIP-2适合生成简洁描述，LLaVA可以进行开放式对话，而项目可能会选择更轻量、可本地部署的模型。
- 输出：一段详细的文本描述，或者针对特定问题的答案。
- 实操注意：图像分辨率需要预处理。直接扔给模型一张4K图片可能会爆显存。通常需要先缩放到模型训练时的标准尺寸（如224x224, 336x336, 448x448）。在工具实现里，这个预处理步骤必不可少。
光学字符识别：
- 工具名：extract_text_from_image或ocr。
- 输入：图像资源。
- 内部实现：集成PaddleOCR、Tesseract或EasyOCR等OCR引擎。PaddleOCR对中文支持好，Tesseract更通用但可能需要语言包。
- 输出：识别出的结构化文本，可能附带文字位置信息。
- 实操心得：对于版面复杂的文档（如论文、报表），单纯的OCR可能不够。更高级的工具可以结合版面分析（Layout Analysis），先识别出标题、段落、表格区域，再分别OCR，这样提取的信息结构化程度更高。这个项目如果实现了此类工具，价值会非常大。
视觉特征提取与搜索：
- 工具名：search_similar_images。
- 输入：一张查询图片。
- 内部实现：使用CLIP、DINOv2等模型提取图片的嵌入向量，然后与预先建立索引的图片库进行向量相似度计算（如使用FAISS、ChromaDB）。
- 输出：一组最相似的图片及其元数据。
- 注意事项：构建索引是离线过程。服务器可能需要一个单独的“索引管理”工具或启动时加载索引。向量搜索的精度和速度需要权衡，选择合适的索引参数（如HNSW的efConstruction和efSearch）很关键。

3.2 语音交互模块：让AI“听见”

让LLM处理音频，通常分为语音识别和语音合成两个方向。

语音识别：
- 工具名：transcribe_audio。
- 输入：音频文件资源URI（支持wav, mp3等格式）。
- 内部实现：集成Whisper（OpenAI开源模型）或其优化版本（如faster-whisper, Whisper.cpp）。Whisper模型尺寸从tiny到large，精度和速度差异巨大。
- 输出：转录的文本，可能包含时间戳（用于字幕生成）。
- 配置要点：选择哪个Whisper模型取决于你的硬件。在CPU上，tiny或base是唯一选择；有GPU时可以考虑small或medium。faster-whisper利用CTranslate2进行推理加速，能显著提升速度，是生产环境更优的选择。
语音合成：
- 工具名：generate_speech。
- 输入：要合成的文本，以及可选的语音参数（如说话人ID、语速、音调）。
- 内部实现：可能集成Coqui TTS、VITS或微软的SpeechT5等开源TTS模型。Coqui TTS功能强大但体积大，VITS音质好且模型相对较小。
- 输出：合成音频的资源URI或二进制数据流。
- 踩坑记录：TTS模型对中文的支持千差万别。有些英文模型直接说中文会变成“鬼畜”音。务必选择明确支持多语言或专门的中文TTS模型。此外，合成长文本时需要注意内存管理，避免OOM。

3.3 文档与结构化数据处理模块

除了纯图像和音频，处理混合内容的文档（如PDF、Word）也是刚需。

文档内容提取：
- 工具名：extract_document_content。
- 输入：PDF、DOCX等文档文件资源。
- 内部实现：这是一个复合工具。对于PDF，可能需要先用pdf2image库将页面转为图片，然后对图片进行OCR；对于DOCX，可以直接用python-docx库解析XML结构。更高级的实现会使用unstructured、layoutparser这类专用库，它能更好地保留表格、列表等格式。
- 输出：结构化的文本内容，可能分章节、段落。
- 经验之谈：PDF解析是个大坑。扫描版PDF（图片）和文字版PDF（内嵌字体）需要完全不同的处理流程。一个健壮的工具应该能自动检测PDF类型并选择相应管道：文字版用pypdf或pdfplumber直接提取；扫描版走“渲染为图片 -> OCR”流程。这个判断逻辑必须在工具里实现。
表格数据提取：
- 工具名：extract_tables。
- 输入：PDF或图片资源（包含表格的区域）。
- 内部实现：使用camelot、tabula（针对PDF）或基于深度学习的表格识别模型（如TableNet, CascadeTabNet）。对于图片，可能需要先进行表格结构检测，再对每个单元格进行OCR。
- 输出：JSON或CSV格式的表格数据。
- 避坑指南：合并单元格、嵌套表头、倾斜表格是表格识别的三大噩梦。camelot的stream模式对有线表格效果好，lattice模式对无线表格效果好，但都不完美。深度学习模型精度高，但部署复杂。在实际项目中，往往需要结合规则后处理来修正识别结果。

3.4 资源管理与上下文传递机制

多模态工具的核心难点之一是如何在客户端、服务器和LLM之间传递非文本数据。MCP的“资源”概念为此提供了优雅的解决方案。

资源URI：当服务器处理一张图片后，它不会直接返回巨大的Base64字符串，而是生成一个唯一的资源URI，例如resource://image/generated/chart_summary_12345.png。这个URI会作为工具调用结果的一部分返回给客户端。
资源清单：服务器会通过MCP的resources/list和resources/read接口来管理这些资源。客户端在需要获取资源内容（比如要将图片展示给用户或嵌入给多模态LLM的上下文）时，再通过URI去读取。
上下文关联：LLM在对话中引用“刚才你生成的那张图”，客户端需要能将这个自然语言指代，映射到具体的资源URI上，并在后续的工具调用中作为参数传递。这通常需要客户端维护一个简单的“资源-描述”映射表。

这种机制极大地减少了网络传输负担和LLM上下文窗口的占用，是构建高效多模态对话系统的关键。

4. 从零开始部署与实操指南

理论说了这么多，手痒想自己跑起来看看。下面我以在Linux开发环境（Ubuntu 22.04）为例，带你走一遍从环境准备到运行第一个多模态工具的完整流程。假设项目使用Python实现。

4.1 环境准备与依赖安装

首先，克隆项目仓库并搭建环境。多模态项目通常对PyTorch、CUDA版本有要求，需要仔细核对。

# 1. 克隆项目 git clone https://github.com/Ashot72/Multi-Modal-MCP-Server-Client.git cd Multi-Modal-MCP-Server-Client # 2. 创建并激活虚拟环境（强烈推荐） python -m venv .venv source .venv/bin/activate # Windows: .venv\Scripts\activate # 3. 安装核心依赖 # 首先查看项目根目录的 requirements.txt 或 pyproject.toml # 如果没有，通常需要安装MCP核心SDK和多模态模型库 pip install mcp transformers torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # 根据你的CUDA版本调整 pip install pillow opencv-python-headless pdf2image python-docx pip install whisper openai-whisper # 语音识别 # 可能还需要安装OCR引擎，例如PaddleOCR # pip install paddlepaddle paddleocr -i https://mirror.baidu.com/pypi/simple

注意：PyTorch的安装命令务必去官网根据你的CUDA版本生成。如果没有GPU，使用pip install torch torchvision torchaudio安装CPU版本。PaddleOCR的安装因为依赖百度镜像，在国内网络环境下可能更稳定，但体积较大。

4.2 服务器配置与启动

项目根目录下应该有一个服务器启动脚本（如server.py）和配置文件（如config.yaml或.env）。

# 示例 config.yaml server: host: "127.0.0.1" port: 8080 # 或者使用stdio传输（更常见于本地集成） transport: "stdio" models: vision: description_model: "Salesforce/blip2-opt-2.7b" # 使用的图像描述模型 device: "cuda:0" # 或 "cpu" speech: asr_model: "openai/whisper-small" # 语音识别模型 tts_model: "tts_models/zh-CN/baker/tacotron2-DDC-GST" # 中文TTS示例 ocr: engine: "paddleocr" # 或 "tesseract" lang: "ch" resources: cache_dir: "./.mcp_cache" max_cache_size_mb: 1024

启动服务器：

python server.py --config config.yaml

如果使用Stdio传输，服务器会等待从标准输入接收JSON-RPC请求。这是Claude Desktop等客户端常用的方式。

4.3 客户端连接与工具调用测试

我们需要一个客户端来测试服务器。项目可能自带一个简单的测试客户端（client.py），或者我们可以用更通用的方式，如使用mcp库的Client类手动编写测试脚本。

# test_client.py import asyncio from mcp import ClientSession, StdioServerParameters from mcp.client.stdio import stdio_client async def test_vision_tool(): # 1. 配置服务器参数（假设服务器通过stdio启动） server_params = StdioServerParameters( command="python", args=["/path/to/your/server.py", "--config", "config.yaml"] ) # 2. 创建会话并连接 async with stdio_client(server_params) as (read, write): async with ClientSession(read, write) as session: # 3. 初始化连接 await session.initialize() # 4. 列出可用工具 tools = await session.list_tools() print("Available tools:", [t.name for t in tools.tools]) # 5. 假设有一个 describe_image 工具 # 我们需要先创建一个图片资源。这里简化处理，实际中可能需要通过`resources/create`上传。 # 更常见的测试方式是服务器提供一个`read_file`工具，客户端先上传图片。 # 我们假设服务器已经有一个内置的测试图片资源 URI。 test_image_uri = "resource://test/images/sample.jpg" # 6. 调用工具 result = await session.call_tool( "describe_image", arguments={"image_uri": test_image_uri} ) # 7. 处理结果 print("Image description:", result.content[0].text) # 8. 如果结果是新生成的图片资源，可以读取它 # if result.content[0].type == "resource": # resource_uri = result.content[0].resource.uri # resource_data = await session.read_resource(resource_uri) # # 保存或处理 resource_data.data (base64) if __name__ == "__main__": asyncio.run(test_vision_tool())

运行测试客户端：

python test_client.py

如果一切顺利，你应该能看到服务器打印加载模型的日志，然后客户端输出可用的工具列表，并最终打印出对测试图片的描述。

4.4 与主流AI应用集成

真正的威力在于将你的多模态MCP服务器集成到日常使用的AI工具中。

Claude Desktop：这是最直接的集成方式。在Claude Desktop的配置目录（如~/Library/Application Support/Claude/claude_desktop_config.json或%APPDATA%\Claude\claude_desktop_config.json）中，添加你的服务器配置。
```
{ "mcpServers": { "my-multimodal-server": { "command": "/absolute/path/to/your/.venv/bin/python", "args": ["/absolute/path/to/server.py", "--config", "/absolute/path/to/config.yaml"], "env": {"PYTHONPATH": "/absolute/path/to/project"} } } }
```
重启Claude Desktop，你的工具就会出现在Claude的可用工具列表中。
Cursor IDE：Cursor也支持MCP。配置方式类似，在Cursor的设置中找到MCP Servers部分进行添加。
自定义应用：你可以基于mcpSDK构建自己的聊天应用。客户端负责渲染界面、管理对话历史，并将用户消息和工具调用结果在LLM（通过OpenAI API、Anthropic API或本地模型）与你的MCP服务器之间传递。

5. 性能调优与生产化考量

让一个Demo跑起来是一回事，让它稳定、高效地服务是另一回事。以下是几个关键的优化方向。

5.1 模型加载与推理优化

多模态模型是资源消耗大户。

模型量化：使用GPTQ、AWQ、GGUF（llama.cpp格式）或PyTorch的torch.quantize对模型进行量化，能大幅减少显存占用和提升推理速度，精度损失通常可控。例如，将BLIP-2从FP16量化到INT8，显存减半。
使用优化运行时：
- Whisper：用faster-whisper(CTranslate2) 替代原版openai-whisper，速度可提升数倍。
- Stable Diffusion：使用onnxruntime或TensorRT加速推理流水线。
- 视觉模型：尝试OpenVINO或TensorRT部署，对Intel CPU或NVIDIA GPU有专门优化。
按需加载：不是所有工具都同时用到。可以实现“懒加载”，当第一个调用某个模型的请求到来时，再加载该模型。这能加快服务器启动速度。

5.2 并发与资源管理

服务器需要处理多个并发请求。

异步框架：确保服务器使用asyncio或类似异步框架（如anyio），避免因一个耗时的OCR请求阻塞整个服务器。
请求队列与限流：为GPU密集型任务（如图像生成）设置队列，并限制并发数，防止显存溢出（OOM）。可以使用asyncio.Semaphore实现简单的并发控制。
资源缓存：对频繁访问的模型权重、公共资源（如字体文件）进行内存或磁盘缓存。对于生成的图片等临时资源，要实现LRU（最近最少使用）淘汰机制，防止磁盘被撑满（参考配置中的max_cache_size_mb）。

5.3 安全性与错误处理

MCP服务器可能被集成到各种客户端，必须健壮。

输入验证与清理：对所有工具的参数进行严格验证。例如，检查文件路径是否在允许的目录内，防止路径遍历攻击；对Base64数据进行校验；限制上传文件的大小和类型。
超时机制：为每个工具调用设置超时。如果一个OCR任务卡住了，应该能自动中断，释放资源，并向客户端返回明确的错误信息，而不是让请求一直挂起。
详细的错误日志与监控：记录详细的错误日志，包括堆栈跟踪。同时，暴露一些健康检查端点（如果使用HTTP传输）或工具，让监控系统能感知服务器状态。

6. 常见问题排查与实战技巧

在实际部署和开发中，你肯定会遇到各种问题。这里记录一些我踩过的坑和解决方法。

6.1 连接与通信问题

问题现象	可能原因	排查步骤与解决方案
客户端连接服务器失败	1. 服务器未启动。 2. 传输方式不匹配（客户端用HTTP，服务器开Stdio）。 3. 防火墙/端口占用。	1. 检查服务器进程是否在运行，查看日志有无报错。 2. 确认客户端和服务器配置的传输层（stdio/http/stdio over ssh）一致。 3. 对于HTTP，用`curl localhost:8080`测试；对于Stdio，检查启动命令和参数是否正确。
工具列表为空	1. 服务器初始化失败，未注册任何工具。 2. 客户端未正确调用`initialize()`或`list_tools()`。	1. 查看服务器启动日志，确认模型加载成功，工具注册函数被调用。 2. 在客户端代码中，确保`session.initialize()`在`list_tools()`之前调用。
调用工具时报“工具未找到”	工具名称拼写错误，或工具在特定条件下才注册。	1. 仔细核对`list_tools`返回的工具名，大小写敏感。 2. 有些工具可能在服务器检测到特定硬件（如GPU）后才注册。检查服务器日志。

6.2 模型与推理相关问题

问题现象	可能原因	排查步骤与解决方案
加载模型时显存不足（OOM）	模型太大，或同时加载了多个大模型。	1.量化模型：使用INT8/INT4量化版本。 2.使用CPU：对于不要求低延迟的工具（如文档解析），将模型指定到`device=“cpu”`。 3.懒加载：实现按需加载，并用`unload_model()`在不用时释放显存。 4.升级硬件：这是最直接但成本最高的方案。
推理速度极慢	1. 使用了CPU进行推理。 2. 模型未优化。 3. 输入数据过大（如超高分辨率图片）。	1. 确认`torch.cuda.is_available()`为True，且模型`.to(device)`到了GPU。 2. 使用`torch.compile`（PyTorch 2.0+）对模型进行编译，首次运行慢，后续快。 3.预处理输入：在调用模型前，务必对图片进行缩放。例如，CLIP模型通常接受224x224的输入，喂给它1024x1024的图就是浪费算力。
中文OCR或TTS效果差	使用的模型未针对中文优化或训练。	1.OCR：换用PaddleOCR，它对中文场景的识别率和排版恢复能力通常优于Tesseract。 2.TTS：选择明确支持中文的模型，如Coqui TTS中的中文模型，或VITS中文预训练模型。检查训练数据是否包含足够的中文语料。

6.3 资源与上下文管理问题

问题：LLM似乎“忘记”了之前生成的图片，在后续对话中无法引用。
排查：检查客户端是否将服务器返回的资源URI妥善地存储在了对话上下文中。当用户说“修改一下刚才那张图”时，客户端需要能从历史记录里找到对应的resource://...URI，并将其作为参数传递给“修改图片”工具。
解决：在客户端维护一个“资源上下文映射表”。最简单的办法是，在每次收到包含新资源的结果时，用一个简短的描述（如“用户上传的营业执照照片”）作为key，资源URI作为value，存入一个字典。当解析用户指令时，尝试进行关键词匹配。
问题：生成的图片、音频等临时资源堆积，占用大量磁盘空间。
解决：实现一个后台清理任务。可以利用aiofiles和aiojobs库定期扫描资源缓存目录，删除超过一定时间（如1小时）未被访问的文件。同时，在服务器配置中一定要设置max_cache_size_mb。

6.4 一次真实的调试案例：图片描述工具返回乱码

我曾遇到一个诡异的问题：describe_image工具偶尔返回一堆乱码字符，而不是中文描述。

第一步：定位。在服务器工具函数内部添加日志，打印出原始模型输出。发现模型输出本身就是乱码。
第二步：简化。用一个固定的、简单的测试图片（如纯色图）进行测试，问题依旧。排除图片内容的影响。
第三步：检查数据流。检查图片从客户端传到服务器，再到模型输入前的每一个环节。发现客户端上传时，图片格式是PNG，但服务器在预处理时（如用OpenCV读取），有时会因为通道数（BGR vs RGB）或编码问题导致数据异常。根本原因：OpenCV的imread默认以BGR顺序加载图片，而大多数视觉模型（如BLIP, CLIP）期望输入是RGB。在预处理转换时，某个边界情况（如带透明通道的PNG）处理不当，导致数组数据异常，模型因此产生乱码输出。
修复：在预处理函数中强制统一转换。确保无论输入什么格式，都先转换为RGB三通道的numpy数组，并归一化到模型期望的数值范围。修复后问题消失。

这个案例的教训是：在多模态数据处理流水线中，数据的格式、编码、通道顺序必须严格保持一致。在工具函数的入口处，就做好强制性的标准化和健壮性检查。

最后，这个项目的价值不仅在于它提供了一套可运行的多模态MCP代码，更在于它展示了一种架构范式。你可以根据自己的需求，替换其中的模型（比如把BLIP换成更强的LLaVA-NeXT），增加新的工具（比如视频理解、3D模型处理），或者优化它的性能与部署方式。它就像一副坚实的骨架，等着你去填充血肉，构建出属于你自己的、能看会听的AI智能体。

查看全文

http://www.jsqmd.com/news/741740/