当前位置：首页 > news >正文

granite-4.0-h-350m保姆级教程：Ollama本地大模型部署+函数调用+文本提取全流程

news 2026/7/1 5:06:20

granite-4.0-h-350m保姆级教程：Ollama本地大模型部署+函数调用+文本提取全流程

想在自己的电脑上跑一个AI模型，但又担心配置复杂、资源不够？今天，我们就来手把手带你搞定一个轻量级的“全能选手”——Granite-4.0-H-350M。它只有3.5亿参数，对硬件要求极低，但功能却相当全面，从文本总结、分类，到函数调用、代码补全，样样都行。

这篇文章，我会带你从零开始，用Ollama把Granite-4.0-H-350M部署到本地，然后通过几个实际的例子，让你快速上手它的核心功能，特别是函数调用和文本提取。整个过程就像搭积木一样简单，准备好了吗？我们开始吧。

1. 环境准备与Ollama快速部署

在开始玩模型之前，我们得先把“游乐场”搭好。这里我们选择Ollama，它是一个专门用来在本地运行和管理大模型的工具，简单易用，对新手非常友好。

1.1 安装Ollama

Ollama的安装过程非常简单，几乎是一键式的。

Windows/macOS用户：直接访问Ollama官网，下载对应系统的安装程序，双击运行即可。
Linux用户：打开终端，执行下面这一条命令就能完成安装。

curl -fsSL https://ollama.com/install.sh | sh

安装完成后，你可以在终端输入ollama --version来验证是否安装成功。正常情况下，它会返回Ollama的版本号。

1.2 拉取Granite-4.0-H-350M模型

Ollama安装好后，它自带一个命令行工具。我们通过一条命令就能把Granite模型“下载”到本地。

打开你的终端（Windows上是CMD或PowerShell，macOS/Linux是Terminal），输入以下命令：

ollama pull granite4:350m-h

这个命令会从Ollama的模型库中拉取名为granite4:350m-h的模型。由于这个模型只有350M（3.5亿参数），下载速度会非常快，通常几十秒到一两分钟就搞定了。

小提示：granite4:350m-h是Ollama社区为这个模型起的“短名称”，它对应的完整模型就是IBM的Granite-4.0-H-350M。

2. 模型初体验：与Granite进行第一次对话

模型拉取成功后，我们就可以直接和它对话了。有两种简单的方式：

方式一：命令行交互在终端输入：

ollama run granite4:350m-h

执行后，你会看到>>>提示符，这时就可以直接输入问题，比如“用中文介绍一下你自己”，模型就会生成回复。

方式二：使用Ollama的Web界面（更推荐）Ollama还提供了一个图形化的Web界面，用起来更直观。

确保Ollama服务正在运行（安装后默认已启动）。
打开你的浏览器，访问http://localhost:11434。
在页面顶部的模型选择下拉框中，找到并选择granite4:350m-h。
选择模型后，页面下方的输入框就激活了，你可以直接在这里提问。

比如，输入“写一首关于春天的五言绝句”，看看这个轻量级模型能给出什么有趣的回答。

通过这个简单的对话，你应该能感受到Granite-4.0-H-350M的基本语言能力了。它支持包括中文在内的多种语言，虽然模型小，但指令跟随能力不错。

3. 核心功能实战：文本提取与函数调用

聊天只是开胃菜，Granite真正的价值在于它那些实用的功能。我们重点来看两个最常用的：文本提取和函数调用。

3.1 精准的文本信息提取

想象一下，你有一段冗长的产品评测或者会议纪要，需要快速提取出关键信息，比如产品名称、优点、缺点和总结。手动处理费时费力，让Granite来做就简单多了。

我们通过Ollama的API来调用它。首先，确保Ollama服务在运行，然后我们可以用curl命令或者写一段简单的Python代码。

示例：从产品评论中提取结构化信息

假设我们有这样一段英文评论：

“I recently bought the ‘SwiftRun Pro’ running shoes. The comfort is amazing, like walking on clouds, and they’re incredibly lightweight. However, after 2 months of daily use, the sole near the toe started to wear out faster than I expected. Overall, a great shoe for casual runners but maybe not for heavy-duty training.”

我们想让模型提取出：产品名、优点、缺点、总结。

你可以创建一个名为extract.json的文件，内容如下：

{ "model": "granite4:350m-h", "prompt": "Extract the following information from the product review below: Product Name, Key Advantages, Key Disadvantages, Overall Summary.\n\nReview: I recently bought the ‘SwiftRun Pro’ running shoes. The comfort is amazing, like walking on clouds, and they’re incredibly lightweight. However, after 2 months of daily use, the sole near the toe started to wear out faster than I expected. Overall, a great shoe for casual runners but maybe not for heavy-duty training.\n\nPlease format the output as a clear list.", "stream": false }

然后在终端执行：

curl http://localhost:11434/api/generate -d @extract.json

或者，写一段Python脚本extract_demo.py：

import requests import json url = "http://localhost:11434/api/generate" payload = { "model": "granite4:350m-h", "prompt": "从以下中文产品评论中提取信息：产品名称、主要优点、主要缺点、总体评价。\n\n评论：我最近购买了‘迅驰Pro’跑鞋。舒适度惊人，就像在云上走路一样，而且非常轻便。但是，经过2个月的日常使用，鞋头附近的鞋底磨损速度比我预期的要快。总之，对于休闲跑者来说是一双好鞋，但可能不适合高强度训练。\n\n请用清晰的中文列表格式输出。", "stream": False } response = requests.post(url, json=payload) result = response.json() print(result['response'])

运行这个Python脚本，你会得到结构清晰的提取结果。这种方式可以广泛应用在舆情监控、数据整理、报告生成等场景。

3.2 强大的函数调用能力

函数调用是大模型与现实世界交互的“桥梁”。你可以告诉模型你有哪些工具（函数），它就能根据你的问题，决定调用哪个工具以及传入什么参数。Granite-4.0-H-350M对这个功能支持得很好。

场景模拟：我们定义两个简单的工具函数，一个是查天气，一个是计算器。

首先，我们需要以特定的格式告诉模型这些函数的信息。这通常通过一个“系统提示词”和“用户消息”来完成。

下面是一个完整的Python示例function_call_demo.py：

import requests import json # 1. 定义可用的函数工具 tools = [ { "type": "function", "function": { "name": "get_weather", "description": "获取指定城市的当前天气信息", "parameters": { "type": "object", "properties": { "location": { "type": "string", "description": "城市名称，例如：北京、上海" }, "unit": { "type": "string", "enum": ["celsius", "fahrenheit"], "description": "温度单位，摄氏或华氏" } }, "required": ["location"] } } }, { "type": "function", "function": { "name": "calculator", "description": "执行简单的数学计算", "parameters": { "type": "object", "properties": { "expression": { "type": "string", "description": "数学表达式，例如：15 + 28 * 3" } }, "required": ["expression"] } } } ] # 2. 构建对话消息，将工具信息传递给模型 messages = [ { "role": "system", "content": f"你是一个有帮助的助手，可以调用工具。以下是你可以使用的工具：{json.dumps(tools, ensure_ascii=False)}。请根据用户问题判断是否需要调用工具，如果需要，请严格按照工具定义的JSON格式回复。" }, { "role": "user", "content": "请问北京现在的天气怎么样？用摄氏度表示。" } ] # 3. 调用Ollama API url = "http://localhost:11434/api/chat" payload = { "model": "granite4:350m-h", "messages": messages, "stream": False } response = requests.post(url, json=payload) result = response.json() # 4. 解析模型的回复 model_reply = result['message']['content'] print("模型回复:", model_reply) # 5. 模拟处理函数调用（实际应用中，这里会真正调用API或执行计算） try: # 尝试解析模型返回的JSON（如果它决定调用函数） tool_call = json.loads(model_reply) if tool_call.get("name") == "get_weather": city = tool_call.get("parameters", {}).get("location") unit = tool_call.get("parameters", {}).get("unit", "celsius") print(f"\n[模拟函数调用] 正在查询城市 '{city}' 的天气，单位：{unit}...") # 这里可以接入真实的天气API # weather_data = real_weather_api(city, unit) # print(f"查询结果：{weather_data}") print(f"（模拟）{city}天气晴朗，25摄氏度。") except json.JSONDecodeError: # 如果模型回复不是JSON，说明是普通对话 print("模型进行了普通对话回复。")

运行这段代码，模型会分析你的问题（“北京天气”），然后“决定”调用get_weather函数，并生成一个包含location: “北京”和unit: “celsius”的标准JSON格式请求。

这意味着什么？这意味着你可以轻松地将Granite集成到你的应用程序里。你定义好业务函数（比如查询数据库、发送邮件、控制设备），模型就能理解用户的自然语言指令，并转换成精确的函数调用参数。这对于构建智能助手、自动化工作流来说，是核心能力。

4. 更多实用技巧与进阶探索

掌握了基本对话、文本提取和函数调用，你已经能解决很多问题了。这里再分享几个小技巧，让你用得更顺手。

4.1 优化提示词以获得更好结果

模型的输出质量很大程度上取决于你的提问方式（提示词）。

具体明确：不要问“总结一下”，而是问“用三点总结这篇文章的核心观点”。
指定格式：像我们之前做的，明确要求“用列表格式输出”、“生成JSON”。
提供示例：对于复杂任务，在提示词里给一两个例子（Few-shot Learning），效果会显著提升。
角色扮演：让模型扮演某个角色，如“你是一位经验丰富的软件架构师，请评审以下代码...”。

4.2 尝试模型的其他能力

Granite-4.0-H-350M的功能远不止于此，你可以探索：

代码补全与中间填充：它支持FIM（Fill-in-the-Middle）模式，非常适合在集成开发环境中作为代码助手。
增强检索生成：结合本地向量数据库，可以构建一个基于知识库的问答系统，让模型回答你私有文档的问题。
多语言任务：虽然我们主要用了中英文，但它支持十几种语言，可以尝试翻译或多语言内容生成。

4.3 常见问题与小贴士

回答看起来有点短或不精确？尝试调整num_ctx（上下文长度）和temperature（创造性，值越低越确定）参数。可以通过API传递这些参数。
如何同时运行多个模型？Ollama支持同时加载多个模型，只需用ollama run <不同模型名>在不同终端或进程启动即可。
资源占用情况：这个350M的模型在运行时通常只占用几百MB内存，CPU推理也很快，非常适合老旧电脑或树莓派这类设备。