当前位置：首页 > news >正文

LangChain之大模型介绍

news 2026/4/24 2:17:29

一、认识模型

模型是一个从数据中学习规律的“数学函数”或“程序”。旨在处理和生成信息的算法，通常模仿人类的认知功能。通过从大型数据集中学习模式和洞察，这些模型可以进行预测、生成文本、图像或其他输出，从而增强各个行业的各种应用。

可以简单理解为模型是一个"超级加工厂"，这个工厂是经过特殊训练的，训练师给它看了海量的例子 (数据)，并告诉它该怎么做。通过看这些例子，它自己摸索出了一套规则，学会了完成某个"特定任务"。

模型就是一套学到的"规则"或者"模式",它能根据你给的东西，产生你想要的东西。

二、认识大语言模型

1. 什么是大语言模型？

大语言模型（Large Language Model，LLM）是指基于大规模神经网络（参数规模通常达数十亿至万亿级别，例如GPT-3包含1750亿参数），通过自监督或半监督方式，对海量文本进行训练的语言模型。

1. 神经网络：一个极其高效的“团队工作流程”或“条件反射链”。

例如教一个小朋友识别猫：

• 不会只给一条规则（比如“有胡子就是猫”），因为兔子也有胡子。

• 我们会让他看很多猫的图片，他大脑里的视觉神经会协同工作：有的神经元负责识别“尖耳朵”，有的负责识别“胡须”，有的负责识别“毛茸茸的尾巴”。

• 这些神经元一层层地传递和组合信息，最后大脑综合判断：“这是猫！”

神经网络就是模仿人脑的这种工作方式。

• 它由大量虚拟的“神经元”（也就是参数）和连接组成。

• 每个神经元都像一个小处理单元，负责处理一点点信息。无数个神经元分成很多层，前一层的输出作为后一层的输入。

• 通过海量数据的训练，这个网络会自己调整每个“神经元”的重要性（即参数的值），最终形成一个非常复杂的“判断流水线”。比如，一个识别猫的神经网络，某些参数可能专门负责识别猫的眼睛，另一些参数专门负责识别猫的轮廓。

简单说：神经网络就是一个通过数据训练出来的、由大量参数组成的复杂决策系统。

2. 自监督学习：“完形填空”超级大师。

• 模型面对海量的、没有标签的原始文本（比如互联网上的所有文章、网页）。

• 它自己给自己创造任务：把一句话中间的某个词遮住，然后尝试根据前后的词来预测这个被遮住的词。

• 通过亿万次这样的练习，模型就深刻地学会了语言的规律。它不需要人类手动去给每句话标注“这是主语”、“这是谓语”。

简单说：自监督就是让模型从数据本身找规律，自己给自己当老师。

3. 半监督学习：“师父领进门，修行在个人”。

师傅先教你几道招牌菜（比如麻婆豆腐、宫保鸡丁）——这相当于给了你一些 “有标注的数据” （菜谱和成品）。

你结合师傅教的基本功和自己尝遍天下美食的经验，最终不仅能完美复刻招牌菜，还能创新出新的菜式。这就是“半监督”。

先用少量带标签的数据让模型“入门”，掌握一些基本规则，然后再让它去海量的无标签数据中自我学习和提升。这对于大语言模型来说也是一种常用的训练方式。

简单说：半监督就是“少量指导+大量自学”的结合模式。

4. 语言模型：一个“超级自动补全”或“语言预测器”。

例如你在用手机打字，输入“今天天气真”，输入法会自动提示“好”、“不错”、“冷”等。这个输入法之所以能提示，就是因为它内部有一个小型的“语言模型”，它根据你输入的前文，计算下一个词最可能是什么。

语言模型的核心任务就是预测下一个词。一个强大的语言模型，能够根据一段话，预测出最合理、最通顺的下一个词是什么，这样一个个词接下去，就能生成一整段话、一篇文章。

简单说：语言模型就是一个计算“接下来最可能说什么”的模型。

总结：

大语言模型是一个：

• 用“超级团队工作流程”（大规模神经网络）搭建的，拥有数百亿甚至上万亿个“脑细胞”（参数）的 “超级自动补全系统”（语言模型）。

• 它学习的方式，主要是通过自己玩“海量完形填空”（自监督学习），或者 “少量名师指导+海量自学” （半监督学习）……

• 从互联网上所有的文本数据中学会了语言的规律。

因此，它具有以下几个核心特点：

• 规模巨大：它的“脑细胞”（参数）特别多（通常达到数十亿甚至万亿级别），所以思考问题更复杂、更全面，就像一支百万大军和一个小分队的区别。

• 通用性强：它不是为单一任务训练的。因为它通过“完形填空”学会的是整个语言世界的底层规律（语法、逻辑、知识关联），而不是只背会了“猫的图片”。所以它能举一反三，把底层能力灵活应用到聊天、翻译、写代码等各种任务上。这种“涌现”能力，就像孩子通过大量阅读后，突然能写出意想不到的优美句子一样。

• 训练方式不同：主要使用自监督学习，从海量无标注的原始文本中学习。它不依赖人工一张张地给图片标“这是猫”，而是直接从原始文本中自学，效率极高，规模可以做得非常大。

• 交互方式革命：我们不用点按钮、写代码，直接像对人说话一样给它指令（Prompt）它就能听懂并执行，比如你直接说“写一首关于春天的诗”，它就能给你写出来。

2. 主流的大语言模型

一、国际闭源“三巨头”（通用标杆）

这三个模型代表了全球最高水准，但在国内访问可能存在网络限制。

模型	开发方	核心特点与最新进展	适用场景
GPT 系列 (GPT-5.2/5.4)	OpenAI	全能六边形战士。最新版在 Agent（智能体）能力上突破显著，多模态（文本、图像、音频）交互自然，插件生态最丰富。	跨语言创意写作、复杂逻辑推理、科研辅助、代码开发
Claude 系列 (Claude 4.5/4.6)	Anthropic	长文本与安全合规之王。拥有极长的上下文窗口（百万级 token），逻辑推理严谨，代码能力极强，安全性高。	法律合同分析、超长文档总结、学术论文精读、复杂编程
Gemini 系列 (Gemini 3 Pro)	Google	原生多模态专家。底层设计即支持图像、视频理解，深度集成 Google 搜索和数据生态，实时信息获取能力强。	多媒体内容分析、学术研究（文献整合）、实时数据查询

二、中国主流大模型（本土首选）

这部分模型你可以在国内直接使用，且在中文场景下表现更接地气。

模型	开发方	核心特点与 2026 年现状	适用场景
DeepSeek (V3.2/V4/R1)	深度求索	理科推理与性价比之王。数学和代码能力逼近 GPT-5，API 价格极低（约 2-3 元/百万 token），深受开发者喜爱。	数学解题、科学计算、代码生成、低成本企业部署
豆包 (Doubao) (Seed-1.6 Pro/2.0)	字节跳动	中文对话天花板。响应速度极快（首字延迟约 0.3 秒），对中文网络用语理解精准，C 端用户量巨大，免费额度高。	日常聊天、职场周报撰写、内容创作、轻量级办公
通义千问 (Qwen) (Qwen3-235B)	阿里巴巴	电商与长文本专家。在中文电商场景（商品文案、用户分析）有深度优化，企业级调用量领先，部分版本开源。	电商运营、客服系统、长文档处理、开源定制
文心一言 (ERNIE) (5.0/文小言)	百度	知识图谱与搜索融合。结合百度知识图谱，事实准确性高，中文语义理解深厚，合规性强。	政府公文、新闻写作、知识问答、搜索增强任务
Kimi (Kimi 2.5)	月之暗面	超长文本精读。专注于海量文档的无损压缩与理解，在百万字级文献分析上仍有优势。	研报分析、论文综述、法律卷宗审阅
腾讯混元/元宝 (T1/TurboS)	腾讯	生态集成与免费策略。深度嵌入微信/腾讯文档生态，推出“快思考”（TurboS）与“慢思考”（T1）组合策略。	微信生态内办公、社交内容生成、企业内部助手
讯飞星火 (X1 Turbo)	科大讯飞	语音交互领导者。在语音识别、合成及教育解题场景有深厚积累，支持多方言。	智能硬件、教育辅导、语音转写、车载场景

三、开源生态基石（开发者与自建）

如果你有技术背景或企业需要私有化部署，这些开源模型是基础。

模型	开发方	核心价值
Llama 3.1 系列 (405B/70B)	Meta	开源社区标准。商业许可宽松，生态工具最全，是微调定制化的首选底座。
Qwen2.5 系列	阿里巴巴	中文开源标杆。在中文理解和多语言推理上表现优异，Apache 2.0 协议友好。

• Huggingface LLM 性能排行榜：

https://huggingface.co/spaces/ArtificialAnalysis/LLM-Performance-Leaderboard

• 发展历程参考：https://segmentfault.com/a/1190000046532208

3. LLM 的能力包括哪些？

3.1 语言大师：理解与创造的革命

3.2 知识巨人：拥有“全互联网”的记忆

3.3 逻辑与代码巫师：从思维到实现的跨越

3.4 多模态先知：开启 “全感知” AI 的大门

4. 提示词编写技巧

编写合理且有效的提示词，是我们与 AI 进行有效对话的第一步，好的提示词能显著提升模型输出的质量和相关性。宗旨就是：将你的问题限定范围，让 AI 知道你要的答案具体要包含什么，提示词效果会大幅提升

核心在于换位思考：想象 AI 对你提供的信息一无所知，你需要清晰、具体、无歧义地告诉它你要什么、在什么背景下、以什么方式呈现。善用示例、角色扮演、具体约束和迭代优化。

4.1 CO-STAR 结构化框架

在目标设定和问题解决的场景下，清晰性和结构性是至关重要的。而有一种方法论，在这些方面表现都非常出色，那就是 CO-STAR 框架。

这个提示词编写框架，由新加坡政府技术局（GovTech）的数据科学与 AI 团队开发，重点在于确保提供给 LLM 的提示词是全面且结构良好的，从而生成更相关和准确的回答。

CO-STAR 提示词结构化框架

模块	说明	示例
Context (背景)	任务背景与上下文	“你是电商客服，需解答用户关于iPhone17的咨询，知识库包含最新价格和库存”
Objective (目标)	核心目标	“准确回答价格、发货时间，推荐适配配件”
Steps (步骤)	执行步骤	“1.识别用户问题类型；2.检索知识库；3.用亲切语气整理回复”
Tone (风格)	语言风格	“口语化，避免专业术语，使用‘亲~’‘呢’等语气词”
Audience (受众)	目标用户	“20-35岁年轻消费者，对价格敏感，关注性价比”
Response (回应)	输出格式	“价格：XXX元\n库存：XXX件\n推荐配件：XXX（链接）”

4.2 少样本提示 / 多示例提示

这种方式通过给 AI 提供一两个输入-输出的例子，让它“照葫芦画瓢”。核心思想：你不是在给它下指令，而是在“教”它你想要的格式、风格和逻辑。适用场景：格式固定、风格独特、逻辑复杂的任务，如风格仿写、数据提取、复杂格式生成。

例如：

优化前（零样本提示）： 2 🦜 9 等于多少?

优化后（少样本提示）：根据以下示例，处理问题。示例1：2 🦜 3 = 5 示例2：4 🦜 7 = 11 现在请分析这个：2 🦜 9 等于多少?

4.3 思维链提示

提示工程的关键目标是让 AI 更好地理解复杂语义。这种能力的高低，可以直接通过模型处理复杂逻辑推理题的表现来检验。

可以这样理解：当好的提示词能帮助模型解决原本解决不了的难题时，就说明它确实提升了模型的推理水平。并且，提示词设计得越出色，这种提升效果就越显著。通过设置不同难度的推理测试，可以很清晰地验证这一点。

4.4 自动推理与零样本链式思考

零样本思维链（Zero-shot-CoT）这是少样本思维链（Few-shot-CoT）的简化版。只需在提示词末尾加上一句魔法短语，即可激发 AI 的推理能力。

核心思想：通过指令 “请一步步进行推理并得出结论” ，强制 AI 在给出答案前先进行内部推理。适用场景：任何需要一点逻辑思考的问题，即使你不太清楚具体步骤。

4.5 自我批判与迭代

要求 AI 在生成答案后，从特定角度对自己的答案进行审查和优化。核心思想：将“生成”和“评审”两个步骤分离，利用 AI 的批判性思维来提升内容质量。

适用场景：代码审查、文案优化、论证强化、安全检查。

案例：编写一段代码后进行检查：

优化前：写一个Python函数，计算列表中的最大值。

优化后：请执行以下两个步骤：

步骤一：编写代码写一个Python函数 find_max ，用于计算一个数字列表中的最大值。步骤二：自我审查与优化现在，请从代码健壮性和可读性的角度，审查你上面编写的代码。

请回答： 1. 如果输入是空列表，函数会怎样？如何改进？ 2. 变量命名和代码结构是否清晰？能否让它更易于理解？ 3. 请根据你的审查，给出一个优化后的最终版本。

总结：

在实际应用中，这些技巧常常是组合使用的。例如，我们可以：

1. 使用 CO-STAR 框架设定基本结构和角色。

2. 在框架的“Steps”或“Response”部分，融入思维链指令。

3. 对于格式复杂的输出，在最后附上少样本示例。

4. 最后，要求 AI 进行自我审查。

5. 为什么 LLM 如此重要？

如果说前几年 AI 还是“炫技”的概念，那么大模型就是将 AI 变成一种基础资源，像电一样融入各行各业，驱动创新。

6. LLM 的接入方式

前面我们演示的都是通过现成的客户端，来进行 AI 行为，如聊天、生图等。如果现在要我们自己写一个 AI 应用来实现相关 AI 行为，则需要我们自行接入 LLM。

常见的原生 LLM （不经过第三方平台或复杂的代理层，直接与大语言模型提供方进行交互的方法）接入方式有三种：【API 远程调用】、【开源模型本地部署】和【SDK 和官方客户端库】

6.1 API 接入

这是目前最主流、最便捷的接入方式，尤其适用于快速开发、集成到现有应用以及不想管理硬件资源的场景。

通过 HTTP 请求（通常是 RESTful API）直接调用模型提供商部署在云端的模型服务。代表厂商： OpenAI (GPT-4o)，Anthropic (Claude)，Google (Gemini)，百度文心一言，阿里通义千问，智谱 AI 等。

典型流程就是：

1. 注册账号并获取 API Key：在模型提供商的平台上注册，获得用于身份验证的密钥。

2. 查阅 API 文档：了解请求的端点、参数（如模型名称、提示词、温度、最大生成长度等）和返回的数据格式。

3. 构建 HTTP 请求：在你的代码中，使用 HTTP 客户端库（如 Python 的 requests ）构建一个包含 API Key（通常在 Header 中）和请求体（JSON 格式，包含你的提示和参数）的请求。

4. 发送请求并处理响应：将请求发送到提供商指定的 API 地址，然后解析返回的 JSON 数据，提取生成的文本。

6.2 本地接入

大模型本地部署，这种方式就是将开源的大型语言模型（如 Llama、ChatGLM、Qwen 等）部署在你自己的硬件环境（本地服务器或私有云）中。核心概念就是，将下载模型的文件（权重和配置文件），使用专门的推理框架在本地服务器或 GPU 上加载并运行模型，然后通过类似 API 的方式进行交互。

典型流程是：

1. 获取模型：从 Hugging Face（国外）、魔搭社区（国内）等平台下载开源模型的权重。

2. 准备环境：配置具有足够显存（如 NVIDIA GPU）的服务器，安装必要的驱动和推理框架。

3. 选择推理框架：使用专为生产环境设计的框架来部署模型，例如： ◦ vLLM：特别注重高吞吐量的推理服务，性能极佳。 ◦ TGI：Hugging Face 推出的推理框架，功能全面。 ◦ Ollama：非常用户友好，可以一键拉取和运行模型，适合快速入门和本地开发。 ◦ LM Studio：提供图形化界面，让本地运行模型像使用软件一样简单。

4. 启动服务并调用：框架会启动一个本地 API 服务器（如 http://localhost:8000 ），你可以像调用云端 API 一样向这个本地地址发送请求。

以 Ollama 为例，下面我们来演示下具体过程。

6.2.1 下载并安装 Ollama

Ollama 是一款专为本地部署和运行大型语言模型 (LLM) 设计的开源工具，旨在简化大型语言模型 (LLM) 的安装、运行和管理。它支持多种开源模型(如qwen、deepseek、LLaMA)，并提供简单的 API 接口，方便开发者调用，适合开发者和企业快速搭建私有化 AI 服务。 Ollama 官网: https://ollama.ai

安装完成后，Ollama默认会启动。访问: http://127.0.0.1:11434

或者使用cmd 访问 ollama --version

6.2.2 拉取模型

Ollama 可以管理和部署模型，我们使用之前，需要先拉取模型。

• 修改模型存储路径

模型默认安装在 C 盘个人目录下 C:\Users\XXX\.ollama ，可以修改 ollama 的模型存储路径，使得每次下载的模型都在指定的目录下。有以下两种方式：

1. 配置系统环境变量

变量名: OLLAMA_MODELS
变量值: ${自定义路径}

2. 通过 Ollama 界面来进行设置

设置完成后，重启 Ollama 。

• 拉取模型

查找模型: https://ollama.com/search

分为 1.5b ， 7b ， 8b 等，"b" 是 "Billion" (十亿) 的缩写，代表模型的参数量级。 671b 表示 "满血"版本，其他版本称为"蒸馏"版本。

参数越多 → 模型"知识量"越大 → 处理复杂任务的能力越强，硬件需求也越高。

根据需求及电脑配置，选择合适的模型版本，以 1.5b 为例：ollama run deepseek-r1:1.5b

下载完成之后，就会出现命令行，可以通过命令行和 AI 模型对话。

6.2.3 测试

模型拉取之后，可以通过命令行和 AI 模型对话。

ollama run deepseek-r1:1.5b

6.3 SDK 接入

这并非一种独立的接入方式，而是对第一种 API 接入的封装和简化。模型提供商通常会发布官方编程语言 SDK，为我们封装好了底层的 HTTP 请求细节，提供一个更符合编程习惯的、语言特定的函数库。相比直接构造 HTTP 请求，代码更简洁、更易读、更易维护。

典型流程（以 OpenAI Python SDK 为例）：

安装库：pip install openai

安装 OpenAI SDK 后，可以创建一个名为 example.py 的文件并将示例代码复制到其中：

from openai import OpenAI client = OpenAI(api_key="your-api-key") response = client.responses.create( model="gpt-5", input="介绍一下你自己。" ) print(response.output_text)