LangChain之大模型介绍
一、认识模型
模型是一个从数据中学习规律的“数学函数”或“程序”。旨在处理和生成信息的算法,通常模仿人 类的认知功能。通过从大型数据集中学习模式和洞察,这些模型可以进行预测、生成文本、图像或其 他输出,从而增强各个行业的各种应用。
可以简单理解为模型是一个"超级加工厂",这个工厂是经过特殊训练的,训练师给它看了海量的例子 (数据),并告诉它该怎么做。通过看这些例子,它自己摸索出了一套规则,学会了完成某个"特定任 务"。
模型就是一套学到的"规则"或者"模式",它能根据你给的东西,产生你想要的东西。
二、认识大语言模型
1. 什么是大语言模型?
大语言模型(Large Language Model,LLM)是指基于大规模神经网络(参数规模通常达数十亿至万 亿级别,例如GPT-3包含1750亿参数),通过自监督或半监督方式,对海量文本进行训练的语言模型。
1. 神经网络:一个极其高效的“团队工作流程”或“条件反射链”。
例如教一个小朋友识别猫:
• 不会只给一条规则(比如“有胡子就是猫”),因为兔子也有胡子。
• 我们会让他看很多猫的图片,他大脑里的视觉神经会协同工作: 有的神经元负责识别“尖耳朵”, 有的负责识别“胡须”,有的负责识别“毛茸茸的尾巴”。
• 这些神经元一层层地传递和组合信息,最后大脑综合判断:“这是猫!”
神经网络就是模仿人脑的这种工作方式。
• 它由大量虚拟的“神经元”(也就是参数)和连接组成。
• 每个神经元都像一个小处理单元,负责处理一点点信息。无数个神经元分成很多层,前一层的输 出作为后一层的输入。
• 通过海量数据的训练,这个网络会自己调整每个“神经元”的重要性(即参数的值),最终形成 一个非常复杂的“判断流水线”。比如,一个识别猫的神经网络,某些参数可能专门负责识别猫 的眼睛,另一些参数专门负责识别猫的轮廓。
简单说:神经网络就是一个通过数据训练出来的、由大量参数组成的复杂决策系统。
2. 自监督学习:“完形填空”超级大师。
• 模型面对海量的、没有标签的原始文本(比如互联网上的所有文章、网页)。
• 它自己给自己创造任务:把一句话中间的某个词遮住,然后尝试根据前后的词来预测这个被遮住 的词。
• 通过亿万次这样的练习,模型就深刻地学会了语言的规律。它不需要人类手动去给每句话标 注“这是主语”、“这是谓语”。
简单说:自监督就是让模型从数据本身找规律,自己给自己当老师。
3. 半监督学习:“师父领进门,修行在个人”。
师傅先教你几道招牌菜(比如麻婆豆腐、宫保鸡丁)——这相当于给了你一些 “有标注的数据” (菜谱和成品)。
你结合师傅教的基本功和自己尝遍天下美食的经验,最终不仅能完美复刻招牌菜,还能创新出新 的菜式。这就是“半监督”。
先用少量带标签的数据让模型“入门”,掌握一些基本规则,然后再让它去海量的无标签数据中自我 学习和提升。这对于大语言模型来说也是一种常用的训练方式。
简单说:半监督就是“少量指导+大量自学”的结合模式。
4. 语言模型:一个“超级自动补全”或“语言预测器”。
例如你在用手机打字,输入“今天天气真”,输入法会自动提示“好”、“不错”、“冷”等。这个 输入法之所以能提示,就是因为它内部有一个小型的“语言模型”,它根据你输入的前文,计算下一 个词最可能是什么。
语言模型的核心任务就是预测下一个词。一个强大的语言模型,能够根据一段话,预测出最合理、最 通顺的下一个词是什么,这样一个个词接下去,就能生成一整段话、一篇文章。
简单说:语言模型就是一个计算“接下来最可能说什么”的模型。
总结:
大语言模型是一个:
• 用“超级团队工作流程”(大规模神经网络)搭建的,拥有数百亿甚至上万亿个“脑细胞”(参 数)的 “超级自动补全系统”(语言模型)。
• 它学习的方式,主要是通过自己玩“海量完形填空”(自监督学习),或者 “少量名师指导+海量 自学” (半监督学习)……
• 从互联网上所有的文本数据中学会了语言的规律。
因此,它具有以下几个核心特点:
• 规模巨大:它的“脑细胞”(参数)特别多(通常达到数十亿甚至万亿级别),所以思考问题更复 杂、更全面,就像一支百万大军和一个小分队的区别。
• 通用性强:它不是为单一任务训练的。因为它通过“完形填空”学会的是整个语言世界的底层规律 (语法、逻辑、知识关联),而不是只背会了“猫的图片”。所以它能举一反三,把底层能力灵活 应用到聊天、翻译、写代码等各种任务上。这种“涌现”能力,就像孩子通过大量阅读后,突然能 写出意想不到的优美句子一样。
• 训练方式不同:主要使用自监督学习,从海量无标注的原始文本中学习。它不依赖人工一张张地给 图片标“这是猫”,而是直接从原始文本中自学,效率极高,规模可以做得非常大。
• 交互方式革命:我们不用点按钮、写代码,直接像对人说话一样给它指令(Prompt) 它就能听懂 并执行,比如你直接说“写一首关于春天的诗”,它就能给你写出来。
2. 主流的大语言模型
一、国际闭源“三巨头”(通用标杆)
这三个模型代表了全球最高水准,但在国内访问可能存在网络限制。
模型 | 开发方 | 核心特点与最新进展 | 适用场景 |
|---|---|---|---|
GPT 系列 | OpenAI | 全能六边形战士。最新版在 Agent(智能体)能力上突破显著,多模态(文本、图像、音频)交互自然,插件生态最丰富。 | 跨语言创意写作、复杂逻辑推理、科研辅助、代码开发 |
Claude 系列 | Anthropic | 长文本与安全合规之王。拥有极长的上下文窗口(百万级 token),逻辑推理严谨,代码能力极强,安全性高。 | 法律合同分析、超长文档总结、学术论文精读、复杂编程 |
Gemini 系列 | 原生多模态专家。底层设计即支持图像、视频理解,深度集成 Google 搜索和数据生态,实时信息获取能力强。 | 多媒体内容分析、学术研究(文献整合)、实时数据查询 |
二、中国主流大模型(本土首选)
这部分模型你可以在国内直接使用,且在中文场景下表现更接地气。
模型 | 开发方 | 核心特点与 2026 年现状 | 适用场景 |
|---|---|---|---|
DeepSeek | 深度求索 | 理科推理与性价比之王。数学和代码能力逼近 GPT-5,API 价格极低(约 2-3 元/百万 token),深受开发者喜爱。 | 数学解题、科学计算、代码生成、低成本企业部署 |
豆包 (Doubao) | 字节跳动 | 中文对话天花板。响应速度极快(首字延迟约 0.3 秒),对中文网络用语理解精准,C 端用户量巨大,免费额度高。 | 日常聊天、职场周报撰写、内容创作、轻量级办公 |
通义千问 (Qwen) | 阿里巴巴 | 电商与长文本专家。在中文电商场景(商品文案、用户分析)有深度优化,企业级调用量领先,部分版本开源。 | 电商运营、客服系统、长文档处理、开源定制 |
文心一言 (ERNIE) | 百度 | 知识图谱与搜索融合。结合百度知识图谱,事实准确性高,中文语义理解深厚,合规性强。 | 政府公文、新闻写作、知识问答、搜索增强任务 |
Kimi | 月之暗面 | 超长文本精读。专注于海量文档的无损压缩与理解,在百万字级文献分析上仍有优势。 | 研报分析、论文综述、法律卷宗审阅 |
腾讯混元/元宝 | 腾讯 | 生态集成与免费策略。深度嵌入微信/腾讯文档生态,推出“快思考”(TurboS)与“慢思考”(T1)组合策略。 | 微信生态内办公、社交内容生成、企业内部助手 |
讯飞星火 | 科大讯飞 | 语音交互领导者。在语音识别、合成及教育解题场景有深厚积累,支持多方言。 | 智能硬件、教育辅导、语音转写、车载场景 |
三、开源生态基石(开发者与自建)
如果你有技术背景或企业需要私有化部署,这些开源模型是基础。
模型 | 开发方 | 核心价值 |
|---|---|---|
Llama 3.1 系列 | Meta | 开源社区标准。商业许可宽松,生态工具最全,是微调定制化的首选底座。 |
Qwen2.5 系列 | 阿里巴巴 | 中文开源标杆。在中文理解和多语言推理上表现优异,Apache 2.0 协议友好。 |
• Huggingface LLM 性能排行榜:
https://huggingface.co/spaces/ArtificialAnalysis/LLM-Performance-Leaderboard
• 发展历程参考:https://segmentfault.com/a/1190000046532208
3. LLM 的能力包括哪些?
3.1 语言大师:理解与创造的革命
3.2 知识巨人:拥有“全互联网”的记忆
3.3 逻辑与代码巫师:从思维到实现的跨越
3.4 多模态先知:开启 “全感知” AI 的大门
4. 提示词编写技巧
编写合理且有效的提示词,是我们与 AI 进行有效对话的第一步,好的提示词能显著提升模型输出的质 量和相关性。宗旨就是:将你的问题限定范围,让 AI 知道你要的答案具体要包含什么,提示词效果会 大幅提升
核心在于换位思考:想象 AI 对你提供的信息一无所知,你需要清晰、具体、无歧义地告诉它你要什 么、在什么背景下、以什么方式呈现。善用示例、角色扮演、具体约束和迭代优化。
4.1 CO-STAR 结构化框架
在目标设定和问题解决的场景下,清晰性和结构性是至关重要的。而有一种方法论,在这些方面表现 都非常出色,那就是 CO-STAR 框架。
这个提示词编写框架,由新加坡政府技术局(GovTech)的数据 科学与 AI 团队开发,重点在于确保提供给 LLM 的提示词是全面且结构良好的,从而生成更相关和准确 的回答。
CO-STAR 提示词结构化框架
模块 | 说明 | 示例 |
|---|---|---|
Context (背景) | 任务背景与上下文 | “你是电商客服,需解答用户关于iPhone17的咨询,知识库包含最新价格和库存” |
Objective (目标) | 核心目标 | “准确回答价格、发货时间,推荐适配配件” |
Steps (步骤) | 执行步骤 | “1.识别用户问题类型;2.检索知识库;3.用亲切语气整理回复” |
Tone (风格) | 语言风格 | “口语化,避免专业术语,使用‘亲~’‘呢’等语气词” |
Audience (受众) | 目标用户 | “20-35岁年轻消费者,对价格敏感,关注性价比” |
Response (回应) | 输出格式 | “价格:XXX元\n库存:XXX件\n推荐配件:XXX(链接)” |
4.2 少样本提示 / 多示例提示
这种方式通过给 AI 提供一两个 输入-输出 的例子,让它“照葫芦画瓢”。 核心思想:你不是在给它下指令,而是在“教”它你想要的格式、风格和逻辑。 适用场景:格式固定、风格独特、逻辑复杂的任务,如风格仿写、数据提取、复杂格式生成。
例如:
优化前(零样本提示): 2 🦜 9 等于多少?
优化后(少样本提示): 根据以下示例,处理问题。 示例1:2 🦜 3 = 5 示例2:4 🦜 7 = 11 现在请分析这个:2 🦜 9 等于多少?
4.3 思维链提示
提示工程的关键目标是让 AI 更好地理解复杂语义。这种能力的高低,可以直接通过模型处理复杂逻辑 推理题的表现来检验。
可以这样理解:当好的提示词能帮助模型解决原本解决不了的难题时,就说明它确实提升了模型的推 理水平。并且,提示词设计得越出色,这种提升效果就越显著。通过设置不同难度的推理测试,可以 很清晰地验证这一点。
4.4 自动推理与零样本链式思考
零样本思维链(Zero-shot-CoT)这是少样本思维链(Few-shot-CoT)的简化版。只需在提示词末尾 加上一句魔法短语,即可激发 AI 的推理能力。
核心思想:通过指令 “请一步步进行推理并得出结论” ,强制 AI 在给出答案前先进行内部推理。 适用场景:任何需要一点逻辑思考的问题,即使你不太清楚具体步骤。
4.5 自我批判与迭代
要求 AI 在生成答案后,从特定角度对自己的答案进行审查和优化。核心思想:将“生成”和“评审”两个步骤分离,利用 AI 的批判性思维来提升内容质量。
适用场景:代码审查、文案优化、论证强化、安全检查。
案例:编写一段代码后进行检查:
优化前: 写一个Python函数,计算列表中的最大值。
优化后: 请执行以下两个步骤:
步骤一:编写代码 写一个Python函数 find_max ,用于计算一个数字列表中的最大值。 步骤二:自我审查与优化 现在,请从代码健壮性和可读性的角度,审查你上面编写的代码。
请回答: 1. 如果输入是空列表,函数会怎样?如何改进? 2. 变量命名和代码结构是否清晰?能否让它更易于理解? 3. 请根据你的审查,给出一个优化后的最终版本。
总结:
在实际应用中,这些技巧常常是组合使用的。例如,我们可以:
1. 使用 CO-STAR 框架设定基本结构和角色。
2. 在框架的“Steps”或“Response”部分,融入思维链指令。
3. 对于格式复杂的输出,在最后附上少样本示例。
4. 最后,要求 AI 进行自我审查。
5. 为什么 LLM 如此重要?
如果说前几年 AI 还是“炫技”的概念,那么大模型就是将 AI 变成一种基础资源,像电一样融入各行各 业,驱动创新。
6. LLM 的接入方式
前面我们演示的都是通过现成的客户端,来进行 AI 行为,如聊天、生图等。如果现在要我们自己写一 个 AI 应用来实现相关 AI 行为,则需要我们自行接入 LLM。
常见的原生 LLM (不经过第三方平台或复杂的代理层,直接与大语言模型提供方进行交互的方法)接 入方式有三种:【API 远程调用】、【开源模型本地部署】和【SDK 和官方客户端库】
6.1 API 接入
这是目前最主流、最便捷的接入方式,尤其适用于快速开发、集成到现有应用以及不想管理硬件资源 的场景。
通过 HTTP 请求(通常是 RESTful API)直接调用模型提供商部署在云端的模型服务。代表厂商: OpenAI (GPT-4o),Anthropic (Claude),Google (Gemini),百度文心一言,阿里通义千问,智谱 AI 等。
典型流程就是:
1. 注册账号并获取 API Key:在模型提供商的平台上注册,获得用于身份验证的密钥。
2. 查阅 API 文档:了解请求的端点、参数(如模型名称、提示词、温度、最大生成长度等)和返回的 数据格式。
3. 构建 HTTP 请求:在你的代码中,使用 HTTP 客户端库(如 Python 的 requests )构建一个包 含 API Key(通常在 Header 中)和请求体(JSON 格式,包含你的提示和参数)的请求。
4. 发送请求并处理响应:将请求发送到提供商指定的 API 地址,然后解析返回的 JSON 数据,提取生 成的文本。
6.2 本地接入
大模型本地部署,这种方式就是将开源的大型语言模型(如 Llama、ChatGLM、Qwen 等)部署在你 自己的硬件环境(本地服务器或私有云)中。核心概念就是,将下载模型的文件(权重和配置文 件),使用专门的推理框架在本地服务器或 GPU 上加载并运行模型,然后通过类似 API 的方式进行交 互。
典型流程是:
1. 获取模型:从 Hugging Face(国外)、魔搭社区(国内)等平台下载开源模型的权重。
2. 准备环境:配置具有足够显存(如 NVIDIA GPU)的服务器,安装必要的驱动和推理框架。
3. 选择推理框架:使用专为生产环境设计的框架来部署模型,例如: ◦ vLLM:特别注重高吞吐量的推理服务,性能极佳。 ◦ TGI:Hugging Face 推出的推理框架,功能全面。 ◦ Ollama:非常用户友好,可以一键拉取和运行模型,适合快速入门和本地开发。 ◦ LM Studio:提供图形化界面,让本地运行模型像使用软件一样简单。
4. 启动服务并调用:框架会启动一个本地 API 服务器(如 http://localhost:8000 ),你可以 像调用云端 API 一样向这个本地地址发送请求。
以 Ollama 为例,下面我们来演示下具体过程。
6.2.1 下载并安装 Ollama
Ollama 是一款专为本地部署和运行大型语言模型 (LLM) 设计的开源工具,旨在简化大型语言模型 (LLM) 的安装、运行和管理。它支持多种开源模型(如qwen、deepseek、LLaMA),并提供简单的 API 接口,方便开发者调用,适合开发者和企业快速搭建私有化 AI 服务。 Ollama 官网: https://ollama.ai
安装完成后,Ollama默认会启动。 访问: http://127.0.0.1:11434
或者使用cmd 访问 ollama --version
6.2.2 拉取模型
Ollama 可以管理和部署模型,我们使用之前,需要先拉取模型。
• 修改模型存储路径
模型默认安装在 C 盘个人目录下 C:\Users\XXX\.ollama ,可以修改 ollama 的模型存储路径, 使得每次下载的模型都在指定的目录下。有以下两种方式:
1. 配置系统环境变量
变量名: OLLAMA_MODELS
变量值: ${自定义路径}
2. 通过 Ollama 界面来进行设置
设置完成后,重启 Ollama 。
• 拉取模型
查找模型: https://ollama.com/search
分为 1.5b , 7b , 8b 等,"b" 是 "Billion" (十亿) 的缩写,代表模型的 参数量级。 671b 表示 "满血"版本,其他版本称为"蒸馏"版本。
参数越多 → 模型"知识量"越大 → 处理复杂任务的能力越强,硬件需求也越高。
根据需求及电脑配置,选择合适的模型版本,以 1.5b 为例:ollama run deepseek-r1:1.5b
下载完成之后,就会出现命令行,可以通过命令行和 AI 模型对话。
6.2.3 测试
模型拉取之后,可以通过命令行和 AI 模型对话。
ollama run deepseek-r1:1.5b
6.3 SDK 接入
这并非一种独立的接入方式,而是对第一种 API 接入的封装和简化。模型提供商通常会发布官方编程 语言 SDK,为我们封装好了底层的 HTTP 请求细节,提供一个更符合编程习惯的、语言特定的函数 库。相比直接构造 HTTP 请求,代码更简洁、更易读、更易维护。
典型流程(以 OpenAI Python SDK 为例):
安装库:pip install openai
安装 OpenAI SDK 后,可以创建一个名为 example.py 的文件并将示例代码复制到其中:
from openai import OpenAI client = OpenAI(api_key="your-api-key") response = client.responses.create( model="gpt-5", input="介绍一下你自己。" ) print(response.output_text)6.4 问题与思考
对于以上三种接入方式,我们该如何选择?
• 看数据敏感性:如果数据极其敏感,必须留在内部,本地部署是唯一选择。
• 看技术实力和资源:如果团队没有强大的 MLops(机器学习运维)能力,也没有预算购买和维护 GPU 服务器,云端 API 是更实际的选择。
• 看成本和规模:如果应用规模很大,长期来看,本地部署的固定成本可能低于持续的 API 调用费 用。反之,小规模应用 API 更划算。
• 看定制需求:如果只是使用模型的通用能力,云端 API 足够。如果需要用自己的数据微调模型,则 需要选择支持微调的 API 或直接本地部署。
LLM的限制与缺陷:
像 LangChain 这样的框架,正是为了系统性地解决下面这些问题而诞生的。
1. 输入长度限制:
所有 LLM 都有固定的输入长度(如4K、8K、128K、400K Token)。我们无法将 一本几百页的 PDF 或整个公司知识库直接塞给模型。
2. 缺乏私有知识:
模型的训练数据有截止日期,且不包含我们的私人数据(如公司内部文档、个人笔 记等)。让它基于这些知识回答问题,非常困难。
3. 复杂任务处理能力弱:
原生 API 本质是一个“一问一答”的接口。对于需要多个步骤的复杂任务 (如“分析这份财报,总结要点,并生成一份PPT大纲”),我们需要自己编写复杂的逻辑来拆解 任务、多次调用 API 并管理中间状态。
4. 输出格式不可控:
虽然可以通过提示词要求模型输出 JSON 或特定格式,但它仍可能产生格式错误 或不合规的内容,需要我们自己编写后处理代码来校验和清洗。
像 LangChain 这样的框架,正是为了系统性地解决这些问题而诞生的。
