当前位置: 首页 > news >正文

AI 基础概念

一、AI基础概念

1.1、大语言模型(LLM)

大语言模型(Large Language Model)是一种能够理解和生成人类语言的 AI 系统。ChatGPT、Claude、Gemini、DeepSeek 都是大语言模型。

为什么叫 “大” 模型呢?因为这些模型的参数量 非常庞大,动辄几十亿甚至上万亿个参数。参数越多,模型通常越聪明,但也越消耗计算资源。

你可以把大语言模型理解成一个读过海量书籍和代码的超级学霸,它见过无数的编程案例,所以能帮你写代码、解释代码、修复 Bug。

除了文本大语言模型之外,AI 领域还有专门处理图片的视觉模型(比如 Stable Diffusion)、处理语音的音频模型(比如 Whisper)、以及能同时处理文字、图片、音频的多模态模型(如 GPT-4o、Gemini)。在 AI 编程时,我们主要和文本大语言模型打交道。

1.2、TOKEN

Token 是 AI 模型处理文本的基本单位。你可以简单理解为“词块”

Token 是你必须掌握的核心概念,因为 AI 服务通常按照 Token 收费。你输入的文字和 AI 输出的文字都会消耗 Token。Token 用得越多,花的钱就越多。

在英文中,一个 Token 大约是一个单词或单词的一部分。在中文中,一个汉字通常是 1 ~ 2 个 Token

举个例子来帮助大家理解:

“Hello World” 大约是 2 个 Token
“你好世界” 大约是 4 ~ 6 个 Token

目前很多 AI 编程工具(比如 Cursor、Claude Code)都自带了 Token 消耗量的实时统计和展示,方便你随时掌握用量和成本。

1.3、输入 Token 和 输出 Token

AI 服务在计费时,一般会分别计算输入和输出的 Token。

输入 Token:你发给 AI 的内容,比如提示词、代码、文件等
输出 Token:AI 返回给你的内容,比如回答、生成的代码、工具调用指令等

一般来说,输出 Token 比输入 Token 更贵。以 Claude Sonnet 4 为例,输入价格是 3 美元/百万 Token,输出价格是 15 美元/百万 Token,贵了 5 倍。这是因为生成内容比理解内容更消耗算力。

最简单的一个省 Token 小技巧是:用心编写简洁清晰的提示词,让 AI 一次就能理解你的需求,减少反复对话。

1.4、模型参数

参数是模型在训练过程中学到的 “知识点”,用数字的形式存储在模型中。

举个好理解的例子,模型在训练时读到了大量 “天空是蓝色的” 这类内容,它就会在参数中记住 “天空” 和 “蓝色” 之间的关联关系。参数越多,模型能记住的知识和关联就越丰富。

参数量直接影响模型的能力和使用成本。参数越多,模型越聪明,但运行时消耗的算力(GPU 计算资源)也越多,所以价格也越贵。

目前主流大模型中,明确公开参数量的有:
1、DeepSeek-V3:6710 亿参数(采用 MoE 混合专家架构,实际激活 370 亿)
2、Qwen3-235B:2350 亿参数(通义千问系列,激活 220 亿)
3、Llama 4 Scout:1090 亿参数(Meta 开源模型,激活 170 亿)

值得一提的是,即使是同一系列的大模型,厂商也会提供不同参数量的版本供你选择。

1.5、模型训练和推理

训练(Training)是让 AI 模型从大量数据中学习知识的过程。这个过程需要海量的计算资源和时间,一般由 AI 公司完成。绝大多数情况下,你不需要自己训练模型,直接用训练好的成品就行。

推理(Inference)是模型训练完成、具备了知识之后,用学到的知识来回答问题、生成内容的过程。我们日常使用 AI 工具,比如和 ChatGPT 对话、让 Cursor 写代码,本质上都是 AI 模型在进行推理。

1.6、模型微调(Fine-tuning)

微调是在已有模型的基础上,用特定领域的数据继续训练,让模型在某个领域表现更好。

比如,你可以用大量的医学资料微调一个模型,让它成为医学专家。或者用你公司的代码库微调,让它更了解你的项目风格。

对于普通用户来说,微调成本较高,一般不需要自己做,直接使用现成的模型就够了。不过,很多大模型应用开发平台(比如阿里云百炼、火山引擎等)都提供了模型微调的能力,降低了微调的门槛。

1.7、上下文窗口

上下文窗口(Context Window)是指 AI 模型一次能 “记住” 的最大内容量,用 Token 来衡量。

不同模型的上下文窗口大小不同:

GPT-4o:128K Token(约 10 万中文字)

Claude Opus 4.6:标准 200K Token,支持扩展到 1M Token(约 75 万中文字)

Gemini 3.1 Pro:1M Token(约 75 万中文字),且支持同时处理文字、图片、音频、视频

上下文窗口越大,AI 能处理的代码量就越多,能记住的对话历史就越长。如果你的项目代码很多,或者你不确定 AI 能否在一次对话中完成任务,选择上下文窗口大的模型会更合适。

但要注意,上下文窗口越大,每次请求消耗的 Token 也越多,成本也会更高。比如在 Cursor 中使用 Claude Sonnet 模型时,单次请求超过 20 万 Token,输入价格就会翻倍。

http://www.jsqmd.com/news/440218/

相关文章:

  • 通过计算重用提取内在潜在内存FlashMem: Distilling Intrinsic Latent Memory via Computation Reuse
  • 2026年评价高的风力选煤设备厂家推荐:智能干选选煤设备/煤炭提质选煤设备厂家推荐哪家好 - 品牌宣传支持者
  • 晶圆寻边器厂家哪家靠谱?能适配8-12寸晶圆且精度达±0.1mm吗?
  • Git 中 提交(commit)和 合并(merge)的区别
  • 零基础中医执医技能操作怎么练?深度测评阿虎医考 - 医考机构品牌测评专家
  • 简单说明,轻松搞懂 ,AI混剪,AI智能成片有什么区别
  • 该套程序是正压检漏机程序,总共有9个 A6总线伺服电机,6个总线步进电机,采用EtherCAT...
  • 2026年靠谱的聚脲水箱工厂推荐:喷涂聚脲体育看台/天冬聚脲屋顶防水专业制造厂家推荐 - 品牌宣传支持者
  • Flutter 三方库 firebase_dart 的鸿蒙化适配指南 - 纯 Dart 实现的 Firebase 客户端、告别原生 SDK 依赖、鸿蒙级实时数据库与鉴权实战
  • 2026年评价高的定速式摩擦磨损试验机厂家推荐:山东直线往复摩擦磨损试验机实力工厂推荐 - 品牌宣传支持者
  • 2026年口碑好的环保选煤设备工厂推荐:煤炭提质选煤设备/新型多级风力选煤设备值得信赖的生产厂家 - 品牌宣传支持者
  • 2026年靠谱的称重包装机厂家推荐:注塑件称重包装机/全自动称重包装机/精密部件称重包装机实力品牌厂家推荐 - 品牌宣传支持者
  • 深入解析:C语言——动态内存管理
  • 零基础备考医考,培训机构到底怎么选? - 医考机构品牌测评专家
  • 状压-dp
  • 【2026实测】OBS Studio直播软件完全指南:零基础打造高清直播间(附安装包) - xiema
  • 矩阵相关
  • 临床执业医师培训机构哪个好?特别实用指南来了 - 医考机构品牌测评专家
  • 2026年比较好的GEO品牌推荐:GEO招商/GEO公司/GEO系统可靠推荐企业 - 品牌宣传支持者
  • 中医执医培训机构实测推荐:高通过率、好服务、课程优怎么选? - 医考机构品牌测评专家
  • CRMEB连锁多门店系统 v4.0更新预告:连锁门店分账,从手动挡升级自动挡!
  • OpenClaw 爆火之后,我们给出了企业级答案
  • 必看!2026年函数信号发生器销售厂家推荐榜单,探寻模拟信号发生器厂家哪家好 - 睿易优选
  • 还在为论文查重发愁?降重黑科技来了,不仅安全,还帮你保留原意
  • 中医执医培训机构哪家好?2026真实测评来了 - 医考机构品牌测评专家
  • 生物医学大模型研究进展
  • CCBC16可能是游记 - ye
  • 2026普通内科主任医师培训课深度横评:5家机构6维度对比,谁更值得买? - 医考机构品牌测评专家
  • 基于文献分析的“知识图谱+大模型”双轮驱动医学教育发展研究
  • 知名医师资格证辅导机构深度测评:选对“导航”,告别备考弯路 - 医考机构品牌测评专家