项目之 头满分_4大模型LLM
一、回顾
模型选型的第四个方案:三期中Bert的实际速度慢点使用了 30多ms,但是效果不错;Bert在 2018-2021 这四年中占主流模型,2022、2023年开始后有些大模型发展起来了,第四期尝试使用大模型来做;
二、关于大模型LLM
1. 什么是LLM
LLM是具有大规模参数的深度学习模型,参数量通常十亿到万亿级别。(参数十亿以上才算大模型,Bert不算大模型,Bert最大模型参数量最多才3亿,所以Bert不是大模型);
独立意义上的大模型指的是 具有涌现能力的大模型,参数量至少百亿以上,达到人类大脑神经元个数;(10亿 = 1B)
大模型发展历程(基于Transformer发展而来的):
① 2017年Transformer — 2018年BERT、GPT;(严格意义上前面的BERT GPT都不算大模型,从GPT-2开始才算:)—
② 2019年GPT-2 — 2020年GPT-3 — 2022年GPT-3.5(真正的大模型从2022年ChatGPT这个时间点开始 后面的都是大模型) —
③ 2022年ChatGPT —
(2022年11月3号ChatGPT发布,后面的三年:2023年LLaMA羊驼系列、GPT-4,2024年GPT-4o、LLaMA-3.1、OpenAI-o1,2025年DeepSeek-R1、Qwen-3 千问系列、文心一言-4.5 最新的文心一言系列、华为盘古系列)
1.1 模型单位
1.2 大模型训练硬件
三、代码结构图
四、原理及代码实现
1. 数据预处理操作
1.对于导包:深度学习框架是:Pytorch;= =》LLM框架:LangChain;
2. 初始化语言模型:ChatOpenAI( ):参数:基础的base_url、api_key、模型model、model_kwargs:base_url知道从哪里进行访问;因为其收费,需要秘钥 api_key;
4.定义LLM调用函数:通过 .invoke加载问题(提示词)来回复问题,这就是回答问题的过程;
后面是文本和label的处理;
2. DeepSeek分类逻辑实现
提示词工程:声明角色、回复格式、写示例:Text、类别;
自己调用DeepSeek案例:
最终的准确率为:86%
所以用大模型也并不一定可行;
