当前位置: 首页 > news >正文

云耀计算AI-Claura,在树莓派运行的AI

模型下载地址:https://gitee.com/jiasiqi2025/Open-Claura

官方网站:https://bksy.top

正文

Claura这个项目有意思的地方在于,它把一个能对话的AI塞进了400MB,跑在树莓派和15年前的老爷电脑上。不是靠魔法,是靠几项扎实的压缩技术。

核心指标:2亿参数(0.2B),FP16半精度量化,模型文件约400MB,纯CPU推理(无需GPU、无需NPU、无需任何加速卡),基于T5架构重构。


模型蒸馏

Claura不是从零训练的,而是从一个更大的模型那里"学"来的。蒸馏的核心逻辑是:大模型(教师)在大量数据上做推理,生成软标签(概率分布),小模型(学生)直接拟合这些软标签,而不是拟合原始数据。

这样做的好处是,软标签包含了教师对类间相似性的理解,信息密度比硬标签高得多。学生不用从头摸索,直接继承教师的判断边界。参数从几百亿压到2亿,智能水平掉得不算太狠,靠的就是这手。

架构砍层

T5原生结构对树莓派来说太重了。Claura做了几件事:削减Transformer层的数量,缩小隐藏层维度,精简注意力头的个数。本质上是在模型深度和宽度上同时动刀。

但也不是瞎砍。层数少了,模型的表达能力下降,但推理速度线性提升;头数少了,注意力矩阵的计算量呈平方级下降。这个权衡的结果就是,模型能跑,但复杂任务明显吃力——写诗只能憋出一句,就是因为深层语义关联能力被削了。

FP16量化

Claura用的是FP16,不是INT8。FP16把每个参数从32位浮点压缩到16位,体积直接减半。2亿参数 × 2字节 = 400MB,刚好对上。

为什么选FP16而不是INT8?INT8体积更小(2亿参数 × 1字节 = 200MB),但精度损失大,推理时输出质量明显下滑。FP16在体积和性能之间取了个折中,精度损失控制在可接受范围内,推理时也不需要额外的反量化步骤,CPU跑起来更省事。

CPU推理

Claura最反潮流的地方是:它完全放弃GPU加速。在模型设计阶段就把"纯CPU运行"当成硬约束,所有算子都避开CUDA依赖,只调用CPU原生的数学运算库。

这就意味着推理速度慢——树莓派上每秒也就几个token。但也意味着兼容性拉满:不需要显卡驱动,不挑CUDA版本,ARM架构的树莓派能跑,x86的15年老电脑也能跑,甚至某些嵌入式Linux设备也能跑。在这个靠显卡吃饭的AI时代,Claura反手一套纯CPU方案,等于告诉所有人:我不跟你们卷算力,我卷的是"有CPU就能跑"。

屏蔽脏话

这不是模型的一部分,是外面套的一层过滤网。实现方式很简单:一个敏感词表 + 正则匹配。输入和输出都会过一遍,命中就替换或拒绝。和模型本身无关,纯工程手段,但实用。Claura不走流式输出,而是提前生成一个候选回复池,再从中选一条最合适的整句输出。这样做的好处是,在树莓派的弱CPU上,逐字流式输出反而容易卡顿,预生成+整句输出让体验更连贯。坏处是响应延迟固定,不管问题难易都得等那么久。

我正在研究如何让ai模型在不损失智商或轻微轻损失智商的情况下运行在弱性能设备上,如果你感兴趣那么请联系我2134286739@qq.com

http://www.jsqmd.com/news/1069521/

相关文章:

  • 【AI应用实战-WorkBuddy】工作流搭建:从需求到自动化全流程(十三)
  • 第二章 数字类型及其操作3
  • IntelliGit 项目个人工作总结
  • 模型配置篇(子篇)《DeepSeek API Key 获取实操指南:手把手教你拿到“大龙虾”的通行证》
  • 计算机毕业设计之村级技能培训管理系统
  • 微分几何中的等参超曲面与焦点流形稳定性分析
  • 从 Receiver Agreement 看懂 SAP PI/PO 出站路由的最后一公里
  • 秋招倒计时两个月,AI能力要从“会用工具”变成“能讲案例”
  • 为什么很多公司禁用 MyBatis 二级缓存?看完你就不敢乱开了
  • Python 3正则表达式完全指南:从入门到精通
  • 基于 Harmony 6.0 应用的游戏时长统计与防沉迷提醒应用首页实现
  • 金融事件序列建模:PRAGMA Transformer模型解析与应用
  • 2026 AI 开发者生存指南(5):AI Agent 框架对比——LangChain、LangGraph、CrewAI、Dify 怎么选?
  • Tiny Time Mixers (TTMs): Fast Pre-trained Models for Enhanced Zero/Few-Shot Forecasting of Multivari
  • 基于LLM的文本相关性评估:从RAG优化到可持续性分析的工程实践
  • Spring AI 接入 MCP:DeepSeek 连接 Filesystem Server 读取本地文件
  • 复杂流体系统实时控制:模型降阶与滚动时域优化实践
  • DINOv3+LoRA:基于视觉基础模型的图像篡改检测新范式
  • 当AI Agent开始写AI Agent:自进化系统在企业管理中的伦理与安全红线
  • MatRIS-MoE与Janus框架:突破百亿参数通用机器学习原子间势训练壁垒
  • 指纹浏览器指纹工厂(下):基于真实设备数据特征的马尔可夫链生成与校验
  • 广告物料行业实践指南:从制作到落地的全流程解析与未来趋势展望
  • 基于SRAM存内计算的Transformer Softmax硬件加速方案解析
  • 自适应信息流:让视觉语言模型学会动态聚焦的关键技术
  • 小旺 AI 截图:基于多模态大模型的桌面效率工具
  • 大语言模型对齐中的奖励破解问题与CARP框架解析
  • Shell脚本为何成为AI智能体视觉(TVA)的“反射弧”(6)
  • 专利代理师:2025年实务真题回忆版
  • 【趣解】压力测试:极限情况下的系统表现
  • 暗黑模式下的WCAG合规性:从颜色对比度到欺骗性设计的全面解析