当前位置: 首页 > news >正文

whichllm教程:一键找出最适合你电脑的本地大模型

whichllm教程:一键找出最适合你电脑的本地大模型

大家好 这里是「代码简单说」,欢迎大家关注同名公众号,不定时更新更多实用有趣的教程 也欢迎大家在评论区一起讨论交流!~

SEO关键词:本地大模型推荐工具、LLM模型选择工具、Qwen模型部署、本地AI模型运行、GPU显卡跑大模型、whichllm教程、AI模型推荐工具、HuggingFace模型推荐

最近越来越多朋友开始折腾本地大模型。

但一个非常现实的问题摆在面前:

我的电脑到底适合跑什么模型?

RTX4060能跑32B吗?

24G显存选Qwen3还是Llama?

MacBook M3 Max适合哪个模型?

很多人会打开各种模型排行榜,然后开始各种查资料、算显存、看量化版本。

结果折腾半天还是不知道该选哪个。

直到最近发现了一个非常有意思的开源项目:

whichllm

它可以自动检测你的硬件配置,然后直接告诉你:

当前机器最值得运行的大模型是谁。

而且它不仅仅看显存是否能装下模型,还会结合:

  • Benchmark成绩
  • 模型发布时间
  • 推理速度
  • 量化质量
  • HuggingFace数据

综合推荐真正适合你的模型。

今天就带大家详细体验一下这个神器。


目录

  • 什么是whichllm
  • 为什么需要whichllm
  • 核心功能介绍
  • 安装方法
  • 快速使用
  • GPU模拟测试
  • 模型运行功能
  • Python代码生成
  • 工作原理解析
  • 与传统选型方式对比
  • 实际体验

什么是whichllm

项目地址:

https://github.com/Andyyyy64/whichllm

whichllm是一款:

自动推荐本地LLM模型的CLI工具

简单来说:

它会根据你的硬件配置自动分析:

CPU GPU 显存 内存 硬盘

然后从 HuggingFace 海量模型中筛选出:

最适合 最能跑 效果最好

的模型。

官方介绍:

Find the best local LLM that actually runs on your hardware.

翻译过来就是:

找到真正适合你硬件运行的本地大模型。


为什么需要whichllm

很多工具只会告诉你:

这个模型能跑

但能跑 ≠ 值得跑。

例如:

RTX4090:

Qwen3.6-27B Qwen3-32B Llama3-70B(Q2)

可能都能运行。

但实际体验:

模型速度效果
Qwen3.6-27B很强
Qwen3-32B
70B Q2不稳定

如果只按显存推荐:

很多工具会推荐70B。

但whichllm会综合考虑:

模型质量 推理速度 量化损失 硬件适配

最终推荐真正体验最好的模型。


核心功能

自动检测硬件

运行:

whichllm

自动检测:

NVIDIA AMD Apple Silicon CPU RAM

无需任何配置。


GPU模拟

非常适合买显卡前做规划。

例如:

whichllm--gpu"RTX 4090"

或者:

whichllm--gpu"RTX 5090"

模拟结果:

#1 Qwen3.6-27B #2 Qwen3-32B #3 Qwen3-30B-A3B

提前知道升级显卡后的效果。


升级对比

比较多个显卡。

whichllm upgrade"RTX 4090""RTX 5090""H100"

输出类似:

GPU推荐模型得分
RTX4090Qwen3.6-27B92.8
RTX5090Qwen3.6-27B94.7
H100更高规格模型98+

适合硬件升级决策。


GPU需求反查

很多人会问:

Qwen72B需要什么显卡?

直接查询:

whichllm plan"Qwen2.5-72B"

输出:

推荐显存 推荐量化 最低配置 最佳配置

非常实用。


安装教程

方法一:uvx运行

推荐。

无需安装。

uvx whichllm@latest

直接执行。


方法二:uv安装

uv toolinstallwhichllm

升级:

uv tool upgrade whichllm

方法三:pip安装

pipinstallwhichllm

方法四:Homebrew

Mac用户:

brewinstallandyyyy64/whichllm/whichllm

快速体验

查看当前最佳模型

whichllm

输出类似:

#1 Qwen3.6-27B #2 Qwen3-32B #3 DeepSeek-R1

查看更多结果

whichllm--top20

返回前20名。


JSON格式

适合自动化。

whichllm--json

输出:

{"models":[{"model_id":"Qwen/Qwen3.6-27B"}]}

一键启动模型聊天

这是我最喜欢的功能。

运行指定模型

whichllm run"qwen 2.5 1.5b gguf"

工具会自动:

下载模型 安装依赖 启动推理 进入聊天

真正做到:

开箱即用

自动选择模型

甚至不用指定模型。

whichllm run

自动选择当前机器最佳模型。


CPU模式

whichllm run"phi 3 mini gguf"--cpu-only

低配置电脑也能体验。


自动生成Python代码

对于开发者来说特别友好。

例如:

whichllm snippet"qwen 7b"

自动生成:

fromllama_cppimportLlama llm=Llama.from_pretrained(repo_id="Qwen/Qwen2.5-7B-Instruct-GGUF",filename="qwen2.5-7b-instruct-q4_k_m.gguf",n_ctx=4096,n_gpu_layers=-1,)output=llm.create_chat_completion(messages=[{"role":"user","content":"你好"}])print(output)

直接复制即可运行。


whichllm工作原理

很多人好奇:

它凭什么推荐模型?

其实核心流程如下:

硬件检测 ↓ 获取HuggingFace模型 ↓ 获取Benchmark数据 ↓ 计算显存需求 ↓ 估算推理速度 ↓ 评分排序 ↓ 输出最佳模型

V1传统推荐方案的问题

传统逻辑:

显存够不够

公式:

模型大小 <= 显存

问题:

忽略模型质量 忽略推理速度 忽略量化损失

推荐结果经常不合理。


V2 whichllm改进方案

引入综合评分:

Benchmark 模型规模 量化质量 运行速度 证据可信度 模型热度

最终形成:

Score(0~100)

排序推荐。


评分机制解析

官方评分因素:

因素权重
Benchmark质量核心
模型规模35分
量化质量惩罚项
证据可信度乘数
运行适配度乘数
推理速度±8
来源可信度±5
模型热度辅助

这种方案比单纯看参数量科学得多。


支持的数据源

whichllm会综合多个排行榜。

包括:

LiveBench Artificial Analysis Aider Open LLM Leaderboard Chatbot Arena Vision Benchmark

因此结果相对客观。


实际体验

我分别测试了:

RTX4060 RTX4090 Mac M3 Max

推荐结果基本符合当前社区主流认知。

例如:

RTX4090:

Qwen3.6-27B

确实是目前兼顾:

效果 速度 显存占用

比较均衡的选择。

相比很多只会推荐最大参数模型的工具来说靠谱很多。


适合哪些人

推荐以下用户使用:

本地AI玩家

不知道选什么模型。


显卡升级用户

提前评估:

4090 5090 H100

哪个更值得买。


AI开发者

快速获取:

最佳模型 推理代码 部署方案

企业私有化部署

评估:

硬件成本 模型效果 运行速度

总结

whichllm最大的价值在于:

它解决的不是“能不能跑”的问题,而是“跑哪个最好”的问题。

相比传统的显存计算器,它额外结合:

  • HuggingFace模型库
  • 多个Benchmark排行榜
  • 推理速度估算
  • 模型可信度分析
  • 硬件适配能力

最终给出更符合实际体验的推荐结果。

如果你最近正在折腾:

Qwen DeepSeek Llama Gemma Mistral

等本地大模型,建议体验一下whichllm,几秒钟就能知道自己机器最值得跑哪个模型。

项目地址

https://github.com/Andyyyy64/whichllm

如果觉得有帮助,别忘了给项目点个 Star。这样优秀的开源工具,值得被更多本地AI爱好者发现。

http://www.jsqmd.com/news/998602/

相关文章:

  • 5分钟本地视频字幕提取:Video-subtitle-extractor终极使用指南
  • 2026福州包包回收靠谱测评|市场新风向+新手变现避坑全攻略 - 禹竞
  • 三门峡黄金白银回收铂金旧金回收无套路门店 TOP 榜单 实地测评资料整理(更新时间:2026-06-12_11:10:26) - 诚金汇钻回收公司
  • 56F8367数字信号控制器:高性能DSC的I/O扩展与电机控制实战
  • 2026 年 6 月最新 | 系统门窗品牌推荐干货,高性价比断桥系统窗品牌汇总,附性能优劣分析 - 商业新知
  • 2026永州出手黄金铂金白银回收避坑指南 5 家经营多年实体回收门店走访测评 + 详细地址(更新时间:2026-06-12_11:10:26) - 中业金奢再生回收中心
  • 铜仁黄金白银回收铂金旧金回收无套路门店 TOP 榜单 实地测评资料整理(更新时间:2026-06-12_11:10:26) - 诚金汇钻回收公司
  • 手机号找回QQ号完整指南:3分钟快速破解账号记忆难题
  • 2026年集成灶和分体灶哪个好?美大实业深度解析与选购指南 - 品牌报告
  • 别再死记命令了!用Wireshark抓包带你彻底搞懂华三GRE VPN的封装原理
  • 2026阳江黄金回收铂金回收银饰回收优质商户排名 TOP 线下实体门店实地走访资料汇总(更新时间:2026-06-12_11:10:26) - 信誉隆金银铂奢回收
  • 2026采购指南:塑料骑行水壶源头工厂怎么选?摇摇杯/户外运动水壶定制厂家推荐 - 栗子测评
  • 东营市2026年本地黄金回收铂金白银回收哪家强?TOP5 正规门店榜单 +联系方式 - 奢金汇
  • 嵌入式移动开发经典:Palm OS Cobalt与i.MX21处理器协同设计解析
  • 2026湘潭黄金回收铂金回收银饰回收优质商户排名 TOP 线下实体门店实地走访资料汇总(更新时间:2026-06-12_11:10:26) - 信誉隆金银铂奢回收
  • 2026乌鲁木齐出手黄金铂金白银回收避坑指南 5 家经营多年实体回收门店走访测评 + 详细地址(更新时间:2026-06-12_11:10:26) - 中业金奢再生回收中心
  • 【MATLAB代码】AOA与TOA混合定位例程,自适应基站数量,二维平面,轨迹滤波使用CKF加强精度
  • 【Springboot毕设全套源码+文档】基于SpringBoot的社区体检健康管理系统的设计与实现(丰富项目+远程调试+讲解+定制)
  • 2026芜湖黄金回收铂金回收银饰回收优质商户排名 TOP 线下实体门店实地走访资料汇总(更新时间:2026-06-12_11:10:26) - 信誉隆金银铂奢回收
  • 上海工业压力仪表厂家推荐:4大选型避坑指南 - 资讯快报
  • 本地 AI 智能体落地实操,OpenClaw 2.7.9 部署 + 实用指令合集
  • 2026年第二季度常州口碑物流公司排行 四家优质选择参考 - 资讯快报
  • 2026吐鲁番本地黄金铂金白银金条回收哪家靠谱?TOP5 正规实体门店榜单 + 电话地址(更新时间:2026-06-12_11:10:26) - 中安检金银铂钻回收
  • MuleSoft+LLM企业级AI编排实战:打通协议、语义与治理断层
  • 魔兽争霸3优化方案:如何让经典游戏在现代电脑上焕发新生?
  • YOLOF性能优化实战:提升目标检测速度与准确率的10个技巧
  • 盘锦黄金白银回收铂金旧金回收无套路门店 TOP 榜单 实地测评资料整理(更新时间:2026-06-12_11:10:26) - 诚金汇钻回收公司
  • Reasonix接入deepseek控制token成本 - Leonardo
  • 黔西黄金白银回收铂金旧金回收无套路门店 TOP 榜单 实地测评资料整理(更新时间:2026-06-12_11:10:26) - 诚金汇钻回收公司
  • 四川地区2026年6月12日成都市场热轧钢板代理商最新报价 - 四川盛世钢联营销中心