Google 说 Gemma 4 能上手机和工作站,我在 RTX 3090 上验证后,只信这 4 个本地边界
Google 说 Gemma 4 能上手机和工作站,我在 RTX 3090 上验证后,只信这 4 个本地边界
官方把 Gemma 4 说成从手机到工作站都能跑,还强调首日接入主流推理生态。真正落到一张 RTX 3090 上,我先遇到的却不是模型能力,而是依赖链、首轮延迟、图文入口和“参数量错觉”这 4 个边界。
这篇文章不是复述发布会,也不是照着 README 跑一遍。我把google/gemma-4-E2B-it在本地重新搭环境、跑文本、跑图文,再把卡住我的地方和能复用的判断都写出来,帮你决定自己该不该现在就上 Gemma 4。
1. 这次我为什么先测 E2B,而不是直接冲 31B
Gemma 4 这次最容易让人上头的点,不只是“又来一个开源模型”,而是它把几件本来分散的信号捏到了一起:
- Google 官方明确把 Gemma 4 定位成面向 reasoning、agentic workflow 和 multimodal 的开放模型家族。
- 官方强调从边缘设备到工作站的覆盖:E2B、E4B 面向 edge,26B A4B 和 31B 面向更高性能场景。
- 官方还强调首日生态接入,点名了 Ollama、vLLM、llama.cpp、SGLang。
- Hugging Face 模型卡给出的
googl
- Hugging Face 模型卡给出的
