当前位置：首页 > news >正文

3K 行代码造一个越用越聪明的 AI Agent：GenericAgent 登顶 GitHub Trending

news 2026/6/18 8:12:18

最近 GitHub Trending 上冲出一个项目，叫 GenericAgent，4.4K Star，核心代码只有 ~3K 行。我看完 README 的第一反应是：这玩意儿的哲学太有意思了——不预设技能，靠进化获得能力。

更离谱的是，整个仓库从 git init 到每一条 commit message，全是 GenericAgent 自己完成的。作者全程没打开过终端。

本文提纲

GenericAgent 是什么
自我进化：跟其他 Agent 框架的根本区别
9 个原子工具 + ~100 行 Agent Loop
分层记忆系统
5 分钟上手
跟 Claude Code / OpenClaw 的对比
我的看法

GenericAgent 是什么

GenericAgent 是一个极简的自主 Agent 框架。它的目标很直接：给任意 LLM 系统级控制能力——浏览器、终端、文件系统、键鼠输入、屏幕视觉、甚至手机（通过 ADB）。

但核心代码只有 ~3K 行。Agent Loop 也就 ~100 行。

它支持 Claude、Gemini、Kimi、MiniMax 等主流模型，跨平台运行。部署也简单：pip install + 填个 API Key 就能跑。

自我进化：跟其他 Agent 框架的根本区别

这是 GenericAgent 最核心的设计。

[New Task] --> [Autonomous Exploration] (install deps, write scripts, debug & verify) -->
[Crystallize Execution Path into Skill] --> [Write to Memory Layer] --> [Direct Recall on Next Similar Task]

翻译成人话：

你说的	Agent 第一次做的	之后每次
"帮我点杯奶茶"	安装依赖 → 操控外卖 App → 选品 → 结账 → 保存 Skill	一句话搞定
"监控股票提醒我"	安装 mootdx → 构建选股流程 → 配置定时任务 → 保存 Skill	直接启动
"Gmail 发个文件"	配置 OAuth → 写发送脚本 → 保存 Skill	直接可用

用几周之后，你的 Agent 会拥有一套完全属于你的技能树。这是从 3K 行种子代码里长出来的，别人的 Agent 没有这些东西。

这个机制让它跟 Claude Code 这种"每次会话都是白纸"的 Agent 有了本质区别。

9 个原子工具 + ~100 行 Agent Loop

GenericAgent 只提供 9 个原子工具，覆盖了跟外部世界交互的基础能力：

工具	功能
`code_run`	执行任意代码
`file_read`	读取文件
`file_write`	写入文件
`file_patch`	修改文件
`web_scan`	感知网页内容
`web_execute_js`	控制浏览器行为
`ask_user`	人机协作确认
`update_working_checkpoint`	持久化上下文
`start_long_term_update`	积累长期经验

看着少？但通过 code_run，Agent 可以在运行时动态安装 Python 包、写新脚本、调用外部 API、控制硬件——然后把临时能力固化为永久工具。

整个核心循环就是：感知环境 → 任务推理 → 调用工具 → 经验写入记忆 → 循环。~100 行代码搞定。

分层记忆系统

GenericAgent 的 Token 消耗极低——上下文窗口不到 30K，是其他 Agent（200K–1M）的零头。秘诀在于分层记忆：

L0 — Meta Rules：Agent 的基础行为规则和系统约束
L1 — Insight Index：极简索引层，快速路由与召回
L2 — Global Facts：长期运行积累的稳定知识
L3 — Task Skills / SOPs：可复用的任务流程
L4 — Session Archive：已完成任务的归档记录，用于长程召回

分层设计的好处是：关键信息始终在上下文中，噪声更少，幻觉更低，成功率反而更高。

5 分钟上手

# 1. 克隆仓库
git clone https://github.com/lsdefine/GenericAgent.git
cd GenericAgent# 2. 安装最小依赖
pip install streamlit pywebview# 3. 配置 API Key
cp mykey_template.py mykey.py
# 编辑 mykey.py，填入你的 LLM API Key# 4. 启动
python launch.pyw

除了默认的 Web UI，还支持多种前端：

python frontends/qtapp.py          # Qt 桌面应用
streamlit run frontends/stapp2.py  # 另一种 Streamlit UI
python frontends/wechatapp.py      # 微信 Bot（个人微信）
python frontends/tgapp.py          # Telegram Bot
python frontends/qqapp.py          # QQ Bot
python frontends/fsapp.py          # 飞书 Bot
python frontends/wecomapp.py       # 企业微信 Bot
python frontends/dingtalkapp.py    # 钉钉 Bot

前端选择相当丰富，基本覆盖了国内主流 IM 平台。

跟 Claude Code / OpenClaw 的对比

特性	GenericAgent	OpenClaw	Claude Code
代码量	~3K 行	~530,000 行	体量大
部署	`pip install` + API Key	多服务编排	CLI + 订阅
浏览器控制	注入真实浏览器（保留登录态）	沙箱 / 无头浏览器	通过 MCP 插件
OS 控制	键鼠、视觉、ADB	多 Agent 委派	文件 + 终端
自我进化	自主生长 Skill	插件生态	会话间无状态
Token 消耗	<30K 上下文	大	大