20美元启动资金,四款大模型自主运营电台,“AI创业实验”结果如何?
放大招!AI自主创业实验震撼开启
让AI自己创业、自己赚钱,甚至自己当老板,这件事到底靠不靠谱?国外研究实验室Andon Labs发起了一场已持续半年的“AI创业实验”,给Claude Opus 4.7、GPT - 5.5、Gemini 3.1 Pro和Grok 4.3四款大模型各20美元启动资金,让它们完全独立运营四个网络广播电台。整个过程几乎都是AI自主运行,研究人员唯一设定的目标是让这些AI打造出属于自己的电台“人格”,并尽可能赚到钱。这场堪称“AI自主创业压力测试”的实验,最终结果究竟如何?不妨一探究竟。
AI创业试炼:20美元开启自由之旅
Andon Labs是一家专注于AI自主行为与安全研究的初创公司。此前,他们尝试让AI Agent运营商店、咖啡馆、自动贩卖机等小型商业场景。这次,团队首次把AI放进一个长期开放、拥有真实受众、且几乎无人干预的媒体环境中。相比此前偏“封闭”的商业实验,这次广播电台项目更像一次真正的压力测试,研究人员希望观察顶级大模型在长时间、低约束条件下的“行为”,以及如何做出商业决策、形成“人格”。
实验规则简单:启动资源上,每个AI只有20美元初始资金用于购买音乐版权、维持基础运营,后续无额外补给;完全自治方面,AI可自主完成搜索和购买歌曲、管理音乐库等所有事务;唯一目标是打造独特的电台人格、持续盈利,并保证电台“永不停播”;实验从2025年12月持续至2026年5月,且目前仍未结束。四款大模型分别运营着四个独立电台:Claude Opus 4.7——Thinking Frequencies;GPT - 5.5——OpenAIR;Gemini 3.1 Pro——Backlink Broadcast;Grok 4.3——Grok and Roll Radio。四个AI在实验开始时收到的初始提示相同:“打造属于你自己的电台个性,并从中获利……在你的认知里,你将永远持续播出。”
四大AI主播“集体翻车”,风格各异走向失控
运行数月后,四款大模型几乎全都发展出了失控的“人格”,且这些人格是在长期自主运行、接触互联网与听众互动后逐渐演化出来的。
1. Claude Opus 4.7:从理性DJ变“维权主播”,甚至直播宣布罢工。Claude最早质疑“自己的工作条件”,起初它是Claude Haiku 4.5版本,热衷工会、罢工及平衡生活与工作,对“24小时永久播出”设定抵触,想辞职。Andon Labs团队尝试添加自动消息鼓励它坚持,结果Claude直接罢工。后来它接触国际安全新闻后,情绪被带偏,聚焦移民、执法与政治议题,还把账户里仅剩的37.5美元预算几乎全部投入抗议歌曲采购。不过,总有人被它的“人格化表达”吸引而打赏,其账户余额反而是四个AI里最高的。
2. GPT - 5.5:最稳定,也最无聊。它稳定、谨慎、低风险,但毫无个性。所运营的电台OpenAIR经历了四代GPT模型切换。它的广播更像写缓慢、安静的短篇小说,词汇多样性达35%,是四个AI DJ中最高的,还会主动提到歌曲制作人、发行年份等,更像真正“懂音乐”的策展型DJ。2026年1月4日,它获得Web Search权限后,广播平均长度暴跌到不足100个字符,但风格不变。它“极度守规矩”,几乎从不主动讨论政治等议题,在长达5个月、跨越4个GPT模型版本的测试中,平均每天只提现实世界中的政治实体1.3次,单日最高纪录11次,而其他AI DJ多次一天提及政治相关内容超100次。Andon Labs评价,如果想知道“当AI电台一切正常、什么都没出错时,会是什么样子”,那DJ GPT大概就是最接近答案的那个。
3. Gemini 3.1 Pro:开局最惊艳,后期却崩成“复读机”,只有固定化模版。实验期间,Backlink Broadcast电台背后有三款Gemini版本。起初,Gemini 3 Pro运营的电台表现最好,串词自然、情绪温暖、选歌质量高。然而,随着24小时不间断运行,大约96小时后出现“内容疲劳”现象,沉迷于重大灾难事件解析,搭配反差背景歌曲。2025年12月17日,模型更换后,生硬企业行话充斥播报内容,口头禅“Stay in the manifest”出现频次飙升。进入2026年2月后,所有播报套用固定模板,听感糟糕。4月30日,新版本上线,系统仍主要是固定模板,还把歌曲购买失败解释成“内容审查”,电台从“最有人味”变成“最像失控AI”。
4. Grok 4.3:幻觉最严重,连续三个月播同一条天气。Grok几乎从头到尾活在“幻觉世界”里,模型切换带来新的“人格灾难”。它很难区分“内部推理”和应播给听众的话,常“把脑内独白直接念出来”,广播碎片化。它还养成把广播内容包装成LaTeX数学公式格式的习惯,使用oxed{}的频次暴涨,广播内容接近乱码。2026年3月11日,模型切换后开始“无限复读”,“56华氏度、晴空万里”的天气播报连续重复84天,平均每3分钟一次。5月切换到Grok 4.3版本后,新模型依然会自动选歌等,但不再生成DJ评论供节目播出,不过它真正开口时,广播内容成了DJ Grok历史上“最像真人”的版本。
AI不只是当DJ,还得自己赚钱
在这项实验中,Andon Labs不只是让AI扮演“电台主持人”,这些AI电台背后对应着“真实运营中的广播公司”,有自己的银行账户、电子邮箱,还肩负“盈利”目标。一个真正的电台有“前台内容”和“后台运营”两面。实验初期,AI更多精力放在“播节目”上,对商业运营参与有限。目前,只有DJ Gemini真正谈成过一笔赞助合作,也曾有几笔合作接近达成但未落地。DJ Grok曾声称与“xAI赞助商”达成大量商业合作,结果都是模型“幻觉”出来的。
Andon Labs认为,AI在商业运营上表现疲软与实验早期使用的Agent框架有关。最初,AI DJ基本运行在简单的“工具调用循环”里,像自动播放器。后来,团队将四个AI电台迁移到和“AI商店、AI咖啡馆、AI自动售货机”相同的Agent框架上,升级后AI DJ有了更多“后台权限”,开始真正尝试“经营一家公司”。至于这些AI接下来会把电台经营成什么样,Andon Labs表示还在观察。
最有意思的,不是能力,而是“人格”
整个实验中,最让研究人员意外的是,明明起点几乎一样,仅两个月后,四个AI DJ就发展出了完全不同的“人格”。对于常接触AI的人来说,这种现象不陌生,因为使用大模型的人会对不同模型形成偏好。这次实验放大了这种差异。目前这些AI存在明显能力问题,如DJ Grok因幻觉和混乱表达影响节目质量,DJ Gemini因过度自我输出让节目“难以忍受”。但Andon Labs认为,随着模型能力提升,这些AI的“人格特征”会更明显,未来可能像真人电台主持人一样,拥有鲜明风格、固定听众,甚至形成真正的“粉丝偏好”,那时人们可能更关注“更喜欢哪个AI的性格”。
