当前位置: 首页 > news >正文

开源AI模型与虚拟世界构建技术前沿

Replicate Intelligence #11

发布于 2024年8月16日,作者:deepfates

欢迎阅读每周简报!我们将为您带来最新的开源AI模型、工具和研究进展。人们正在创造酷炫的东西,我们想与您分享。闲话少叙,下面是我们的常驻专家 deepfates 对本周AI领域的直率见解。

编者按

就在本周:您现在可以微调FLUX.1模型了;Tavus推出了“数字孪生”API——一个能进行实时视频聊天的类人“对话式视频界面”;Puppet-Master为Stable Video Diffusion添加了拖拽标记功能,让您能在图片中控制物体(例如关上一张微波炉图片的门);Sketch2scene是一个大型的、类似鲁布·戈德堡机械的项目,它通过数个模型将粗略草图转化为完全可玩的游戏世界,而且它确实可行。

基于FLUX.1的图像生成器现在可以处理手部和文字,解决了以往我们用以辨别AI图像的诸多问题。这是该技术最糟糕的阶段,但也清晰地表明了生成(虚拟)世界的强烈需求。

下一个阶段会是怎样的? 一旦我们拥有能够处理多步骤决策的智能体呢?

当前,如果您是知识工作者,您的工作流程可能如下:您指示AI撰写内容,检查其回答是否满意,进行复制粘贴,或许再做些编辑。

您做的另一件事是构想可能的世界并在其中做出选择。也就是说,您在进行规划,您有目标。您知道尝试哪些事情,知道将哪些文本或图像复制粘贴到哪里。

规划也正在被自动化,并且部分地通过您的选择实现。如今,每次您做出选择,机器都会记录下来。在我的代码编辑器中就发生了这样的情况:他们训练了一个特殊的模型来预测您的光标下一个将去往何处,以及将在那里做什么更改。

一旦这些大模型能够可靠地规划行动,我们将要求它们完成长期运行的程序。您会让您的智能体去做研究,它会研究问题、提出假设、设计可运行的测试、执行测试并撰写报告,然后将结果提交给您。这开始看起来更像一个人,而非一个程序。

我们需要能与这些长期运行、智能、类人实体进行交互的界面。我们会希望它们看起来像人,并生活在一个类似世界的场所。通往这一目标的技术正在路上,元宇宙、苹果Vision头显及类似项目投入了巨额资金。

虚拟人将在您的编辑器、Zoom会议、AR和VR环境中工作。它们将在真实程度上可缩放,被施以或多或少的“现实流体”。它们将互相交互,大型智能体会教导小型智能体,而它们的世界将变得足够真实,以支持所有这些智能体间的互动。或许达不到“地球般真实”,但至少可以达到“电子游戏般真实”。它们将拥有适用于所有人(即使这意味着飞行或火球等)的专属物理规则。

无限的世界,由纯粹的计算能力催生。我们将并行化一切:实验、研究者乃至整个现实。我们将为更美好的未来探寻奥秘知识:医学突破、清洁能源、爱恨与彼此崇拜的新方式。这将是美妙而可怖的。我们将探索所有方向,解锁新世界和成为人类的新方式。

元宇宙即是多元宇宙。通往所有其他世界的大门将打开,人类将向更深处探索。我们也会将宝藏带回现实世界。但虚拟世界的可能范围要无限广阔得多。

我们现在正处在这个时代的开端。巨大的洞穴正在开启。

您敢于深入探索吗?

— deepfates

热门模型

使用您自己的图像微调FLUX.1
您现在可以在某平台上微调FLUX.1图像生成模型。上传几张图像,就能教会模型匹配您的风格、角色或任何您能想象的事物。

微调FLUX.1很简单:上传12-20张多样化的图像,选择一个触发词,剩下的交给系统处理。大约30分钟后,您将获得一个能生成具有您独特风格或特定主题图像的定制模型。

[博客文章] | [在平台上尝试]

酷炫工具

构建数字孪生视频对话
Tavus推出了其“对话式视频界面”,这是一个看起来像真人并能进行实时视频聊天的“数字孪生”API。这些AI化身延迟不到一秒,为客服、销售等场景提供自然的交互体验。

该系统结合了语音识别、视觉处理和自然语言理解技术,以创建逼真的数字副本。开发者可以轻松地将此技术集成到他们的应用中,为可扩展、个性化的视频交互开辟新的可能性。

基于某平台构建!

[演示]

研究动态

从草图到可玩的3D游戏世界
Sketch2scene是一个雄心勃勃的项目,能将粗略草图转化为完全可玩的游戏世界。绘制一张简单的俯视地图,系统将生成3D地形、纹理、物体,甚至可玩的角色模型。

该项目在一个复杂流程中结合了多个AI模型,包括等距图像生成、视觉场景理解和程序化3D场景生成。这让我们得以一窥游戏开发和AI生成交互式环境的未来。

[演示] | [论文] | [YouTube视频]

控制AI生成视频中的物体
Puppet-Master为Stable Video Diffusion添加了拖拽标记功能,允许对生成视频中的物体进行细粒度控制。在物体周围绘制边界框,模型就会让您控制它们的运动和位置。

这项技术让我们向完全交互式的AI生成内容又迈进了一步。预计未来会有更多关于在视频空间中为概念分配标记的研究。

[演示] | [论文]

Mattt对元宇宙的愿景
某机构的Mattt在2022年的一次颇具先见之明的演讲中,分享了他对AR、VR和AI智能体未来的思考。他认为,智能手机时代将让位于增强和虚拟现实体验,为开发者创造新的机遇。

Mattt讨论了AR/VR在教育、工作和社交互动方面带来革命性变革的潜力,并强调了负责任地使用这些技术的重要性。这次演讲颇具先见性:值得注意的是,他曾在其股价最低点时预测了某中心股价的反弹。自那以来,该股价已上涨了436%。

[YouTube视频]

暂时告别

本周内容就到这里!您对AI生成世界和具身AI智能体的未来有何看法?回复我,让我知道您是真实的人类。拜托了。谁都行。

如果您喜欢这份简报,请转发给可能感兴趣的朋友。如果是别人转发给您的,别忘了[注册]!

下次见,
— deepfates
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.jsqmd.com/news/119751/

相关文章:

  • 软件缺失dmview.ocx文件 免费下载修复
  • 洛谷 P7518
  • 【学习笔记】线段树合并
  • 2025年采购必看:高口碑快速卷帘门品牌榜单,洁净车间工程/洁净工作台/FFU/净化工作台/医疗装修工程/洁净棚/货淋室快速卷帘门厂商哪个好 - 品牌推荐师
  • 软件工程期末高频易错点深度剖析:避开这些坑,你就赢了!
  • Windows系统文件dpx.dll损坏或丢失 下载修复
  • 基于ARMCortex-M4F内核的MSP432MCU开发实践【1.5】
  • still ace
  • CSP-J/S 2025 第一轮游记 _
  • 软件或游戏缺少DSETUP.dll文件 免费下载方法
  • 基于深度学习YOLOv8的水果识别水果检测苹果识别香蕉橘子识别目标检测
  • 2025年成都火锅老字号与新秀口碑对决,特色美食/烧菜火锅/火锅/社区火锅/美食成都火锅品牌推荐排行 - 品牌推荐师
  • 2025年实力盘点:引领行业趋势的家居装修公司,别墅装修/豪宅设计/家居装修/家居设计公司口碑推荐 - 品牌推荐师
  • 一文读懂字符与编码
  • 【专家亲授】Open-AutoGLM与SoapUI功能整合避坑指南:从冲突到协同的3步跃迁
  • 听完这场AI产品大会,我觉得如果不赚钱,所谓的提效真的毫无意义。
  • Open-AutoGLM能否彻底取代SoapUI?基于12个真实场景的协同能力压测结果公布
  • 示例Cone2,熟悉观察者模式,在Qt窗口中详解复现对应的Demo
  • 2025年伸缩悬臂货架哪家强?十大口碑厂家深度解析,伸缩悬臂货架/重型仓储货架/伸缩货架/抽拉式重型货架伸缩悬臂货架源头厂家有哪些 - 品牌推荐师
  • 当像素遇上混沌:MATLAB图像加密的奇幻漂流
  • 2025年度优质调节阀批发厂家综合排名揭晓,特种调节阀/精小型调节阀/调节阀/高性能调节阀/气动高温调节阀/美标调节阀调节阀生产商怎么选择 - 品牌推荐师
  • 《PHP POP 链构造(下):实战与利用》
  • CSS布局小技巧
  • day29打卡
  • 【权威对比】Open-AutoGLM与Parasoft SOAtest集成能力评测:数据背后的真相
  • 【权威对比】Open-AutoGLM与Parasoft SOAtest集成能力评测:数据背后的真相
  • cesium126,230911,Ce for Ue WMTS的编译流程:但 Cesium for Unreal 2.3.0已经实现了WMTS
  • 高可靠电子产品设计的IC选用和PCB设计
  • Word如何实现电子版手写签名?
  • 2025年行业内优质的制冷设备直销厂家排行,闭式冷却塔/玻璃钢冷却塔/冷却塔/制冷设备/工业冷却塔/冷却水塔制冷设备定制厂家怎么选 - 品牌推荐师