当前位置: 首页 > news >正文

【AI数字人系列】三、数字人——定义数字世界中的你

数字人——定义数字世界中的你

  • 序言
  • 算法驱动的数字人
  • 数字人的构造
  • 数字人的躯壳
  • 数字人的灵魂
  • 结语

序言

数字人,运用数字技术创造出来的人。目前还没有一个完全属于数字人的准确定义,因为AIGC以及相关技术的发展,预计数字人会在不久的将来成为一个科技大爆点,如果说人性机器人的具身智能还有很长的路要走,那么数字人就是这中间触手可及的过度产物,很多电影里的桥段终将照进现实。

算法驱动的数字人

这是一个算法驱动的时代,从2015年AlphaGo围棋战胜人类开始,AI这一词普遍进入大众的视野后就再也没有消失过,各行各业都开始了算法革命。经过这么多年的各种算法沉淀,算法驱动的数字人开始崭露头角。这里可以将数字人区分为两个大类别,一个是真人驱动的数字人,一个是算法驱动的数字人。真人驱动的数字人就不得不提到当前风靡全球的《阿凡达》,通过一套先进的动捕设备在模型上精细还原了真人的动作以及面部表情。

数字人的构造

怎样定义一个数字人?我们构造一个数字人的目的就是希望可以在数字世界构造一个像人一样的数字生命,那么我们就应该按照一个“真正的人”去构造他。人员由什么构成的?给一个玄学但是我觉得很酷的答案:肉体和灵魂。同样数字人也可以由这两部分组成:

  1. 数字人的躯壳,就像我们的身体一样,首先得有一个好看的皮囊;
  2. 数字人的灵魂,好看的皮囊千篇一律,有趣的灵魂万里挑一;

躯壳和灵魂两部分可以独立出来部署,躯壳关注好展示部分,灵魂关注好交互实现部分。

数字人的躯壳

数字人的躯壳起始就是建模过程,建模由很多种方式:

  • 2D引擎
    这一类更偏向于二次元,不过很多人喜欢这样的风格,比如说可以将一个你喜欢的动漫人物变成数字人的躯壳。2D引擎的代表就是Live2D Cubism。
  • 3D引擎
    这一类更加偏向于超写实的人物建模,3D引擎的代表是UE(Unreal Engine)和Unity。虚幻引擎的MetaHuman可以实现用户通过手机摄像头快速创建一个自己的虚拟人身体,例如NextHuman。
  • AIGC
    这个方向还在快速发展,相比以上两个减少了建模的流程,但是弊端也非常明显,算法生成的每一帧连贯性上总会给人一种一眼假的感觉,对于一些任务模型真实度要去没有那么高的项目可以使用这种方案,典型的项目有wav2lip、video-retalking。

数字人的灵魂

有了数字人的躯壳,就需要“灵魂”来驱动,前面已经讲了最简单的数字人需要三部分算法。这三部分算法开源的代码有很多:

  • ASR语音识别
    • openau的whisper;
    • wenet;
    • speech_recognition;
  • AI Agent
    • 大模型部分就比较多了,包括ChatGPT、Claude、ChatGLMS、文星一言、千帆大模型、通义千问等;
    • Agent部分可用使用LANgChain的模块去自定义,里面基本包含了Agent实现的几个组件;
  • TTS
    • 微软的edge-tts,只能使用里面预设的任务声音;
    • VITS,还有很多分支版本,,VITS系列可用自己训练出想要的人声;
    • so-vits-svc,专注到唱歌上面,前段时间很火的AI孙燕姿。
      此外,数字人的灵魂不仅仅在于算法实现,工程实现至关重要,其中工程实现又包含几个重要部分:
  1. AI Agent:我们想要数字人可以像人一样思考就需要写一个像人一样的Agent,工程实现上怎样去构思记忆模块,怎样去使用各种工具等是一个具有挑战性的问题。
  2. 驱动躯壳的实现:灵魂部分怎样去驱动躯壳部分,我们可以将灵魂部分的所有接口定义出来,然后躯壳部分通过API调用,调用方式可以是HTTP、webSocket等等,视躯壳部分的实现而定。另外包含情绪的语音表达以及如何保证躯壳的口型、表情、动作和语音同步及匹配也是一个很大的挑战性问题,目前主流的方案基本上只能做一些预设表情动作,然后做一些逻辑上的判断来播放预设,语言驱动口型相对来说成熟一些,但是基本上都是闭源的。
  3. 实时性:由于整个数字人的算法部分组成庞大,几乎不能实现单机部署,特别是大模型部分,所以算法一般会部署到额外的集群或调用提供出来的API,这里就会涉及到网络耗时和建模推理耗时,如果响应太慢就会体验很差,所以低时延是数字人需要解决的一个问题。
  4. 多源跨模态:仅仅是语音交互的数字人是远远不够的,人有五感,听觉指示其中一种,其他的感官可以根据实际需求来做,比如视觉可以通过添加摄像头数据来获取数据,再通过系列CV算法做图像分析等。
  5. 拟人化场景:我们正常和人交流的时候会突然打断发表个人观点等操作,都需要工程上做出丝滑的处理。

结语

相信数字人会在接下来的几年里渗透到各行各业,也有可能会是一次新的产业升级,相信这会是一个很酷的项目,未来可期!

http://www.jsqmd.com/news/453979/

相关文章:

  • 【递归、搜索与回溯】专题(四):回溯算法综合大练兵(上)—— 子集、排列与组合的进阶
  • 跨境卖家如何应对平台对重复铺货的治理升级
  • WordPress 中的Alt文本与图像标题区别
  • 2026年度社交脱单辅助与高情商聊天工具深度测评:谁才是真正的社交解药?
  • 【C/C++】无锁SPSC环形队列
  • JVM中的垃圾回收机制(速记版)
  • VMware虚拟机的安装
  • 毕设程序javaKTV点歌系统 基于SpringBoot的在线音乐点播与管理系统 智能化歌厅曲目服务平台的设计与实现
  • Nexpose 8.38.0 for Linux Windows 发布 - 漏洞扫描
  • 电力系统优化运行与编程:电网规划、负荷预测及潮流计算的Matlab代码模型复现
  • 让预测模型自己进化:BES-SVM黑科技实战
  • AI视频三巨头:一场关于未来想象力的终极PK
  • 瑞祥卡余额怎么提现到支付宝,高效变现指南 - 淘淘收小程序
  • 【C++初阶】:(3)C++基础类和对象(中)
  • 《从零开始的java从入门到入土的学习生活——JavaWeb前端篇》Chapter16——JavaWeb前端篇学习记录——HTML、CSS、盒子模型、flex弹性布局、表单标签
  • 毕设程序javaweb的计算机课程在线学习平台 基于Java Web的计算机技术在线教学与实训平台 计算机专业网络教育及技能测评系统
  • TechWiz LCD 1D应用:高延迟膜(彩虹mura仿真)
  • 企业策略路由(PBR)实战:原理、场景与故障排查(多出口必看)
  • 跨境卖家如何建立供应商考核指标提升稳定性
  • 2026年 喷雾干燥机厂家推荐排行榜:高速离心、气流喷雾、锂电池专用等十大机型核心优势与选购指南 - 品牌企业推荐师(官方)
  • Dify 实战系列(4):实现新闻内容概要生成
  • GLM-4.5 vs GLM-4.7 vs GLM-5 全方位技术演进对比
  • 如何选择优质品牌设计公司
  • 选购费氏粒度仪的关键指标:不仅仅是看测量范围 - 品牌推荐大师1
  • 数据同步备份软件:数字化时代的“双保险”策略
  • 西门子S7-1200PLC双轴定位算法在电池焊接控制中的应用:博图程序案例与威纶触摸屏操作界面
  • 觉察 改变
  • 全栈开发核心技术解析
  • 互联网大厂Java求职面试实战:三轮技术问答与热点技术深度解析
  • 并网逆变器VSG虚拟同步控制Matlab/Simulink仿真模型及其完全正确结果