字节推出MagicAvatar：多模态输入生成人类形象或者动画形象

悟空软件阅读量：1508 次浏览2023-09-04

项目简介

MagicAvatar是由字节跳动开发的多模态框架，它能够将各种输入模式（如文本、视频和音频）转换为运动信号，进而生成或激活一个虚拟形象（Avatar）。然后基于这些信号生成以形象为中心的视频。

几种模式场景：

1.文本引导的形象生成

用户可以通过简单的文本提示来创建形象。例如，输入“一个在火山里踢踏舞的宇航员”就能生成一个相应的虚拟形象。

2.视频引导的形象生成

用户可以提供一个源视频，然后框架会创建一个跟随给定动作的形象。这意味着你可以录制一个动作，然后让虚拟形象模仿这个动作。

3.多模态形象动画

这个功能允许用户激活一个特定主题的形象。例如，你可以选择一个已经存在的虚拟形象，并通过多模态输入来激活它。

4.音频引导的形象生成（即将推出）

这个即将推出的功能将允许用户通过音频输入来创建形象。这意味着你可以通过说话或唱歌来生成一个动作。

引用

如果您发现我们的工作有用，请考虑引用：

下一篇：OpenAI发布企业版ChatGPT