而且比之前开源的那些类似项目效果都要好不少说实话,D-ID做了这么久,瑕疵还是能非常明显的看出来主要是价格也不便宜啊,下面这是D-ID的价目表108美金100分钟,贵贵贵
太贵
还是<hallo>开源免费的香~项目简介<Hallo> 由复旦大学生成视觉实验室开发,是一个层次化音频驱动的视觉合成系统,用于肖像图像动画制作该系统利用音频输入驱动肖像图像产生自然的面部动作,可用于视频制作、游戏和其他多媒体应用支持多种预训练模型和自定义配置,使得用户可以根据需求生成具有高度逼真表情的动画肖像技术架构<hallo>采用了基于扩散的方法,开发出一种层次化音频驱动的视觉合成系统,用于生成动态且逼真的肖像动画技术框架摒弃了传统依赖参数模型的方法,采用端到端的扩散范式,并引入了用于提高音频输入与视觉输出对齐精度的视觉合成模块,包括嘴唇、表情和姿势动作网络架构融合了基于UNet的去噪器、时间对齐技术和参考网络输入数据要求·源图像:1.图像需裁剪为正方形2.脸部应为主要焦点,占图片的50%-70%3.脸部应正面朝向,旋转角度小于30°,不可为侧面·驱动音频:1.必须为WAV格式2.只支持英语,因为训练数据集仅包括此语言3.人声必须清晰,可包含背景音乐项目链接https://github.com/fudan-generative-vision/hallo关注我们,一起探索有意思的项目
(图片来源网络,侵删)
0 评论