就可以说话关键图片视频(开源思潮肖像项目说话)「就可以说话了」

洞察开源风云，热议实时话题，趣解生活点滴，自媒体探索者，与你同行
Hello，大家好，我是源动思潮，不定期给大家分享一些开源项目、实时热点话题讨论
D-ID大家都不陌生吧就是最早发布图片生成说话视频的那个软件这几天新开源了一个项目，<hallo>，跟D-ID一样的功能，凭出色的效果，4天在github拿下了2.2k星星效果几乎可以平替，主要是免费啊
而且比之前开源的那些类似项目效果都要好不少说实话，D-ID做了这么久，瑕疵还是能非常明显的看出来主要是价格也不便宜啊，下面这是D-ID的价目表108美金100分钟，贵贵贵
太贵
还是<hallo>开源免费的香~项目简介<Hallo> 由复旦大学生成视觉实验室开发，是一个层次化音频驱动的视觉合成系统，用于肖像图像动画制作
该系统利用音频输入驱动肖像图像产生自然的面部动作，可用于视频制作、游戏和其他多媒体应用
支持多种预训练模型和自定义配置，使得用户可以根据需求生成具有高度逼真表情的动画肖像
技术架构<hallo>采用了基于扩散的方法，开发出一种层次化音频驱动的视觉合成系统，用于生成动态且逼真的肖像动画
技术框架摒弃了传统依赖参数模型的方法，采用端到端的扩散范式，并引入了用于提高音频输入与视觉输出对齐精度的视觉合成模块，包括嘴唇、表情和姿势动作
网络架构融合了基于UNet的去噪器、时间对齐技术和参考网络
输入数据要求·源图像：1.图像需裁剪为正方形
2.脸部应为主要焦点，占图片的50%-70%
3.脸部应正面朝向，旋转角度小于30°，不可为侧面
·驱动音频：1.必须为WAV格式
2.只支持英语，因为训练数据集仅包括此语言
3.人声必须清晰，可包含背景音乐
项目链接https://github.com/fudan-generative-vision/hallo关注我们，一起探索有意思的项目