提速8倍!混元视频模型速度更快,效果更好——FastHuny
提速8倍!提速
混元视频模型速度更快,倍混效果更好——FastHunyuan来了!元视
新模型仅用1分钟就能生成5秒长视频比以前更快8倍,频模步骤也从50步减少到了6步,型速甚至画面细节也更逼真。度更

以普通速度混元 相比之下,原来的果更50步可以生成一个视频,但现在新模型可以在同一时间生成8条:

再来看看和Sora的提速图片对比,可以看到Fast-Hunyuan和Sora的倍混效果更逼真,衣服、元视水果、频模山峰的型速细节也很清晰。




甚至在一些理解物理细节上,Fast-Hunyuan比Sora强,快效比如下面拿柠檬的视频:

更重要的是,更重要的是,Fast-Hunyuan的代码也是开源现在不用担心Sora的订阅费和限额了。
来自研究团队加州大学圣地亚哥分校圣地亚哥分校(UCSD)的Hao AI实验室主要专注于机器学习算法和分布式系统的研究。


混元官方账号还特意发博感谢他们:

有网友看完直呼,混元是最好的开源视频模型。

开创性视频Dit蒸馏配方
团队如何在8倍加速的情况下提高视频清晰度?
让我们来看看Fast-Hunyuan的技术原理——
首先,他们开发了新的Dit视频蒸馏配方。
具体来说,它们的蒸馏配方是基于阶段一致性(Phased Consistency Model, PCM)模型。

经过多阶段蒸馏的尝试,他们发现效果并没有显著改善,最终他们选择了保持单阶段设置,类似于原始PCM模型的配置。
其次,团队使用OpenSoraPlanMixKit数据集蒸馏。

为避免在训练过程中运行文本编码器和VAE,团队还进行了训练预处理用于生成文本嵌入和VAE潜在变量的所有数据。
在推理阶段,用户可以通过FSDP、并行序列和选择性激活检查点可扩展训练,模型可以几乎线性扩展到64个GPU。Python中的测试代码 3.10.0、CUDA 12.1和H100上运行。
不同模型有相应的下载权重和推理命令,官方推荐使用80GB内存的GPU。
最低硬件要求如下:
40 GB GPU 内存,每个 GPU 配备 lora
30 GB GPU 内存,每 2 个 GPU 配备 CPU 卸载和 LoRa。
在模型微调方面,Fast-Hunyuan提供全微调(需要准备符合格式的数据,提供一些可下载的预处理数据和相应的命令)和LoRA 微调(即将上线)两种方式。
此外,它们还结合在一起预计计算潜变量和嵌入预计算文本,用户可以根据自己的硬件条件选择不同的微调方法来执行命令,并支持图像和视频混合微调。

v0.1版本于2024年12月17日发布。
未来的发展计划还包括添加蒸馏方法较多(如分布匹配蒸馏)、支持更多模型(如CogvideoX模型)代码更新(如FP8支持、快速加载和保存模型支持)等。

One More Thing
除了加速模型,混元还预测了大家都很期待的图像到视频生成功能。
最快1月份,也就是下个月就能看到!期待生活。


GitHub:https://github.com/hao-ai-lab/FastVideo
HuggingFace:https://huggingface.co/FastVideo/FastHunyuan
参考链接:
[1]https://x.com/TXhunyuan/status/1869282002786292097
来源:量子位



