Latte – 开源AI视频生成模型(开源版Sora)

Latte（开源AI视频生成模型）简介

Latte是一个开源AI视频生成模型，能够让我们实现用文字生成视频，可以说是一个开源免费版的Sora，该AI模型使用的是时空块思路，一样的Diffusion Transformer，为了对从视频中提取的大量提示词进行建模，从输入视频的空间和时间维度的角度出发，引入了四种高效的变种。为了提高生成视频的质量，该模型通过严格的实验分析确定了该模型的最佳实践，包括视频剪辑补丁嵌入、模型变种、时间步类信息注入、时间位置嵌入和学习策略，在四个标准的视频生成数据集（FaceForensics、SkyTimelapse、UCF101和Taichi-HD）上实现了最先进的性能。

Latte（开源AI视频生成模型）官网

Github项目开源主页：https://github.com/Vchitect/Latte
官网：https://maxin-cn.github.io/latte_project/

Latte - 开源AI视频生成模型(开源版Sora)

1、下载及设置：

git clone https://github.com/maxin-cn/Latte.git cd Latte

2、采样

可以使用 sample.py 从预先训练的 Latte 模型中进行采样。该脚本有各种参数来调整采样步骤、更改无分类器指导尺度等。例如，要从 FaceForensics 上的模型中采样，可以使用：

bash sample/ffs.sh

如果您想尝试从文本生成视频，请下载 t2v_required_models 并运行bash sample/t2v.sh 。

NeuralAgent：智能AI助手，基于AI的桌面自动化智能神器

3、训练

train.py 中提供了 Latte 的训练脚本。该脚本可用于训练类条件和无条件 Latte 模型。要在 FaceForensics 数据集上使用 N GPU 启动 Latte (256×256) 训练：

torchrun --nnodes=1 --nproc_per_node=N train.py --config ./configs/ffs/ffs_train.yaml

如果有一个使用 slurm 的集群，还可以使用以下脚本训练 Latte 的模型：

sbatch slurm_scripts/ffs.slurm

此外该模型还提供了视频图像联合训练脚本 train_with_img.py 。与 train.py 脚本类似，该脚本也可用于训练类条件和无条件 Latte 模型。例如，如果想在 FaceForensics 数据集上训练 Latte 模型，可以使用：

torchrun --nnodes=1 --nproc_per_node=N train_with_img.py --config ./configs/ffs/ffs_img_train.yaml

Llama Stack – 专注于机器学习模型部署和优化的框架

Latte – 开源AI视频生成模型(开源版Sora)

Latte（开源AI视频生成模型）简介

Latte（开源AI视频生成模型）官网

相关文章

最新发布

热门话题