logo
15
0
Login
蒋宇东<jiangyudong@bilibili.com>
update readme.md

🖥️ GitHub    |   🤗 Hugging Face   |   🤖 Model Scope   | 📑    | 📑   

中文简体 | English



Index‑AniSora:终极开源动漫视频生成模型

本项目是哔哩哔哩献给二次元世界的礼物——Index‑AniSora,目前最强大的开源动漫视频生成模型。
它支持一键生成多种动漫风格的视频镜头,包括番剧片段、国创动画、漫画改编、VTuber 内容、动画 PV、鬼畜(MAD)等!
该项目基于我们已被 IJCAI ’25 录用的论文
AniSora: Exploring the Frontiers of Animation Video Generation in the Sora Era

🎬 视频演示

📣 更新日志

  • 2025/05/12 🔥 所有成果均已开源,欢迎查看!
  • 2025/05/10 🔥 论文被 IJCAI ’25 接收,已更新定稿版本。
  • 2024/12/19 项目及评测基准首次在 arXiv 发布。

项目指南

AniSora V1.0

位置:📁 anisoraV1_infer

  • 基于 CogVideoX‑5B 基础模型训练,完整训练与推理代码开源
  • 支持 局部区域控制时间控制(首帧/尾帧/关键帧插帧、多帧引导)
  • 在 📁 anisoraV1_train_npu 提供完整训练代码
  • 可在 RTX 4090 上经济部署
  • 覆盖 80 % 应用场景

AniSora V2.0

位置:📁 anisoraV2_gpu, anisoraV2_npu

  • 基于升级后的 Wan2.1‑14B 基础模型,稳定性更佳
  • 蒸馏加速推理,无损画质,更快更省
  • 原生支持华为 Ascend 910B NPU(全流程国产芯片训练)
  • 高质量镜头生成,覆盖 90 % 应用场景

生态工具

位置:📁 data_pipeline

  • 端到端数据集流水线,快速扩充训练数据
  • 动画数据清洗管道

面向动漫的评测体系

位置:📁 reward

  • 为动漫视频生成定制的评测模型与打分算法
  • 适用于强化学习和基准测试的奖励模型
  • 与 ACG 审美对齐的标准测试集
  • 人工偏好对齐

该评测数据集包含 948 段动画视频片段,每个动作标签含 10–30 个视频。文本提示先由 Qwen‑VL2 自动生成,再由人工校对以确保文本‑视频对齐。
填写表格后以 PDF 形式发送至 yangsiqian@bilibili.comxubaohan@bilibili.com(链接在同意协议后提供)。

AniSora V1.0_RL

位置:📁 anisora_rl

📑 待办列表

  • AniSora V2.0
    • 支持 14B 版本,预计 5 月底前发布
  • AniSora 数据集
    • 开放高质量训练集申请
  • AniSora 基准
    • 更新最新 SOTA 模型性能

💡 摘要

动画内容在当今影视行业中备受关注。
尽管 Sora、Kling、CogVideoX 等先进模型在自然视频生成方面表现出色,但在动漫视频上仍捉襟见肘。
此外,由于动漫独特的艺术风格、夸张的运动以及对物理规律的打破,也给评测带来了巨大挑战。

本文提出了完整的系统 AniSora,涵盖:

  1. 数据处理流水线:超过 1000 万高质量数据;
  2. 可控生成模型:引入时空掩码模块,支持图生视频、帧插值、局部图像引导等关键动画制作功能;
  3. 评测数据集:收集 948 段多样化动画视频,配套双盲人评实验及 VBench 测试,人物一致性与运动一致性均达到 SOTA。

🖥️ 方法

下图展示了 Index‑AniSora 的整体框架:

主要特点:

  1. 搭建了完整的视频处理系统,显著提升生成前的数据预处理效率;
  2. 提出统一的时空掩码框架,用于动漫视频生成,可同时处理图生视频、帧插值、局部引导等任务;
  3. 发布面向动漫视频生成的专用基准数据集。

🎞️ 案例展示

不同艺术风格的图生视频:

提示词图片视频
画面中,角色坐在前进的汽车里,朝后方挥手,长发在风中左右摆动。Demo
场景中,两位身着红色婚服的角色拉着红绳,携手远去。Demo
金发角色伸手轻触跪地之人的头顶,后者喘息起伏。Demo
画面中,一人高速冲刺向前,速度导致动作出现轻微拖影。Demo
画面中,角色抬起手臂,手臂表面有气流流动效果。Demo
老人目光锁定宝石,右手微调放大镜,似在揭示古老秘密。Demo
左侧男子紧抿双唇,面露愤怒与决然;右侧男子张口欲言。Demo
岩石爆炸,耀眼光芒四射,碎片向四周激射。Demo

时间控制示例:

提示词首帧中间帧末帧视频
动画电影《美女与野兽》场景:贝儿身着紫色礼服,站在落地窗前对窗外说话,金发披肩。Demo
夜晚,一位金发女子在车门后探出身子向外张望,星空与满月照亮场景,她神情担忧。Demo
一只卡通猫闭眼张口,似在捣蛋或好奇中,准备惊叫。Demo

空间控制示例:

提示词首帧运动掩码视频(含掩码可视化)
在《海底总动员》的缤纷水下世界里,小丑鱼马林和尼莫在大型紫色珊瑚附近交谈……Demo
同上同上Demo

更多示例视频: 作品画廊

📑 评测结果

VBench 结果:

方法运动平滑度运动得分美学质量成像质量I2V 主体I2V 背景整体一致性主体一致性
Opensora‑Plan(V1.3)99.1376.4553.2165.1193.5394.7121.6788.86
Opensora(V1.2)98.7873.6254.3068.4493.1591.0922.6887.71
Vidu97.7177.5153.6869.2392.2593.0620.8788.27
CogVideo(5B‑V1)97.6771.4754.8768.1690.6891.7921.8790.29
MiniMax99.2066.5354.5671.6795.9595.4221.8293.62
AniSora99.3445.5954.3170.5897.5295.0421.1596.99
AniSora‑K99.1259.4953.7668.6895.1393.3621.1394.61
AniSora‑I99.3154.9654.6768.9894.1692.3820.4795.75
GT98.7256.0552.7070.5096.0295.0321.2994.37

AniSora 基准结果:

方法人工评分视觉平滑视觉运动视觉吸引力文本‑视频一致图像‑视频一致角色一致性
Vidu‑1.560.9855.3778.9550.6860.7166.8582.57
Opensora‑V1.241.1022.2874.9022.6252.1955.6774.76
Opensora‑Plan‑V1.346.1435.0877.4736.1456.1959.4281.19
CogVideoX‑5B‑V153.2939.9173.0739.5967.9865.4983.07
MiniMax‑I2V0169.6369.3868.0570.3476.1478.7489.47
AniSora (Ours)70.1371.4747.9464.4472.9281.5494.54
AniSora (Interpolated Avg)-70.7853.0264.4173.5680.6291.59
AniSora (KeyFrame Interp)-70.0358.1064.5774.5780.7891.98
AniSora (KeyFrame Interp)-70.0358.1064.5774.5780.7891.98
GT-92.2058.2789.7292.5194.6995.08

说明
AniSora:我们的 I2V 结果
AniSora‑K:关键帧插帧结果
AniSora‑I:帧插值(平均)结果

🐳 基准数据集

该基准数据集包含 948 段动画视频片段,每段标注不同动作。每个标签含 10–30 个视频,文本提示由 Qwen‑VL2 生成并经人工校对,确保文本‑视频对齐。
请填写 申请表 并将 PDF 发送至 yangsiqian@bilibili.comxubaohan@bilibili.com(须先同意 B 站协议)。

🤗 致谢

特别感谢 CogVideoXWan2.1FasterCache 以及 OSS 的宝贵工作。

📚 引用

如果本项目对您有帮助,请为我们的仓库点 Star,并引用下述论文:

@article{jiang2024anisora, title={AniSora: Exploring the Frontiers of Animation Video Generation in the Sora Era}, author={Yudong Jiang, Baohan Xu, Siqian Yang, Mingyu Yin, Jing Liu, Chao Xu, Siqi Wang, Yidi Wu, Bingwen Zhu, Xinwen Zhang, Xingyu Zheng,Jixuan Xu, Yue Zhang, Jinlong Hou and Huyang Sun}, journal={arXiv preprint arXiv:2412.10255}, year={2024} }