章节 01
LottieGPT:AI生成矢量动画的新突破导读
研究团队首次实现了矢量动画的自回归生成,通过定制化分词器和66万动画数据集,让多模态模型能够直接生成可编辑的Lottie动画,填补了矢量动画生成领域的空白。
正文
研究团队首次实现了矢量动画的自回归生成,通过定制化分词器和66万动画数据集,让多模态模型能够直接生成可编辑的Lottie动画。
章节 01
研究团队首次实现了矢量动画的自回归生成,通过定制化分词器和66万动画数据集,让多模态模型能够直接生成可编辑的Lottie动画,填补了矢量动画生成领域的空白。
章节 02
近年来AI在视频生成领域进展显著,但矢量动画生成长期被忽视。矢量动画具有分辨率无关、文件紧凑、可编辑等优势,却因结构化复杂(分层几何图元、层级关系)、时间参数化(关键帧插值)、可编辑性要求、序列长度挑战等,现有模型无法合成。设计师仍需手动创建或依赖模板,制约创意与大规模应用。
章节 03
选择Lottie(Airbnb开源JSON格式,跨平台、语义丰富、生态完善)作为目标格式。设计结构感知的Lottie Tokenizer:几何图元编码(贝塞尔曲线参数化)、变换矩阵压缩、关键帧表示(时间戳-属性对)、层级结构保留、语义对齐,序列长度减少一个数量级。基于Qwen-VL微调得到LottieGPT,支持文本/图像到动画生成、多模态提示,输出标准Lottie文件可编辑。
章节 04
构建LottieAnimation-660K数据集:66万真实Lottie动画、1500万静态图,来源多样且经过质量控制。实验结果:分词器比基线减少90%序列长度且保真;生成动画在视觉质量、连贯性、符合提示度获高分;泛化不同风格;SVG生成超SOTA;输出可被主流工具编辑。
章节 05
应用场景包括:设计师助手(快速生成原型)、个性化内容(非专业用户定制动画)、程序化生成(游戏/UI动态内容)、动画教育(学习工具)、无障碍设计(视障用户通过文本创作)。
章节 06
局限:复杂角色动画、精细物理模拟生成质量待提升;长动画连贯性不足;细粒度控制欠缺。未来方向:混合扩散与自回归架构;交互式编辑界面;扩展到SVGA/Rive等格式;探索视频到矢量动画转换。