生数科技朱军：视频模型更期待“ChatGPT时刻”

更新时间：2025-04-01 09:14:12 发布时间：2天前评论：0

内容摘要2024年4月，清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军首次发布中国版Sora——视频大模型Vidu。一年后，2025年3月29日，中关村论坛上，Vidu高可控 AI 视频大模型 Q1正式推出。此次升级的关键在于“高可控

2024年4月，清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军首次发布中国版Sora——视频大模型Vidu。一年后，2025年3月29日，中关村论坛上，Vidu高可控 AI 视频大模型 Q1正式推出。

此次升级的关键在于“高可控”，采访中，朱军解释称：Q代表quality，代表模型的高可控，具体包括多主体细节可控、音效同步可控、画质增强。实际视频生成过程中，位置可控一直是棘手难题，以往模型通常无法精准按照指令生成。如今，Vidu Q1 借助融入参考图的视觉指令，在语义指令的基础上，实现了对场景中角色位置属性的更精准控制。

可控主体数量的增加也是一项技术突破。以往，AI 视频生成在面对较多主体时，精准生成的难度极大。Vidu Q1 增加了可控主体数量，并在多主体一致性以及符合物理规律等方面实现突破。另外，Vidu Q1 的音效同步可控功能可以基于语义指令，在生成视频画面的同时生成精准可控的音效，控制每段音效的长短与出现的时间点。

从Vidu1.0到Vidu Q1，一年时间内，大语言模型赛道逐渐进入洗牌期，而视频大模型赛道仍处于旺盛成长期，快手可灵、字节即梦、MiniMax海螺AI不断迭代，OpenAI Sora正式上线，HeyGen、Pika、爱诗科技等完成融资。而整个人工智能领域伴随技术的升级，发展路径逐渐从单一模态跨向多模态、跨模态，人机交互与产业应用的边界逐渐改变。

相较视频大模型专注于视频数据的特征，多模态大模型可处理文本、图像、视频等多种数据，通过数据对齐、融合与统一标识技术，执行视觉问答等复杂任务。对于多模态赛道的发展，朱军对第一财经记者表示，Vidu基座一开始就是多模态大模型，生数的定位也是多模态，视频只是表现形式之一，此次更新的音频功能与机器人可控数据操作均代表着不同的模态，对公司来讲，底层架构基本一样，无须过多修改即可实现多种模式。

目前生数Vidu的商业化方向主要包括面向C端的SaaS与面向B端的MaaS模式，朱军认为，2025年是视频大模型商业化快速发展的一年，消费者对视频的需求非常广阔，这也是视频大模型与大语言模型不同之处。朱军判断，目前头部视频模型平台各有特色与商业化路径，暂时没有走到大语言模型那么“卷”的状态。

谈及DeepSeek效应是否会在视频赛道出现时，朱军对记者表示，视频大模型大概率不会出现类似DeepSeek这种效率领先的模型，因为行业已经将DeepSeek主打的效率优势进行实践了，厂商更期待的是视频模型更加可控、更加好用，步入视频领域的“ChatGPT时刻”。

举报收藏打赏 评论 0