生数科技朱军:视频模型更期待“ChatGPT时刻”

内容摘要2024年4月,清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军首次发布中国版Sora——视频大模型Vidu。一年后,2025年3月29日,中关村论坛上,Vidu高可控 AI 视频大模型 Q1正式推出。此次升级的关键在于“高可控

2024年4月,清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军首次发布中国版Sora——视频大模型Vidu。一年后,2025年3月29日,中关村论坛上,Vidu高可控 AI 视频大模型 Q1正式推出。

此次升级的关键在于“高可控”,采访中,朱军解释称:Q代表quality,代表模型的高可控,具体包括多主体细节可控、音效同步可控、画质增强。实际视频生成过程中,位置可控一直是棘手难题,以往模型通常无法精准按照指令生成。如今,Vidu Q1 借助融入参考图的视觉指令,在语义指令的基础上,实现了对场景中角色位置属性的更精准控制。

可控主体数量的增加也是一项技术突破。以往,AI 视频生成在面对较多主体时,精准生成的难度极大。Vidu Q1 增加了可控主体数量,并在多主体一致性以及符合物理规律等方面实现突破。另外,Vidu Q1 的音效同步可控功能可以基于语义指令,在生成视频画面的同时生成精准可控的音效,控制每段音效的长短与出现的时间点。

从Vidu1.0到Vidu Q1,一年时间内,大语言模型赛道逐渐进入洗牌期,而视频大模型赛道仍处于旺盛成长期,快手可灵、字节即梦、MiniMax海螺AI不断迭代,OpenAI Sora正式上线,HeyGen、Pika、爱诗科技等完成融资。而整个人工智能领域伴随技术的升级,发展路径逐渐从单一模态跨向多模态、跨模态,人机交互与产业应用的边界逐渐改变。

相较视频大模型专注于视频数据的特征,多模态大模型可处理文本、图像、视频等多种数据,通过数据对齐、融合与统一标识技术,执行视觉问答等复杂任务。对于多模态赛道的发展,朱军对第一财经记者表示,Vidu基座一开始就是多模态大模型,生数的定位也是多模态,视频只是表现形式之一,此次更新的音频功能与机器人可控数据操作均代表着不同的模态,对公司来讲,底层架构基本一样,无须过多修改即可实现多种模式。

目前生数Vidu的商业化方向主要包括面向C端的SaaS与面向B端的MaaS模式,朱军认为,2025年是视频大模型商业化快速发展的一年,消费者对视频的需求非常广阔,这也是视频大模型与大语言模型不同之处。朱军判断,目前头部视频模型平台各有特色与商业化路径,暂时没有走到大语言模型那么“卷”的状态。

谈及DeepSeek效应是否会在视频赛道出现时,朱军对记者表示,视频大模型大概率不会出现类似DeepSeek这种效率领先的模型,因为行业已经将DeepSeek主打的效率优势进行实践了,厂商更期待的是视频模型更加可控、更加好用,步入视频领域的“ChatGPT时刻”。

 
举报 收藏 打赏 评论 0
24小时热闻
今日推荐
浙ICP备2021030705号-9