2024年4月,清华大学东谈主工智能究诘院副院长、生数科技首创东谈主兼首席科学家朱军初度发布中国版Sora——视频大模子Vidu。一年后,2025年3月29日,中关村论坛上,Vidu高可控 AI 视频大模子 Q1庄重推出。
这次升级的要津在于“高可控”,采访中,朱军证据称:Q代表quality,代表模子的高可控,具体包括多主体细节可控、音效同步可控、画质增强。骨子视频生成经过中,位置可控一直是难办贫寒,以往模子往往无法精确按照提示生成。如今,Vidu Q1 借助融入参考图的视觉提示,在语义提示的基础上,兑现了对场景中扮装位置属性的更精确适度。
可控主体数目的加多亦然一项本事冲破。以往,AI 视频生成在濒临较多主体时,精确生成的难度极大。Vidu Q1 加多了可控主体数目,并在多主体一致性以及适应物理法例等方面兑现冲破。另外,辉煌策略Vidu Q1 的音效同步可控功能不错基于语义提示,在生成视频画面的同期生成精确可控的音效,适度每段音效的吊祭与出现的时刻点。
从Vidu1.0到Vidu Q1,一年时刻内,大谈话模子赛谈缓缓插足洗牌期,而视频大模子赛谈仍处于郁勃成长久,快手可灵、字节即梦、MiniMax海螺AI握住迭代,OpenAI Sora庄重上线,天臣优配HeyGen、Pika、爱诗科技等完成融资。而统共这个词东谈主工智能限制跟随本事的升级,发展旅途缓缓从单一模态跨向多模态、跨模态,东谈主机交互与产业诳骗的领域缓缓更变。
相较视频大模子专注于视频数据的特征,多模态大模子可治理文本、图像、视频等多种数据,通过数据对皆、交融与和洽标志本事,本质视觉问答等复杂任务。关于多模态赛谈的发展,朱军对第一财经记者示意,Vidu基座一运行即是多模态大模子,生数的定位亦然多模态,视频仅仅线路格式之一,这次更新的音频功能与机器东谈主可控数据操作均代表着不同的模态,对公司来讲,底层架构基本通常,不消过多修改即可兑现多种模式。
当今生数Vidu的生意化标的主要包括面向C端的SaaS与面向B端的MaaS模式,朱军觉得,2025年是视频大模子生意化快速发展的一年,破钞者对视频的需求极度深广,这亦然视频大模子与大谈话模子不同之处。朱军判断,当今头部视频模子平台各有特质与生意化旅途,暂时莫得走到大谈话模子那么“卷”的景象。
谈及DeepSeek效应是否会在视频赛谈出当前,朱军对记者示意,视频大模子约略率不会出现访佛DeepSeek这种成果跨越的模子,因为行业照旧将DeepSeek主打的成果上风进行本质了,厂商更期待的是视频模子愈加可控、愈加好用,步入视频限制的“ChatGPT时刻”。