爱诗科技发布首]个通用实时世界模型PixVerse R1

  更新时间:2026-01-15 01:01   来源:牛马见闻

吉报头条
重要新闻
国内新闻
国际新闻
图片精选

Consistent Infinite Streaming via Autoregressive Mechanism它们共同构成了 PixVerse-R1这一PixVerse R1应用场景覆盖游戏

<p>1月14日)消息,!爱诗科技发布PixVerse R1,全球首个支持最高1080P分辨率通用实时世界模型:一个基于Omni原生多模态基础模型、自回归流式生成机制和瞬时响应引擎构建的下一代实时世界模型。据介绍,该模型首次将视频生成的延迟从“秒级”降至“即时”响应,实现了“所想即所见、所说即所现”的实时交互体验,标志着AIGC领域的视频生成正式从“静态输出”迈入“实时交互”的全新阶段。</p> <p class="f_center"></p> <p>首先,Omni 原生多模态基础模型(Native Multimodal Foundation Model)打破了传统多模态系统“拼接式”处理的局限。它采用Transformer架构,具有高扩展性,模型统一Token流架构(stream of tokens),将文本、图像、音频与视频融合为单一生成序列,实现真正端到端的跨模态理解与输出。更为关键的是,模型全程在原生分辨率下训练,避免了上采样带来的模糊与伪影。通过scaleup训练,使光影变化、物体运动与物理交互具备一致性和真实感。这意味着,AI 不再只是“画图”,而是在模拟一个符合现实场景的世界。</p> <p>在此基础上,自回归流式生成机制(Consistent Infinite Streaming via Autoregressive Mechanism)解决了长时序一致性这一行业难题。通过引入记忆增强注意力模块,可生成任意长度的视频内容,并长期维持角色身份、物体状态与环境逻辑的一致性。用户不再受限于几秒片段,而能在生成过程中随时插入新指令,系统即时响应并动态调整叙事,实现真正的“流式交互”。画面突变、逻辑断裂等传统生成痛点,由此成为历史。</p> <p>而让这一切“实时”成为可能的,是瞬时响应引擎(Instant Response Engine ——IRE)。IRE 通过时间轨迹折叠、引导校正和自适应稀疏采样三大创新,将传统扩散模型所需的50+ 采样步数压缩至惊人的1–4步,计算效率提升数百倍,让动态画面进入人眼可感知的“即时”响应阈值。不仅可以支撑高并发 API 服务,更为未来终端设备部署铺平道路。</p> <p>据悉,三大核心技术:Omni 提供现实世界的<b>“计算基座”</b>,自回归流式生成机制赋予其<b>“持久记忆”</b>,IRE 则注入即时反应的<b>“神经反射”。</b>它们共同构成了 PixVerse-R1这一全球首个支持1080P 实时生成的通用视频大模型。</p> <p>据了解,PixVerse R1应用场景覆盖游戏、影视、娱乐、创意等多个领域。爱诗科技创始人兼CEO王长虎表示:“PixVerse R1是全新的媒体形式。第一次,AI可以基于用户的意图实时生成一个持续演化、物理上合理的世界。传统视频是被记录的历史,而PixVerse R1开创了‘正在发生的现在’的实时生成新纪元。无论是 AI 原生游戏、互动电影,还是生成式直播电商体验,叙事都能‘所想即所现’(As You Think)。创作与消费的边界逐渐模糊:视频消费者同时也是创作者,能够在观看的同时立即调整和生成新内容。我们相信,智能化媒体应实时响应用户意图,让每个人都能成为动态叙事的创作者。”(定西)</p> <p><!--StartFragment--><b style='box-sizing: inherit; color: rgb(64, 64, 64); font-family: Arial, "Hiragino Sans GB", STHeiti, "Helvetica Neue", Helvetica, "Microsoft Yahei", "WenQuanYi Micro Hei", sans-serif; font-size: 18px; caret-color: rgb(64, 64, 64);'><font color="#c00000" style="box-sizing: inherit;"><i style="box-sizing: inherit;">本文来自网易科技报道,更多资讯和深度内容,关注我们。</i></font></b><!--EndFragment--></p>

编辑:Henrik Rafaelsen