刚刚,霸榜神秘视频模型身份揭晓,原来它就是「David」 99xcs.com

(来源:机器之心)

终于,几天前登上 Artificial Analysis 榜首的神秘模型 Whisper Thunder (aka) David 现出了真身。

它就是 Runway 最新发布的 Gen-4.5。

作为当前 SOTA 视频模型,Gen-4.5 在视频生成的运动质量、提示词遵循度以及视觉逼真度方面树立了全新的行业标准。

另外,作为目前全球评价最高的视频生成模型,Runway Gen-4.5 的 ELO Score 分数超越了 Veo 3/3.1、Kling 2.5 和 Sora 2 Pro,具备前所未有的视觉逼真度与创意控制能力。

久久小常识(www.99xcs.com)™

Artificial Analysis 最新视频榜单前十名分别如下:

久久小常识(www.99xcs.com)™

Runway Gen-4.5 能够生成电影级、极为逼真的画面,同时为创作者提供无限的创作自由,并对生成过程中的每一个细节进行精确掌控。

2023 年 2 月,RunWay 的 Gen-1 发布,这是首个面向公众的视频生成模型。它开创了一种全新的创意表达方式,也催生了一个全新的产品类别。

2023 年 7 月,Gen-2 率先支持了文生视频 + 图生视频(比 PIKA 和 Sora 都要早)。从那时起,Runway 不断引领行业,让视频模型变得更强大、更可控,从基础模型的大幅提升,到全新的控制方式以及更广泛的上下文能力。

今天发布的 Gen 4.5 或许也会引领行业,作为一个较小的团队,AI 社区的很多人都对此表示了敬意。

此次,Gen-4.5 将视频生成的前沿推向更远,它在预训练数据效率和后训练技术方面都取得了重大突破。Gen-4.5 在动态可控的动作生成、时间一致性以及多种生成模式下的精确可控性方面树立了新的行业标准。在 Artificial Analysis 的文本生成视频基准评测中,Gen-4.5 获得 1247 Elo 分数,目前位居榜首,超越所有其他模型。

Gen-4.5 保持了 Gen-4 的速度与效率,在不牺牲性能的前提下带来突破性质量提升。在所有订阅方案中均提供相近的价格,使全球领先的视频生成能力能够被不同规模的创作者与组织使用。Runway 也将把所有现有的控制模式(图生视频、关键帧、视频到视频等)带到 Gen-4.5 中。

接下来看 Gen-4.5 的几大特性。

精确的提示词遵循能力

Gen-4.5 在物理准确性和视觉精细度方面达到了前所未有的水平。物体的运动呈现真实的重量、动量与力感;液体流动符合正确的动力学特性;表面细节以极高的保真度呈现;而诸如发丝、材质纹理等微小细节在运动和时间维度上也能保持一致与稳定。

  • 复杂场景:能够以高精度呈现结构精巧、元素丰富的多层次场景。

Camera is panning and trucking across a kitchentable with different objects placed on the counter.The light is low, it comes through a window,casting shadows and dappled light.

  • 精细的构图:能够对物体与角色进行精确的定位,并呈现流畅自然的运动效果。

A polar bear sits huddled inside a clear frozen iceblock, strapped securely to a small silver utilitytrailer.The camera follows the trailer pulled by acord at eye level, then pans to the right to reveal agoat pulling the trailer.

  • 物理精确性:具备真实可信的物理表现,包括逼真的碰撞效果与自然的运动方式。

  • 富有表现力的角色:能够呈现细腻的情感、自然而流畅的肢体动作,以及栩栩如生的面部细节。

Close-up shot. A left hand grips the edge of amirror.We can see an old man in the mirror as hetilts it up and down.

风格化控制与视觉一致性

Gen-4.5 能够覆盖广泛的美学风格,从照片级真实感与电影质感到风格化动画,同时保持统一连贯的视觉语言。

  • 照片级真实:画面细节与准确度逼真到难以与真实影像区分。

A young woman with straight blonde hair and afreckled complexion sits quietly, looking upthrough her lashes with a vulnerable expression,

  • 非写实风格:具备风格化、富有表现力的运动效果,艺术表达不受写实限制。

Behind view of a lonely wanderer walking througha dark and mysterious forest.Classic fantasy filmfeaturing richly saturated early color photographypaired with theatric styling.

生活切片:以真实可信的细节呈现日常场景与环境。

The scene shows a the TV that has a 9O's dogcartoon.A hand comes in to turn it off.The camerapans downwards to reveal"Runway" written incereal in a bowl with milk, then back upwardstoward the fridge to reveal"Whisper Thunder'written in alphabet magnets.

  • 电影质感:视觉表现具有强烈的情感张力,呈现深邃的空间感与电影般的精致效果

A kid on the back of a Mandrill, next to a group ofMandrills running on a plain.Cinematic, fastmotion blur, handheld documentary film style, lowangle.

部署与局限性

Runway 表示,Gen-4.5 基于 NVIDIA 架构构建,其在整个流程中 —— 包括早期研发、预训练、后训练以及推理阶段 —— 均完全运行于 NVIDIA GPU 之上。

Runway 与 NVIDIA 深度合作,从训练效率到推理速度,全方位推动视频扩散模型优化的技术边界。得益于推理运行在 NVIDIA Hopper 和 Blackwell 系列 GPU 上,在保证质量的同时实现性能最优化。

尽管能力大幅提升,Gen-4.5 仍表现出一些视频生成模型普遍存在的局限性,包括如下:

  • 因果推理:效果有时会先于原因出现(例如,门把手尚未被按下,门就已打开)。

  • 物体永久性:物体可能在帧间意外消失或出现(例如,一个杯子被遮挡后突然消失)。

  • 成功偏差:动作过于容易成功(例如,一个瞄准不佳的踢球仍然能够进球)。

这些局限性在针对世界模型的研究中尤为关键,世界模型需要准确表现环境中动作导致的结果。Runway 正在积极探索解决这些问题的方法.

官方博客地址:https://runwayml.com/research/introducing-runway-gen-4.5