Sora,路向何方

2024-05-03 03:16非田
看世界 2024年5期
关键词:人工智能文本模型

非田

Sora生成的视频画面

“一位时尚的女人走在东京的街道上,街道上到处都是温暖的发光霓虹灯和动画城市标志,她自信而随意地走路。街道潮湿而反光,营造出五颜六色的灯光的镜面效果。许多行人四处走动。”看到这样一段文字,人类脑海中会浮现出一些场景,最近,人工智能让脑海里的想象照进了现实。

2月16日,OpenAI公司的视频大模型Sora横空出世,通过上面的文字提示,最终生成了一段长达59秒的视频,尽管细节仍有少许“出戏”之处,但乍一看,其已与人类正常拍摄的电影短片无明显差别。

毫无疑问,2024年,人工智能技术,尤其是视频技术,将继续“井喷”。1月底,谷歌才刚发布了AI大模型Lumiere,可根据文字直接生成5秒长的视频,并保证较强的运动连贯性,而这一度被认为具有划时代意义的模型,在Sora面前已经显得不太够看—当AI以不可思议的速度迭代,也难怪马斯克惊呼“人类愿赌服输(gg humans)”。

与此同时,即便Sora尚未面向公众开放,但单凭官网放出的几段视频,也足以加剧大众对人工智能的担忧。身份验证公司iProov的首席科学官Andrew Newell博士在接受哥伦比亚广播公司采访时表示,Sora将使不怀好意者更容易生成更高质量的深度伪造视频。

站在巨人肩膀之上

如果拿武俠小说来类比,本番震惊世人的Sora,并不是因机缘捡到武林秘籍后,顷刻间功力突飞猛进的少侠,而更像是在藏经阁内闭关苦练多年后,终于打通任督二脉之人。

文字转视频是AI领域重点关注的方向之一。《麻省理工科技评论》杂志在去年曾预言,生成式人工智能的第二波浪潮将是视频。如今才刚开年,Sora的出现就印证了这一预测。

Sora是一种文本到视频模型,这种技术涉及将自然语言转换为视觉(图像或视频)的表现形式,它的成功是“站在巨人肩膀之上”。

在Sora之前,行业内较为出名的公司名为Runway,2018年成立后,一直在开发人工智能驱动的视频编辑软件,其客户不仅有Tiktok和YouTube的自媒体创作者,也包括一些主流电影和电视工作室。

2021年,Runway与慕尼黑大学的研究人员合作构建了文本生成图片的AI模型Stable Diffusion的初代版本,另一家初创企业Stability AI随即加入,强强联手之下,Stable Diffusion进步神速。

尽管两家公司后续闹掰,但选择发力的领域也都不约而同选择了文本转视频。Runway于去年2月推出了Gen-1模型,该公司负责人在接受美国媒体采访时称,自家AI已经离制作完整的故事片非常近了。

而此时,这条赛道上巨头已然入局,包括Meta的Make-a-Video和谷歌的Phenaki,它们都可以从头开始生成非常短的视频内容。

《麻省理工科技评论》认为,生成式人工智能的爆炸式增长是由数百万人推动的。与Runway的路径相似,据OpenAI的科学家Aditya Ramesh介绍,Sora最早也是从自家的文本到图像模型DALL-E起步,但却通过采各家之所长,从而实现了质的飞跃。

Sora生成的视频画面

一方面,Sora的创新之处是建立在谷歌DeepMind早先发表的基础研究之上。另一方面,它又融合了两大模型。

传统的文本到视频AI采用扩散模型(Diffusion Model)。其训练过程或是对一张真实照片逐步添加噪点,变为纯噪点图片,或是将一张纯噪点图片按照AI的思考“还原”成一张图片。

而Sora创造性地将这一模型与GPT-4应用的Transformer模型原理相结合,把视频分解为三维坐标系里的一个个坐标点,再通过专门的解码模型将其生成为视频图像,这一方案也被业界称为“Diffusion Transformer”(DiT)架构。

要想生成连贯或一镜到底的画面,就必须先理解事物间相互作用的规则。

从5秒到60秒

文本到视频的合成,是一项具有挑战性的任务,AI模型不仅需要理解文本的含义和上下文,还得处理好视频的视觉和物理方面内容。

基于对现实世界中物理规律的理解,人类在看到一帧画面后脑补前后的场景并不困难,但对于AI而言,要想生成连贯或一镜到底的画面,就必须先理解事物间相互作用的规则—比如明白墨水沾到纸上会出现颜色,风吹树叶会向一侧摆动等。

得益于ChatGPT等的成功,AI理解文本方面已经有了明显突破,而视觉和物理一直是AI企业发力的方向,直到Sora的出现,才算取得了里程碑式的成功。

早前,如Meta推出的“Make-A-Video”,虽可以准确理解文字意思并生成视频,但产出的视频里布满了如上世纪80年代早期电视机上的各种“雪花”与噪点;而Runway迭代出的Gen-2模型,已经不时可以制作出质量接近大型工作室动画的短片,但持续时长和动作连贯性也都很难让人满意。

直到今年1月,谷歌Lumiere才较好地解决了视频连贯性问题,让AI生成的视频不至于出现类似“威尔·史密斯吃意面”般人类像外星人且五官乱飞的“奇景”。但在时长方面,Lumiere单段可生成的视频最多也只有5秒,谷歌解释称,这已经超过大多数媒体中的平均镜头长度。大多数媒体中的平均镜头长度。

谷歌AI大模型Lumiere

正当业内为Lumiere的5秒连贯欢呼时,在DiT架构的帮助下,Sora直接将时长拉到了60秒,而且还能实现运动状态下的一镜到底。

在OpenAI发布的演示视频中,Sora能熟练运用镜头语言和处理遮挡,像是经过精心剪辑,影片主题也更为明确,更对得起“短片”的称呼。

在后续发布的一则以东京冬日为主题的视频中,Sora甚至学会了如何在3D场景中将物体组合在一起—“镜头”以俯冲视角进入场景,跟随一对夫妇走过一排商店,还出现了同一场景下的多角度多机位画面。

此外,当世人的目光都被Sora高質量的文本生成视频能力吸引时,却忽视了其在视频方面具备许多明显甩开竞争对手不止一个身位的能力:比如支持生成宽屏1920×1080、竖屏1080×1920之间各种分辨率格式的视频;又如基于现有的静止图像生成视频,还可以向前或者向后“补充”现有视频内容;或按要求改变原有视频的风格。

当然,OpenAI公司在宣传中也坦陈,现在的模型依然存在不少弱点,比如可能难以准确模拟复杂场景的物理特性,并且可能无法理解因果关系的具体实例,使得视频出现咬了一口饼干但饼干没有咬痕、吹了蜡烛但烛焰没有随风摆动等情况;

又比如,因为混淆提示的空间细节,难以精确描述随时间推移发生的事件,从而生成出人物穿模、篮球穿过篮筐然后爆炸等诡异画面。

对此,OpenAI也表示,正努力教人工智能理解和模拟运动中的物理世界。目前,Sora尚未向公众开放,除了受招募而来测试AI的志愿者外,只允许数量有限的艺术家、设计师和电影从业者使用,并将根据他们的反馈进行调整。

担忧与前景

尽管Sora尚不完美,但依然不妨碍业界人士称赞其伟大。英伟达高级科学家范麟熙(Jim Fan)将Sora类比成当年的ChatGPT-3;纽约大学计算机科学助理教授谢赛宁则认为,Sora将改写整个视频生成领域的游戏规则。

与大佬们不吝赞赏不同的是,国外媒体在报道Sora时所用的措辞相对克制,大多着重提及了Sora的潜在风险。

最显而易见的是版权问题。《纽约时报》称,OpenAI拒绝透露该系统从中学习了多少视频或它们来自哪里,只是说训练了包括公开可用的视频和从版权所有者那里获得许可的视频—而就在去年年底,《纽约时报》才以OpenAI在未经授权情况下使用其受版权保护的新闻进行AI训练为由,提起了诉讼。

今年恰逢美国总统大选年。路透社、《商业内幕》等英美媒体纷纷对Sora可能影响选举表达了担忧。《时代》周刊称,人工智能生成的内容可能被用来错误地影响选举,或以其他方式在世界范围内播下混乱;而《每日邮报》则表示,Sora为代表的AI工具,能让别有用心之人更容易制造“深度伪造”视频。

限制AI发展的考量,不仅仅来自技术本身,同样在于技术伦理层面。对于超级英雄而言,是能力越大责任越大;对于“超级AI”来说,则是能力越大,由此引发的担忧也就越大。

年初,在世界经济论坛上发布的《2024年全球风险报告》中,也将人工智能产生的错误信息和虚假信息,列为世界面临的最重大风险之一。

在AI浪潮席卷之下,即便是名人也难以独善其身。不久前,用深度伪造技术生成的流行歌手泰勒·斯威夫特不雅照片与视频疯传网络。

连美国总统拜登也不能幸免。《纽约时报》称,有成千上万的选民收到了用AI制作出的“克隆”拜登声音,指导他们如何投票。

Sora生成的视频画面

现在的模型依然存在不少弱点,比如可能难以准确模拟复杂场景的物理特性。

对于层出不穷的AI模型,美国似乎也没有很好的处理方式,往往只能一禁了之,现已有十几个州以法令形式,限制人工智能在政治广告中的使用。美国联邦贸易委员会也在Sora发布后的2月15日提议修改规则,禁止使用AI工具冒充人类。

而在中国,已有不少人开始蹭起了Sora的流量,或是借机兜售AI课程,或是贩卖根本不存在的Sora内测权限和使用手册。知识社群应用软件“知识星球”上更是一夕之间出现了多个与Sora相关的社群,其中不少需要付费才能加入。

与乱象相伴的,是对Sora想象力的匮乏。大部分媒体在谈及Sora的影响时,往往只局限于影视、游戏、内容创作等与视频强相关的领域,用类似“现实不存在”“端掉行业饭碗”之类耸人听闻的标题,制造着焦虑,收割着流量,而未能看到Sora的潜力,颇有买椟还珠之感。

就像十多年前谈及4G不该仅考虑网速、讨论智能手机不该只探讨对通信行业的影响一样,从技术层面来看,Sora能带给这个世界的惊喜或许远不止视频。

360集团创始人周鸿祎在社交媒体上表示,Sora对物理世界的模拟,能帮助AI更好地理解物理世界,从而对自动驾驶行业产生积极影响。这一观点旋即遭到Meta首席AI科学家杨立昆“隔空反驳”—后者认为,如果Sora只是为了生成视频,这没什么问题,但如果其目的是了解世界如何运作,那就是一个失败的方法。

尽管尚未有定论,但双方的这番“交锋”,显然让世界看到了Sora的更多可能。太阳底下无新事,当以山姆·奥特曼为代表的程序员为世界打开了名为AI的潘多拉魔盒,类似的讨论此后还将重复无数次。

责任编辑吴阳煜 wyy@nfcmag.com

猜你喜欢
人工智能文本模型
重要模型『一线三等角』
重尾非线性自回归模型自加权M-估计的渐近分布
在808DA上文本显示的改善
2019:人工智能
基于doc2vec和TF-IDF的相似文本识别
人工智能与就业
数读人工智能
3D打印中的模型分割与打包
下一幕,人工智能!
文本之中·文本之外·文本之上——童话故事《坐井观天》的教学隐喻