人工智能的无限游戏

2024-03-15 04:13王杰夫

第一财经 2024年3期

王杰夫

当2023年12月新皮层团队策划AI特刊时，围绕生成式AI的创业在经历了一年的竞赛后似乎有了阶段性结果—美国形成了OpenAI和Anthropic两个寡头，中国则是M i n i Ma x和智谱。那时资本市场甚至有声音称，围绕基础模型的竞争格局已定，创业游戏已经结束。不过这一根据经验得出的结论在生成式AI技术浪潮中下得有点过早了。进入202 4年以来的种种迹象表明，游戏远未结束，无论软件还是硬件。

在软件领域，OpenAI推出的Sora暴击了视频生成领域。此前，该领域的模型都只能生成10秒左右的视频，而且帧与帧之间的差异小到容易让人认为那不过是一张gif格式的图片，而非富有运动感的视频。但Sora生成的视频时长能达到一分钟，而且视频中充满运动和视角变化，几乎就像用摄像机拍出来的一样。

Sora发布后，Meta首席AI科学家杨立昆（Yann LeCun）照例在其社交账号上评论称，Sora并没有真的懂物理规律，用专业术语说就是模型内部没有一个根据真实世界模拟出来的“世界模型”，目前的AI仍不能像人一样根据眼前的状况预测下一步如何行动。而生成式技术也不是通用人工智能（AGI）的最终解决方案。

无论生成式AI已经吸引了多少用户和资本入场，或许杨立昆的说法才是对的。目前已在文、图、视频、代码等多个领域大获胜利的生成式AI，最终可能并不能兑现和人一样的智能。不过，Sora带来的启示和杨立昆的立场一致，那就是人工智能的游戏并未结束。

Runway、Pika等公司都是2023年视频生成领域的明星，估值分别达到15亿美元和2.5亿美元。这两家公司的模型都基于一种叫“扩散模型”的算法，简单说就是通过将高清图像压缩成像素数量有限的模糊图像，再反过来将模糊图像还原成高清图像，让神经网络学习其压缩和还原（即扩散）规律，从而学会图像的生成。生成视频就是在此基础上生成一连串有关联的图像。

而Sora革新了算法。虽然没有公开具体细节，但OpenAI介绍它是一种将上述扩散模型与GP T所基于的Transformer结合起来的新算法，并透露说，如同GPT将语言切分成名为“token”的最小语素一样，Sora也将图像切分成了叫“patch”的像素块，作用与token类似：这种方法使得Sora可以通过计算不同patch之间的依赖关系来预测下一个像素块—GPT就是用类似方法计算不同token之间的依赖关系来预测下一个token。Runway和P i k a所使用的扩散模型并不为图像划分patch，也不预测patch。

在Sora问世之前，Runway是市场上最厉害的视频生成公司，其第一代模型Gen-1能生成的视频长度是15秒，到了第二代模型Gen-2，Runway将数字提升了3秒，达到18秒。此后一年内，这个数字未能进一步成长。而Pika迄今只能生成4秒钟的视频。Runway和Pika之所以只能以秒的速度进步，原因在于其算法很难把握每帧视频之间的关系，一旦视频的时长增加，图像间的关系就会失控。Sora的新算法解决了这个问题。

不过Sora就是视频生成的最终答案吗？未必。如同杨立昆所说，Sora仍然常常犯“物理性错误”，比如视频里过生日的女士吹了生日蜡烛，紧接着和众人一起拍手庆祝，然而没有人发现蜡烛并没有灭。

新创公司在该领域仍有机会。就在S or a发布后不到半个月，一家叫Genmo的公司就被报道称将从风险投资公司NEA筹集至少30 0 0万美元资金，其被看好的原因之一是公司创始人Ajay J ain是那篇奠定图像生成模型基础的扩散模型算法的论文作者之一。

而在中国，曾估值不到10亿美元的月之暗面（Moonshot）一次性拿到了10亿美元融资，其估值升至25亿美元，一跃成为国内估值最高的生成式AI初创公司。这家公司被看好的地方与G en mo相似，那就是创始团队的学术背景。月之暗面创始人杨植麟毕业于清华大学，之后在卡内基梅隆大学读了计算机博士，发明过X L Ne t与Transformer-XL两个语言模型，其中关于Transformer-XL的论文是当年该领域引用量最高的论文之一。具有学术背景的创业者，如今被视为能够取得算法突破的人。

硬件领域的游戏同样没有结束。凭借一份业绩超出预期的财报，英伟达的市值在2月下旬突破2万亿美元，正式进入与微软和苹果同一阵营的“2万亿俱乐部”，将昔日的FA A NG 组合（Facebook、Amazon、Apple、Netflix、Google）中的4家都甩到了身后。可即便如此，这个芯片巨头的位置也没那么牢靠。

同样在2 月下旬，一家叫Groq的芯片公司突然冒了出来，它设计的LPU芯片号称能在“推理”速度上比英伟达GPU芯片快10倍以上。这家公司2016年才成立，其芯片专注于人工智能计算的推理阶段—构建一款生成式AI产品的过程中有两个阶段需要大量算力，前一階段被称作“训练”，需要上万枚芯片计算上几个星期，训练完成、产品开始服务用户，就进入了“推理”阶段，消耗的算力与服务用户的数量和频率正相关。当生成式AI的竞争重心逐渐由比拼模型能力转移到更高效地服务用户，市场对推理芯片的需求就会超过训练芯片。

英伟达两个市场都想要，它宣称自己的GPU芯片既能用于训练，又能用于推理。这话当然没错，不过在推理阶段，用户的离散性需求不需要高性能芯片就能解决，继续使用英伟达芯片实在是大材小用。更何况英伟达的芯片既昂贵又紧俏，目前其型号为A100的芯片单价高达1万美元，更高端的H10 0芯片甚至被炒到超过4万美元—这还只是一枚的价格，若要训练像GPT-5那样强大的模型，据说需要5万枚H100芯片。

如此一来，从整个芯片市场细分出来的AI芯片又可以继续细分。AI芯片的细分成就了英伟达，推理芯片的进一步细分当然也有可能成就新的玩家。Groq发布其推理芯片后，英伟达股价一度下跌4.4%。