人工智能的无限游戏

2024-03-15 04:13王杰夫
第一财经 2024年3期
关键词:芯片领域人工智能

王杰夫

当2023年12月新皮层团队策划AI特刊时,围绕生成式AI的创业在经历了一年的竞赛后似乎有了阶段性结果—美国形成了OpenAI和Anthropic两个寡头,中国则是M i n i Ma x和智谱。那时资本市场甚至有声音称,围绕基础模型的竞争格局已定,创业游戏已经结束。不过这一根据经验得出的结论在生成式AI技术浪潮中下得有点过早了。进入202 4年以来的种种迹象表明,游戏远未结束,无论软件还是硬件。

在软件领域,OpenAI推出的Sora暴击了视频生成领域。此前,该领域的模型都只能生成10秒左右的视频,而且帧与帧之间的差异小到容易让人认为那不过是一张gif格式的图片,而非富有运动感的视频。但Sora生成的视频时长能达到一分钟,而且视频中充满运动和视角变化,几乎就像用摄像机拍出来的一样。

Sora发布后,Meta首席AI科学家杨立昆(Yann LeCun)照例在其社交账号上评论称,Sora并没有真的懂物理规律,用专业术语说就是模型内部没有一个根据真实世界模拟出来的“世界模型”,目前的AI仍不能像人一样根据眼前的状况预测下一步如何行动。而生成式技术也不是通用人工智能(AGI)的最终解决方案。

无论生成式AI已经吸引了多少用户和资本入场,或许杨立昆的说法才是对的。目前已在文、图、视频、代码等多个领域大获胜利的生成式AI,最终可能并不能兑现和人一样的智能。不过,Sora带来的启示和杨立昆的立场一致,那就是人工智能的游戏并未结束。

Runway、Pika等公司都是2023年视频生成领域的明星,估值分别达到15亿美元和2.5亿美元。这两家公司的模型都基于一种叫“扩散模型”的算法,简单说就是通过将高清图像压缩成像素数量有限的模糊图像,再反过来将模糊图像还原成高清图像,让神经网络学习其压缩和还原(即扩散)规律,从而学会图像的生成。生成视频就是在此基础上生成一连串有关联的图像。

而Sora革新了算法。虽然没有公开具体细节,但OpenAI介绍它是一种将上述扩散模型与GP T所基于的Transformer结合起来的新算法,并透露说,如同GPT将语言切分成名为“token”的最小语素一样,Sora也将图像切分成了叫“patch”的像素块,作用与token类似:这种方法使得Sora可以通过计算不同patch之间的依赖关系来预测下一个像素块—GPT就是用类似方法计算不同token之间的依赖关系来预测下一个token。Runway和P i k a所使用的扩散模型并不为图像划分patch,也不预测patch。

在Sora问世之前,Runway是市场上最厉害的视频生成公司,其第一代模型Gen-1能生成的视频长度是15秒,到了第二代模型Gen-2,Runway将数字提升了3秒,达到18秒。此后一年内,这个数字未能进一步成长。而Pika迄今只能生成4秒钟的视频。Runway和Pika之所以只能以秒的速度进步,原因在于其算法很难把握每帧视频之间的关系,一旦视频的时长增加,图像间的关系就会失控。Sora的新算法解决了这个问题。

不过Sora就是视频生成的最终答案吗?未必。如同杨立昆所说,Sora仍然常常犯“物理性错误”,比如视频里过生日的女士吹了生日蜡烛,紧接着和众人一起拍手庆祝,然而没有人发现蜡烛并没有灭。

新创公司在该领域仍有机会。就在S or a发布后不到半个月,一家叫Genmo的公司就被报道称将从风险投资公司NEA筹集至少30 0 0万美元资金,其被看好的原因之一是公司创始人Ajay J ain是那篇奠定图像生成模型基础的扩散模型算法的论文作者之一。

而在中国,曾估值不到10亿美元的月之暗面(Moonshot)一次性拿到了10亿美元融资,其估值升至25亿美元,一跃成为国内估值最高的生成式AI初创公司。这家公司被看好的地方与G en mo相似,那就是创始团队的学术背景。月之暗面创始人杨植麟毕业于清华大学,之后在卡内基梅隆大学读了计算机博士,发明过X L Ne t与Transformer-XL两个语言模型,其中关于Transformer-XL的论文是当年该领域引用量最高的论文之一。具有学术背景的创业者,如今被视为能够取得算法突破的人。

硬件领域的游戏同样没有结束。凭借一份业绩超出预期的财报,英伟达的市值在2月下旬突破2万亿美元,正式进入与微软和苹果同一阵营的“2万亿俱乐部”,将昔日的FA A NG 组合(Facebook、Amazon、Apple、Netflix、Google)中的4家都甩到了身后。可即便如此,这个芯片巨头的位置也没那么牢靠。

同样在2 月下旬,一家叫Groq的芯片公司突然冒了出来,它设计的LPU芯片号称能在“推理”速度上比英伟达GPU芯片快10倍以上。这家公司2016年才成立,其芯片专注于人工智能计算的推理阶段—构建一款生成式AI产品的过程中有两个阶段需要大量算力,前一階段被称作“训练”,需要上万枚芯片计算上几个星期,训练完成、产品开始服务用户,就进入了“推理”阶段,消耗的算力与服务用户的数量和频率正相关。当生成式AI的竞争重心逐渐由比拼模型能力转移到更高效地服务用户,市场对推理芯片的需求就会超过训练芯片。

英伟达两个市场都想要,它宣称自己的GPU芯片既能用于训练,又能用于推理。这话当然没错,不过在推理阶段,用户的离散性需求不需要高性能芯片就能解决,继续使用英伟达芯片实在是大材小用。更何况英伟达的芯片既昂贵又紧俏,目前其型号为A100的芯片单价高达1万美元,更高端的H10 0芯片甚至被炒到超过4万美元—这还只是一枚的价格,若要训练像GPT-5那样强大的模型,据说需要5万枚H100芯片。

如此一来,从整个芯片市场细分出来的AI芯片又可以继续细分。AI芯片的细分成就了英伟达,推理芯片的进一步细分当然也有可能成就新的玩家。Groq发布其推理芯片后,英伟达股价一度下跌4.4%。

猜你喜欢
芯片领域人工智能
领域·对峙
2019:人工智能
人工智能与就业
数读人工智能
芯片测试
下一幕,人工智能!
多通道采样芯片ADS8556在光伏并网中的应用
新常态下推动多层次多领域依法治理初探
74HC164芯片的应用
肯定与质疑:“慕课”在基础教育领域的应用