重回镜像之维:生成式AI浪潮下Sora的技术逻辑与媒介生态迭代

2024-05-03 09:43陈文泰孙仲伯
新闻爱好者 2024年4期

陈文泰 孙仲伯

【摘要】Sora模型作为构建物理世界通用模拟器的路径方式,证实了生成式AI对现实复刻的强大能力,诱发人们对技术镜像的生态级反思。首先阐明Sora技术逻辑的两个关键词,即生成性与转化性;其次从技术性问题和主体性问题两个角度分析了生成式技术失灵所导致的镜像困境;最后探讨了技术同以人为主体的价值对齐治理路径,强调在视频叙事上在观照人类文明共同价值,在主体行动上助力推进多元主体价值规训与协同演进。此外,依托后现代主义视域,提请人们关注生成式AI浪潮下自身主体存在着不可生成性的价值,追问生活世界和主体性行动的存在意义,以期理解Sora在引领媒介生态迭代过程中所存在的结构化危机和价值性出路。

【关键词】生成式AI;Sora;技术逻辑;人机协同;价值对齐

2024年2月15日,由Open AI开发的文生视频模型Sora在全网爆火,使人们对建构视频场景的精神想象转化为具体可见的技术性实践。理解Sora,也就是使AI理解现实世界,以更为细腻的色彩、动作、光影等元素对话客观实在,填补文本或单一媒介衍射现实的感官缺陷。本文倾向于将Sora所带来的媒介生态迭代理解为一种渐进式革命,在探讨其对相关媒介行业的颠覆性作用的同时不断追问其所扎根的现实社会基础与人的主体性权力操纵,也就是说,Sora是定位在生成式AI浪潮下的一个视频技术革命的节点,是继ChatGPT讨论后人们对图示化世界的技术性理解。不难发现,人类对自身存在之境的探索与媒介技术演化同轨同归,Sora的内在生成和语义转化正在实现着重建自然与人性对话的交往目的。Sora或许揭示了这样一种可能,即以生成式镜像来映射我们对世界的情感与想象,将无限生成的数字图景同绝对运动的客观世界紧密联系,甚至反哺现实生活的需求和发展,扩容了我们对社会存在的讨论,重塑了我们接触和处理这个世界的方式。

这需要注意两个问题:一是对技术本体的追问,尤其是在新技术诞生之初,因其自身功能设置的不成熟和系统规则的不完备情况所带来的种种技术性失实问题。在Sora建构超真实社会之时,技术对人的沉沦(这包括了对自我身份职业的认知迷思、现实境况的认知错位及一切关于自身存在意义的忽视问题)将重新掀起当下媒介哲学的讨论风波。二是对人的主体性追问,这里突出人们对Sora的能动性应用以及潜在的资本支配和权力博弈问题。这两个问题指涉了技术发展同人本价值的行动纠缠,追问了技术作为现实镜像的仿真能力与社会作用。值得一提的是,Sora所呈现的技术逻辑,不仅仅体现了技术对客观现实的镜像式处理,还夹杂了人们对技术赋能(诸如时空延展、无限生成)的数字想象,这可能加剧遮蔽着我们对生活世界的生存追问。故而,无论生成式AI浪潮何以解构真实并建构拟态,人作为一切技术运作的操盘手都应嵌入自身主体性价值,让技术成为有温度、有效度的社会生活方式和生产方式,进而实现媒介生态中多元主体的价值共创和协同演进。

一、生成性与转化性:Sora技术逻辑的两个关键词

理解Sora技术逻辑的关键在于两点:一是生成性。其自身延续了AI的生成式逻辑,在注入文本要素和价值关系基础上进行预训练及深度数据学习,实现视频图片的结构化生成。二是转化性。诉之于文本、图片转化为视频的基础上,主体权力下沉与数字主体转化是Sora实现其技术特质的重要表现。

(一)生成性:实现人机对话与功能涌现的底层逻辑

Sora技术逻辑的生成性是根据Transformer和Diffusion模型对文本中场景、色彩、动作等信息要素进行数字化处理并生成结构化视频图像产品,其作为一种生产过程桥接了人机对话和功能涌现的两端。

其中,人机对话包含了Sora的自然语言处理(NLP)系统和用户交互式提示两个向度,使得生成视频的同时可以实时反馈和调适作品内容。Sora的后端系统包含自然语言处理模块,其能够理解和解析用户的文本指令。Sora的NLP系统主要体现出四个方面生成特征:第一,理解性。NLP系统能够理解用户输入文本的上下文含义,并据此生成相关文本内容。第二,创造性。NLP系统可以生成全新文本,而不仅仅是复制或总结已有内容。第三,适应性。NLP系统可以生成多种不同风格和类型的文本,以适应不同的用户需求和场景。第四,人性化。NLP系统不仅能够生成文本,还能够模拟人类的情感和思维方式,生成具有情感色彩和人性化的文本。用户的交互式提示则需要用户向Sora提供指令、修改和调整在文本生成過程中的种种偏差,以引导模型朝向用户期望的结果发展。可以说,这一交互式生产反映出了实时性特征,用户可以看到视频生成的进度和效果并根据实际情况进行调整,通过大数据学习及算法自动识别也可以改进生成过程中的种种缺陷,进而反馈出其迭代性特征,即Sora可以进行迭代生成,以不断修改和完善文本内容来满足用户需求。

涌现性是生成性的高级形态,Sora模型作为一个复杂系统,其内部元素(如神经网络的层、文本指令的词汇等)之间的非线性相互作用及无限生成导致了功能的涌现。因而理解Sora生成性的同时,需要观照其所带来的涌现性,以此解读Sora作为“世界模拟器”(word simulator)的可能。涌现性描述了一种从简单到复杂的行为或特性出现的现象,这在Sora中表现为以文本指令催生丰富、连贯、具有情感性的视频故事。

(二)转化性:从叙事形式转换到数字主体的深度追问

Sora技术逻辑的转化性既是针对文生视频图示的形式迭代,也是主体层面上的权力下沉与叙事转换,其技术发展一方面正在跨越专业边界实现用户深度参与,一方面将抽象、感性的人类想象方式具化为一种可见的数字景观。

Sora最直观的表现就在于实现从文本到视频图示的转化,这一转化同时伴随着对文本内容的多模态叙事。当然,Sora不仅能够根据文本生成视频,还能够根据静态图像制作动画,实现叙事效果从静态到动态的转化。这种叙事呈现形式的转化有着重要的媒介意义,其在于联通了人与媒介之间以及媒介与媒介之间的关系性,实现了真正意义上的跨媒介叙事。不难发现,Sora对用户的深度赋权正在为个体提供前所未有的创作自由度和可能性,也正在逐步实现创作与编辑高质量视频的社会化推广。孙玮曾以“媒介通用性”概念理解AI技术如何接入特定时空的文化境况并转化为社会及人类自身的变革动能[1]。Sora的出现则将这一概念进一步实体化,将人们对现实与数字世界的感知存在转化为可见、可预测的数字图景,在此基础上的主体转化也就包括了主体性数字化转型、准入及专业性门槛降低等表征。数字主体突破了现实主体的信息储存、语言与思维阻隔等交往障碍,将人的身体与思想同时空存在相切割剖离,并揭示了生成式AI浪潮下媒介通用性的合法性,以Sora为代表的文生视频模型正在助力全息化与全能型媒介的全域境沟通。

二、生成式技术失灵的镜像困境

当人不再是传播的主体,而是以新技术为依托,以非人类实体融入实践,真实与虚拟的界限就会变得愈加模糊。[2]Sora不仅在实现着真实与虚拟的边界内爆,更在重构着人们对世界景观的整体性认同。可以说,Sora对生活世界的追问与复刻以至于生成一个孪生场域,每每在技术失灵的情况下,我们才能体悟现实世界对其的操作控制。如是,我们可以从两个维度探讨Sora可能带来的镜像式困境:技术本身所反馈的问题和技术背后的权力博弈。

(一)技术深耕的欠缺:镜像失实的技术性问题

Sora作为一种新兴技术产品在诞生之初也存在诸多功能不足的情况,一系列技术性问题导致了视觉体验同物理空间规律呈现相互割裂,进而未能深度实现人机交互与用户沉浸。

具体来说,突出表现在以下几个方面:(1)Sora对生活细节捕捉不足。尽管Sora能够生成具有多个角色和复杂场景的视频,但在捕捉细节方面仍有欠缺,如视频画面表现的隐喻及其共情能力,异质文化下习俗与语言应用能力,非语言符号的信息读取能力等问题仍是生成式AI对人类生活生产行动领会的盲点。(2)Sora在物理及自然规律理解的准确性不足。首先Sora无法精准捕捉和模拟物体运动,导致生成视频中物体动作表现得不自然或者不符合物理规律。其次Sora在处理空间关系时出现错误。比如混淆左右方向,或者在生成的视频中错误地放置物体,导致它们在空间中的关系不符合现实世界的逻辑。再次Sora对光影效果的模拟失真。在生成视频时,Sora无法准确模拟光影效果,导致光线和阴影的分布看起来不自然,或者在特定场景中的光照条件不符合物理定律。(3)Sora对生成视频的逻辑性与连贯性理解不强。首先时间顺序方面。生成视频中的事件没有按照合理的时间顺序发生,导致观众难以跟随故事进展。其次因果關系方面。视频中事件缺乏清晰的因果关系,使得角色的行为和事件的后果之间似乎没有合理联系。再次逻辑流程方面。视频的情节和对话可能缺乏内在的逻辑性,使得角色的决策和行为难以理解。Sora生成视频中的场景转换可能过于突兀,使得观众难以理解场景之间的联系。(4)Sora在生成视频时需要较高的算力资源,这导致其在实时应用场景中的性能受限。在资源有限的环境中(如移动设备或嵌入式系统),Sora的高计算资源需求会导致系统无法有效分配资源给其他关键任务。综合来看,这些问题在需要快速响应和高效计算的应用场景中尤为突出,可能会导致用户体验下降和应用效果受限。

(二)主体权力的博弈:镜像呈现背后的始作俑者

技术升维降低了媒介的准入门槛[3],但在Sora使用权限逐渐开放的初始期,权力与资本早已侵占或规划了技术的使用限度,这使得我们不得不追问个体赋权的限度以及赋权后所可能带来的媒介生态乱象。

首先是确认Sora对个体赋权的有限性,这种有限性将扩大既有数字鸿沟。有学者将生成式AI对个体的赋权归纳为两个方面:一是提升个体传播能力与弥合数字文明社会的能力沟,二是增强个体的知觉与连接能力。[4]优先使用接触Sora的用户同其对信息技术发展的敏感度、技术使用素质、可接入设备条件有着强关联,那么言及Sora的个体赋权即前置性将具有相应条件的用户纳入技术使用的目标对象之中。在用户实现技术赋权后,我们可以发现用户的数字化生存即出现数字主体同肉身的割裂。Sora正在反映出现实镜像对主体在媒介生态中的权力消解,用户将权力(包括编辑、渲染、审查等方面)让渡于技术模型,使数字在场(digital present)与肉身在场之间存在巨大的断裂与鸿沟。[5]需要说明的是,尽管生成式AI能够将人的行动、情绪甚至思维观念进行模仿,但这更多是基于对已知数据的建构和推测,不能对人类行动表达的未知性进行框架化、模式化处理,同理,用户对生成视频的游牧式阅览也不能证明主体行动自身的无序性。

其次是权力控制下的Sora可能衍生出的媒介生态乱象。一是从用户间数字鸿沟到国家间数字鸿沟的技术整体性失衡问题。如上文所言,受社会资本分布不平等的结构制约,拥有丰富社会资本的个体或群体(如专家、意见领袖、媒体机构等)可以利用Sora生成与其相关的研究分析、艺术作品、广告或新闻来扩大影响力,进而加剧同社会资本较少人员之间的差距。那么,Sora及Open AI的崛起同样意味着国家信息主权的全球性争夺,政治传播的数智化迭代放大了我们对第三世界国家及“失语”群体的观照,由Sora所塑造的景观社会及民族想象将加剧政治地缘的紧张关系。二是用户赋权下Sora对新闻真实性的冲击。Sora模型可以轻松生成较为逼真的视频内容,这使得自媒体创作者在利益或某种时效性驱使下制作并传播虚假新闻,这些虚假视频可能被用于散布误导性信息、操纵公众舆论甚至进行网络攻击和诈骗等非法活动。由于Sora生成高度逼真的视频图像,类似“火星人入侵地球”事件或将重回当代媒介现实之中,导致公众对新闻媒体的信任度下降。此外,以技术为行动主体行使其自身规则的技术权力正在对人类生活意义与工作成就产生存在性隐忧。当我们考虑到工作不仅是人们的谋生手段,还与我们对生活的意义联系在一起时,由Sora映射出的生成式AI浪潮会将这些担忧进一步放大。Danaher认为人工智能的部署可能将我们从各种意义领域截断,人类会在一个以作为机器人玩游戏为导向的社会中过上有意义的生活[6]。Sora的普及对生活意义与工作成就所产生的威胁可以从“人—机”三种演进角色中呈现:人类仍然对技术处于“监督”角色、人为参与减少到机器的“维护”角色和人类屈从于机器,沦为仅仅“服从命令”[7]。在此过程中,人类正在逐渐实现从AI代笔到AI推理的工作转化,逐步降低与人类工作任务相关的产出价值,并最终切断人工与价值产出之间的因果关系以及人类对生活世界的认知体验。

三、价值对齐:生成式AI浪潮下Sora的人本省思与治理之策

价值对齐的核心要义就是使Sora的应用运行同人类社会的道德伦理和法制观念相统一,其关系着Sora乃至生成式AI是否能够真正为人类服务。本文力图从内容和主体两个维度省思Sora模型中可供内嵌的人文价值,剖析以人为主体如何实现对Sora的价值规训,以期达到人类意图与价值观同生成式AI系统的目标行为实现深度互嵌。

(一)技术人本化的价值嵌入

Sora实现价值对齐的本质就在于其与人类文明共同价值追求相一致,提升Sora生成视频的表现水平,关键在于发掘其内在叙事的价值伦理以及跨文化表现张力。由于训练算法模型的大量数据具有高速、异构和可变性特征,所以对Sora的价值伦理审查与算法偏见筛选应补充定期风险评估。一旦确定风险,就可以用道德模型来帮助确定Sora的发展方向,其中作为伦理理论的功利主义是做出对个人、社会、环境造成最小伤害的常见道德决策方法。从生成式AI风险管理的角度来看,该理论通过以结果为导向的视角,在风险管理周期的各个阶段制定和测试政策。应该以伦理理论视角巩固AI风险管理框架,在AI工具包和框架内嵌入伦理观点,做出对社会负责的判断,这也将有助于确保以有目的、谨慎、理性与道德的方式利用Sora等生成式AI模型,进一步促进媒介生态良性发展。

(二)主体应用中的价值规训

主体应用是探讨价值对齐的主体维度,依靠各主体对生成视频叙事的价值规训来实现AI向善。科瓦奇认为“新闻工作的实质是用核实进行约束”[8],执行Sora的主体同样承载着对其内容价值的核查与规训,桥接了媒介价值验证与公众理解信任的双重意义。各主体对Sora的应用过程就是面向价值对其的核实过程,是对技术人本化的能动实现,调整Sora生成视频呈现中普适性与特殊性、理性与感性价值之间的矛盾性。具体来看,价值核实的主体可以分为监管机构、提示工程师和用户等诸多协同主体。

一是监管机构层面。监管机构应制定针对生成式Sora视频模型的数据安全规定,明确数据收集、存储、处理和传输的合规要求,这包括对用户隐私的保护、数据的加密存储以及敏感信息的严格控制。监管机构有权要求Sora提供透明的隐私政策,让用户清楚自身数据如何被收集和利用,并让Sora开发者提供算法的透明度和可解释性,以便平台方和公众能够理解和评估其内容的生成过程,及时纠正潜在的偏见和歧视问题。白宫科技政策办公室曾在2022年提出的《人工智能权利法案蓝图》中确定了围绕安全、歧视、隐私和人类价值考虑的四项原则用于指导生成式AI系统的开发,以及明确在模型开发生命周期中实现这些原则的细节[9],对隐私数据和安全风险的监管已然成为监管机构维系平台社会稳定与保障公众利益价值的重要职能。

二是提示工程师层面。提示工程师强调对设计、优化和迭代机器学习模型的提示,以提高模型的性能和输出质量。虽然Sora的信源是人类,处理后的叙述目标也是人类,但认知、解释和自由裁量权的功能却是具有计算性的。因此,当我们看到Sora工具执行代理任务时,提示工程师发挥了调和两端价值的中坚作用。尤其在提升模型理解能力上,提示工程师可以结合文本、图像、音频等多种数据类型,提高模型对不同模态信息的理解和处理能力。通过加强模型对物理规律和逻辑关系的理解,确保视频图像在物理上可行且逻辑上连贯。

三是用户层面。重视用户的主体价值建设,关键在于提高用户的技术使用素养以及对其自身主体性的认同。在Sora模型实现权力下沉的过程中,人的主体性发挥可能同技术建构之间的关系发生扭曲,用户逐步沦为对Sora的喂养者和打工人,并沉迷于Sora所生成的超真实世界之中,由此所生成的思维和行动反向限制了用户在现实世界中的正常生活。对此,为防范技术对自身主体性的异化,用户需要培养对技术的批判性思维。用户应在接入Sora模型时,了解自身可供开放的隐私权限,知晓应用程序对自身平台关联数据和行动数据的讀取,了解生成视频所存在的潜在隐私风险、版权危机及其价值观问题。全面提升Sora用户素养,就应着力提升用户对模型的理解力、鉴别力、判断力和应用力,将Sora的价值建构主体和价值引领主体延伸至“最后一公里”,在个体维度实现与社会价值的细粒度对齐。

需要说明的是,探讨价值对齐的主体维度不限于上述三个层面,还涉及相关立法机构、行业协会、平台组织、程序设计师、教育机构等多元责任主体。在媒介生态治理机制中,要实现价值主体的“聚沙成塔”,多元协同形成覆盖Sora生成过程中的价值主体链,及时规训与纠正技术演化逻辑中的问题点,着力覆盖生成式AI价值路径中的问题域,以期实现以人为本、尊重人权和法治原则的平台媒介价值规制。

四、反思与讨论:不可生成性的价值

AI浪潮下Sora的出现正在放大我们对技术逻辑及其所带来种种可能的讨论,它所生成的世界不再是对符码、数据的简单罗列,而是对数据群以及概念化世界的系统性整合。笔者倾向于将Sora所建构的图示化景观比作技术对照现实的某种镜像,并认为这顺延了西方传统语音中心主义和逻辑中心主义的发展理路,依靠数字技术将人类复杂文化活动化约为同一性、确定性和可理解性的符码模型,以权力、资本及与之相关的生存需求为动力,实现了人类对技术从“赋能”到“赋魂”的深层次转变。虽然我们讨论了价值对齐对于Sora的人本省思,力图通过AI对人类已有知识成果强大的学习和整合能力实现全领域、细粒度的价值连接[10],以此促成人与技术的协同共生,但不得不承认,在Sora对现实存在的媒介化过程中,思维意识、情感表达及各种相关因素都不可避免地发生了扭曲。如此一来,“价值对齐”就成为我们对一切可供符号化表述的叙事参照,对模糊化、不确定性、非建制的不可生成性问题悬置一旁。

发掘不可生成性价值,是使人们再思AI浪潮下的主体性存在方式并重新发现生活之美。不难发现这样一种现象:人类一方面通过媒介来截除肉身同现实世界的感知能力,实现着某种超乎肉体所能达到的快感,比如通过建立文字、声音系统来理解客观实在;另一方面又在技术演进过程中重拾身体的重要性,寄希望肉身在虚拟世界中找到某种现实的感觉,这也诞生了我们对Sora的功能界定—理解和模拟现实世界的模型基础。但一系列数字孪生的出现,需要我们重拾对“中心—边缘”关系的隐忧,这不仅仅是指资本权力缔造下的数字生态格局,还存在虚拟世界同现实生活、非人行动者与人类之间的种种关系性问题。在技术全面渗透进生活世界之后,我们愈加发现生活世界逐步沦为技术的某种镜像,我们的生活语言、生产与消费方式以及情感正在不断效仿某种技术逻辑。1979年,利奥塔在他关于《后现代状况》的报告中写道,技术变革正在改变我们理解叙事和话语的方式。他认为,将不可翻译的信息过滤到数字系统中,以信息系统的交流透明度实现知识的商品化,是计算技术如何产生新的认识条件。[11]于是衍生了我们对技术何以异化人类生活的讨论,Sora正在放大我们对这些问题的关切,比如它反向控制了某些行业走向消弭、淘汰掉重复性或低端劳动进而加大就业内卷、重塑我们对审美的判定等。这需要提请人们关注自身主体性的存在价值,强调生成式AI引发对生活的结构化浪潮下主体自身的去结构化路径。一种形而上的方式是,将各种以视频图示作为主要表现形态和表达方式的传统思想,演变为具有多重象征意义或模糊关系的纯符号游戏结构,破除原有的“符号—意义”二元对立固定结构和二元对立指涉关系,将人们在Sora模型上的应用行动理解为一种破除符号结构而进行自由诠释的创造性活动。唤醒人们在生成式AI时代中对生活本真状态的追求,需要融入新卢德主义对新技术的批判性反思,以人文主义情怀批判操纵生活和自然的机械主义世界观,理解技术建构的有限性问题。实际上,每一种建构都是不完整的,因为它只涵盖了被遗忘时间的细小片段。[12]所以,再思人类情感价值与生活状态的不可表达性,其对照了技术层面的不可生成性,是网络环境中观照主体性存在的后现代策略。这种策略旨在表现某种不能精确表达的离经叛道心态、思想观念与生活方式,以此发现具有感性或想象的认知能力的无序创造。

最后,我们重申Sora作为世界模拟器所具备的生成性和转化性特征,这使得权力话语或某种意向性指向具备更明显的增值和撒播能力。当Sora成为实现逻各斯或某种建制主义工具时,从人类主体活动的不可生成性价值反思,到民族国家的本土叙事与集体反抗,都能说明Sora自身技术性同人类主体价值之间存在着巨大鸿沟。正是这一鸿沟的存在,才证明了人类主体存在的不可替代性,证实了生活世界中“无用之用”的存在意义,强调了媒介生态迭代过程中多元主体的交往价值与行动要义。

[本文为教育部人文社会科学研究青年项目“国际传播中多级文化折扣生成机理及治理研究”(23YJC860003)、河南省研究生教育改革与质量提升工程项目“传媒经济研究”(YJS2024KC27)阶段性研究成果]

参考文献:

[1]孙玮.“视频化社会”的来临:从Chat GPT展望媒介通用性变革[J].探索与争鸣,2023(12):55-62+193.

[2]郭全中,黄泽晶.眼镜下的虚实边界:空间计算对虚拟与现实的重构[J].新闻爱好者,2023(10):4-9.

[3]约翰·杜海姆·彼得斯.奇云:媒介即存有[M].上海:复旦大学出版社,2020:124-312.

[4]喻国明,苏健威.生成式人工智能浪潮下的传播革命与媒介生态:从Chat GPT到全面智能化时代的未来[J].新疆师范大学学报(哲学社会科学版),2023,44(5):81-90.

[5]胡正荣,李涵舒.“数字在场”:社交媒体时代视觉图像的传播范式重构[J].传媒观察,2024(2):64-71.

[6]Danaher J.Automation and utopia:human flourishing in a world without work[M].Harvard University Press,2019.

[7]Danaher J,Nyholm S.Automation,work and the achievement gap[J].AI Ethics,2021(01):227–237.

[8]比爾·科瓦奇,汤姆·罗森斯蒂尔.新闻的十大基本原则[M].北京:北京大学出版社,2011:95.

[9]WHOSTP.Blueprint for an AI Bill of Rights |OSTP| The White House-white house.gov[EB/OL].[2023-05-09].https://www.white house.gov/ostp/ai-bill-of-rights/.

[10]颜世健,喻国明.智能方法作为“第五范式”:人工智能时代科研范式的“新物种”[J].学术探索,2024(1):34-43.

[11]Lyotard J-F.The Postmodern Condition:A Report on Knowledge[M].Manchester:Manchester University Press.1984:4.

[12]齐格蒙特·鲍曼.现代性与矛盾性[M].北京:商务印书馆, 2003:71.

作者简介:陈文泰,河南大学新闻与传播学院副教授,广告系主任,中部传媒与社会发展研究院研究员(开封 475001);孙仲伯,中国石化天津分公司党委宣传部新闻中心记者(天津 300270),中部传媒与社会发展研究院助理研究员(开封 475001)。

编校:王志昭