平台内容经济的智能生成对学术出版产业的挑战及治理进路*①

2023-02-12 14:40翟秀凤

山东师范大学学报(社会科学版) 2023年5期

翟秀凤

( 首都师范大学文化研究院,北京,100089 )

AIGC(人工智能生成内容)已成为业界和学界的热门议题。由于AIGC在创造性内容上的生成性,其对学术生产和出版的影响得到诸多研究者的关注。不过,现有研究主要聚焦于人工智能的技术可能性及其传播伦理风险,较少将作为网络内容经济主体和生成性智能所有者的平台作为关键主体加以探析。事实上,智能技术的实践性恰恰来自于其与平台内容经济及其资本逻辑结合之后所引发的政治、经济及社会效应。基于此,对AIGC与学术出版关系的分析,需要将前者置于其赖以发展的平台经济形态中,以厘清平台内容经济的发展逻辑如何介入知识生产过程及其产业模式。本文首先通过回溯UGC(用户内容生产)到AIGC的内容产业脉络,分析AIGC诞生的必然性。在此基础上,探讨平台经济何以依托其规则和技术优势形成对学术出版产业的挑战和风险,并尝试沿着这一思路探讨可能的治理进路。

一、从UGC到AIGC:平台内容经济演进与AIGC的诞生

平台的内容生产机制经历了从UGC、PGC(专业内容生产)、AI辅助内容生产到AIGC的演进历程。在不同的发展阶段,平台选择性地创造和调用不同的生产理念及运行模式,以适应其内容变现的原初目标。回顾这一历程,将有助于理解算法迭代如何助推了平台内容经济的演进,并厘清平台内容经济所遵循的基本逻辑。

平台内容经济缘起于用户的免费劳动和自发性参与。在平台兴起的初期,吸纳和鼓励用户加入社交网络,并迅速完成原始数据积累是平台发展的首要目标。这一阶段,以倡导参与式传播为特征的UGC成为平台发展的主流理念,与之伴随的是一套以去中心化、反权威性和技术赋权为核心的主流话语。然而,随着用户体量和规模的上升,平台迅速发现了以UGC为基础的商业模式的内在悖论:散乱无章的用户业余内容与商业营销的明确需求之间的矛盾。一方面,平台需要吸引大量用户持续生产内容,以便积累用于营销活动的数据;另一方面,“用户生成的业余内容可能不像主流媒体商业内容那样符合广告的要求”(1)Andrejevic M, “Exploiting YouTube: Contradictions of user-generated labor”, The Youtube Reader, vol.413,No.36, 2009, pp.406-423.,因为广告商需要的是与自身商业诉求相一致的专业内容。这一阶段,平台商业宣传往往聚焦于用户总数及其变现潜力,其本身数据挖掘和算法开发的能力仍十分有限。

在解决上述悖论的过程中,平台内容经济模式逐渐发生转变:PGC成为平台更为青睐的生产机制。传统媒体生产机构(新闻机构、电视台或其他影视制作机构)有更为专业的生产能力和对目标受众的吸纳能力。他们的入驻使传统媒体影响力向平台机构逐渐转移,传统媒体也试图借此完成其数字化转型和渠道拓展。然而,平台很快洞察到以PGC为基础的商业模式的新弊端:专业生产机构的数量和内容产量有限,无法面向平台海量、多层次的用户开展内容定制;同时,版权购买成本高,这极大地压缩了平台盈利的空间。在此阶段,平台已经着手挖掘用户行为和消费数据,并开发出一系列用于内容变现的算法程序和营销工具。鼓励用户对算法后台和营销工具的创新性使用,培养平台原生的消费主义倡导者成为平台的重要目标。

在此过程中,一批平台原生的内容创作者开始涌现,并逐渐成为网络影响力版图中不可忽视的力量。他们既包括专注于新闻资讯和知识生产的自媒体内容创作者,也包括面向各个商业垂直领域的消费主义倡导者。为了提高网络内容的变现效率,平台开始积极促进AI辅助内容生产的推广和扩散。这一阶段,算法在平台内容经济中的角色主要可以概括为三个方面:一是内容需求分析,算法后台工具用于分析目标受众数据并提供内容定制的方向性建议;二是内容精准推送,通过推送算法使内容抵达目标受众并提升用户黏性和消费欲望;三是内容营销变现,为内容生产者和用户提供专门的后台算法工具,用于匹配相应的广告和营销需求。至此阶段,除了少数新闻机构和组织开始尝试规范性文本的机器辅助撰写(如体育新闻稿、实时地震资讯发布等)外,AI辅助内容生产主要体现在算法对用户数据和分发渠道的挖掘,并未进入创造性内容生产的层面。

在以上过程中,算法对内容货币化的支持作用日趋显著,平台内容经济的规模出现了爆发式增长,并产生了流量分成、打赏机制、版权转化、网络直播等新颖的盈利模式。不过,以上所有的算法仍然不具备创造性内容的产出能力,且均属于传统意义上的分析式算法(Analytical AI),即利用机器学习分析数据的分布特征,从而开展样本分类、预测等任务。与其相比,新近的生成性人工智能(Generative AI)的运行逻辑与分析式算法则显然不同。生成性AI不仅分析数据本身,更能够学习数据的产生模式(如语言模型),因而能够根据所学模型创作数据中并不存在的内容。例如,AIGC不仅能形成由原始素材拼凑而成的抽取式文本摘要,还能输出生成性文本摘要,即在对文本形成抽象认识的基础上创造新词并灵活概括。

AIGC的出现是平台大量资本投入和技术研发的结果,同时也是平台内容经济运行逻辑的必然产物。从UGC到AI辅助生产,算法虽然已经成为内容生产的基础设施,但平台对内容生产的主导性仍未能完全确立。这与平台内容经济希望全面占有信息资本生产要素(如数据、内容)的诉求产生了矛盾;与此同时,人工内容生产的相对低效和不稳定性,也限制了平台对内容生产规模化的追求。正是在这些问题的驱动下,大型互联网企业开始全面发力生成性人工智能。除了以微软为代表的百亿美元企业投资,风险投资也成为AIGC的主要资本来源。知名跨国投资机构红杉资本近年来共投资50余家AIGC初创企业,仅文本生产领域就有20余家。在国内,百度、阿里、字节跳动等平台持续押注AIGC,而美团对人工智能企业光年之外的21亿元并购,更是成为迄今国内最大的AIGC投资。

随着AIGC技术的不断迭代,加之资本强势介入所产生的收益诉求,网络内容市场的盈利机制也会出现更新与调整:与AIGC直接相关的创作型内容产业会成为平台重点投资的领域,其中的典型领域如学术出版产业将受到直接的冲击和影响。

当然,这一趋势并非平台向学术出版领域的单向运动。事实上,学术出版业对平台规则的主动适应已经成为显著的趋势。近年来,数字化转型、平台化转型和知识服务功能转型成为学术出版领域的突出表现,主要包括对数据画像、内容评级等算法手段的引入(2)季丹:《数字时代国际出版业的平台型商业模式研究》,《出版发行研究》2022年第3期。,以及对出版内容公众接受度评价的重视(3)陈铭:《知识生产视域下的科学数据出版实践——兼论学术出版商的角色定位与功能分析》,《科技与出版》2022年第12期。。这些探索与平台内容经济的运行逻辑有着内在一致性:在内容组织上,以平台化方式重组信息,并希望借助智能算法介入内容传播过程;在内容生产上,弱化对生产端专业主义价值的突出强调,强化对知识服务和受众需求端的满足;在内容评价上,要求提升信息更新的频率,并引入对内容推广的量化考核体系。

可以说,在AIGC出现之前,平台内容经济的一整套组织、生产和评价体系已经在持续影响和塑造着学术出版产业。而AIGC的出现无疑成为持续加速这一过程的催化剂。因此,对AIGC的思考不应局限于技术的伦理思辨或文化价值的悲情哀惋,更应该将其背后的平台内容经济纳入分析视野。换言之,AIGC不仅仅是技术创新和产业融合问题,更是一个平台内容经济跨越其技术壁垒,迈入创造性劳动领域的重大转折,由此带来的知识生产和传播的政治经济问题值得深入讨论。

二、平台规则及其AIGC技术对学术出版的冲击

自互联网诞生以来,资本始终在寻求一种稳定、高质量的内容输出能力:UGC不稳定的数量和参差不齐的质量、PGC的高成本和数量限制、早期Al辅助生产内容的低自动化、低智能化及其对人工监督的依赖等,都难以满足资本对兼具数量、质量、效率的商业内容的迫切诉求。而在AIGC领域,技术和资本再次找到了一个兼具技术想象力和市场吸引力的结合点。可以说,AIGC技术的应运而生是全球互联网资本面向其长期诉求开展大规模资源配置的结果。与此同时,平台已经建构起一整套内容经济的成熟的规则体系和运行机制(包括所有权属界定、用户积累方式、内容供给调节等)。随着AIGC在创造性内容领域为平台打开新的技术可能性,平台将利用其规则建构和技术优势,重塑学术生产和出版的运行逻辑。具体而言,其主要包括以下方面:

(一)通过用户协议挑战现有著作权体系

按照大型互联网平台的现有注册协议,用户在平台注册的账号、发布的内容,其所有权、著作权、使用权均归属平台所有,因此平台有权对内容开展商业利用,对用户开展算法测试,并有权对内容和账号开展限流、屏蔽、封禁等一系列的操作。换言之,平台作为网络应用这一基础设施的提供者,对在此应用上所生产的内容具有完全法律权限。这是平台内容经济得以运行和发展的基础性优势,也是信息资本现有运行机制中的关键一环。

按照此逻辑,如果用户注册平台的账号并使用平台提供的AIGC工具进行内容生产,那么平台就可以通过用户协议获得对这一内容的所有权、使用权和收益权。然而,这一诉求与传统学术出版中对著作权主体(人类作者)的保护产生了显著的权属争议和冲突。基于平台及其AIGC工具所产出的内容,究竟应该归属个体创作者所有还是平台投资者所有?这一问题已经引发诸多争论。

部分学者依据现有著作权的定义,对AIGC的“独创性”持有坚决的否定论。这些学者认为,人工智能缺少直觉、灵感等思维要素(4)李俊:《论人工智能生成内容的著作权保护》,《甘肃政法学院学报》2019年第4期。,没有作为精神与意识活动的创作过程、认知能力、主体性意识和内在人格基础,因而不具备独创性。读者获得的知识、思想和情感仅仅是人工智能工具运用算法规则进行模板化输出和模仿的结果。(5)王迁:《论人工智能生成的内容在著作权法中的定性》,《法律科学(西北政法大学学报)》2017年第5期。此外,人工智能生成成果是依托文字、色彩、线条和符号等公共性资源生成的非稀缺性、非竞争性成果,为避免通过强力计算获得大量数据并要求版权保护的“数据圈地”行为,AIGC成果不应受《著作权法》保护。(6)宋红松:《纯粹“人工智能创作”的知识产权法定位》,《苏州大学学报(哲学社会科学版)》2018年第6期。

与之相对,有相当一部分学者倡议给予AIGC成果以著作权。这些学者认为,AIGC内容已经具有了与人类创作作品的“不可识别性”(7)吴雨辉:《人工智能创造物著作权保护:问题、争议及其未来可能》,《现代出版》2020年第6期。和不依赖人类写作的实践过程,因而应对其著作权予以认定。有学者进一步建议按照分类保护的治理进路,对人工智能创作作品与传统版权作品开展区分。该思路建议按照“老人老办法,新人新办法”的现实问题导向,为AIGC作品设置与传统版权领域不同的判断标准,以便在短期内达成维持传统版权利益格局与保护新兴产业利益的双重目的,之后逐渐探索基于平台参与的“特别许可市场”,从而实现著作权属从“创作者所有”向“投资者所有”的转变。(8)郭万明:《人工智能生成成果的法律性质及著作权保护》,《出版发行研究》2022年第5期。

倡导对AIGC著作权以及投资者权利的认定,是在尝试回应技术发展带来的新变化。然而值得注意的是,这里所论及的“投资者”和“开发者”无疑主要集中在以大型平台为代表的商业巨头。因而,这些主张的本质是从数据财产保护的正当性视角来阐释平台占有AIGC成果的法律逻辑,进而为平台AIGC成果确权。

然而,与确权倾向伴随的是问责机制的严重滞后。一方面,AIGC并非自然人或法人,其无法对算法生成的成果承担相应责任。如《科学》(Science)和《自然》(Nature)等顶级期刊仍然拒绝接受生成性工具产出的成果,其原因就在于智能工具无法承担成果的真实性、准确性等一系列责任。另一方面,如何界定作为数据搜集者、算法开发者、算法所有者的大型互联网平台在生成性内容中所具有的社会责任,仍是一个悬而未决的问题。大型互联网平台兼具资本优势和技术优势。如果他们获得对生成性内容的法律权力,也就获得了相关资源配置和盈利模式的绝对主导权。相对来说,学术出版机构与个体作者的议价能力可能会被削弱,这与学术出版对创造性劳动保护的初衷背道而驰。

(二)通过技术扩散冲击学术出版受众群体

平台内容经济的核心逻辑是以用户吸引和用户积累为基础,进而提高网络内容的变现效率。如果平台介入学术生产和出版,该领域将可能产生平台算法工具下的一场关于技术开发能力和经济投入的军备竞赛。

一方面,平台会通过推广AIGC工具迅速吸引一大批学术生产领域的用户和使用者,从而冲击高校和科研机构的现有运行规则。按照内容市场的一般运行机制,平台希望通过用户和数据量级的提升激发爆发式的飞轮效应,以便进一步提升模型准确性。飞轮效应指的是随着用户的增加,更多的数据能用于训练更好的模型,而更好的模型能吸引更多用户,如此循环往复。事实上,ChatGPT仅用了2个月就达到了1亿用户,而TikTok和Instagram达到该数量分别用9个月和2.5年。而ChatGPT的现有用户中,很大比例来自于高校和科研机构,大量国内科研人员也已经下载并正在使用AIGC工具。

另一方面,平台对AIGC的免费或低价推广会迅速占领以高校学生为代表的学术预备群体,从而在人才培养和知识代际的层面弱化科研出版的价值。通过学术阅读补充课程教育,从而完成自身的研究任务(如学术论文),是高校学生购买和阅读学术出版物的直接原因。如今,AIGC带来了科研投机的便利。美国北密歇根大学的教授在学生作业中发现了一篇关于世界宗教的“完美论文”,其语法几乎无可挑剔,而这篇论文最终证明是由ChatGPT撰写的。尽管不少高校已经明令禁止使用ChatGPT完成作业,但也有诸多高校正在将ChatGPT引入图书馆的工具库中。快餐式的学术撰写一旦成为合法化的常态,作为专业主义场域的学术生产便面临着祛魅,其作为知识传承和人文链接的价值也因此被消解,而基于此所形成的学术出版产业也必然面临萎缩的可能。

(三)规模化生产传播消解学术权威、强化社会偏见

一方面,规模化生产可能会弱化学术成果的专业性和权威性。在低注意力持续时间和阅读量大幅减少的趋势下,AIGC所提供的高效的、浅表性的专业知识生成越来越与平台倡导的信息服务逻辑趋于一致,以用户信息定制和品味迎合为基础的平台信息服务与专业知识生产之间的界限进一步变得模糊。如今,社交媒体文章已经成为学术发表的重要引用来源之一。如果AIGC在自媒体内容生产中得到普及,那么按需定制的信息服务就可以以专业知识生产的面貌实现规模化的生产。不难想见,AIGC撰写的文章之间还可以实现相互引用和对话。在此意义上,AIGC不仅会带来剽窃民主化的风险,同时更会构成对学术知识获取方式和知识理念的冲击。在学术研究壁垒相对较低的学科,科研人员的智识积累将被迫与平台的算法训练成果开展比较,甚至陷入“专家不如AI”的舆论处境中。

另一方面,规模化生产的便捷性会放大训练数据中已有的社会偏见。人工智能所依赖的训练数据缺乏公开性和社会监督,其不仅体现着开发者的价值观念,也承载着数据本身的社会偏见。使用AIGC进行研究资料收集和撰写,不仅直接受制于训练数据集的选择范围,同时也会复制训练过程中的偏见和歧视。这都会损害学术研究的客观性和严谨性,降低学术成果的说服力。此类成果偏见一旦经过大众传媒的二次传播和意义再生产,将会带来大规模的社会关注、讨论甚至网络暴力。例如,曾有人用1.35亿条仇恨言论信息训练AIGC,随后该AIGC模型在不到24小时内发布了超过1.5万条网络暴力网文,且在最初没有人识别出这些内容来自AI。算法黑箱中的社会偏见一旦被学术成果引用并得以传播,会天然获得权威性和专业性的“背书”,因而也会对社会规范和伦理道德带来更加深刻的危害和冲击。

(四)通过算法工具介入学术热点制造和炒作

学术性内容是平台一直以来试图开发的垂直内容领域,平台乐于使用“专家”的概念来获取公众的关注。学术背景和专家身份意味着信息的权威性,同时也是从内容权威到消费主义权威转型的关键文化资本。各大平台都注重推送专家在经济政策解读、金融知识普及、热点知识科普等领域的内容,因为这些领域背后都对应着明确的受众群体和消费趋向;而知乎平台的兴起以及哔哩哔哩网站大量学习型内容的爆发,同样是对此类学术内容开发的结果。

AIGC垂直训练是指在现有训练的基础上对任一学科领域开展强化训练,对基础模型和用户体验加以微调,从而产出面向特定受众群体的垂直写作助手,进而影响学术生产的供给结构。例如,近期已有国外学者使用ChatGPT完成专著或论文,并与AI联合署名。(9)该书书名为“Impromptu:Amplifying Our Humanity Through AI”(《即兴表演:通过人工智能放大我们的人性》)。该书共计223页,分为10个章节。作者Reid Hoffman与ChatGPT联合署名。又如,谷歌训练的医学语言模型Med-PaLM 2已经通过美国医学执照考试,且在85%的情况下给出医学专家级回答。(10)Michael DePeau-Wilson, Google AI Performs at ’Expert’ Level on U.S. Medical Licensing Exam, Retrieved from https://www.medpagetoday.com/special-reports/exclusives/103522, March 14, 2023.事实上,在对马克思、法农、葛兰西等人的著作进行简单学习后,ChatGPT很快便习得有关资本主义和工人运动的批评话语,并在回答中“呼唤一场反对帝国主义控制的革命”(11)Mohamad Ali Nasser, How this AI became a communist,Retrieved from https://towardsdatascience.com/how-this-a-i-became-a-communist-ddf9146bc147, March 27, 2020.。

以往学术热点的生成和学术议程的设置,往往是学术共同体驱动下政策助推、市场需求和研究路径依赖所共同塑造的结果。(12)李二斌:《学术热点的生成机制及应对策略研究——基于期刊的视角》,《出版发行研究》2022年第8期。这是一个需要耗费时间、并开展充分协商的过程。未来,如果大型互联网平台针对学术群体开发出AIGC写作模型,并以开放获取方式为这些AIGC成果提供网络传播渠道,学术内容供给结构和学术热点生成机制的改变将不可避免,这也将进一步冲击传统学术出版所拥有的渠道价值和垄断优势。当然,平台的热点制造逻辑绝非出于科研潜力和社会价值,而往往是基于内容炒作的经济价值和变现价值:病毒性传播价值和“热搜潜质”将成为平台在制造和炒作学术论点时的重要判断标准。

(五)催生出版黑灰产业、冲击学术把关机制

基于以上分析可以看到,平台内容经济已经形成了一套基于所有权属界定、用户吸纳积累和内容供给调节的商业运行逻辑。通过用户协议、免费推广和技术工具开发,这套运行机制能够迅速被植入相关的内容产业中。传统的学术出版通常基于对内容创作者权属和个体积极性的保护,强调对学术共同体的建构而弱化对大众用户的吸引,强调特定领域的专业主义培养而非对速成内容生成的追求。然而,随着AIGC工具的完善,平台将会迅速推进以工具理性所驱动的内容盈利目标,以便加速生成性内容的商业化。技术的迭代、加之资本的强势介入和收益诉求,可能在学术出版市场引发劣币驱除良币的溢出效应,并加剧和催生更多的学术黑灰产业。

首先,一批以AIGC为工具的写手会迅速进入学术生产场域,挑战研究者以长年学历教育和学术训练建构起来的文化资本。学术成果交易可能会成为更大规模的市场。在传统学术出版中,“枪手”代笔一直是难以根除的行业痼疾。以往,由于受限于“枪手”的学术水平、人工写作速度相对有限以及国家对代笔产业的打击,这一灰色产业面临着显著的质量挑战和法律风险。AIGC的出现将可能带来一批隐藏在算法黑箱背后的“枪手”,而在屏幕背后发送指令的他们难以被现行法规所限制,也难以被学术编辑所察觉和识别。生成性人工智能在创作型内容方面的显著提升,无疑也给学术黑灰产业带来了技术迭代的可能。

其次是学术“造假”和“洗稿”的风险大大增加。学术投机的便捷性将会弱化科研工作的创新动力,引发学术不良竞争,并直接挑战现行的学术把关和出版机制。“洗稿”指的是通过对文本用语的技术性改写,复制原文的观点,规避以原文重合度为基础的抄袭侵权风险。在社交媒体上,“洗稿”而成的论文甚至比原文获得的影响力和关注度要大得多。现有AIGC技术已经具备文本“洗稿”的绝对能力,甚至可以实现实时“窃取”学术观点并谋求发布。对原创者而言,论证自身成果的原创性、首发性和“洗稿”成果的侵权性十分困难。此外,AIGC能够基于专有语料库的模型微调,完成对人类作者写作风格的复制,甚至能根据观点需要生成深度假文本(如以假乱真的假引文和假参考文献(13)Day T, “A preliminary investigation of fake peer-reviewed citations and references generated by ChatGPT”, The Professional Geographer, 2023, pp.1-4.)。不仅如此,AIGC还可以寻找逻辑漏洞,按照作者的意图进行递归循环(反复修改),从而最终收敛至人类满意的输出结果。而人类在此过程中仅需要承担指令发送和文本润色等辅助性功能。换言之,在无须通过大量阅读占有研究资料的情况下,仅凭对算法工具的利用,人类作者即可收获一篇内容尚佳的论文。而人类编辑却很难通过人工方式甄别其作者构成的状况。算法工具的投机性一旦被高效滥用,独立思考和深度研究的性价比会大大降低,科研积累和科研创新的环境也会因此恶化。长远来看,这不仅会打击科研人员的学术积极性,也会伤及学术生产和学术出版赖以生存的伦理追求。

尽管互联网平台的兴起曾长期引发对传统媒体至暗时刻的讨论,但就学术出版而言,其内容创造性和发表渠道的垄断性使其自身保持着相对独立的文化场域,并为学术研究保留了较为充分的探索空间和产出时间。在过去相当长的时间内,学术生产、审核和出版发表遵循着专业主义的范畴。发表主体一般须为经过高等教育并经过专门学术训练的研究者,他们在一定程度上垄断或优先享有学术发表的渠道。渠道的相对垄断和发表主体的身份门槛设定使学术发表保持了一定的独立性,而学术生产和文章刊发的相对长周期也缓解了研究者的产量焦虑。这一运行模式给知识分子的批判性思维和创作过程以相对充分的空间。

然而,平台内容经济的扩张与AIGC工具的兴起,即时的、大篇幅的、媲比人类表达的文本生产将成为可能,这些功能将被嵌入文本的规划、起草、修改、发表、传播之中,以极致化的工具理性冲击知识分子的价值理性和文化资本。这将使研究者开始面临行动和理念的犹疑:知识生产是一种沉淀于时间的厚积薄发和价值理性,还是立足于前沿技术的高效产出和工具理性?更为重要的是,平台对创造性知识成果的占有诉求、强大的用户吸纳能力、高效的算法工具开发能力,及其对量化评价和盈利效率的强调,都会通过其产业布局及算法工具介入学术出版产业中,对学术写作、发表和出版这一传统创造性活动及其运行规则形成显著的挑战。

三、平台AIGC介入学术出版产业的治理进路

面对工业和科技的巨大进步,马克思曾在1856年《人民报》创刊纪念会上谈到,“我们的所有发明和进步,似乎都赋予物质力量以智慧,而使人类的生命钝化为物质力量”,这种技术的巨大进步和社会颓废的征兆正同时发生并构成了19世纪的特点和“伟大事实”。(14)Karl Marx, Speech at Anniversary of the People’s Paper, 1856, Marx/Engels Selected Works, Vol.1, Moscow: Progress Publishers, 1969, p.500.面对无孔不入的人工智能对社会的系统性影响,马克思的话语尤为振聋发聩。近期,已有多所高校学生在校园网发起倡议,要求学校图书馆引进生成性智能技术。AIGC越是被如此迅速地接受和使用,其可能带来的文化价值风险越是迫切需要警惕和分析。

在以往的研究中,平台作为内容经济主体和AIGC产业链上游的角色尚未得到充分讨论,使得现有治理思路集中于产业链的下游而缺乏全面性。作为典型的文化产业,学术出版需要直面平台内容经济逻辑通过AIGC向自身领域渗透的现实。这一过程绝不仅是出版业主动谋求数字转型和媒体融合的过程,而可能是来自平台的釜底抽薪式的反噬;著作权也绝不仅是通过分类治理的权宜之计就能化解的权属问题,而必然是平台资本、传统学术出版业、科研群体、政府公共力量等利益相关方博弈和角力的场域。因此,对AIGC介入学术出版产业的治理,既要将平台作为关键主体纳入考虑,也要重视以多主体协同、技术性应对、全球性合作、法律-道德双重监督的思路开展应对。

首先,只有从平台的内部机制和商业逻辑入手,算法的解码才具有可能性。人工智能算法并非一成不变、触不可及的黑箱。尽管其具有隐蔽性、动态性及不可回溯性,但平台为算法所制定的绩效评价体系和预期商业目标却有着高度的可见性、连续性和稳定性,并直接体现为平台产品的某种功能。即便监管者无法窥见黑箱内部的结构,仍然可以通过考察其用户协议和商业模式的合法性来解码其运行机理和价值导向。(15)胡凌:《人工智能视阈下的网络法核心问题》,《中国法律评论》2018年第2期。面对可能的学术剽窃和技术滥用,AIGC的开发平台需要秉持基本的社会责任,推动算法的开源和透明,使AIGC对自身产出的成果给出权威性的来源说明。在学术出版等对知识产权保护要求严格的领域,应该尝试推行AIGC内容的唯一识别码。

其次,要以著作权界定为核心,尽快推进AIGC的权责界定研究和法律体系建设。著作权是出版业的核心资产和行业基石,无法对著作权进行清晰、准确、高效的界定将直接影响学术出版业的运行。其一,要推进AIGC著作权界定的跨专业研讨和分析。AIGC著作权界定涉及计算机科学、法学、编辑出版学等诸多学科。各学科专家需要以协同科研的方式开展研判,借鉴各国前沿的人工智能治理方案,推进界定的合法性、合理性和可行性。其二,要以AIGC著作权案例的司法实践为基础,增加AIGC指导性案例的效力和数量。(16)方卿、丁靖佳:《人工智能生成内容(AIGC)的三个出版学议题》,《出版科学》2023年第2期。这既需要在AIGC著作权案例中审慎处置,构建可行的判决标准,也需要以相关判例为基础,尽快建立可推广性的判决经验和案例指导。其三,在著作权界定过程中,要从数据权属和内容经济的运行机制出发,对人类作者、网络平台、出版机构等主体的权力和义务进行明确区分和界定。

再次,学术出版机构应积极作为,开展以技术驾驭技术的必要应对。一方面,学术出版机构应尝试综合国内外经验,对AI工具的使用规范加以明确,通过行业协会的形式发布相关倡议;另一方面,开发和引进公共性的、第三方的AIGC甄别工具同样重要。目前,国外的GPTZero、Plagibot等工具已经能够对人工智能生成内容进行一定程度的甄别,但相关工具主要集中在英文内容领域,且均为私有资本所持有。毋庸置疑,类似检测技术的发展迫切需要公共力量的扶持和关注。公共力量通过与学术出版机构的密切协作实现技术突破,有助于建立服务于公共利益的技术防范体系,防止AIGC甄别技术长期落后于商业AI的开发过程。

复次,要以AIGC为契机,建立作者、学术出版机构、高校科研院所共同参与的AIGC诚信共识和问责机制。一是倡导作者的诚实披露。学术成果的发表者必须明确表明自身使用何种工具、使用了哪些生成性内容,以及这些内容所依托的原始引用来源。对引用来源的基本尊重是学术规范性的基础。二是建立AI滥用的问责和惩罚机制。由于AI工具的易获得性,对工具的禁绝缺乏现实可行性,因而对滥用者的规则威慑显得尤为重要。基于行业基本共识和道德要求,有必要建立“一处失信、处处受限”的科研负面清单。对于拒绝披露、刻意隐瞒、内容剽窃、学术洗稿等行为,要建立针对性、分层次的学术准入限制,以及期刊发文限制、同行风险预警等失信惩罚机制。三是高校和科研院所应积极开展有关AIGC的伦理科普、宣传和教育。针对科研人员与高校学生的具体使用场景,从日常教学、人才培养、科研管理、成果评价等多方面制定针对性的使用规范,以便建立从学术生产、学术管理、学术把关到学术出版全流程的伦理倡议和行为约束。四是依托跨国合作建设伦理规范和监管机制。联合国教科文组织发布的《人工智能伦理问题建议书》(Recommendation on Ethics of AI)和中共中央办公厅、国务院办公厅印发的《关于加强科技伦理治理的意见》已经给出了宏观方向的人工智能技术指引。但具体到学术出版业,还需要在共性框架下制定具体的开发伦理、行动指南、应用场景、监管机制和惩罚举措,以警惕AIGC技术逻辑和资本逻辑对出版文化建构逻辑的“蚕食”。(17)方卿、丁靖佳:《人工智能生成内容(AIGC)的三个出版学议题》,《出版科学》2023年第2期。

最后,AIGC产业同时也是一个平台参与下的学术出版国际竞争场域。与之相伴随的学术话语权争夺、科技创新能力与创新机制、以及更为深入的意识形态和文化安全问题,迫切需要得到关注和重视。以往,推特、脸书等平台在筛选和推送涉华内容时,往往通过算法优先曝光涉华负面内容,这种意识形态渗透已经成为西方大型互联网企业的常规操作。当前,以微软、谷歌为代表的企业在AIGC开发中具有显著的垄断性和先发优势,其训练数据则主要取自代表西方主流意识形态的内容。由于算法的隐蔽性,这种训练过程和意识形态偏见并不为使用者所知,其产出内容中所带有的价值偏向也因而被掩盖了。这给我国出版业的文化安全和把关责任带来了新的挑战和风险。打破西方企业在英文AIGC领域的垄断性局面,培育具有国际领先水平的中文AIGC生成工具,并将中国文化和中国理念纳入相关语言学习模型中,避免国外平台的AIGC工具所带来的系统性偏见、文化刻板印象和意识形态歧视,这是构建以我为主的人工智能产业所需要面对的问题。

从UGC到AIGC的发展过程可以看到,AIGC并非科技力量的突变和骤然创造,而是内生于平台内容经济发展轨迹的必然产物。而平台及其AIGC正试图以其内容经济运行规则挑战和塑造以学术出版为代表的创造性内容领域。因此,探索其治理逻辑,需要回归平台内容经济的运行规则和具体过程,从技术演进和经济逻辑中探寻思路。与此同时,这一复杂议题既需要研究主体的跨学科合作和各利益相关方的深度协同,也需要超越国界的全球视野和治理努力。只有这样,才能避免资本主义追求无限商业变现的动力将AI带向与社会文化福祉背道而驰的方向。