中国新闻机器人现象分析:数据与技术困境下的填字游戏

2017-04-25 07:40洪杰文
中国媒体发展研究报告 2017年0期
关键词:机器稿件模板

洪杰文 兰 雪 李 程

麦克卢汉所谓的 “技术决定论”依然争论不休,但技术总是在人们争论它时更迭演进,时下技术所带来的大数据、云计算、人工智能正从虚无缥缈的概念中借由各种新奇的产品而走入人们的实际生活,这些概念不再存在于学者们的论文中,而是实实在在地存在于你我身边,正影响着我们的日常生活。机器人写作这种看似只有在于科幻小说中的情节,也将其成果推送到人们的面前,特别是在2016年里约奥运会时,数家媒体都使用了机器新闻来报道奥运赛事,机器新闻的里约奥运作品为新闻传播业界带来了极大的震动,新闻传播业界 “狼来了”的惊呼不绝于耳。然而人们对于机器新闻、机器新闻的生产原理以及其对于新闻业的影响等问题的认知还有待进一步提高,是不是真的 “狼来了”还有待观察。

一 机器新闻概述

1.机器新闻的概念界定——人工智能在新闻活动中的运用

对于机器新闻的概念,可以从广义和狭义两个层面来理解。从广义上来看,机器新闻又称为机器人新闻或自动化新闻,是指人工智能技术在新闻写作、采访、编辑、主持等新闻活动中的具体运用。①李苏:《机器新闻发展的市场进路及反思——以Autamated Insights公司为例》, 《新闻界》2015年第18期。比如在两会期间,新华社的机器人 “i思”以新华社见习记者的身份报道两会,既可以在演播室与主持人、嘉宾互动,也可以出镜报道采访两会代表委员;在人民网舆情监测室与人民网研究院联合推出的 “每日两会热点”专栏,阿里云ET机器人可以为公众同步呈现 “语音版”播报服务。狭义的机器新闻就是指机器人新闻写作。所谓机器新闻写作,是一种自然语言生成引擎,利用算法程序,通过采集大量的各种题材以及高质量的数据,建立各种分类的庞大数据库,借助人工智能 (Artificial Intelligence,AI)实现从数据到知识、见解和建议的提升和跨越,最后由机器自动化生产新闻。①付松聚:《我国首创机器新闻与人工新闻写作之实证性研究——以8月CPI新闻报道为例》,《传媒观察》2015年11月。机器新闻的写作,将传统的新闻生产流程转变为隐性的数据挖掘和自然语言处理,机器新闻写作借助人工智能技术,实现对海量数据的自动挖掘、筛选和聚合,是一个从 “无”到“有”的过程,如新华网使用 “快笔小新”机器人、腾讯使用Dreamwriter机器人进行新闻写作。本文所关注的是狭义上的机器新闻,也就是机器新闻写作。

2.机器新闻写作的产稿模型——自然语言处理模型和语言模板模型

目前的机器新闻写作,稿件的生成主要有两种方式,一种是基于自然语言处理的自然语言处理模型,它将数据直接转换为人类语言,通过人工智能技术组成最终稿件,理论上可以做到与人类编辑的稿件几乎相同。另一种是预先埋入模板的模板模型,它的原理是通过人为地预先埋入一定的模板,然后通过数据的排列组合来产生稿件。从技术难度上来说自然语言处理模型要复杂得多,纯粹使用该模型的应用并不是很多,而模板语言模型相对而言更为简单。这两种产稿模型也并非割裂地使用,实际应用中往往是各种技术相互交叉。

自然语言处理模型的范畴非常广泛,几乎所有基于自然语言处理的机器新闻都可以归入这个范畴,这项技术基于自然语言处理技术,它通过机器学习自主掌握稿件的结构和用词等,理想情况下,其最终的产稿与人工稿件在遣词造句上没有太大区别。该模型通过机器学习技术积累了自身的一个知识库 (Knowledge Discovery in Database,KDD),在应用过程中,它不断丰富自身的知识库,最后输出越来越接近人类语言的稿件。该模型并不是单一的一项技术,而是涉及整个人工智能领域的技术集合,涵盖人工智能、自然语言处理、大数据等。

语言模板模型则是通过预先埋入各种情况的模板,然后通过数据判断,将这些模板排列组合,最终输出稿件。这种方式往往需要开发人员提前考虑到各种情况,将新闻制成新闻模板,然后将拥有的数据字段填充进去,最终产生稿件。这种方式就像搭积木一样,基于数据选择相应的字词句模板,目前大部分的机器新闻应用都是采用这种方式。这种方式在模板的数量多到一定程度、排列组合的粒度足够小的时候,复杂度也越来越大,最终稿件的效果也会越接近人工稿件。

二 我国现有的4个主要新闻机器人

2015年9月10日,一篇题为 “8月CPI涨2% 创12个月新高”的新闻稿件在腾讯网财经频道发布。①具体见 http://finance.qq.com/a/20150910/019573.htm。文章结尾标注:“本文来源:Dreamwriter,腾讯财经开发的自动化新闻写作机器人,根据算法在第一时间自动生成稿件,瞬时输出分析和研判,一分钟内将重要资讯和解读送达用户。”腾讯方面称:Dreamwriter根据算法在第一时间自动生成稿件,瞬时输出分析和研判,一分钟内将重要资讯和解读送达用户。继腾讯Dreamwriter尝试之后,国内各家媒体纷纷紧随其后推出了自己的机器新闻应用,包括第一财经的 “DT稿王”、新华网的 “快笔小新”、今日头条的 “AI小记者XiaomingBot”等。

1.腾讯“Dreamwriter”

Dreamwriter是腾讯财经2015年9推出的自动化写稿机器人,是国内在机器新闻领域的首次尝试,其稿件一经发出,就成为业界议论的焦点。从Dreamwriter推出到现在,不到两年的时间里,腾讯新闻的写稿机器人已经完成了至少5个版本的迭代。现在,Dreamwriter主要运用在腾讯财经以及腾讯体育两大板块。据统计,截至2017年4月8日,共发稿件约5000篇。

体育方面,截至2017年4月8日,在百度搜索中,输入关键词 “本文由腾讯机器人Dreamwriter site:sports.qq.com”,共有2490篇新闻稿。在里约奥运会的赛事报道上,Dreamwriter表现不凡。从供稿数量上来看,在奥运会期间 (8月6日到8月21日),腾讯体育在奥运板块DW播报专栏共发布稿件约250条,平均每天供稿量在15条到20条之间。从稿件内容来看,绝大多数稿件以简讯的形式呈现。其中与中国有关的稿件篇幅相对较长,总体按照 “比赛焦点+精彩回放”的模式展现。有些稿件加入了比赛视频和选手介绍,此类型的稿件评论较多,但评论内容都与赛事相关。在NBA的赛事报道上,Dreamwriter的表现也十分出彩。在腾讯体育—篮球—NBA体育战报板块,从2016年12月到2017年4月,Dreawriter共撰写近800条稿件,内容多由 “比赛视频+比赛回顾+阵容介绍”组成,配有图片、视频,平均评论相对较多。

财经方面,截至2017年4月8日,在百度搜索中,输入关键词 “本文由腾讯机器人Dreamwriter site:finance.qq.com”,可以搜索出1970篇相关新闻。其中,《9月CPI涨幅回落货币政策或维持宽松》一篇文章就推出了研判版、民生版、常规版、精要版四个版,针对不同的用户个性化喜好进行推送,是机器新闻在个性化写作和投放中的一次尝试,内容相对较为翔实,但评论较少。其他大多数的文章仍然以简讯的形式发布,多为数据的统计。另外腾讯科技Dreamwriter板块2016年11月到2017年4月,共发布稿件约100条。

可以看出,腾讯Dreamwriter体育新闻的传播效果优于财经新闻的传播效果。这背后的原因主要有两点:财经新闻本身的受众相较于体育新闻就少得多;体育新闻相较于财经新闻更容易进行深度报道,并且赛场的内容也较为丰富多彩。

2.今日头条“Xiaomingbot”

在2016年里约奥运会之际,今日头条推出了 “Xiaomingbot”写稿机器人,它凭借优异的表现引起了业界的高度关注。Xiaomingbot是头条实验室和北大计算机所合作完成的项目,在里约奥运会开幕一周前推出的AI机器人。通过对接奥组委的数据库,它可以在极短的时间内完成消息撰写、赛事汇总等工作。Xiaomingbot在里约奥运会的表现不凡,在奥运会开始后的13天内,共撰写了457篇关于羽毛球、乒乓球、网球的消息、简讯和赛事报道,平均每天30篇以上。Xiaomingbot不仅囊括了从小组赛到决赛的所有赛事,而且其发稿速度也非常快——每条稿件的写作时间平均不到两秒钟,几乎与电视直播同时。Xiaomingbot写作的稿子有将近百万的阅读量,有的稿子的阅读量甚至高过记者人工写作的稿件。

奥运会结束以后,Xiaomingbot依然保持着较高的产量,仅在2017年4月1日,北京时间凌晨3点到11点,共发11篇篮球的新闻稿。现在它基本上保持平均每天10条的产稿速度,稿件内容主要集中于对篮球和足球赛事的报道。另外,Xiaomingbot所写的体育新闻的阅读量基本都在100以上,最高阅读量可达6万,但鲜有评论。世界知名赛事评论相对较多,但也仅限于几十条,评论内容多与赛事相关。

Xiaomingbot是国内第一个运用自然语言处理、视觉图形处理和机器学习技术的写稿机器人。Xiaomingbot的工作原理是结合最新的自然语言处理、机器学习和视觉图像处理的技术之后,通过语法合成与排序学习生成新闻。Xiaomingbot属于第二代写稿机器人,不仅可以通过检索图片自己选择图片,还能模仿人类的语气,使用诸如 “笑到了最后” “实力不俗”等词语①赵禹桥:《新闻写作机器人的应用及前景展望——以今日头条新闻机器人张小明 (xiaomingbot)为例》, 人民网研究院, http://media.people.com.cn/n1/2017/0111/c409691 -29014245.html, 最后访问日期:2017年4月10日。。Xiaomingbot写稿速度更快、拟人化程度更高,还可以在文章中插入赛事的图片,图文并茂,使文章更加生动形象。

3.新华社“快笔小新”

1931年11月7日,新华社成立。2015年11月7日,新华社在其84岁生日之际,迎来了机器人新 “员工”—— “快笔小新”。快笔小新是一个计算机程序,能够应用人工智能、机器学习、数据挖掘等技术,生成类似于人类写作的稿件。目前 “快笔小新”供职于新华社体育部、经济信息部和 《中国证券报》,可以写体育赛事的中英文稿件和财经信息稿件。“比如 ‘快笔小新’在中国足球超级联赛报道的写稿测试中表现出色,能够自动抓取比赛数据,生成中、英文数据消息,包括每轮比赛的成绩公报和积分排名。速度快效果好,得到编辑、发稿人的认可。”新华社体育部发稿中心主任周杰说。①王曙晖:《从 “快笔小新”上岗看传统媒体产业升级》,人民网-传媒频道,http:///media.people.com.cn/n1/2016/0105/c401845 -28014691.html, 最后访问时间: 2017 年4 月10日。

在百度搜索中输入 “这条新闻由新华社机器人写稿系统编写”进行搜索,一共可以搜出130篇新闻。在中证网中搜索 “这条新闻由新华社机器人写稿系统编写”,截至2017年4月3日,快笔小新一共撰写了1043篇文章,其中2017年撰写了72篇文章。总体来看,大部分稿件是数据的堆砌,语言衔接也较为生硬,纯文字,无图片,无评论。

4.第一财经“DT稿王”

2016年7月,汤开智发表了题为 “大数据驱动的智能化内容生产——DT稿王介绍”的演讲,DT稿王进入了大众的视线。DT稿王是第一财经媒体实验室开发的一款自动化的新闻写作工具,主要撰写财经类的稿件,现多发布在第一财经的微信公众号上。

在PC端方面,第一财经的官网上,搜索DT稿王所撰写的稿件,从2016年5月29日开始,一共有8条。每一条稿件的质量相比来说比较高,有主题提取以及图片的匹配。在移动端方面,在第一财经资讯的官方微信公众号上,搜索DT稿王撰写的文章,截至2017年4月8日一共71篇,全部为公告汇总,但是每一篇汇总之前都会有DT稿王的评论总结,其中包含对主要信息进行提取、引用专家话语,并且有诸如 “DT稿王对此表示非常敬佩”等拟人化的用语。

DT稿王处理速度很快,能够利用多台服务器分布式地对发布的公告进行扫描,可以即时对公告进行分类筛选出待写新闻稿的公告,并通过后台的信息提取、算法提取总结出该公告的重要信息。除此之外,DT稿王生成的稿件语句流利通顺,较为符合人类自然语言的语法,主要体现在其拟人化手法的运用上。最后,DT稿王在海量的信息中抓住信息本身的重点,协助决策的快速实施,主要体现在关键信息以及主题的提取上。

三 我国新闻机器人水平现状

1.机器新闻的适用领域——财经、体育

迄今为止,机器新闻使用最广泛的四大领域是财经、体育、气象地质和健康。比如在2014年,美国时间3月17日早上6时25分,洛杉矶遭遇一次地震,《洛杉矶时报》利用机器人在其网站上发布了第一条新闻,距离地震发生仅3分钟,这是所有新闻媒体中最先发布的突发新闻报道。①金兼兵:《机器新闻写作:一场正在发生的革命》,《新闻与写作》2014年第9期。2014年7月美联社宣布用机器人 (wordsmith)面向公司业绩财报进行财经新闻报道。

就我国机器新闻的发展而言,最广泛的应用领域还是财经和体育两大方面 (具体见表1)。比如今日头条的 “张小明”就专注于撰写体育新闻,发布赛事消息,形成赛事简报;第一财经的 “DT稿王”则撰写财经类的稿件,主要针对上市公司公告、财务报表的生成和发布。不管是财经报道或是体育报道,这些报道类型有一个共同点,那就是所围绕的新闻主题通常涉及大量数据,需要进行量化分析,而新闻写作的结构具有相对固定的标准和模式,也就是所谓的模板。“北京时间8月21日,里约奥运会男子标枪决赛落下帷幕。德国选手雷格勒以90.30米勇夺金牌。肯尼亚选手耶格以88.24米收获银牌,特立尼达和多巴哥选手沃尔科特以85.38米获得铜牌。”这是腾讯的Dreamwriter机器人在奥运会期间所撰写的一则简讯。查阅期间机器人所写的大量新闻报道,可以看出腾讯的Dreamwriter在奥运会期间所撰写的体育简讯一般都是按照 “时间+人物+比分+结果”的模式撰写的。模板化也是基于人工智能的自然语言生成技术的机器新闻稿件的一个显著的特点。

表1 我国主要机器新闻写作对比

2.中文机器新闻写作进展落后于西方国家

通过前述对我国现有的4个主要新闻机器人的分析可以看出,虽然自2015年9月腾讯推出Dreamwriter自动写稿机器人以来,我国机器新闻产业取得了一定的发展,但是,相对而言,中文机器新闻写作的进展要远远落后于西方国家。比如腾讯财经Dreamwriter创作的稿件就受到了外界批评,认为它的水准只与国外几年以前的机器新闻水平相当①周斌:《机器写作与媒体转型》,《新闻战线》2016年第4期。。这背后主要有两个原因:一是西方国家凭借其强大的创新能力在人工智能技术上已经有一定的优势;二是全世界使用人口超过100万的语言有140多种,汉语堪称最复杂的语言之一。外界在对 “机器写作”的技术进度进行评价时,并没有严格区分不同语言之间的差异,而中文的 “机器写作”难度,远远大于英文等语言。②周斌:《机器写作与媒体转型》,《新闻战线》2016年第4期。比如,在对自然语言进行处理的过程中,Xiaomingbot在新闻中使用 “实力不俗”等成语、DT稿王提取 “如履薄冰、如临深渊、战战兢兢、兢兢业业”等关键词的技术都相对难度较高。因此,对于中文 “机器写作”的开发者而言,我们在学习西方先进技术的同时,不能一味照搬国外的思路和技术,而是需要根据中文的字音、字形、字义以及语法特点,因地制宜,进行更具针对性的技术创新。

3.机器新闻的优势:多而快、满足个性化需求、长尾效应突出

对于财经、体育等规格化比较高的新闻,机器新闻不仅生产速度快,而且稿件的产量也远远大于记者所撰写的稿件。计算机软件24小时随时待命,不需要休息,可以不间断地高强度工作;伴随着计算机硬件设备的不断升级换代,基于算法对海量数据进行挖掘和分析也仅仅是几秒钟的事情。Dreamwriter和Xiaomingbot写新闻又多又快,几乎与电视直播同步;DT稿王的平均阅读速度为7471字/秒 (448275字/分钟),是普通人阅读速度的50倍。然后,按新闻稿成稿格式重新组织输出,机器写稿为28字/秒 (1680字/分钟),是普通人打字的35倍。①Theflatworld:《第一财经发布DT稿王:写稿机器人尖子生》,http://writingmaster.cn/newsand-event/301,最后访问时间:2017年4月10日。根据新华社体育部数据可知,过去未引进 “快笔小新”时,每晚都需安排几名记者值班进行体育赛事报道,每篇公告的短消息需要10分钟左右的时间才能完成,而 “快笔小新”则能做到每分钟生产大量动态新闻,数据准确可靠,大大节省了发稿时间。②杨名宜、吴海荣:《探讨 “机器新闻写作”的发展趋势》,《视听》2016年11月。

随着技术的不断进步,通过对不同语料库语言风格的智能化机器学习,结合对每个用户阅读习惯的自动化分析,机器新闻可以自动生成适应不同人群语言习俗的表达方式,能够针对同一新闻事件生产出不同风格的内容版本,以适配不同受众的需求。在这一方面,腾讯的Dreamwriter表现比较突出,其写作逻辑是在达到一定的触发条件后,系统通过对若干计算模型进行定量和定性的分析,自动根据数据选取合适的表达模板,将数据与模板相结合,完成多版本的个性化写作和推送。③杨名宜、吴海荣:《探讨 “机器新闻写作”的发展趋势》,《视听》2016年11月。国家统计局发布了2015年9月CPI的有关数据后,Dreamwriter同时发布了四个版本的新闻稿件:常规版、精要版、研判版、民生版。常规版和精要版都采取倒金字塔式的写作结构,开篇就对文章进行主题提读式的总结概括。而 “研判版”则加入了 “财政政策与货币政策”“实体经济与市场投资”两个方面的内容,对经济走向进行分析判断,用语也较为专业;“民生版”的主要内容为老百姓最关心的食品和住房价格,文中还自动抓取了一则微博上有关CPI的讨论,行文风格轻快,用语通俗易懂。虽然单独看这四个版本的稿件,仍然存在内容简单、形式单一等问题,但通过对同一则新闻进行四个版本风格迥异的报道,Dreamwriter实现了人工智能在模块化生成新闻报道基础之上发展个性化阅读服务的一次尝试。

互联网平台上新闻报道就如同互联网产品一样,长尾效应十分突出。这是由于互联网受众基数巨大,即使小众的受众,其数量也十分可观,这也符合未来分众化新闻的大趋势。计算机软件可以对互联网上的每一条数据和碎片化文本做出分析和处理,将看起来意义不大的数据和文本的价值挖掘出来。头条实验室负责人李磊博士介绍:“张小明 (Xiaomingbot)最大的意义在于,面对奥运会这样同时举行上百场比赛的综合赛事,记者很难关注到每一场比赛,而机器人可以任劳任怨地为每一场比赛报道,无论这场比赛多么冷门和不重要。传统新闻理论并不认为这些冷门比赛或者热门比赛 (比如乒乓球)的前几轮小组赛有新闻价值,可是通过我们的平台测试,我们发现对冷门场次的报道仍然有可观的阅读量。”①赵禹桥:《新闻写作机器人的应用及前景展望——以今日头条新闻机器人张小明 (xiaomingbot)为例》, 人民网研究院, http://media.people.com.cn/n1/2017/0111/c409691 -29014245.html。

四 机器新闻的难点与不足

1.模板型机器新闻的难点:数据获取与处理、模板的选择

对于所有机器新闻来说,如何保证数据来源都是首先要面对的问题,模板型机器新闻的数据来源都是一些结构化的数据,比如前面已经介绍的奥运XML数据,其数据往往具有独立性,不需要其他辅助数据等。其实对于很多新闻记者来说,要写出一篇有说服力的稿件,准确的数据来源又何尝不是首要问题呢。机器新闻的数据,对结构化的要求更高,这样才能方便计算机进行处理。一般与这种机器新闻应用对接的都是专业机构提供的数据接口,或者人工进行结构化预处理后再提供给程序使用。大数据时代,往往是先要拿到数据,再谈数据处理,这是一个从无到有的过程,也是决定应用能否落地的第一步。如何拿到数据来源,得到数据源后如何保证其准确都直接关系到机器新闻最后能否产出合格的稿件。

得到数据源后就面临处理数据的问题,机器新闻需要有个内部机制来保证的数据的稳定,因为外部的数据是不能完全信任的。严重数据异常的甚至会影响整个系统,比如在奥运报道中,由于数据源的不稳定与崩溃,就曾发生过DW无法顺利产出稿件的Bug;或是数据的及时性远远低于比赛进程,使得新闻及时性严重滞后,这将导致错过时间的新闻毫无意义。这就需要机器新闻内部的这个保障机制尽最大努力在外部数据源不稳定的情况下,做到不影响全局。比如说某些数据字段的缺失,我们是否可以在别的数据中找到这个字段来做补充;当外部的数据源有错误的时候,机器新闻内部是否可识别出这个错误,甚至自行纠正。如何保障这些结构化数据的正常,维护系统正常运行,也是所有计算机程序都需要重点解决的问题。

模板型机器新闻根据数据的不同情况来预先埋入不同的模板,最简单的方案当然是一种模板适用于一种情况,但如果这样的话难免显得生硬。为了更好地模拟人类语言的特点,以及适应一些数据微妙的差异,往往在同一种情况下需要备选几套模板方案,选择哪一种模板作为最终成稿模板的依据,这就涉及模板的选择问题。一般需要为不同的模板配置不同的权值,根据数据的表现来决定模板选择的优先级。例如,在数据来源非常充足的情况下,可以选择优先级最高的模板;在数据来源不是太充足的情况下,选择优先级较低的模板。这个选择的过程需要考虑很多其他因素,比如时间、题材等,它也是一个复杂的算法问题。

2.自然语言处理型机器新闻的难点——技术基础薄弱、训练问题凸显

从理论上来说,自然语言处理是一种很有吸引力的人机交互方式,但在目前,计算机技术处理非结构化的现实世界数据还有很大难度,自然语言处理技术本身面临的难点,就成为制约该模型方向下机器新闻发展的瓶颈。目前自然语言处理本身面临的难点有三个方面:计算机对于自然语言的理解、对于词语边界的界定以及语言行为与计划。

以中文为例,不同词意的理解对于人类尚且存在识别的困难,对计算机来说就更是复杂,机器只能基于一个数学分析来判断,比如句子 “我们把香蕉给猴子,因为 (它们)饿了”和 “我们把香蕉给猴子,因为 (它们)熟透了”有同样的结构。但是代词 “它们”在第一句中指的是 “猴子”,在第二句中指的是 “香蕉”。如果不了解猴子和香蕉的属性,则无法进行区分。(英文的it没有区分,但在中文里 “它”和 “它”是有区别的,只是代词在中文里常常被省略,因此需区别属性并且标示出来。)

在自然语言处理中,对于词语边界的界定,中文的难度往往比英文更大,中文以字为单位,计算机需要先识别出词法,然后再判断句意。另外,句子常常并不只是字面上的意思。例如, “你能把盐递过来吗”,一个好的回答应当是动手把盐递过去;在大多数上下文环境中,“能”将是糟糕的回答,虽说回答 “不”或者 “太远了我拿不到”也是可以接受的。再者,如果一门课程去年没开设,对于提问 “这门课程去年有多少学生没通过”这一问题,回答 “去年没开这门课”要比回答 “没人没通过”好。这种形式的对话就不仅局限于上下文本身的语境,而是还涉及人类的知识库以及当前的社会环境,其计算的复杂度难以想象。①MSRA周明:《计算机能 “理解” 多少我们的语言了?》,http://www.csdn.net/article/2015-07 -09/2825171。

使用自然语言处理的机器新闻的生产,必须解决机器学习中的训练问题,训练也需要数据,这些数据就像模板模型的模板一样。对机器新闻程序进行大量数据输入,让程序通过已有的素材,总结出自己的写作模式,这涉及目前人工智能大部分相关领域。理想状态下,我们可以使用大量现存的新闻稿件对程序进行训练,让机器自主学习这些新闻稿件中的写作模式以及用词方式,比如先将一篇正常的新闻稿处理成结构化的数据源,机器根据数据源产稿后将自己的输出与实际的人工稿件进行对比,通过不断记录两者之间的差异,达到修正自身写作模式的目的。在实施过程中,选择何种现存稿件,初步的结构化处理应该做到何种程度,机器学习过程中的差异记录如何控制,都是很复杂的问题。就目前来说,人工智能在新闻生产中的大规模应用,还有很长一段路要走。

3.机器新闻的不足——内容生硬刻板、缺乏人情关怀与深度分析

模板型机器新闻将数据埋入模板已产生新闻,这种模块式的报道,不可避免地带来稿件生硬、刻板的问题,很容易使得新闻稿件千篇一律,缺乏亮点和重点,难以给读者留下深刻印象。美联社执行主编费拉拉在肯定机器人写稿高效的同时也承认:“机器人撰写的稿件,会因为内容的生硬和重复而影响稿件的质量。”虽然腾讯的Dreamwriter团队根据财经和体育报道的不同特点开发了两套系统,每个系统都有自己的表达方式和计算模型,但是就体育新闻而言,大多数的体育新闻还是以简讯的形式呈现。少数稿件篇幅相对较长,但也是按照 “比赛焦点+精彩回放”的模式展现,文中不仅用词重复率高,而且篇章句法结构都极为相似;新华社 “快笔小新”所撰写的财经新闻内容非常简单,多为数字的堆砌,是一种新闻数据的生硬拼接。人民网在 《新闻写作机器人的应用及前景展望——以今日头条新闻机器人张小明 (xiaomingbot)为例》一文选取Xiaomingbot在羽毛球男单、男双、女单、女双四场比赛的稿件进行对比,发现Xiaomingbot使用了大量相同或相近的词语,且句子的排列顺序都近乎相同:第一句先将新闻要素——时间、人物、地点、事件进行了说明;之后是对赛况的说明——精彩纷呈,高潮迭起;然后说明比赛时间、比赛规则、比赛结果、比分结果等。可以看到这些稿件模板化复制痕迹很突出,且面面俱到,连赛制、体育场馆、排名都详细说明,很明显缺乏亮点和重点。

2016年10月,在腾讯企鹅智酷一项面向用户的调查中,有39.0%的用户认为机器缺少人情味,37.3%的用户认为机器缺少人的创造力。在企鹅智酷面向自媒体作者的调查中,76.4%的自媒体人对于自动化写作的最大担忧是缺乏情感和个人风格。①《智媒来临, 2016中国新媒体趋势报告》, http://tech.qq.com/a/20161115/003171.htm#p=1。不论是模板型机器人还是自然语言处理型机器人,现阶段的机器写作都还处于初级阶段,是基于海量数据的分析与整合,机器人不具备人的创造力,也不具备记者长期积淀的职业素养以及社会洞察能力,因此机器不能进行深度的思考和分析,不能进行调查性的深度报道,所做的工作仅仅是周而复始的填字游戏,稿件没有质感与温度,内容缺乏人情关怀。比如今日头条的Xiaomingbot在8月16日发布的关于奥运会男乒半决赛的一篇报道中,出现 “绝望之际,失败女神朝其抛出了橄榄枝”的语句。在自然语言中,向某人抛出橄榄枝意味着向某人示好。显然,Xiaomingbot并没有领会到橄榄枝在自然语言中的含义。机器人对信息的深度理解远远不够。再如,腾讯Dreamwriter的 《中国以1环之差错失首金杜丽易思玲包揽银铜》虽然文章内容较为充实,但是相较于北京青年报的 《错过里约首金后杜丽、易思玲一银一铜一笑一哭》稿件而言,明显缺乏人情味。前者多为比赛的客观描述,后者通过在文章中加入 “‘不容易’成为昨天围绕着中国射击队冲击里约首金过程中的一个热门词” “要知道她们都曾是奥运会首金的获得者,高处不胜寒,人们对于她们的期望值起点从来只高不低”“遗憾错失里约首金后,杜丽接下来的打算成为中国记者比较关心的问题,杜丽说, ‘无论如何,都不会离开这份事业。’”等语句,这些个性化的细节,栩栩如生的描写和或多或少的煽情,使文章的人情味更浓,人类特有的思维和情感才能产生的 “人情味”,使记者的稿件更令人期待。

五 机器新闻未来发展趋势及对新闻生产的启示

机器新闻作为一种高产出、高效率的新兴新闻生产形式,会对新闻传播业产生一定的影响,但是我国机器新闻的发展由于数据和技术方面的困境,稿件的内容结构化叙事特征明显,仍处于较为低级的阶段。机器新闻未来的发展趋势是什么,这对我国新闻生产又会有怎样的启示也是我们需要关注的问题。

1.人—机一体的新闻报道体系将成为主流

“现阶段人工智能发展的关键问题是人和机器如何在人机对话中实现功能的互补和价值的匹配。”①喻国明: 《人工智能的发展与传媒格局变化的逻辑》,http://www.sohu.com/a/108694453_242292。也就是说,将来的新闻写作,将是人与人工智能的结合。通过上文对于机器新的分析,我们知道,机器新闻的特长在于,可以对海量数据进行快速的公式化的处理,效率高、产量大。但是,机器新闻写作仅仅在最基础的阶段具有优势,在价值判断方面、在情感的处理和表达方面、在深度调查报道方面,人的介入不可或缺,这也是机器新闻无法取代人类记者的原因所在,也是人类记者的价值所在。虽然目前少数媒体,包括腾讯的Dreamwriter已经采用机器审核的方式 (将机器写作完成的稿件直接发布),但多数媒体还是保留了 “人工审核”这一关键步骤。这主要是因为机器本身并不具有独立判断新闻倾向和新闻价值的能力,其对材料的筛选更多源于对关键词句等数据的获取。因此,未来的新闻写作一定是人—机一体、人机协作的方式,这也是未来媒体人的价值和核心竞争力所在。

2.数据获取与物联网紧密相连,数据将成为新闻生产的新思维

机器新闻中最为关键的要素是算法和数据。算法有赖于人的智能设计,数据采集和当下的物联网的发展有着非常紧密的联系。在2015年瑞士达沃斯经济论坛上,谷歌公司前首席执行官艾瑞克·施密特做出了大胆的预言:“互联网即将消失,一个高度个性化、互动化的有趣世界——物联网即将诞生。”“未来传感器的普及,将意味着自动化信息采集的大规模应用。作为信息采集工具的传感器,可以达及人的感官不能达及的深度与广度,这将为机器写作带来全新的可能。”②彭兰:《机器算法来了人该怎么办》,《新闻与写作》2016年第12期。在未来,不管是面向新闻写作的数据获取,还是像Dreamwriter一样面向个性化写作的用户阅读习惯、反馈的数据获取,物联网技术将会给其提供更大的空间。

机器新闻的基础是海量的数据,大数据时代背景下,数据成为新闻生产的新思维、新资源。不管是Dreamwriter还是Xiaomingbot,不管是快笔小新还是DT稿王,都强调数据的重要性。这其中包括数据资源的丰富性、数据采集的便捷性以及数据处理的智能化。未来媒体的竞争,将越来越多的是数据平台与数据采集、处理能力的竞争。①彭兰:《机器算法来了人该怎么办》,《新闻与写作》2016年第12期。

3.更加个性化、实现可视化

虽然针对国家统计局公布的2015年9月CPI的有关数据,Dreamwriter同时发布了四个版本的新闻稿件:常规版、精要版、研判版以及民生版,但是这些稿件的个性化只是在新闻稿件的结构和用词方面有不一样的选择,是最基础的阶段。在未来,计算机软件可以通过对传播效果进行后期自动分析,做出情感预测,即通过分析人们对这则新闻产生的情感倾向的反馈,来判断是否达到了预期的新闻效果,以及预测阅读完新闻后受众可能产生的情绪反应,进而决定给受众推送新闻的类型以及对新闻写作模板加以改进。而不是像今天的Dreamwriter一样,在文末询问读者提出 “为了今后在部分平台向您推送您最喜欢的版本,请问您偏爱的个性化版是?”的问题。

除此之外,现如今的机器新闻多为数据的堆砌,文字数据的阅读效果并非十分理想。不管是Dreamwriter的财经新闻还是DT稿王所撰写的财经新闻,即使文本加入了相关的图片,还是难以让人产生十分直观的印象,这就对机器新闻提出了可视化的要求。如何将冰冷的数据转化为直观生动的图像是机器新闻要解决的问题之一。

4.开辟更多报道领域,实现更广泛的应用

现阶段,国内的机器新闻局限于体育和财经两大领域,而国外的机器新闻的应用领域已经从最初的体育报道、财经报道,逐步扩展到自然灾害报道、罪案报道等领域。今日头条的Xiaomingbot只会写体育新闻,这一方面是由于其初始写作模块的设置,功能较为单一,未能考虑到深度学习功能;另一方面,数据壁垒导致Xiaomingbot无法获取学习更多数据资料,导致其“知之甚少”①赵禹桥:《新闻写作机器人的应用及前景展望——以今日头条新闻机器人张小明 (xiaomingbot)为例》, 人民网研究院, http://media.people.com.cn/n1/2017/0111/c409691 -29014245.html。。而新华网的快笔小新,虽然供职于新华社体育部、经济信息部和 《中国证券报》,但它其实是有3个分身,每个分身各处理某一个领域的新闻消息。②赵禹桥:《新闻写作机器人的应用及前景展望——以今日头条新闻机器人张小明 (xiaomingbot)为例》, 人民网研究院, http://media.people.com.cn/n1/2017/0111/c409691 -29014245.html。但是伴随着计算机数据处理能力的不断增强,以及数据开源的实现,跨领域的机器人新闻写作将成为可能,不同的数据库可以相互补充,因此机器新闻写出的稿件不仅领域更加宽广,而且内容也将更加全面。

5.新闻传播的内涵和外延的变化——注重培养复合型人才

新闻传播行业的核心是内容的生产与传播。机器新闻的内容生产被解构为机器写稿、编辑进行人工修改把关两个环节。而腾讯的Dreamwriter则完全实现了机器的自动化写稿和发布,不需要经过人工审核这一步骤。2012年和2014年哥伦比亚大学Tow Center和波因特研究院先后对新媒体时代记者应具备的技能进行调查,结果显示,熟悉数据和统计知识、具备基本的编码知识正被纳入新闻记者核心技能培养体系。这也是国内相对较好的写稿机器人Dreamwriter和Xiaomingbot都出现在互联网科技公司的原因之一。对于这一变化,国内外不少新闻传播院校,在 “大传播”理念的指导下,纷纷加大了新媒体方面课程的比重,包括大量的信息和数据处理技术和信息艺术设计方面的课程。③金兼兵:《机器新闻写作:一场正在发生的革命》,《新闻与写作》2014年第9期。因此,新闻传播从业者在认清机器人与记者互补共存的基础上,要加强对数据处理和数据挖掘技能的学习,进一步提升综合能力,高校要注重新时期复合型人才的培养。

6.全球新闻传播失衡——大力推进技术革新,全力保护数据主权

如前文所述,我国机器新闻的发展远远落后于西方国家,这一方面是由于中文的复杂性,另一方面是由于新闻机器人的核心技术仍被少数西方媒体和企业掌握。在我国,除了像腾讯、今日头条、百度等互联网科技公司,绝大多数企业并不具备在机器新闻或者人工智能方面的自主研发能力。另外,在互联网时代,发展中国家的网络和数据主权并未得到有效的保护,英美等西方国家占据了全球大部分的信息资源。因此,机器新闻在世界范围内的应用可能会加剧发展中国家对发达国家的被动依赖,导致全球范围内新闻传播的失衡。因此,发展中国家要大力推进计算机技术的发展,同时保护好我国的网络主权和数据主权

机器新闻写作可以在某些领域取代人类高度重复性的工作,提高新闻的生产效率,从而改变新闻生产的模式。但是,到目前为止,我国机器新闻还处于比较初级的阶段,距离真正意义上的人工智能还有很长的距离。写作机器人还停留在被动接受指令,进行运算的层面,所写的稿件也都是模块化、公式化的文章,限于快讯、简报的形式,主要运用于财经和体育两个方面,是数据与技术困境下的结构性叙事。在我国,机器人写作项目也多在腾讯、今日头条等互联高科技公司进行。因此,对于机器新闻,我们需要用一种冷静的态度看待,既不盲目崇拜,也不抗拒新技术的到来。

猜你喜欢
机器稿件模板
录用稿件补充说明
铝模板在高层建筑施工中的应用
高层建筑中铝模板系统组成与应用
本刊稿件体例要求
铝模板在高层建筑施工中的应用
本刊稿件体例要求
机器狗
机器狗
本刊稿件体例要求
未来机器城