儒学海外传播的探索性数据分析

2017-01-17 05:22秦洪武

当代外语研究 2016年6期

关键词：儒学可视化文本

秦洪武孔蕾

(曲阜师范大学，曲阜，273165)

儒学海外传播的探索性数据分析

秦洪武孔蕾

(曲阜师范大学，曲阜，273165)

儒学是中国文化的主体，儒学海外传播是中国文化走出去战略的重要组成部分。儒学海外传播源远流长，内容和形式日新月异，但海外传播对策的针对性有待增强，传播效果有待提高。鉴于此，有必要使用科学有效的方法对儒学海外传播的历时进程进行系统梳理和分析。本文探讨儒学海外传播数据库的创建和应用，探索此类数据的挖掘和描述方法。研究认为，随着文本数据挖掘技术日益成熟，我们可以从儒学海外传播数据中获得多维、多层面的传播信息。这将为科学制定中国文化走出去战略提供更有力的数据支持。

儒学海外传播，数据库，数据挖掘

1.引言

接受方引入中国文化大致经历了三个阶段:从梦境般赞美(马可·波罗，13～14世纪)，到现实中国描述(西方传教士，16～18世纪)，再到蔑视和扭曲中国文化(18世纪后)(Spencer 1998;Robinson 2009)。Robinson(2009)认为，中华文明总是被描述成“他者”，一种与西方对立的文明。从这个角度看，西人引入中国文化意在寻找异质的“他者”以反衬自身的优越感。那么，这是否是西方传播儒学一以贯之的真实目的?这个问题目前还无法得到明确的回答。

推介方主动输出汉语文化主要出现于20世纪。黄友义认为，我们在国际市场上是弱势;文化地位处于弱势就只有主动出击、主动推介(鲍晓英2013)。这种自觉地、主动地推介始于民国时期，当时已有部分中国文学和哲学著作的外译;受政治因素影响，新中国建立后的前30年，以政治、法律、文献类文本的外译和传播为主;1980年后外译内容变得丰富，品种更多。而在当下，有越来越多对外传播文本开始直接由英语母语者直接撰写。

提升中国文化话语权即提升中国文化在海外受纳的能力。但投入高成效低的问题突出，争取国际文化话语权的努力收效不彰。这一状况的成因复杂。从接受角度看，主要原因是我们对海外受众接受中国文化的方式缺少充分的了解，无法有的放矢地传播中国文化。

当代中华文化海外传播研究有三个重点领域。一是接受环境，二是目标读者的阅读取向，三是传播方式(何明星2013;高方、许钧2010;张朝意2015)。我们已经在第一和第二个领域做了不少工作，但迄今为止的研究多基于数量极为有限的典型史实，在此基础上进行的研究容易过度解释。事实上，不关注文本，就无法关照思想和观念的形成过程，也就无法真正反映儒学文化在海外传播的真实状况。

需要指出，迄今为止，我们的对外传播研究大多关注翻译文本的接受状况，但对主动引入型的接受研究不够。而事实上，后者更具传播的普遍性，也更有价值，需要我们着力去分析和了解。要充分了解中国文化海外接受的状况，需要尽可能充足的数据。过去，受技术限制，我们无法获得和处理大量的相关数据，与文化传播相关的决策多凭主观判断。在信息技术不断发展和日益完善的今天，我们已经有能力大量挖掘数据，为政策的制定和实施提供支持。本文探讨该类数据库的设计，探索传播数据的处理原则和方法，探讨相关数据的可视化问题并报告初步的发现。

2.儒学海外传播数据建设:必要性和可行性

长期以来，我们关注如何接受外来文化，重视自身文化在海外受纳的范围和广度，但极少关注受纳端表述中国文化的方式和途径。这使得我们始终无法对受纳方的文化接受环境、读者阅读取向和主要的传播方式做深入、系统的研究，当然也无法了解中国文化海外接受的真实状态(张春柏2015)。更值得注意的是，我们大多是在不充分分析和了解海外接受状况的状态下制定文化海外传播对策的，这在一定程度上降低了中国文化海外传播的成效。为应对这一状况，我们建立儒学海外传播数据库，尝试深入海外儒学研究文本之中，深度挖掘数据，探寻海外接受儒学的方式并描述此类传播话语的模式、趋向和热点。知己知彼，才能讲好中国故事，提升中国文化海外传播的效果。

海外儒学研究数据库能够提供大量的文本数据，经过数据过滤、统计，能提供与儒学海外传播相关的各种信息。其可行性表现在以下几个方面:首先，儒学海外传播文本数据获取方便、快捷，可以通过互联网存取主要图书数据资源;其次，数据的转换和存储方便，不能机读的数据可以通过各种识别软件变为可机读资料，而且存储方式多样，简单的纯文本语料存储几乎不受限制;此外，当代的信息检索技术日臻成熟，能够为我们高效提取数据，发挥数据在研究和决策中的支撑作用。

儒学海外传播数据库建成后能为我国制定文化走出去战略提供关键数据支持，也能为学术研究提供第一手资料。在全球化迅猛发展的今天，信息交换便捷高效，儒学海外数据库的建设拥有充分的数据来源。因此，从技术和数据来源上看，建设儒学海外传播数据库适逢其时。

3.数据库设计

数据的获取:通过网络搜集、Google Books、chroniclingamerica、NowCorpus等多种来源获得以孔子和儒学为关键词的索引，根据索引获取相关文本，不限量地收集17世纪以来以英语为媒介传播的海外儒学研究样本，建立海外儒学研究数据库(1000万词)。该数据库将用于观察和分析海外儒学研究焦点和偏好的历时变化，并发现可能存在的趋势或倾向。同时，我们还创建和使用了对比文本库，即汉语儒学研究文本数据库。该数据库将用于和儒学海外传播数据进行类比，发现儒学海外传播的热点或偏好。

根据研究需要，本研究为语料样本添加篇头元数据(时间、国别、母语文化、社会意识形态、宗教信仰、体裁等)，以方便按特定条件检索和提取信息。研究还建设检索平台，支持多层面的文本数据分析。除具备普通检索功能外，该平台还嵌入可视化研究热点描述引擎，并提供节点词搭配信息。

4.数据库的处理:原则和方法

根据这一思路，我们对儒学相关概念进行了标注和分类，并在此基础上建立了儒学双语术语表。根据在海外传播时使用的实际状况，区分以下九类概念:

文集(TXT)、文学语言符号(LLS)、学派(GAS)、地理历史事件(GHE)、朝代官员(DTR)、儒学思想(CNP)、人物生平(BEN)、宇宙神话(ACM)、建筑艺术(AAI)。

每类概念下包含多种概念，如 CNP中包含“XINF(信)、XINGN(性)、YIC(易)”这些儒学思想与概念。儒学研究双语术语如表1所示。

表1 儒学概念英汉语对译示例

基于这一概念分类，对文本实施语义标注，编写赋码程序，以便于儒学研究信息的提取、分类和描述。程序使用的替换代码如下:

我们可以借助于这一工具把“义”这个概念的各种表达形式(英语和汉语)统一编码为YIR和它的上义概念CNP。这样标注有助于我们获得各类概念可靠的频率信息，方便后续的统计和分析。

标注之后的工作是从儒学海外传播文本中提取和分析数据。我们使用目前广泛使用的数据挖掘手段分析数据。主要工具有文本特征比较(stylo)、情感和主观性分析(sentiment)、一致树(consensus tree)分析。相关数据可以数字形式表达，但本项研究更侧重数据的可视化，因为后者能更直观地判断和搜寻研究问题。

5.探讨数据可视化探索

5.1 数字数据的挖掘

本文对数据的处理采用两种方式:一是数字型数据的呈现;二是数据的可视化。有些数字型数据本身就能明确显示异同，这时只需使用数字表达;如果数字太多无法观察，则考虑使用可视化手段呈现。常见的数字类数据有以下几种。

搭配类:下面呈现的是Confucius和virtue两个节点词在给定儒学传播文献中的搭配信息(为节省篇幅，只呈现部分信息)。从表 2可以看出，与Confucius搭配的信息有意义，即孔子的生平(ben)、孔子周游列国和仕途(duke，state，minister)以及孔子的言语(asked，advice，said)。而与virtue搭配的词没有明显的信息点，这提示我们，目前状况下，可以在给定语料范围内放弃对virtue的探讨。

表2 Confucius和virtue两个节点词的搭配信息

还有一类数字数据可以使用，也可以不用。如下面呈现的是给定语料库中的前20个最高频词。需要说明的是，数据挖掘产生的词频表和一般语料统计的词频表不完全一样。数据挖掘更倾向于使用停词(stopwords)，剔除功能词或者语法词，只呈现实义词，如表3所示。

表3 语料库中的前20个最高频词

Chinese Chinese 160

为节省篇幅，这里只呈现了前20个最高频词中的九个词，这种呈现本身比较直观，能够说明给定语料中孔子的生平和儒学思想等主体内容。当然，如果需要，这些数据也可以通过柱形图来呈现，有关内容见5.2节。

5.2 数据的可视化

5.2.1 词云的使用

词云又称标签云(tag cloud)，它以可见的、直观的方式表达文本数据。词(或标签)多为单个词，其重要性通常以字号或颜色来表达。这种呈现方式非常有用，能快速捕捉到探索对象和范围中最重要的项目。本文采用的词云中，项目字体的大小代表该项目出现的频次，频次的大小在左侧的最高频词柱形图中有体现(见图1)。

图1 1730～1740的词云(右侧)和最高频20词(左侧)

5.2.2 情感分析的使用

情感分析是利用既有的情感词表匹配给定文本中相应的情感词，并依据频率，采用贝叶斯算法进行情感归类(Naive Bayes Classification Algorithm)，得到情感倾向的计算结果。目前使用的情感分析包将情感分为“喜(joy)、怒(anger)、恐惧(fear)、悲伤(sadness)、惊讶(surprise)、厌恶(disgust)、未知(unknown)”等几个域。同时，我们也使用该分析包分析了主观极性分析，涉及积极、消极和中性情感。该分析以文本中的自然段为计算单位，如图2所示。

如图2所示，下半部分窗口显示被分析的对象，即编号为1的段落。上半部分表格的第一行显示的是编号为1的段落中各类情感的得分。得分明显高者占优势，即最后一列显示该段的情感的最终属性。亦即第一段的情感基调为joy。

表4是段落的情感计算结果:数字读为第n段; NA指没有明确赋值，词云图中没有明确赋值的词分布在unknown区块(见图2)。

另一种呈现方式是情感分布图。情感分布图来自表4的情感倾向运算结果。该结果最终呈现的可视性分布特征如图3所示。

表4 对1730－1740子库中各自然段的情感分析结果

图3 情感倾向可视性分布特征

情感分布图显示，除去无法确定的情感归属，可以确定情感归属的六类情感中，joy类情感最多，其次为anger，而fear、sadness、surprise频率很低。图3表明，1730～1740年这一段时间西方儒学研究者所持的情感态度主流是joy，是积极的。

与情感分布相关但更宏观的分类是主观性分布图。主观性分布图来自附录1的主观极性运算结果。极性运算只涉及积极、中性、消极态度，该结果最终呈现的可视性分布特征如下:

图4显示，儒学海外传播1730～1740年文献子库统计结果倾向于认定西方对儒学思想的基本态度是正面的，负面态度几乎可以不计。这一态度表达方式显然有助于我们直观观察西方儒学传播在态度上的整体状况。

情感分析最直观的方式是情感词的可视化。情感词是调用sentiment中的classify_sentiment函数。该函数将文本进行情感分类(包括anger，disgust，fear，joy，sadness，surprise)。使用的贝叶斯分类工具已根据Carlo Strapparava＆Alessandro Valitutti所做的情感词表上训练过。比如，idolatry和idols这两个词不一定只涉及一类情感，它们可能涉及多类情感。

图4 主观态度可视性分布图

表5 idolatry和idols的情感特征分布

值较高的更可能以相对大的字体呈现，如idolatry;涉及多类的更可能在相关类的边界放置，如idols。

图5 儒学海外传播1730～1740年文献子库中情感词的分布状况

不同时期的情感分析结果可以用来比较和分析。如图6所反映的是1900～2000年西方儒学传播文本中的情感分布状况。

图6 儒学海外传播1990～2000年文献子库中情感词的分布状况

通过图5和图6词云对比，可明显看出西方儒学传播在不同时代呈现情感词使用的变化。比如图6多出了一个情感类别disgust(厌恶);图6在joy类情感词使用上更为丰富，显示对孔子和儒学的正面评价日趋充分，而fear类词的使用要少于图5，似乎表明随着交流的日益频繁，随着对儒学和中国文化的了解日益加深，西方对孔子和儒学陌生和恐惧感在日渐减少，负面评价也在减少。我们可能无法从词云图上做出充分的描述和解释，但词云图确实可以帮助我们找到有意义的研究问题，并带着这个问题回到文本之中作更深入的探索。

5.2.3 一致树分析

一致树便于总结两个或两个以上的树(tree)之间的一致性。我们使用这一计算功能观察儒学海外传播中的英语原创文本和英语翻译文本(只选用《论语》的十个译本)之间可能存在的关系。由于这些文本之间存在的一致性可能较弱，我们使用的是“多数即为一致的”分析(majority rule consensus)。纳入一致树分析的有16个样本，其中属于英语撰写的儒学研究文献有六个，前缀为”KZHW_”。《论语》的译本有十个，前缀为“lunyu_”。样本如下:

在数据分析和数据挖掘的过程中，我们往往需要了解个体间的异同，由此评价个体间的相似性并尝试分类。要实现这一目的，最常见的数据分析是相关分析，以及数据挖掘中的分类和聚类算法。

为了方便下面的解释和举例，先设定我们要比较X个体和Y个体间的差异，它们都包含了N个维的特征，这里是100～10000个最常用词的词频特征，即X=(x1，x2，x3，… xn)，Y=(y1，y2，y3，…yn)。通过距离度量来衡量两者的差异。

距离度量(Distance)用于衡量个体在空间上存在的距离，距离越远说明个体间的差异越大。Stylo使用的是常见的欧几里得距离 (Euclidean Distance)，衡量多维中各个点之间的绝对距离。公式如下:

数据剔除(CULLING)不预设一个词在给定文本中出现的比例(如20指列入计算的某个词在20%的给定文本中出现过)，但按照词在 0、20%、40%、60%、80%、100%的样本中的出现比例累计，并得到距离值之和。数值越大说明距离越远。以这种方式进行计算会产生很多计算结果，呈现的部分结果见附录3。可视的计算结果为图7的带状一致树图。

图7 带状一致树图

如图 7所示，两个《论语》英译本，即 lunyu_ ESlingerlandLunyu2003和lunyu_GHMINGS1898与英语原创儒学传播样本在用词特征上存在较强的一致性。换言之，两个译本在用词上更贴近英语原创儒学传播文本;这一判断在附录2的数值上也有清晰的表达:这两个文本(分别标示为第一列中的11和 12)和英语原创儒学传播文本(第一行中的1～6)的对应值明显低于《论语》英译文本(第一行中7、8、9、10、13、14、15、16)。这一预测可以帮助我们将研究焦点锁定为这两个译本的语言特征，为下一步的分析提供可靠的线索和依据。

6.结语

在信息化时代，对数据的挖掘是获取有效信息、促进社会发展的重要途径。数据挖掘支持探索性研究，而这类研究可以避开先入之见，更利于捕捉有意义的研究问题。从这个意义上说，本文探讨的数据分析可以成为儒学海外传播研究中研究问题的来源。若赋码得当、分类清晰，儒学海外传播数据的可视化完全可以实现，也具有强大的数据支持功能。

本文将数据分析的对象聚焦于文本内容，借此探索儒学海外研究中经由其他手段无法获得的有价值的研究对象。比如，通过基于频率的可视化数据可以直观观察儒学思想在域外传播的偏好、态度、儒学文化在另一文化中生存的过程、儒学在另一文化中的主要传播方式，等等。这些数据的挖掘并不基于推测，也不基于特定假设，而是基于数据内部的相对突出程度。这种探索性描述可以帮助我们找到真正有价值的研究问题。

无充分数据支持，信息注定是片面的。对信息的充分描述是充分解释的前提。数据挖掘可为充分描写提供更大的可能性。有了可靠的描写手段和工具，我们就有望基于可靠的数据，有针对性地制定文化走出去战略，并在对外翻译时更多关注翻译策略使用的文化意义，增强文化传播效应。

当然，本文探讨的数据可视化更强调它在研究中的辅助作用，可视化本身不是研究的目的。但合理运用这一手段便于我们在更大范围内捕捉有实质意义的研究问题，为相关研究提供有力的数据支持，成就更具理论价值和应用价值的学术研究。

Robinson，K.2009.The other pole of human existence:Western representations of China between the 13th and 18th centuries［J］.Cross-sections(Volume V):57－63.

Spencer，D.1998.The Chan’s Great Continent:China in Western Mind［M］.New York:W.W.Norton＆Company.

鲍晓英.2013.中国文化“走出去”之译介模式探索——中国外文局副局长兼总编辑黄友义访谈录［J］.中国翻译(05):62－65.

高方、许钧.2010.现状、问题与建议—─关于中国文学走出去的思考［J］.中国翻译(06):5－9.

何明星.2013.中国文化对外翻译出版60年［J］.出版发行研究(6):28－31.

张朝意.2015.建设具有中国特色的对外话语体系的战略思考［J］.对外传播(10):53－55.

张春柏.2015.如何讲述中国故事:全球化背景下中国文学的外译问题［J］.外语教学理论与实践(4):9－14.

附录1 主观极性计算结果(子库的前20段，共242段)

＞class_pol POS NEG POS/NEG BEST_FIT［1，］ 89.76 42.82 2.10 positive［2，］ 1.03 0.45 2.32 positive［3，］ 108.03 71.30 1.52 neutral［4，］ 1.03 0.45 2.32 positive［5，］ 66.51 0.45 149.30 positive［6，］ 1.03 0.45 2.32 positive［7，］ 56.67 17.81 3.18 positive［8，］ 1.03 0.45 2.32 positive［9，］ 138.34 60.19 2.30 positive

［10，］ 33.42 44.21 0.76 negative［11，］ 1.03 0.45 2.32 positive［12，］ 97.51 60.88 1.60 neutral［13，］ 1.03 0.45 2.32 positive［14，］ 1.03 0.45 2.32 positive［15，］ 49.62 44.21 1.12 neutral［16，］ 1.03 0.45 2.32 positive［17，］ 75.64 26.84 2.82 positive［18，］ 1.03 0.45 2.32 positive［19，］ 32.73 35.18 0.93 negative［20，］ 1.03 0.45 2.32 positive

附录2 一致树分析文本之间的欧几里得距离表(2－gram;culling@100;available features(words):211; MFW used:100 160;distance_table_4900mfw_0c)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1 0.00 1.25 1.37 1.02 1.13 1.06 2.65 2.32 2.86 2.10 1.33 1.70 2.66 2.36 2.67 3.08 2 1.25 0.00 1.02 1.21 1.27 1.22 2.84 2.54 3.06 2.33 1.53 1.87 2.85 2.49 2.86 3.27 3 1.37 1.02 0.00 1.26 1.32 1.32 2.92 2.65 3.14 2.46 1.64 1.96 2.93 2.58 2.96 3.37 4 1.02 1.21 1.26 0.00 0.74 0.64 2.59 2.21 2.77 1.97 1.06 1.58 2.60 2.27 2.57 3.01 5 1.13 1.27 1.32 0.74 0.00 0.59 2.62 2.21 2.77 2.01 0.99 1.65 2.63 2.25 2.54 3.02 6 1.06 1.22 1.32 0.64 0.59 0.00 2.55 2.13 2.70 1.94 0.91 1.52 2.56 2.19 2.49 2.96 7 2.65 2.84 2.92 2.59 2.62 2.55 0.00 1.51 1.14 2.88 2.11 2.68 0.07 1.34 1.36 1.57 8 2.32 2.54 2.65 2.21 2.21 2.13 1.51 0.00 1.62 2.46 1.74 2.38 1.52 1.52 1.54 1.83 9 2.86 3.06 3.14 2.77 2.77 2.70 1.14 1.62 0.00 3.01 2.21 2.84 1.13 1.40 1.33 1.66 10 2.10 2.33 2.46 1.97 2.01 1.94 2.88 2.46 3.01 0.00 2.02 2.21 2.88 2.67 2.87 3.14 11 1.33 1.53 1.64 1.06 0.99 0.91 2.11 1.74 2.21 2.02 0.00 1.69 2.12 1.73 1.99 2.52 12 1.70 1.87 1.96 1.58 1.65 1.52 2.68 2.38 2.84 2.21 1.69 0.00 2.68 2.48 2.75 3.06 13 2.66 2.85 2.93 2.60 2.63 2.56 0.07 1.52 1.13 2.88 2.12 2.68 0.00 1.34 1.36 1.56 14 2.36 2.49 2.58 2.27 2.25 2.19 1.34 1.52 1.40 2.67 1.73 2.48 1.34 0.00 1.40 1.78 15 2.67 2.86 2.96 2.57 2.54 2.49 1.36 1.54 1.33 2.87 1.99 2.75 1.36 1.40 0.00 1.65 16 3.08 3.27 3.37 3.01 3.02 2.96 1.57 1.83 1.66 3.14 2.52 3.06 1.56 1.78 1.65 0.00

表中数字分别代表以下样本:1.KZHW_1690;2.KZHW_1730－40;3.KZHW_1750－60;4.KZHW_1950;5.KZHW_1990－2000;6.KZHW_2010;7.lunyu_A.Waley1938;8.lunyu_C.Muller19902015;9.lunyu_DJLiuLunyu1979;10.lunyu_EPoundLunyu1951;11.lunyu_ ESlingerlandLunyu2003;12.lunyu_GHMINGS1898;13.lunyu_J.Legge1861;14.lunyu_JZHuangLunyu1997;15.lunyu_RAmesLunyu1998; 16.lunyu_YCXuLunyu2005

(责任编辑邓梦寒)

H319

1674－8921－(2016)06－0023－07

10.3969/j.issn.1674－8921.2016.06.005

秦洪武，曲阜师范大学外国语学院教授、博士生导师。主要研究方向为英汉语对比与翻译、语料库语言学。电子邮箱:qinhongwu@163.com

孔蕾，曲阜师范大学外国语学院副教授、硕士生导师，曲阜师范大学“中国语言文学”博士后站研究人员。主要研究方向为英汉语对比与翻译、二语习得。电子邮箱:skytkong@163.com