基于多模态话语分析的旅游翻译语料库构建研究

2024-01-24 05:08李中英
关键词:语料语料库模态

李中英

(山西旅游职业学院 旅游外语系, 山西 太原 030031)

随着中外日益渐多的学者涉足探究多模态话语以及多模态话语分析对于语料库的发展和建设所起的作用及影响, 有关语料库的研究范围越来越广, 研究对象也越发多样化。然而, 在国际文旅融合的背景下, 有关多模态旅游翻译语料库的构建研究却少之又少。为提升中华文化的国际影响力和传播力, 本研究以多模态与语料库相关研究为理论基础, 探寻多模态旅游翻译语料库的建构方法与路径, 以高视角为旅游业及其对外公共基础设施提供更完善、 更准确、 更全面的翻译资料, 为传扬中华文化提供更权威的保障。

1 多模态话语与旅游翻译语料库的相关概念

1.1 多模态话语分析的相关概念

根据CNKI 文献收录统计, “模态”一词在国内学术界的应用已有半个多世纪。收录文献最早记载于1957 年, 莫绍揆在其《具有有穷个模态辞的模态系统》中将模态用于对数理系统的表达[1]。随后, “模态”也陆续出现在力学、 气象学、 海洋学、工业、 工程、 计算机以及语言文字的研究当中。故此, 基于模态的多学科融合交叉研究有着极强的资源优势和价值意义。

模态与语言学的融合研究相对其他领域起步较晚。然而, 正因为“模态”的多学科特点, 学界对其并没有形成统一的概念界定。早期是由美国著名逻辑学家Richard Montague 在研究递归函数论、模态逻辑和内含逻辑后转向研究自然语言, 为多模态理论下的语言分析及研究提供了更多更充分的逻辑学理论基础[2]。2007 年, 朱永生在其相关研究中表示“模态”是人们彼此之间沟通交流所选用的途径或是载体, 主要包括语言、 技术、 图像、 颜色和音乐等符号系统[3]。2015 年, 顾曰国在其《多模态感官系统与语言研究》中认为, “模态”可以被理解为人类自己借助视觉、 听觉、 触觉、 嗅觉等感官系统与外界事物及环境进行交流互动的模式方法[4]。多模态话语分析代表Kress G. 和Van Leeuwen 表示, “模态”是人与人彼此之间沟通交流的符号, 是用于表示意图和交流意义的社会文化资源,包括使用工具和各种物质[5]。然而, 随着时代的不断发展, 单模态或是单个媒介已经不满足人与人之间的交流[6]。模态的研究为多模态研究打好了基础, 同时也为多模态的应用研究做好了铺垫。

“多模态”则一般表达融合了两种或两种以上具有象征意义的语言符号。顾曰国指出, “多模态”是人类在某种具体交流场景中使用多种模态的情况, 所使用的模态形式主要包含专业术语、 日常用语等, 关键是判别到底有几种感官参与[4]。“多模态话语分析”则是多模态在语言领域的发展应用。

“多模态话语分析”的理论方法是张德禄提出的, 他师从世界著名语言大师韩礼德(Halliday), 将系统功能语言学进一步深入挖潜, 拓宽研究视角,并在系统功能语言学的基础上提出了多模态话语分析[7]。他表示, “多模态话语分析”是指人借助感官系统跟外部事物或者环境交流互动的途径, 是人利用感官系统和辅助工具进行社交活动的情形[8]。张德禄的系统理论研究为学者们开启更深入的语言分析研究, 促使语言分析更全面、 更精准、 更实用打下了扎实的基底。

目前, 越来越多的学者将多模态、 多模态话语、 多模态话语分析等理论学说应用于语言翻译相关的研究和实践中, 如充分借助网络技术创设翻译资料库、 构建使用者的资源共享平台、 运用数字化多媒体技术展示文字等, 为充分调动参与者多个感官系统参与交流互动提供了多样化的路径选择。

1.2 旅游翻译语料库的相关概念

语料库也即语言词汇数据库, 是将人类在交流互动过程中所使用的一切语言词汇按照既定的目标或用意进行搜集、 整合、 对齐、 应用所构建的大型语言词汇电子数据库。语料库的研究常采用定量分析和定性分析相结合的方法, 其中, 定量分析主要建立在大量数据收集的基础上, 定性分析则是对收集数据的进一步分析和研究[9]68-72。依据语料库所包含的语言种类或数目, 语料库可划分为单语语料库、 双语语料库、 多语语料库。依照语料库所表达的内容, 又可划分为通用语料库和专门语料库。旅游翻译语料库属于专门语料库的一种, 且是基于语料库翻译学的研究基础而逐渐展开探究和构建的。

国内有关语料库翻译学的研究仅数十年的时间, 学者主要基于语料库的研究思路和方法, 将其应用于翻译学研究, 扩展了依附语料库建立而存在的大量结合翻译的语料研究维度, 潜藏着语料库翻译研究的重要意义和广泛的应用前景。

2 多模态话语分析与旅游翻译语料库的研究现状

2.1 多模态话语分析研究现状

朱永生在《多模态话语分析的理论基础与研究方法》中对多模态话语分析做了非常全面的论述。首先,他溯源了多模态话语分析的理论基础, 指出其研究还处于起步阶段, 仍停留在文本语言和语法结构的浅层次探索中。其次, 他阐述了多模态话语分析的概念、研究内容、 研究方法和价值, 提出多模态语言分析需要与其他学科学者共同研究, 提倡多学科交叉研究,才能使多模态语言分析更全面更有价值[3]。

国内关于多模态的翻译研究可以分为萌芽期、发展期、 成熟期三个阶段。在研究上也取得了一定成果, 如话语分析、 影视翻译、 翻译教学较为完善,口译研究较为深入等, 但也存在一些不足。第一,缺乏系统性、 纲领性研究; 第二, 跨学科研究有待跟进, 特别是与信息技术、 机器翻译、 人工智能的融合、 与行业产业接轨不足; 第三, 研究质量不高;第四, 实用性研究领域尚待拓展和完善。今后, 深入研究不仅需要深化加强多模态翻译的理论构建、国内外多模态翻译比对研究、 实证经验研究等, 更需要加快扩展跨学科的交叉研究, 把多模态翻译与机器翻译、 翻译技术、 信息技术、 行业产业需求结合起来, 使研究既具有理论价值, 又具备社会、 经济、 文化价值[10]。

2.2 旅游翻译语料库研究现状

2.2.1 语料库的研究现状

自20 世纪80 年代伊始, 相当多的语言学家对“语料库”展开了一轮又一轮的深入探讨。最初的语料库研究基本都是结合计算机、 互联网的建立和应用展开的(见图1)①数据来源于知网数据统计分析,下同。。

图1 语料库研究的学科分布

根据文献统计, 语料库与语言的结合研究始于1985 年, 白水在《言语统计和语料库》中论述了言语统计和语料库的关系[11]。言语统计主要是利用计算机建立语言数据库, 语料库则是语言统计的基础。语料库同时又作为语言统计的副产品, 通过搜集素材, 并将原材料合理组织, 便形成语料库, 实现应用价值。因此, 语料库的相关研究越来越丰富, 也几乎成为所有语言学者们科研的必备课题。

语料库的合理构建是语料库广泛应用的关键所在。学者们除了对语料库元话语的研究外, 对建立语料库的辅助工具、 建立路径均有深入研究。目前, 使用率较高的语料库技术工具, 如Ant conc、Sketch Engine、 BNC、 COCA 等, 适用于通用语料库、 专业语料库。语料库的构建研究主要包括语言词汇资料的搜集、 整理、 优化、 管理等。

语料库除了语料库语言本体研究, 学者们近年来不断提倡语料库相关研究的跨学科属性, 如结合心理语言学及构式语法等认知科学, 借助功能语言学、 社会语言学、 (批评)话语分析等关注社会现实的学科进行研究(见图2)。 同时, 注重语料库的应用研究, 除关注语料库在语言教育与学习中的应用之外, 还关注现实社会问题, 使语料库的研究不再局限于语言本体[12]。

图2 语料库相关研究主题

2.2.2 旅游翻译语料库的研究现状

语料库翻译学正是伴随着语料库研究战略转移的重要时期应运而生。语料库翻译学是基于语料库研究与翻译研究相结合的研究成果, 以大量的翻译对象为研究本体, 通过词根、 语境的多向对比相结合, 挖潜翻译的本质[13]。在研究方法上采用实证性研究和理论综述结合的定量与定性分析方法。但是定量研究还处于初级阶段, 广度深度仍有很大空间, 需要从单纯的文本翻译转向多因子影响下的环境语义翻译。

旅游翻译语料库的相关研究文献数量屈指可数(见图3)。发文量最多的2017 年也仅有13 篇(见图4), 近年来研究量减缩明显, 与国家提倡文旅融合的战略背景形成反差。

图3 旅游翻译语料库主要主题年度交叉统计

图4 旅游翻译语料库主要主题年度发文量统计

现有旅游翻译语料库研究多是在现有语料库的基础上, 将旅游相关的语料收集、 加工、 处理,进而开发应用。但是研究并未摆脱前人所建立的语料库所具有的某些限制因素。因而, 旅游翻译语料库的研究并未形成系统性的研究成果, 未对旅游文化的传播与发展产生较好的影响。这也在一定程度上表明旅游翻译语料库构建的受重视程度非常低, 或者并未意识到旅游翻译语料库建立对于旅游行业、 国家经济、 文化传播的重要性和价值性。

3 多模态旅游翻译语料库的设计与构建

随着现代化信息技术的更新迭代, “大数据”为我们提供了无穷的信息和技术, 但是如何利用好资源, 是解决问题的关键因素。面对庞大的自然语言数据库, 享受其带来便捷使用的同时, 我们需要不断研究克服其所存在的巨大漏洞, 提高语料库的使用性能。合理的语料库构建是翻译语料库研究效益性和使用广泛性的关键。语料库构建一般包括数据的收集与输入、 数据整理、 语料库标注、 语料库对齐、 语料库的优化与管理五个步骤, 下面主要从以上几个方面探究基于多模态话语分析的旅游翻译语料库构建及其影响因素。

3.1 数据的收集与输入

构建语料库, 首先是语料数据和文本的收集。数据和文本的内容主要以当地旅游官方网站上显示的原文为主。大多数学者收集数据和文本主要通过维基百科、 孤独星球和英国百科全书等知名网站获得资源, 同时, 还使用You Tube 视频和旅游杂志来收集和组织材料。语料来源的多途径、 多维度既保证了语料的多样性, 又保证了语料的可靠性,为旅游翻译语料库的构建发展提供了有力保障。

基于国家旅游官方网站、 省级旅游官方网站、出版社出版的旅游图书及知名旅游网站信息搜索,以国家文化和旅游部统计的318 家5A 级旅游景点文本为主, 可以看出, 国内旅游资源非常丰富, 相应的旅游文本和翻译资料也极其丰富, 但是旅游文本的内容相对比较简单, 甚至有些内容完全缺失。例如, 山西省八路军太行纪念馆, 馆内每个分区均设置了陈列墙, 为游客说明馆内主要陈列内容及其历史渊源, 但遗憾的是只有中文, 缺少同步英文翻译, 无法实现对外文化展示和输出[14]。其根本的影响因素是国内旅游景区普遍缺乏全球化的视野, 而且这种现象越是地域偏远越明显, 越经济欠发展越突出, 不重视旅游产业的长远发展。另外, 缺少专业化的旅游翻译资料, 带着与其翻译不准确, 不如不翻译, 或许根本不会有国外旅行者的心态, 导致旅游翻译不到位的现状越来越突出。

3.2 数据整理

旅游翻译语料库在建设过程中, 由于语料的数量非常庞大, 语料在进入语料库后必然会导致错置、 乱码、 符号错误等现象, 因此, 需要对所收录语料进行数据整理。例如, 学者岳娇慧团队建立的山西平遥对外宣传语料库, 词汇高达40 016 词[16]。语料数据整理主要分为文本数字化和文本组织两个部分。文本数字化对于语料库的建设至关重要,因为语料库中的文本格式关系到程序的成功与否。此外, 由于构建语料库的文本来源多样, 语料大多以TXT 格式保存。因此, 需要将PDF 格式和HTML 格式的语料文本通过金山格式转换器转换成Word 文档, 然后统一保存为TXT 格式。还有一些采集到质量比较高的旅游视频因为缺少外部字幕, 导致其视频参数无法提取, 所以需要对AVI 格式和WAV 格式的字幕进行手动提取。由于文件转换均需要人工完成, 整理工作难度系数非常大, 且效率较低。

虽然目前的软件应用已经相当成熟, 可以删除所有空行、 批量添加第一行字符、 处理特殊字符等, 对文本组织有很好的辅助作用, 但还不能达到100%的准确率, 尤其针对文字的转换和识别。因此, 经过软件转换后的文本仍然会包含乱码字符、错位和空行, 所以, 软件操作完成后, 为了保证其高洁净度, 需要对文本进行人工检查和处理遗漏、词汇拼写等机器无法识别的错误。

人工整理和校核的海量词汇语言数据库只是解决了机器处理遗留的简单问题, 并没有解决旅游语料本身存在的文化内涵缺失、 文字音译等最核心问题。例如, 位于山西省太原市的晋祠博物馆, 其景区中的“文昌宫”被直接音译为“Wen Chang Temple”,“胜瀛楼”被译为“Sheng Ying Building”等。在太原市天龙山的景区导览图中, “禅堂院”被直译为“Chan Tang Yard”。类似的情况在各大景区比比皆是, 地名的翻译没有一个统一的标准, 有些采用意译, 有些直接采用汉语拼音, 其翻译内容并没有表达出词义本身的文化内涵。

3.3 语料库标注

语料库标注是指对语料的结构组成进一步归类, 达到高级别的检索需求和更深入研究的过程。标注方法一般采用部分-整体关系-语音标注。由于目前关于翻译语料库的研究基本都基于平行双语语料库, 因此, 针对不同语言的标注方法存在差异[16]。在对英语语料进行标注时, 主要基于BNC 对语料词性的划分和缩写对文本进行标注,但由于机器标注无法达到100%的准确率, 仍需要人工验证, 再次增加了国内研究者难度系数。

与一般文本相比, 旅游文本是一种针对特定人群的文学形式。其语法、 词汇、 句法和表意都具有一定的人文或自然特色。因此, 在对旅游文本进行标注时, 首先将语料按照传统的词性标注方式在ICTCLAS 平台上标注词性(包括名词、 动词、 介词、 字符串等)。然后, 考察旅游文本中特有的表达方式, 并在语料库上进行标注。由于没有现成的软件来完成这样的标注, 同样需要人工完成。在人工审读的过程中, 需要研究旅游文本中的语音、 词汇、 语法特征、 蕴含的修辞特征等, 对不同的修辞手段进行特定的标记。

3.4 语料库对齐

语料库对齐主要是对句子划分和句子编码。一般需要先完成中英文句子划分, 然后将文本导入Tmxmall 和ABBYY 在线对齐。然而, 由于旅游文本的翻译往往不完全符合逐句翻译的原则。因此,软件并不能完全对应这种情况。研究者需要在英语和汉语中分配代码, 即在句子的开头和结尾分别添加 , 这样才能准确地形成相应的文本, 才能保证文本对齐准确率。

由于旅游翻译的特殊性, 缺乏对旅游地点历史、 人文、 景观等方面的深入探析, 且缺少规范标准参考。对于大篇幅文本来说, 人工编码是一个庞大的工程, 不仅需要标注大量的汉英词性, 更难的是标注修辞用法。很多学者耗费大量精力所构建的旅游翻译语料库却应用性极低, 资源极度浪费。

3.5 语料库的优化与管理

语料库的优化和管理是在语料数据收集、 整理、 标记、 对齐、 导入、 加工完成后的完善和应用阶段, 对于翻译语料库的广泛使用尤为重要。

由于汉英平行翻译语料库的数据库具有可移植性, 可分布式操作, 这给数据库管理带来了新的问题。语料库处理的数据量巨大, 通常有很多人同时处理数据。由于(数百万条记录)数据量巨大, 数据维护层次多, 数据并发处理能力突出, 应建立适合数据维护的管理机制。该过程主要包括: 第一,创建数据维护日志, 记录语料处理时间等操作信息; 第二, 语料库数据的备份存储与完全恢复。为避免软、 硬件崩溃造成的数据丢失, 同时, 将数据备份到临时服务器并及时恢复; 第三, 利用数据库本身在数据系统安全方面设置功能。为了避免网络攻击, 保证信息安全和数据不丢失, 必须对用户操作进行加密; 第四, 当数据不能在一台计算机上操作和执行时, 采用工作组机制和分布式操作。

系统硬件故障、 软件故障、 病毒以及误操作都会使语料库遭到破坏。语料库管理程序必须保证数据能够被恢复。因此, 必要的数据备份必不可少, 语料库管理程序应提供数据备份功能。这就需要多学科交叉融合研究, 语料库的完善必须借助计算机应用, 实现其功能和价值。

4 基于多模态话语分析的旅游翻译语料库应用

4.1 为旅游及相关行业提供翻译依据

随着我国综合实力的不断增强, 国际影响力的不断提升, 旅游业发展日益蓬勃。根据《中国入境旅游发展年度报告2020》, 我国在2019 年接待入境游客达1.45 亿人次, 同比增长2.9%[17]。入境游客与日俱增, 但是与旅游业相关的基础配套设施及服务却跟不上, 尤其在景区标识语、 景点概况、 展品介绍等方面的英文翻译存在巨大的问题。例如, 我国陕西省西安市作为国家乃至世界闻名的历史文化名城, 曾在其著名的大雁塔旅游景点中对古代“药王”孙思邈的英文简介中使用了“drug king”。虽然drug 的语义为药物, 但是还有麻醉、 毒品等语义。以CNKI 检索为例, 在专业词典《汉英社会科学大词典》中释义为“毒品”[18], 因此, 从社会角度来看, 普遍理解为毒品。如果“药王”被解读成“毒王”, 岂不成笑话。虽然该景区紧急将译文撤下,但还是在网络上引起了不少的舆论。此外, 还有语法问题、 语用习惯、 文化差异等造成的翻译乱象,进而对旅游宣传、 历史要素、 人文情怀、 景观环境等翻译不准确、 表达不到位, 对我国文化输出和国际文化交流形成巨大的阻碍。

因此, 全力引导旅游翻译语料库的构建, 可以为旅游及相关行业提供翻译依据, 从而使旅游翻译语料成为国际通识。

4.2 为旅游翻译教学提供选择平台

导游人员作为旅游活动的直接输出者, 极大程度影响了参观游览者对景区及其文化的理解和感受, 进而对中国文化的输出也起到了很大的影响。目前, 我国涉外导游员的语言水平参差不齐, 大部分外语导游只能够对景区的各个景点做翻译式的讲解, 而涉及专业领域如历史背景、 建筑结构等方面的介绍就显得力不从心。究其原因, 主要是因为在旅游翻译领域没有统一的翻译标准, 能够借鉴的语言材料也仅仅来源于景区的英文介绍、 现有相关出版物及导游之间的口口相传和经验总结。例如,在山西省旅游类院校讲授山西英文导游词所使用的教材和大部分参加山西省导游员资格考试的英语口试所使用的参考书目均为2014 年由旅游教育出版社出版的《山西英语导游》。该书作者张杰、 郝从容两位老师在各自专业领域, 通过理论结合实践, 将多年实际带团中使用到的语言结合专业理论而形成的较权威的山西景点英文介绍, 在山西省内使用率非常高。但是, 该书中仍然存在部分专有名词前后翻译不一致, 与景区的官方翻译存在差异等问题。

因此, 在目前的旅游翻译教学中, 急需通过专业的、 标准的、 统一的旅游翻译语料库平台辅助教学, 对教师教学、 学生自学、 学者研究均具有极大的参考价值, 有助于提升语料库的应用效率。

4.3 为旅游业数字化建设提供制度保障

在科技不断进步的背景下, 旅游与科技的融合已成为趋势。虚拟现实、 人工智能等新技术的发展, 为旅游业创造了更多具有互动性和沉浸感的旅游体验。目前, 已有许多国家加强旅游业数字化建设, 将景点或展品放到网上, 为游客提供更为丰富的旅游互动体验和智能化服务。我国在这方面也一直稳步前进, 例如, 我国许多5A 级景区的官方主页, 都提供数字化游览的专栏。但是, 纵观各类网站虽有语言的转换, 但在切换到英文界面后, 大多数网站只是对景区概况、 网页副标题等内容做了翻译, 而对于具体景点和展品的英文介绍却屈指可数或者没有呈现。

以数字化建设走在国内最前列的故宫博物院为例, 英文版的网站界面已经做到非常详实, 在参观导览、 展品介绍、 文化活动等方面的内容都基本和中文界面相匹配。但是, 在数字文物库的英文界面下只是将一些功能区域进行了翻译, 而对于展品的名称却没有做翻译。展品名称翻译的缺失, 必定会降低外国客人游览网站的体验感, 同时, 对于我国文化的输出也产生了一定的阻碍性。展品英文名字的缺失, 一方面是因为展品数量巨大(搜索结果为8 万多件展品)而阻碍了相应的翻译工作, 另一方面是对于各类展品的具体翻译术语是否有标准可依, 翻译是否准确所带来的翻译不确定性而造成的结果。由此可见, 旅游翻译语料库的建设可以为旅游业的数字化建设提供有效的制度保障。

由于语言研究的复杂性和超难度, 政府、 企业、 教育、 相关行业协会需要多主体合力, 形成顶层设计框架体系, 通过具体的政策、 方针展开布局, 承上启下引导旅游这一特色类、 专门性翻译语料的全面开展[19]。虽然建构旅游翻译语料库存在体系庞大、 内容庞杂, 实操困难等问题, 但是“千里之行始于足下”, 在科技信息大爆炸时代, 使旅游翻译有据可依, 为旅游翻译提供信息化、 制度化的保障, 对于旅游业的发展和文化传播具有重大且深远的意义和价值[20]。

5 结 论

综上所述, 旅游翻译语料库的构建, 特别是在多模态话语分析的框架下, 对于传播中华文化具有重要的意义。虽然旅游翻译在连接不同文化和推广旅游业方面发挥着关键作用, 但目前的翻译实践却存在不一致和不规范的问题。因此, 建立一个更加科学和标准化的旅游翻译语料库就显得极为迫切。构建旅游翻译语料库的关键步骤, 包括数据的收集、 整理、 标注和管理, 还要考虑到文化内涵的准确传达和语言的地域特色。此外, 这种语料库在实际应用中还具有一定的潜力, 如为旅游业提供准确的翻译参考, 为翻译教学提供丰富的资源, 以及促进文化的有效传播。总之, 通过跨学科合作和社会各界的共同努力, 旅游翻译语料库的不断完善可以显著提升旅游翻译的质量, 进而增强中华文化在国际舞台上的影响力。

猜你喜欢
语料语料库模态
《语料库翻译文体学》评介
基于语料调查的“连……都(也)……”出现的语义背景分析
国内多模态教学研究回顾与展望
华语电影作为真实语料在翻译教学中的应用
基于JAVAEE的维吾尔中介语语料库开发与实现
基于HHT和Prony算法的电力系统低频振荡模态识别
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
由单个模态构造对称简支梁的抗弯刚度
语料库语言学未来发展趋势