ChatGPT在日语作文润色中的应用

2024-04-14 19:40夏逸慧

知识文库 2024年3期

夏逸慧

本研究通过有效的Prompt指令设计，实现ChatGPT对词汇、语法、标点和格式的润色，同时评价标题与内容关联度、体裁结构完整性以及主题深度和创新亮点。优点包括多语言处理能力，提供语法和拼写检查，并重组句子和段落等。然而，在处理不同长度的作文和进行语法拼写纠正时有限制，仍需结合人工评估，以提供更准确的批改反馈。

ChatGPT是OpenAI开发的强大生成式语言模型，采用Transformer架构，可生成连贯、自然的语言回应。自2022年11月推出以来，GPT-3.5模型一直免费提供，可在多种语言中发挥广泛的应用，包括英语、法语、德语、日语、中文等。该模型具有写作润色服务的能力，能够有效改正语法、拼写、句子结构和连贯性等常见写作问题。然而，在传统的外语写作批改方法中，通常依赖教师进行人工评估和指导，虽然这种方法在提供综合性指导和反馈方面有其优点，但在繁忙的教育环境中难以及时提供精确的、个性化的帮助。因此，深入研究人工智能技术在外语写作批改中的优势和局限性具有重要的理论和实际意义。

不过，尽管ChatGPT在英语写作教学领域得到了广泛研究和应用，但在日语等小语种的写作批改领域，研究相对较少。因此，本研究通过设计有效的Prompt指令，来评估ChatGPT在语法、拼写、句子结构和连贯性方面的效果，以进一步探索ChatGPT在小语种写作批改中的准确性评估，并为提供更准确、高效的外语写作润色服务提供理论和实践支持。

1 外语写作批改领域中人工智能技术的应用现状

20世纪70年代以后，外语写作批改的早期研究主要采用传统的纸质批改方式。传统的人工批改方法具有明显优点，如理解特定语境、文化和语言习惯，提供个性化反馈和指导，改善文本的流畅性和表达效果等。然而，受限于教师数量和时间成本，无法满足大規模学生的需求，并存在反馈滞后问题。学生在日语作文比赛中通过写作指导和批改提高技巧和表达能力。然而，中国的日语教师面临两个问题：不同教师的日语水平和批改能力不一，以及学生的母语非日语，使用翻译软件后往往得到受中文影响的日语翻译，难以实现正确的日语表达。这些挑战突显了外语写作批改方法需要不断改进和创新，以更有效地满足学生需求，提高写作技能和表达能力。

随着自然语言处理（NLP）技术的不断发展，国内外的学者开始将计算机技术应用于外语写作批改领域。从2000年开始，研究的重点逐渐集中在语法和拼写检查方面，采用规则引擎和词典等方法，以实现自动检测和纠正语法和拼写错误。随后，随着机器学习和深度学习的兴起，数据驱动的方法在外语写作批改中得到广泛应用。通过利用大规模语料库和机器学习算法进行模型训练，实现了自动检测和纠正语法、拼写、句子结构和连贯性等方面的错误。自2020年以来，随着人工智能技术的快速发展，像ChatGPT这样的生成式语言模型显著提升了写作批改的效果和用户体验。ChatGPT综合运用规则引擎、语言模型和序列标注算法，自动检测和纠正外语写作中的语法和拼写错误。此外，句法和语义分析技术有助于检测句子结构和语义逻辑问题，并提供改进建议。

因此，传统的写作批改方法与自然语言处理技术的结合为写作批改提供了新的思路和方法，具备实时反馈和个性化建议的潜力。然而，在处理日语写作批改时，仍然面临针对小语种的挑战，可能需要进行更深入的语言学分析，以推动人工智能技术在国内外语写作批改领域的应用和发展。

2 研究设计和实施方法

2.1 数据收集

本研究选取了广州工商学院的本科和专升本学生，涵盖了不同水平和专业背景的参与者。研究数据来源于两个写作比赛：首届“人民中国杯”日语国际写作大赛（比赛1）和第19届中国人日语作文大赛（比赛2）。比赛1由中国外文局亚太传播中心主办，共收集了61篇作文，篇幅为450至500字，主题为大学毕业后的学习和工作计划。比赛2由日本侨报社主办，收录了34篇作文，篇幅为1500至1600字，主题涵盖了中日和平友好条约、中日交流以及中日友好城市等内容。

2.2 评估指标

本研究首先对所收集的作文数据进行预处理，包括去除特殊符号和标点符号，进行分词和句子划分。随后，采用ChatGPT作为外语写作批改工具，并设计了涵盖语法和拼写、词汇选择和改进、句子结构和段落重组等方面的Prompt指令，对作文进行批改和润色，并提供实时的反馈和建议。同时，根据自动评分指标，综合评估作文的标题准确性和吸引力、文体一致性、体裁结构完整性、语言表达清晰度和流畅度，以及主题内容的深度和创新亮点。最后，对评估结果进行分析和解释，并提取有效的改进意见和建议。

3 Prompt指令设计

3.1 润色指令

ChatGPT可根据不同语言指令进行中文和日语的润色工作。使用关键词如“润色”和“修改”即可启动润色功能。对于语法检查和修正，使用指令“请修改语法错误”，将直接修改原文，包括常见语法错误（如动词时态、助词使用）和拼写错误（如假名使用、片假名与平假名混淆）等。然而，在初级日语写作中，重复出现的短句写作问题可能无法有效改善。可采用指令“请用更地道的表达方式重写句子”或“请修正语序”来适当优化。指令“请调整段落结构，使其更具逻辑性”和“请纠正标点错误和格式问题” 用于调整段落结构以及修正标点和格式错误。

若想列出单独词汇和语法错误信息，则使用包含“列出”字样的指令，例如，“请列出错误的语法”，可列出错误的句子片段并提供修改建议。当文本中没有明显的词汇和语法错误时，则会在选词和表达方面给出自然度的改进提示。但是，ChatGPT经常将原文句末的简体（书面体）转换为敬体（口语体），而实际上在书面语写作中，多数情况下使用简体日语进行结尾，使用指令“请将结尾转换为简体”或“请将文章的写作风格调整为正式”等，ChatGPT将相应地进行调整以符合书面语写作的要求。

3.2 评价指令

ChatGPT的使用指令中包括获取对作文标题、内容、句子结构和措辞的意见，以及作文内容的概括性点评。首先，通过指令“请评价标题的准确性和吸引力”考察作文标题的准确性，考察标题是否能准确概括作文内容，通过计算文本相似度和提取关键词来评估标题与作文内容的关联程度。吸引力评价则考察标题中的情感色彩和情绪词汇，判断是否能引起读者的情感共鸣和兴趣。指令“请分析作文的结构和内容”用于识别主题陈述和论证，并分析段落结构。通过比较作文与目标文体或参考文本的文本特征来评估文体一致性，例如，区分正式、学术性的书面语言风格与非正式、口语化的表达方式。

指令“请评价语言表达的清晰度和流畅度”不仅能自动检测和纠正语法和拼写错误，还分析句子结构和语序，并提供词汇选择和表达方式的建议，以评估表达逻辑和连贯性。例如，改善句子的结构和流畅性，润色句子中的主谓宾结构、从句的使用和连词的选择等方面。指令“请评价主题内容的深度和创新亮点”用于分析作文中的主题覆盖范围、细节和支撑以及观点的独特性，并提供相应的反馈和建议。如果作文泛泛而谈，缺乏对主题的深入探讨或具体细节，则能帮助作者进一步拓展思考，提供更具深度和创新性的内容。

4 ChatGPT批改的优势

4.1 语言表达和整体质量

当设计用于日语作文的批改和润色指令时，以下内容描述了这些指令的优势，以改善作文的语言表达和整体质量。首先，利用大规模多语言数据集、语言编码和标记技术，能够处理不同语言的输入。通过跨语言预训练、机器翻译等技术，实现对多种语言文本的理解、翻译和生成。同时，通过语言模型微调、语言适应性和参数调整等方法，提高语言性能和准确度。其次，具备自动检测和纠正语法及拼写错误的能力，包括日语假名拼写、汉字误用、动词和形容词的时态、语气、否定形式，以及名词单复数和代词一致性等常见的词汇错误。此外，还能发现并纠正主谓不一致、时态错误、语序颠倒等语法错误。

并且，ChatGPT关注句子的主谓宾结构、修饰语的运用、从句的引入以及段落之间的过渡句和连接词等方面，并提供相应的改进建议。ChatGPT还能为作文提供段落重组的建议，优化引言、主体段落、对立观点和反驳、结论等部分的逻辑结构。另外，ChatGPT通过设置适应文化的指令，提供关于表达方式、礼貌用语和习语等方面的建议，确保写作更符合日本的文化背景和语言习惯。同时，为特定领域的写作提供相关的词汇、术语和表达方式的建议，提升作文的质量和准确性。

通过 ChatGPT 的引入，日语教师将能够有效地批改学生的作文并支持他们提高写作技能。ChatGPT能够提供多层次的批改，适用于初级、中级和高级学习者，帮助他们在语言使用和写作技巧方面取得持续的进步。此外，提供关于如何使作文更富有情感和吸引力的建议，以提高整体写作的质量和吸引力。

4.2 评分标准和区分度

在作文评改初期，通常使用5分为一个评分区间，如70～75分、80～85分等。评分标准主要包括标题、文体、体裁、语言表达、主题内容和创新亮点这五个方面，并采用扣分式评价方法，表1总结了不同分值范围下对于六个评分项目的不同要求。

ChatGPT主要关注语言表达和主题内容进行评分。作文得分较高的情况包括语言表达清晰、准确传达思想感情（95分），展示独特见解（90分），或进行细节描述（80～85分）。然而，若作文未明确提及正反观点，或在观点表达以及语句使用方面存在不准确，作文得分较低（70～75分）。此外，标题、文体和体裁通常容易获得肯定评价。如果标题准确概括了作文的主题，会得到积极回应（80～85分）。ChatGPT还能准确评价标题与作文内容的关联度，例如，指出作文未清晰反映引言中的比喻（80～85分）。对于体裁结构的完整性，如果作文采用了一致的散文形式，也会得到积极评价（80～85分）。然而，要判断全文是否统一采用简体（书面体）或敬体（口语体），需要更多的指令。

评分区分度不高可能是因为以下因素综合作用：一是训练数据的限制，缺乏多样化的论述文样本，导致对于特定主题或文体的作文评分准确性不高；二是語言模型在理解复杂的语言结构、隐含的意义和特定文化背景方面存在限制，使得评分结果缺乏对作文深层次的理解和评价。三是受训练数据中缺乏创造性和主观因素的考量，无法准确评估作文的独特性和个性风格。四是评分系统无法全面考虑到日本语言使用规范和习惯。

然而，ChatGPT通过大量作文批改后，这一现象得到了改善。例如，在评价获得“人民中国杯”日语国际写作大赛二等奖的作文时，给出了88分，并指出了井底之蛙的谚语引用，突出了对世界的好奇心以及对日语学习的动力等。另一个获得79分的作文评价提到内容充实，但在语言表达和结构方面还有改进的空间。

在这两场写作比赛中，均采用了六位评委进行人工评分，以便选出校级的一二三等奖项。然而，通过对比人工评分和ChatGPT的评分，发现这两种评分方式存在显著的差异。

首先，人工评分涉及评委的主观判断和个人经验，不同评委之间对于作文的语言表达和逻辑结构等方面，存在不同的评分标准，使得同一篇作文存在较大的评分差异。相比之下，ChatGPT的评分基于大规模训练数据中学到的语言模式和规律，具有更强的一致性。然而，由于ChatGPT对语境理解、文化差异和复杂逻辑的理解存在限制，在捕捉主观因素方面表现相对不足。

其次，确保写作比赛中评分标准的一致性至关重要。尽管人工评分能够更好地辨别作文中的创新性和独创性，但ChatGPT具有更统一的评分标准，为客观评分提供了可操作性。但是，这也带来一个潜在问题，即ChatGPT的评分标准可能过于死板，难以全面捕捉作文中的主观元素。

此外，不同的评分参数设置影响了ChatGPT的评分结果。为了提高ChatGPT的自动评分能力，需要优化其核心能力，包括语境理解、文化敏感性以及复杂逻辑处理能力等方面。例如，通过引入更丰富的样本数据，尤其是涉及复杂语境的文本，提高ChatGPT对整篇文章脉络的捕捉能力。并且使用不同的评分参数有助于适应不同类型和难度的作文题目，提高ChatGPT的评分准确性。

总体而言，通过对比人工评分和ChatGPT评分时产生差異的原因，确保ChatGPT在为学生提供准确反馈的同时，提高整体评估效能，为外语教师提供更加便捷、优质的语言评估工具。

5 ChatGPT批改的局限性

ChatGPT是基于大规模文本数据进行训练的，在外语写作批改和润色方面具有一定优势，但仍存在局限性，无法完全替代人类编辑和专业写作教师的角色。首先，作文长度差异会对批改润色效果产生影响。对于1500字的作文，ChatGPT能全面把握主题、内容和逻辑结构，提供准确评分和建议。评分过程中更注重观点深度、论证逻辑和语言表达的丰富性。此外，能识别作文的段落结构和逻辑连接，并提供相关过渡词汇参考。但对于较短的500字作文，ChatGPT的整体理解受限，因此更注重关键观点、准确表达和文结构。

尽管ChatGPT在日语作文润色方面有一定的自动检测和纠正能力，但并不能百分之百保证准确性。特别是在处理复杂的语法结构或特殊用法时，可能会出现错误的纠正或误判。此外，由于ChatGPT难以完全理解日语语境中的隐含意义和特定文化背景，因此提供的修改建议有时不够精确，不适用于特定的写作。

因此，在使用ChatGPT进行写作批改时，有必要结合人工审阅和专业知识来进行补充和校对，尤其是在处理较短的作文或包含复杂语法结构的文本时。日语教师需要充分了解ChatGPT的能力和局限性，以便审查并修正不准确或不符合特定文化和语言习惯的部分，以确保批改的准确性和适用性。这需要教师具备对ChatGPT提供的建议进行审查和完善的专业知识和技能，以充分发挥其辅助写作批改的潜力。

6 结语

ChatGPT在日语作文的润色方面，通过合理的Prompt指令设计，能够有效改进词汇、语法、标点符号和格式，同时提供准确的评价意见。其评价内容包括对作文标题与内容关联度的评估、体裁结构的完整性评价以及主题内容的深度和创新亮点的分析。ChatGPT的批改优势在于其多语言处理能力，提供语法和拼写检查功能，并具备句子结构和段落重组的能力。然而，需要注意的是，在评估不同长度的作文和进行语法拼写纠正时，仍然存在一定的局限性。因此，结合日语教师的人工评估和专业判断，可以使得ChatGPT提供更为全面、准确和及时的反馈跟实时指导。