输入“/”快速插入内容

Task1:了解机器翻译 & 理解赛题

2024年7月4日创建
3318
6484
20
9
本文讨论了机器翻译的发展历程、机器学习和深度学习项目中数据集的划分方法、基于术语词典干预的机器翻译挑战赛的赛题解析,以及对baseline提升的尝试与思考。关键要点包括:
1.
机器翻译发展历程:从20世纪50年代至今,经历基于规则、统计、神经网络方法的演变,未来朝着智能化、个性化发展。
2.
数据集划分:在机器学习和深度学习项目中,数据集分为训练集、开发集、测试集,分别用于训练模型、调整超参数和评估最终性能。
3.
赛题解析:以英文为源语言、中文为目标语言,提供双语数据和术语词典,参赛队伍构建训练模型并提交结果,用BLEU-4评估。
4.
赛题数据:训练集有中英14万余双语句对,开发集和测试集各有英中1000双语句对,术语词典英中2226条。
5.
评估指标BLEU-4:用于衡量翻译与参考译文相似度,介于0到1之间,1为完美匹配。
6.
baseline提升:尝试调整参数N和N_EPOCHS,对比前后分数,分析差异及影响效果的因素。
💡
教程贡献者说:
我们今天的首要任务是学会如何在魔搭平台上运行代码,并在讯飞比赛官网提交合规的结果!具体的步骤可回到📖从零入门NLP竞赛(也是Task1) 进行查看。
知其然,还需知其所以然,在这个文档,我们就来一起聊聊了解机器翻译的发展历程,并学习在机器学习和深度学习项目中如何划分数据集;
在实操体验过过具体的代码运行后,相信你在查看下面的理论时会更有体会,更容易将今天的实践融会贯通~
你可以仔细想想下面的内容与赛题的关系,以及baseline代码的关系,然后在群里和大家多多交流、互相分享心得和体会~
一、机器翻译的发展历程
机器翻译(Machine Translation,简称MT)是自然语言处理领域的一个重要分支,其目标是将一种语言的文本自动转换为另一种语言的文本。机器翻译的发展可以追溯到20世纪50年代,经历了从基于规则的方法、统计方法到深度学习方法的演变过程。
1.
基于规则的机器翻译(1950s-1980s)
早期的机器翻译系统主要采用基于规则的方法,即利用语言学家编写的语法规则和词典进行翻译。这种方法需要对源语言和目标语言的语法和词汇有深入的理解,但其灵活性和适应性较差,难以处理复杂的语言结构和多义词问题。
基于规则的机器翻译是机器翻译任务的第一套解决方案,它基于“每一种语义在不同的语言当中都存在与其相对应的符号”这一假设。对于某种语言中的大多数单词而言,通常都能够在另一种语言当中找到表达相同含义的对应的单词。在这类方法当中,翻译过程通常被看作一个源语言的词替换过程。
之所以被称为“基于规则的方法”,是因为同一种语义在不同的语言当中通常会以不同的词序去表达,词替换过程相对应地需要两种语言的句法规则作为指导。源语言中的每一个单词需要被放置在目标语言中相对应的位置。基于规则的机器翻译方法的理论非常简洁清晰,但在实践中的性能却不尽如人意。这是由于选择与给定源语言相适配的句法规则在计算上非常低效。同时,为了应对多样的语言现象,语言学家们设计了规模庞大的句法规则。
但是,这些规则很难被有效地组织,甚至会出现不同规则相互矛盾的情况。基于规则的方法最严重的缺陷在于其缺乏翻译过程中对上下文信息的建模,这使得基于规则的翻译模型的鲁棒性不佳。
2.
基于统计的机器翻译(1990s-2000s)
随着计算机性能的提升和大规模平行语料库的出现,统计机器翻译开始兴起。这种方法通过分析大量双语文本,自动学习源语言和目标语言之间的对应关系,从而实现翻译。统计机器翻译在处理多义词和语言变异方面表现出更好的效果,但由于其依赖于大量训练数据,对于资源匮乏的语言支持不足。
与基于规则的机器翻译方法不同,统计机器翻译完全从数据驱动的角度建模机器翻译任务。具体来说,通过对双语语料库的统计找到表达相同含义的单词或短语。给定一个源语言句子,统计机器翻译首先将其分割成若干个子句,接下来每个部分可以被目标语言的单词或短语替代。
统计机器翻译中最主流的方法是基于词的统计机器翻译(Word-based MT)以及基于短语的统计机器翻译(Phrase-based SMT),总体上来看包含预处理、句子对齐、词对齐、短语抽取、短语特征准备、语言模型训练等步骤。
3.
基于神经网络机器翻译(2010s-present)
神经网络方法在机器翻译任务上的应用可以追溯到上世纪八九十年代。但受限于当时的计算资源和数据规模的限制,神经网络方法的性能差强人意,故而其发展停滞了很多年。
近年来,深度学习技术的快速发展推动了神经网络机器翻译(Neural Machine Translation,简称NMT)的兴起。NMT使用深度神经网络模型,如长短期记忆网络(LSTM)和 Transformer,能够自动学习源语言和目标语言之间的复杂映射关系,无需人工设计特征或规则。NMT在翻译质量、速度和适应性方面取得了显著进步,成为当前机器翻译领域的主流方法。
4.
未来发展趋势
当前,机器翻译正朝着更加智能化和个性化方向发展。一方面,结合上下文理解、情感分析等技术,提高翻译的准确性和自然度;另一方面,通过用户反馈和个性化学习,提供更加符合用户需求的翻译服务。同时,跨语言信息检索、多模态翻译等新兴领域也正在成为研究热点。
总的来说,机器翻译的发展历程是从规则驱动到数据驱动,再到智能驱动的过程,反映了自然语言处理技术的进步和应用需求的变化。
二、数据划分