📖
Task2：从baseline代码详解入门深度学习

2024年7月4日创建

8898

13065

💡

教程贡献者说：

前面我们介绍了如何一键跑通 baseline和初步理解赛题，详情可以回顾 ​从零入门NLP竞赛和 ​Task1：了解机器翻译 & 理解赛题。​

今天我们的任务是对baseline代码做具体解析，让你知其然更知其所以然！​

你可以从中学会 Seq2Seq模型结构、中英文分词、循环神经网络（RNN）、门控循环单元（Gated Recurrent Unit，GRU）等。​

让你的上分之路更加顺畅~

基于 Seq2Seq 的 Baseline 详解

在 task1 中我们已经提到了，当前机器翻译任务的主流解决方案是基于神经网络进行建模，依据赛题背景中意思，也是希望我们能用神经网络解决此英文翻译中文的任务。​

common.docs_name - LarkCCM_Docs_Menu_Image

通常我们基于神经网络解决机器翻译任务的流程如下：

画板

本节使用代码如下：

Task2-baseline-2024-07-16.ipynb

26.60KB

1.
配置环境​

运行环境我们还是基于魔搭平台进行模型训练，这里不再重复说明。另外，有几个包需要额外安装：

•
torchtext ：是一个用于自然语言处理（NLP）任务的库，它提供了丰富的功能，包括数据预处理、词汇构建、序列化和批处理等，特别适合于文本分类、情感分析、机器翻译等任务​

•
jieba：是一个中文分词库，用于将中文文本切分成有意义的词语​

•
sacrebleu：用于评估机器翻译质量的工具，主要通过计算BLEU（Bilingual Evaluation Understudy）得分来衡量生成文本与参考译文之间的相似度​

代码块

!pip install torchtext    ​
!pip install jieba​
!pip install sacrebleu​

•
spacy：是一个强大的自然语言处理库，支持70+语言的分词与训练​

这里，我们需要安装 spacy 用于英文的 tokenizer（分词，就是将句子、段落、文章这种长文本，分解为以字词为单位的数据结构，方便后续的处理分析工作），不同环境的安装请参考：https://spacy.io/usage，如果使用魔搭平台，可按照下图中的配置进行安装：

画板

🎼

需要注意的是，使用命令!python -m spacy download en_core_web_trf安装 en_core_web_sm 语言包非常的慢，经常会安装失败，这里我们可以离线安装。由于en_core_web_sm 对 spacy 的版本有较强的依赖性，你可以使用 pip show spacy 命令在终端查看你的版本，可以看到我的是 3.7.5 版本的 spacy。​