分享
Task2:从baseline代码详解入门深度学习
输入“/”快速插入内容
📖
Task2:从baseline代码详解入门深度学习
2024年7月4日创建
8898
13065
15
5
💡
教程贡献者说:
前面我们介绍了
如何
一键跑通 baseline
和初步理解赛题,
详情可以回顾
从零入门NLP竞赛
和
Task1:了解机器翻译 & 理解赛题
。
今天我们的任务是
对baseline代码做具体解析,让你
知其然更知其所以然
!
你可以从中学会
Seq2Seq模型结构、中英文分词、循环神经网络(RNN)、门控循环单元(Gated Recurrent Unit,GRU
)等
。
让你的上分之路更加顺畅~
基于
Seq2Seq 的
Baseline 详解
在 task1 中我们已经提到了,当前机器翻译任务的主流解决方案是
基于神经网络
进行建模,依据赛题背景中意思,也是希望我们能用神经网络解决此英文翻译中文的任务。
通常我们基于神经网络解决机器翻译任务的流程如下:
画板
本节使用代码如下:
Task2-baseline-2024-07-16.ipynb
26.60KB
1.
配置环境
运行环境我们还是基于
魔搭
平台进行模型训练,这里不再重复说明。另外,有几个包需要额外安装:
•
torchtext
:是一个用于自然语言处理(NLP)任务的库,它提供了丰富的功能,包括数据预处理、词汇构建、序列化和批处理等,特别适合于文本分类、情感分析、机器翻译等任务
•
jieba
:
是一个中文分词库,用于将中文文本切分成有意义的词语
•
sacrebleu
:用于评估机器翻译质量的工具,主要通过计算BLEU(Bilingual Evaluation Understudy)得分来衡量生成文本与参考译文之间的相似度
代码块
Shell
!pip install torchtext
!pip install jieba
!pip install sacrebleu
•
spacy
:是一个强大的自然语言处理库,支持70+语言的分词与训练
这里,我们需要安装 spacy 用于英文的
tokenizer(分词,就是将句子、段落、文章这种长文本,分解为以字词为单位的数据结构
,方便后续的处理分析工作),不同环境的安装请参考:
https://spacy.io/usage
,如果使用魔搭平台,可按照下图中的配置进行安装:
画板
🎼
需要注意的是,使用命令
!python -m spacy download en_core_web_trf
安装 en_core_web_sm 语言包
非常的慢,经常会安装失败
,这里我们可以
离线安装
。
由于en_core_web_sm 对 spacy 的版本有较强的依赖性,你可以使用
pip show
s
pac
y
命令在终端查看你的版本,可以看到我的是
3.7.5 版本的 spacy。