☁️
Task2：抽丝剥茧——降水预测baseline详解

2024年7月17日创建

5445

6791

💡

教程贡献者说：

前面我们跑通了baseline, 拿到了在本次极端降水预测中的第一个成绩，相信大家也对本次的学习充满了信心，那么我们就在第一次的基础上，继续深入!​

今天我们的任务是精读baseline代码, 对赛题进行更为全面的解读, 从而进一步了解torch在搭建模型中的使用​

你可以从中学会如何去搭建一个降水预测模型, 同时对伏羲气象大模型也有一定的了解​

让我们坚持学习, 变得更强！

必知概念入门

Part1 精读baseline——如何针对降水预测问题搭建模型

在前面的任务中, 我们拿到baseline文件后, 根据教程指示顺畅通关, 似乎没有什么问题。然而可能有一些细心的同学会发现，助教老师在代码文件中还添加了一些注释笔记——正是这些内容, 大致解读了baseline文件中每一步骤的作用.​

回顾baseline, 我们可以大致将搭建模型并解决问题分为以下几个步骤:​

1.
定义数据集, 建立起训练数据和标签之间的关系；定义数据加载器(DataLoader)， 方便取数据进行训练​

2.
定义模型, 利用PyTorch搭建网络，根据输入输出数据维度实例化模型​

3.
定义损失函数, 优化器, 训练周期, 训练模型并保存模型参数​

4.
模型加载及推理(模型预测)，输入测试数据输出要提交的文件​

有了大概的判断了, 接下来我们就逐代码块进行讲解:

1.
是在魔搭平台上, 安装运行baseline所必须的库, 命令pip install xxx是一个运行于终端的shell语句, 通过前面加上 ! 符号使之可以从notebook中运行​

2.
第二部分即导入执行下面语句所需要的函数库 ​

3.
第三部分是数据集的一些相关配置，feature_path和gt_path分别是官方提供的train.xxx数据和gt.xxx数据存放的路径. ​
a.
其中 feature_path存放的路径需要如下图文件树所示：​
feature​
└── 2021​
    ├── 20210101-00​
    │   ├── 006.nc​
    │   ├── 012.nc​
    │   ├── 018.nc​
    │   ├── 024.nc​
    │   ├── 030.nc​
    │   ├── 036.nc​
    │   ├── 042.nc​
    │   ├── 048.nc​
    │   ├── 054.nc​
    │   ├── 060.nc​
    │   ├── 066.nc​
    │   └── 072.nc​
b.
gt_path存放的路径如下图文件树所示：​
groundtruth​
├── 2019.nc​
├── 2020.nc​
└── 2021.nc​
c.
定义年份的列表, 里面可以存放"2019", "2020", "2021"三个年份, 根据自己数据集挑选时使用的那年数据, 就在这个列表中增加相应的年份的字符串即可​
d.
fcst_steps是一个存放了从1-72数字的列表, 因为我们的预报是从1-72小时的, 这个数据在之后的数据集加载也会用到​