💉
Task2：深入理解赛题，入门RNN和特征工程

2024年7月17日创建

5025

6562

内容梗概

本任务我们对官方的baseline进行分析解读，之后介绍RNN相关的基础知识，包括其适用范围和问题。随后，我们从特征工程构建的角度来重新分析赛题数据，并将其和lightgbm结合，最终给出一个更好的baseline。​

官方baseline分析

本节我们对官方版本的baseline进行解读，理解其含义。

task3.2_siRNA.ipynb

31.69KB

在baseline中，我们只用到了siRNA_antisense_seq和modified_siRNA_antisense_seq_list，它们都是由一串符号标记的序列，我们希望的是把这些序列特征能够输入RNN模型，因此需要对其做一定处理。在SiRNAModel类的forward方法中，展示了在得到序列特征的tensor表示后的处理步骤：​

代码块

def forward(self, x):​
    # 将输入序列传入嵌入层​
    embedded = [self.embedding(seq) for seq in x]​
    outputs = []​
    ...​

那么这里的输入x是什么呢？我们可以通过train_loader来查看一个batch内的输入情况，这里的inputs和上面的x是一个东西。我们首先发现inputs包含两个元素，它们分别对应的是前面提到的两个使用的特征，每个元素的尺寸都是64*25，64代表batch的大小，25代表序列的长度。这里我们可以从inputs[0][0]看到每一行数据的siRNA_antisense_seq被向量化后的情况，这个例子中我们发现前面的7位是非零数，表示其序列编码后每一位的唯一标识；而后面都是0，这是因为RNN模型的输入需要每个样本的长度一致，因此我们需要事先算出一个所有序列编码后的最大长度，然后补0。​

common.docs_name - LarkCCM_Docs_Menu_Image

那么我们怎么能得到这个唯一标识呢？我们首先需要把序列给进行分词，siRNA_antisense_seq的分词策略是3个一组（GenomicTokenizer的ngram和stride都取3）进行token拆分，比如AGCCGAGAU会被分为[AGC, CGA, GAU]，而modified_siRNA_antisense_seq_list会进行按照空格分词（因为它本身已经根据空格分好了）。由此我们可以从整个数据集构建出一个词汇表，他负责token到唯一标识（索引）的映射：​

代码块

# 创建词汇表​
all_tokens = []​
for col in columns:​
    for seq in train_data[col]:​
        if ' ' in seq:  # 修饰过的序列​
            all_tokens.extend(seq.split())​
        else:​
            all_tokens.extend(tokenizer.tokenize(seq))​
vocab = GenomicVocab.create(all_tokens, max_vocab=10000, min_freq=1)​

有了这个词汇表，我们就可以

•
来获得序列的最大长度​

代码块

max_len = max(max(len(seq.split()) if ' ' in seq else len(tokenizer.tokenize(seq)) ​
                    for seq in train_data[col]) for col in columns)​

•
在loader获取样本的时候把token转为索引​

代码块

def __getitem__(self, idx):​
    # 获取数据集中的第idx个样本​
    row = self.df.iloc[idx]  # 获取第idx行数据​
    ​
    # 对每一列进行分词和编码​
    seqs = [self.tokenize_and_encode(row[col]) for col in self.columns]​
    if self.is_test:​
        # 仅返回编码后的序列（测试集模式）​
        return seqs​
    else:​
        # 获取目标值并转换为张量（仅在非测试集模式下）​
        target = torch.tensor(row['mRNA_remaining_pct'], dtype=torch.float)​
        # 返回编码后的序列和目标值​
        return seqs, target​
​
def tokenize_and_encode(self, seq):​
    if ' ' in seq:  # 修饰过的序列​
        tokens = seq.split()  # 按空格分词​
    else:  # 常规序列​
        tokens = self.tokenizer.tokenize(seq)  # 使用分词器分词​
    ​
    # 将token转换为索引，未知token使用0（<pad>）​
    encoded = [self.vocab.stoi.get(token, 0) for token in tokens]​
    # 将序列填充到最大长度​
    padded = encoded + [0] * (self.max_len - len(encoded))​
    # 返回张量格式的序列​
    return torch.tensor(padded[:self.max_len], dtype=torch.long)​