序号 | 问题 | 回复 |
1 | 在大模型中有时会出现为分词分配token不当而导致一些离谱的错误,那么在transform模型中其自注意力机制在为分词分配权重时是否会出现类似情况导致上下文丢失从而导致错误?如果有该如何优化这种问题? | |
2 | 翻译中的重复现象怎么出现的,如何减少这种现象? | |
3 | task3代码训练过一次结果正常;之后再训练得到模型一直只输出同一个字。 跑的代码一样,相比给的代码修改了数据集构造部分,模型结构没变,tokenizer改成了Bert的tokenizer。 这个数据在task2 rnn是正常的,之前task3也调成功过一次;但之后训练得到的模型一直是重复“的”字,怎么调也没效果。 可能是参数修改问题,但调成和给定的notebook一样的数据得到的结果还是一直重复一个字。 更新:已解决,优化器有问题…… | |
4 | 提了很多问题,首先非常感谢大佬的解答,下面是问题,辛苦了! Q1:数据增强里面将英文翻译为中文后再将中文翻译回英文作为新数据集这个是怎么做的,本来模型训练的时候不是英文翻译为中文吗,如果要将中文翻译回英文是不是要重新训练,毕竟训练的时候英文、中文句子分别在encoder和decoder中输入。 Q2:将模型进行训练后通过数据增强来生成新的数据,这里我们训练的模型我感觉比原先的训练样本质量是要低的,如果将模型生成的新样本加入训练样本重新训练是否会导致模型性能更差(理解上来说模型可能会被带偏) Q3:机器翻译是nlp里面最简单的问题吗 Q4: (将文本翻译成多种语言后再翻译回原语言,以获得多样化翻译。)-----这个新生成的样本不是原来的英文到中文的翻译,为什么有助于模型效果提升 Q5: (在模型内部动态地调整术语的嵌入,这涉及到在模型中加入一个额外的层,该层负责查找术语词典中的术语,并为其生成专门的嵌入向量,然后将这些向量与常规的词嵌入结合使用)------这部分可以简单扩充讲一下吗,是将术语添加到中英文的词汇表中训练吗 Q6:不同的encoder、decoder个数、epochs、embedding dim等等参数的调整是否有一些技巧来根据刚开始原本数据的数据量和长度等基本信息来初步设定比较好的参数值 Q7:bert作为预训练模型是不是无法在这次比赛中应用 Q8:同样用transformer模型,模型参数和数据质量哪个对模型翻译提升效果帮助会更大点(一般情况下) Q9:您提供的存储数据字典里translated_words = [term_dict.get(word, word) for word in translation]这一块代码进行替换是否有问题,因为term_dict是英文到中文的映射,但translation得到的是中文,中文怎么里有问题的翻译应该怎么矫正为术语【群友评论:确实有问题,应该先替换再进Transformer,刚才搞了好半天】 | |