🥷
task04 如何做好一个微调工作

2024年6月17日创建

8729

10451

💡

教程写作者说：

我认为做好一个小说微调工作本身是一个迭代的过程，你在不断地实践中会发现很多问题。​

你会不断尝试很多很新颖的方法，一点点打磨自己想法让结果达到最完美的效果。​

这节我们会根据baseline的思路介绍所有细节，

如果想拿到更高的分数不妨耐心找找自己还缺什么、然后实践吧~​

接下来的赛事之路，我们一起互相交流，期待榜单上能看见你的名字名列前茅！​

画板

1.
数据准备​

1.0 数据的一生

画板

1.1 训练格式规范

LLM 的微调一般指指令微调过程。所谓指令微调，是说我们使用的微调数据形如：​

代码块

{​
    "instruction":"回答以下用户问题，仅输出答案。",​
    "input":"1+1等于几?",​
    "output":"2"​
}​

其中，instruction 是用户指令，告知模型其需要完成的任务；input 是用户输入，是完成用户指令所必须的输入内容；output 是模型应该给出的输出。​

即我们的核心训练目标是让模型具有理解并遵循用户指令的能力。因此，在指令集构建时，我们应针对我们的目标任务，针对性构建任务指令集。​

1.2 小说数据介绍

我们先来简单看一下数据格式

代码块

[​
    {​
        "name": "三国演义",​
        "len": 593514,​
        "dir": "./douban_yamaxun//D-三国演义-10.json",​
        "text": ...​
    },​
    {​
        "name": "水浒传",​
        "len": 852570,​
        "dir": "./douban_yamaxun//D-水浒传-10.json",​
        "text": ...​
    }​
]​

下面是具体字段的介绍：

•
name：小说名​

•
len：小说字符数​

•
text：小说内容​

common.docs_name - LarkCCM_Docs_Menu_Image

数据统计

数据集中，总共有17本小说，12本来自豆瓣亚马逊，5本来自books（世界名著等），小说中有类似文言文的中国传统小说，如四大名著等，也有白话的世界名著中文译本和传统的神话志异小说。每个小说中所含字符数量跟在书籍名称前面。​