分享
task04 如何做好一个微调工作
输入“/”快速插入内容
🥷
task04 如何做好一个微调工作
2024年6月17日创建
7845
9493
11
1
💡
教程写作者说:
我认为做好一个小说微调工作本身是一个迭代的过程,你在不断地实践中会发现很多问题。
你会不断尝试很多很新颖的方法,一点点打磨自己想法让结果达到最完美的效果。
这节我们会根据baseline的思路介绍所有细节,
如果想拿到更高的分数不妨耐心找找自己还缺什么、然后实践吧~
接下来的赛事之路,我们一起互相交流,期待榜单上能看见你的名字名列前茅!
画板
1.
数据准备
1.0 数据的一生
画板
1.1 训练格式规范
LLM 的微调一般指指令微调过程。所谓指令微调,是说我们使用的微调数据形如:
代码块
JSON
{
"instruction":"回答以下用户问题,仅输出答案。",
"input":"1+1等于几?",
"output":"2"
}
其中,
instruction
是用户指令,告知模型其需要完成的任务;
input
是用户输入,是完成用户指令所必须的输入内容;
output
是模型应该给出的输出。
即我们的核心训练目标是让模型具有理解并遵循用户指令的能力。因此,在指令集构建时,我们应针对我们的目标任务,针对性构建任务指令集。
1.2 小说数据介绍
我们先来简单看一下数据格式
代码块
JSON
[
{
"name": "三国演义",
"len": 593514,
"dir": "./douban_yamaxun//D-三国演义-10.json",
"text": ...
},
{
"name": "水浒传",
"len": 852570,
"dir": "./douban_yamaxun//D-水浒传-10.json",
"text": ...
}
]
下面是具体字段的介绍:
•
name
:小说名
•
len
:小说字符数
•
text
:小说内容
数据统计
数据集中,总共有17本小说,12本来自豆瓣亚马逊,5本来自books(世界名著等),小说中有类似文言文的中国传统小说,如四大名著等,也有白话的世界名著中文译本和传统的神话志异小说。每个小说中所含字符数量跟在书籍名称前面。