分享
零基础入门:低显存玩转DeepSeek-R1蒸馏模型Lora微调
输入“/”快速插入内容
零基础入门:低显存玩转DeepSeek-R1蒸馏模型Lora微调
用户7218
用户7218
2025年2月28日修改
开门见山,直接给大家展示微调前后的效果。
微调前:
微调后:
在此处可以看到很明显大模型进行微调后口吻已经发生了更改。据笔者使用下来的记录表示,微调后的大模型思考时间更加短暂。
接下来,让我们一起逐步完成微调实践,共同优化模型性能!
一、什么是大模型微调?
微调就像给一个
“学霸”
补课,让它从
“通才”
变成某个领域的
“专家”
。
此处以本文进行微调的医学数据进行举例:
假设你有一个很聪明的朋友,他读过全世界的书(相当于大模型的
预训练
阶段),能和你聊历史、科学、文学等各种话题。
但如果你需要他帮你
看医学报告
,虽然他懂一些基础知识,但可能不够专业。这时候,你给他一堆医学书籍和病例,让他专门学习这方面的知识(这就是
微调
),他就会变得更擅长医疗领域的问题。
📖
故事解释
:
想象你有一个会画小猫的机器人🤖(这就是预训练模型)。现在你想让它学会画戴帽子的小猫🎩🐱。不需要从头教它画画,只需要给它看很多"戴帽子小猫"的图片,然后说:"保持原来的画画能力,但要学会加帽子哦!" 这就是微调!
📖
生活案例解释:
案例1:智能音箱调方言
•
基础版音箱只会普通话(预训练模型)
•
给它听100句四川话(微调数据)
•
现在能听懂"摆龙门阵"(方言理解能力↑)
案例2:相机滤镜原理
•
原始相机拍所有场景(通用模型)
•
加载"美食滤镜"参数(微调后的模型)
•
拍食物时自动增强饱和度(专业能力强化)
加强版
解释:乐高城堡改造成儿童医院
第一步:原有结构 —— 通用乐高城堡
[通用城堡]
▸
比喻
:就像网购的"标准款城堡积木套装",有城墙、塔楼、尖顶,能当普通房子用。
▸
对应技术
:预训练模型(比如ChatGPT),已经学会通用语言能力,但不够专业。
第二步:局部改造 —— 低成本改装
① 拆尖顶 → 改圆顶
[尖顶改圆顶]
▸
操作
:把塔顶的尖积木换成圆积木,更温和可爱。
▸
技术含义
:微调模型顶层参数(比如修改分类头),让输出风格更适合儿童对话。
② 加装旋转门
[旋转门]
▸
操作
:在门口插入一个可旋转的积木模块,不破坏原有门结构。
▸
技术含义
:插入适配器模块(Adapter),让模型新增儿科医学术语理解能力,且不干扰原有知识。
③ 涂装医院标志
[医院标志]
▸
操作
:在城堡外墙贴上"十字符号"和卡通动物贴纸。
▸
技术含义
:特征空间偏移(Feature Shift),调整模型内部表示,让它更关注医疗相关词汇和童趣表达。
第三步:新功能 —— 变身儿童医院
[儿童医院]
▸
成果
:改装后的城堡能接待小患者,有玩具区、温和的医生(圆顶),还有专用医疗设备(旋转门)。
▸
技术含义
:通过轻量改造,通用模型变成"儿科医疗问答机器人",专精儿童健康咨询。
二、当前尝试过的硬件配置
显卡:NVIDIA GeForce RTX 4060
cpu:Intel Core i7-13700H
内存: 16G(因为家庭电脑所以日常状态是8.8/15.7GB)
三、微调工作
(1)数据集准备
本文数据集来源,魔搭社区的medical-o1-reasoning-SFT。
本文主要说明,数据集格式是:
在DeepSeek的蒸馏模型微调过程中,数据集中引入
Complex_CoT(复杂思维链)
是关键设计差异。若仅使用基础问答对进行训练,模型将难以充分习得深度推理能力,导致最终性能显著低于预期水平。这一特性与常规大模型微调的数据要求存在本质区别。