零基础入门：低显存玩转DeepSeek-R1蒸馏模型Lora微调

用户7218

2025年2月28日修改

开门见山，直接给大家展示微调前后的效果。

微调前：

common.docs_name - LarkCCM_Docs_Menu_Image

微调后：

  在此处可以看到很明显大模型进行微调后口吻已经发生了更改。据笔者使用下来的记录表示，微调后的大模型思考时间更加短暂。​

  接下来，让我们一起逐步完成微调实践，共同优化模型性能！​

一、什么是大模型微调？

  微调就像给一个“学霸”补课，让它从“通才”变成某个领域的“专家”。​

  此处以本文进行微调的医学数据进行举例：​
  假设你有一个很聪明的朋友，他读过全世界的书（相当于大模型的预训练阶段），能和你聊历史、科学、文学等各种话题。​
  但如果你需要他帮你看医学报告，虽然他懂一些基础知识，但可能不够专业。这时候，你给他一堆医学书籍和病例，让他专门学习这方面的知识（这就是微调），他就会变得更擅长医疗领域的问题。​

📖 故事解释：

​
  想象你有一个会画小猫的机器人🤖（这就是预训练模型）。现在你想让它学会画戴帽子的小猫🎩🐱。不需要从头教它画画，只需要给它看很多"戴帽子小猫"的图片，然后说："保持原来的画画能力，但要学会加帽子哦！" 这就是微调！​

📖 生活案例解释：

案例1：智能音箱调方言

•
基础版音箱只会普通话（预训练模型）​

•
给它听100句四川话（微调数据）​

•
现在能听懂"摆龙门阵"（方言理解能力↑）​

案例2：相机滤镜原理

•
原始相机拍所有场景（通用模型）​

•
加载"美食滤镜"参数（微调后的模型）​

•
拍食物时自动增强饱和度（专业能力强化）​

加强版解释：乐高城堡改造成儿童医院

第一步：原有结构 —— 通用乐高城堡

[通用城堡]​
▸ 比喻：就像网购的"标准款城堡积木套装"，有城墙、塔楼、尖顶，能当普通房子用。​
▸ 对应技术：预训练模型（比如ChatGPT），已经学会通用语言能力，但不够专业。​

第二步：局部改造 —— 低成本改装

① 拆尖顶 → 改圆顶​
[尖顶改圆顶]​
▸ 操作：把塔顶的尖积木换成圆积木，更温和可爱。​
▸ 技术含义：微调模型顶层参数（比如修改分类头），让输出风格更适合儿童对话。​

② 加装旋转门​
[旋转门]​
▸ 操作：在门口插入一个可旋转的积木模块，不破坏原有门结构。​
▸ 技术含义：插入适配器模块（Adapter），让模型新增儿科医学术语理解能力，且不干扰原有知识。​

③ 涂装医院标志​
[医院标志]​
▸ 操作：在城堡外墙贴上"十字符号"和卡通动物贴纸。​
▸ 技术含义：特征空间偏移（Feature Shift），调整模型内部表示，让它更关注医疗相关词汇和童趣表达。​

第三步：新功能 —— 变身儿童医院

[儿童医院]​
▸ 成果：改装后的城堡能接待小患者，有玩具区、温和的医生（圆顶），还有专用医疗设备（旋转门）。​
▸ 技术含义：通过轻量改造，通用模型变成"儿科医疗问答机器人"，专精儿童健康咨询。​

二、当前尝试过的硬件配置

显卡：NVIDIA GeForce RTX 4060

cpu：Intel Core i7-13700H

内存： 16G(因为家庭电脑所以日常状态是8.8/15.7GB)

三、微调工作

（1）数据集准备

本文数据集来源，魔搭社区的medical-o1-reasoning-SFT。

本文主要说明，数据集格式是：

  在DeepSeek的蒸馏模型微调过程中，数据集中引入Complex_CoT（复杂思维链）是关键设计差异。若仅使用基础问答对进行训练，模型将难以充分习得深度推理能力，导致最终性能显著低于预期水平。这一特性与常规大模型微调的数据要求存在本质区别。​
​

零基础入门：低显存玩转DeepSeek-R1蒸馏模型Lora微调​

零基础入门：低显存玩转DeepSeek-R1蒸馏模型Lora微调