概述LoRA 通过低秩适配器减少可训练参数;QLoRA 结合 4bit 量化与 LoRA,在保持精度的同时显著降低显存需求,支持在单卡上微调更大的模型。LoRA 与 QLoRA 的机制要点LoRA:在特定线性层插入低秩适配器(秩 r),仅训练少量新增参数,保持基座权重冻结,提升微调效率。QLoRA:将预训练权重量化到 4bit(如 NF4),计算时反量化到 BF16 进行矩阵乘法;引入双重量化节省常量存储,并在更多全连接层插入适配器以弥补精度损失[参考1,2,3,5]。显存与参数建议使用 NF4 与双重量化可进一步压缩显存(对 65B 量级模型节省约数 GB 的量级,具体取决于实现与常量规模)[参考1,2,3]。微调时优先冻结基座参数,仅训练 Adapter;根据任务复杂度选择合适的秩 r 与插入位置(Q/V/所有全连接层)。注意事项量化误差与任务适配:对知识密集任务需评估 4bit 量化的影响;通过增设适配层与调参与数据清洗降低误差。优化器与分页策略:结合分页优化器降低显存峰值并稳定训练过程[参考1]。参考与验证[参考1]知乎:LoRA/QLoRA 原理笔记(NF4、双重量化、分页优化器):https://zhuanlan.zhihu.com/p/671089942[参考2]博客园:LoRA 与 QLoRA 机制与内存占用(65B 级显存需求对比与实践):https://www.cnblogs.com/xiaofengzai/p/17503544.html[参考3]CSDN:LoRA/QLoRA 技术综述与实践(4bit NF4 与双重量化细节):https://blog.csdn.net/Gefangenes/article/details/131468405[参考4]CSDN:QLoRA 技术概述与单卡微调实践:https://blog.csdn.net/u013172930/article/details/147363767[参考5]知乎:参数高效微调综述(QLoRA 论文与实验结论):https://zhuanlan.zhihu.com/p/636215898关键词校验关键词围绕 LoRA/QLoRA、量化与显存一致。

发表评论 取消回复