type
Post
status
Published
date
Jun 30, 2023
slug
baize
summary
用chatgpt生成多轮完整对话数据,而不是QA对,从而有更好的效果。同时使用chatgpt做了一个对齐方式代替人类的对齐方式(SDF,Self-Distillation with Feedback)
tags
chatgpt
训练
PEFT
category
LLM
icon
password
😀
用chatgpt生成多轮完整对话数据,而不是QA对,从而有更好的效果。同时使用chatgpt做了一个对齐方式代替人类的对齐方式(SDF,Self-Distillation with Feedback)
notion image

📝 方法

使用自我对话的方式来完成一个多轮对话,具体案例参考。需要一个seed(Quora和stackoverflow问题作为seed),和一个标准模版来帮助chatgpt产生此次对话。
notion image
使用lora对所有线性层微调,使用chatgpt来蒸馏模型(让模型生成4个答案,然后用chatgpt来选一个最好的答案作为label),

🤗 可借鉴

模型规模:
7B,13B,30B
V1(base),V1.5(两个chatGPT,减少prompt对对话长度的占用),V2(加入SDF)版本模型
参数配置:
lora dim = 8

🧬 效果

notion image

📎 核心代码

数据形式

notion image
 
 
多任务训练如何加强 zero-shot 泛化:我的学习笔记Agent Memory 学习笔记:我如何理解智能体长期记忆
Loading...