Skip to content

Latest commit

 

History

History
46 lines (38 loc) · 1.76 KB

File metadata and controls

46 lines (38 loc) · 1.76 KB

数据构建

本项目的训练数据来源于真实心理咨询场景,并使用截至到2024年6月18日最强的一系列大模型使用 CoT、ICL 进行构建,第一版约有180k对问答对数据,请勿用于非法用途。

1、数据准备

首先需要在心理咨询网站上或是其他途径获取真实心理咨询问答数据,在此基础上处理为问答对的形式,可以以 json 进行存储。

2、模型准备

目前较为强大的模型为 GPT-4, Qwen2, DeepSeek, InternLM, GLM-4,可以自行对比各模型的性能,包括但不限于指令跟随能力,幻觉现象,生成文本质量等,以此选择合适的模型,并且准备好模型的 api。

3、数据生成

在这一步上编写好你需要让模型生成的回复的要求,比如心理咨询回复。然后从准备好的问答数据中取出问题,对应的答案作为模型输入参考,然后使用模型生成回复,或者不使用答案作为参考,直接使用问题作为模型输入,然后使用模型生成回复。

此外,可以以收集的问题场景作为参考,如“学习”、“工作”、“生活”,让大模型以此来生成问题,然后使用大模型生成回复。

将上述流程写为自动化脚本,转化为自动化流程,即可完成数据生成。

4、数据格式

训练数据格式有单轮和多轮之分。

  • 单轮对话数据格式为:
{
"conversation":[
        {
            "input": "xxx",
            "output": "xxx"
        }
    ]
}
  • 多轮对话数据格式为:
{
"conversation":[
        {
            "input": "xxx",# 第一轮对话
            "output": "xxx"
        },
        {
            "input": "xxx",# 第二轮对话
            "output": "xxx"
        }
    ]
}