Skip to content

为什么不使用增训方式构造大模型 #6

@zt1112

Description

@zt1112

很棒的工作,有两个疑惑希望作者帮助解答下:

1、类似的行业大模型会采用先增训再用指令数据集SFT的方案,请教下这里为什么考虑直接使用SFT呢?
2、SFT方案对安全领域的知识扩充是否足够,不知道作者有没有这方面的实验,多谢

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions