|
大模型要求泛化性和通用性,所以它的数据要求提供了大量数学逻辑、各类知识类学科,工程知识(工艺)、人类价值观。所以大模型的训练数据,基本上是逻辑类数据、知识类数据、价值观类数据三大类。知识类数据最为复杂和庞大,各行各业有各种知识规范原则,有些是会变化的(工艺的变化改进,观念的变化),有些基本不变。逻辑类数据,基本是数学逻辑,公式体系。人类价值观数据是社会性的数据。大模型要减少社会危害性就要保证输出的内容与人类价值观对齐,其实就是符合人类社会规范,避免危害社会大众。
1、知识会变化,模型变化滞后
大模型的对齐范围,基本上就是知识的、逻辑的、观念的对齐,但是知识性的基本是不可靠的,因为变动比较频繁,导致模型训练跟不上时代变化,所以有参考网络搜索数据进行RAG,所以是不是可以说知识这块其实可以不需要加入到对齐体系里面。反正最新的数据还是要去查询的论证(假消息)。
2、价值观念会变,模型变化滞后
价值观在特定问题上是会变的,所以强制大模型去适应所有的价值观是困难的,特别是不同人种,性别,宗教等问题。
3、逻辑类数据
基本不会改变,除非逻辑错了,数学逻辑错误了,这个世界都错了,这类数据最适合进行大模型训练,训练完成的大模型就能具备逻辑能力,能够适应所有的问题解决。
所以,我们看到一个问题,大模型的对齐应该偏向逻辑类推理的数据,与观念价值知识无关,所有可以进行搜索的问题都不是大模型擅长的问题,知识的检索可以很快,不需要大量的参数去记忆这类的知识。比如去记忆乔丹的生平是没有意义的,记忆的事情让RAG去做,逻辑给逻辑。
大模型应该注重智能体的应用核心中的逻辑能力,其他记忆模块,执行模块应该都是一种外设。 |
|