大模型的对齐范围讨论

君子傲つ · 发表于 2025-1-23 10:32:47

大模型要求泛化性和通用性，所以它的数据要求提供了大量数学逻辑、各类知识类学科，工程知识（工艺）、人类价值观。所以大模型的训练数据，基本上是逻辑类数据、知识类数据、价值观类数据三大类。知识类数据最为复杂和庞大，各行各业有各种知识规范原则，有些是会变化的（工艺的变化改进，观念的变化），有些基本不变。逻辑类数据，基本是数学逻辑，公式体系。人类价值观数据是社会性的数据。大模型要减少社会危害性就要保证输出的内容与人类价值观对齐，其实就是符合人类社会规范，避免危害社会大众。
1、知识会变化，模型变化滞后
大模型的对齐范围，基本上就是知识的、逻辑的、观念的对齐，但是知识性的基本是不可靠的，因为变动比较频繁，导致模型训练跟不上时代变化，所以有参考网络搜索数据进行RAG，所以是不是可以说知识这块其实可以不需要加入到对齐体系里面。反正最新的数据还是要去查询的论证（假消息）。
2、价值观念会变，模型变化滞后
价值观在特定问题上是会变的，所以强制大模型去适应所有的价值观是困难的，特别是不同人种，性别，宗教等问题。
3、逻辑类数据
基本不会改变，除非逻辑错了，数学逻辑错误了，这个世界都错了，这类数据最适合进行大模型训练，训练完成的大模型就能具备逻辑能力，能够适应所有的问题解决。
所以，我们看到一个问题，大模型的对齐应该偏向逻辑类推理的数据，与观念价值知识无关，所有可以进行搜索的问题都不是大模型擅长的问题，知识的检索可以很快，不需要大量的参数去记忆这类的知识。比如去记忆乔丹的生平是没有意义的，记忆的事情让RAG去做，逻辑给逻辑。
大模型应该注重智能体的应用核心中的逻辑能力，其他记忆模块，执行模块应该都是一种外设。

浓绮小公主 · 发表于 2025-1-23 10:59:27

好东西，谢谢楼主

[聊技术] 大模型的对齐范围讨论