量子位公众号 QbitAI

南大与旷视研究院的研究人员推出了一种适用于视觉大模型(VLM)的无监督范式,解决了视觉大模型的偏好对齐问题。这一新方法无需GPT-4或人类打标签,通过构造偏好样本对,显著改善了模型的输出质量。

研究背景

当前的视觉大模型虽然在性能上已经比较成熟,但在用户体验方面仍存在不足。模型往往不遵循指令、产生幻觉回答,并且可能违背“帮助、有害、诚实”(3H)准则。为了提升用户体验,研究团队提出了一种新的无监督范式:Self-Supervised Visual Preference Alignment(SeVa)。

无需人类或GPT-4打标签!

SeVa范式

SeVa基于LLaVa-1.5-7B/13B模型进行开发,无需依赖GPT-4或人类打标签。该范式的关键在于通过构建正负样本对比数据集,自动化地完成偏好数据的构造,用于模型的对齐训练。

具体方法

1. 构建正负样本对比数据集

研究团队发现,视觉大模型(VLM)对图像层面的扰动非常敏感。轻微的图像增广可能导致VLM对同一个问题产生错误且不同的回答。基于这一观察,团队将原始图像的回答作为正样本,将增广后图像的回答作为负样本,构造了一个偏好数据集。

2. 实验与结果

作者通过严格的实验,从多个角度展示了这一自动化偏好数据构造方法对多模态理解和用户友好性的提升。在实验中,团队在LLaVA-1.5的测试阶段引入多种图像层面的扰动,并在三个常规的多模态基准测试上运行,结果显示,SeVa显著提高了模型的稳定性和准确性。

优势与应用

SeVa范式通过无监督学习的方式,解决了多模态对齐过程中偏好数据昂贵且稀缺的问题。它不仅提高了VLM在多模态任务中的表现,还大幅减少了对人类参与和高成本数据的依赖。

结论

南大与旷视研究院的研究展示了在不依赖人类或GPT-4打标签的情况下,如何有效解决视觉大模型的偏好对齐问题。SeVa范式的提出,为视觉语言模型的研究和应用提供了新的思路和方向。该方法不仅在学术界引起了广泛关注,也为工业界提供了高效、低成本的解决方案。

通过这一研究,视觉大模型在用户体验上的不足得到显著改善,进一步推动了视觉语言模型的发展和应用。未来,SeVa有望在更多实际场景中得到应用,为用户提供更优质的视觉语言服务.

Leave a Reply

Your email address will not be published. Required fields are marked *