厦门大学和腾讯优图团队近日发布了一种名为“Cantor”的决策感知多模态思维链架构,无需额外训练即可显著提升性能。这一突破性技术在ScienceQA和MathVista等基准测试中表现出色,展示了多模态大模型的新潜力。

多模态思维链:增强推理能力

思维链(Chain-of-Thought, CoT)是一种通过添加中间推理步骤来增强大模型推理能力的方法。然而,在视觉推理任务中,模型需要结合图像信息进行具体分析,多模态思维链应运而生。

Cantor架构赋予多模态大语言模型(MLLM)或大语言模型(LLM)类似合唱团领唱员的协调能力,使其能够同时处理视觉和文本上下文,形成全面理解并进行决策感知,避免决策幻觉。

创新架构:决策生成与执行

Cantor的架构包含两个主要步骤:决策生成和执行。首先,模型对问题进行分析与解耦,结合各种专家模块生成合理的决策。然后,调用专家模块执行子任务,并汇总信息生成最终答案。

团队设计了四种专家模块:

  1. TextIntel Extractor:提取图像中的文本信息。
  2. ObjectQuant Locator:识别并定位图像中的对象。
  3. VisionIQ Analyst:处理和解释视觉数据。
  4. ChartSense Expert:分析和解释图表信息。

在决策生成过程中,Cantor将具体任务分配给各专家模块,使模型能够获得高级认知信息,辅助推理。例如,比较两瓶溶液的温度大小时,Cantor会分析粒子温度与动能的关系,并结合图像信息进行任务分配。

多模态CoT思维链架构Cantor现已开源

卓越表现:提升准确率

在ScienceQA基准测试中,基于GPT-3.5的Cantor准确率达到了82.39%,比基于GPT-3.5的思维链方法提升了4.08%。在更具挑战性的MathVista测试中,基于Gemini的Cantor准确率比原始Gemini提高了5.9%。

实验结果显示,Cantor在各种问题上都显著超过了基线,甚至超过了一些著名的多模态大模型,如SPHINX和LLaVA-1.5。这表明,正确的决策和模块化专家可以激发模型的细粒度、深入的视觉理解和组合推理能力。

免训练的优势

Cantor无需额外训练即可超越传统的微调方法。基于GPT-3.5和Gemini的版本均展现了卓越的性能,特别是在复杂的视觉推理任务中表现突出。团队进一步展示了Gemini与Cantor(Gemini)的具体比较,Cantor通过任务分配和角色扮演,实现了更准确的推理过程。

未来展望

Cantor的成功展示了多模态思维链架构的巨大潜力,为AI领域的进一步发展提供了新思路。这一创新不仅在理论上具有重要意义,还在实际应用中展现了强大的实用价值。

记者观点

Cantor架构的发布,展示了厦门大学和腾讯优图团队在多模态AI技术上的领先地位。通过创新性的思维链方法,这一架构显著提升了模型的推理能力,为复杂的视觉和文本任务提供了更高效的解决方案。随着这一技术的开源,更多开发者将能够参与其中,共同推动AI技术的发展和应用。这一创新无疑将为多模态大模型的研究和应用带来新的突破和机遇。

Leave a Reply

Your email address will not be published. Required fields are marked *