1. 首页 >> ChatGPT教程 >>

效果超出LLaVA&MiniGPT⑷,阿里开源多模态版ChatGPT「mPLUG-Owl」

GPT⑷的热度至今未减,距离LLaVA的推出也不到半个月,而新的看图聊天模型已问世了。今天要介绍的模型是一款类似于miniGPT⑷和LLaVA的多模态对话生成模型,它的名字叫mPLUG-Owl。
  • 论文链接:https://arxiv.org/abs/2304.14178
  • 项目链接:https://github.com/X-PLUG/mPLUG-Owl
  • 在线demo:https://modelscope.cn/studios/damo/mPLUG-Owl/summary
mPLUG-Owl展现出强大的图文理解能力:
以下是本文作者的试用结果:
本文贡献以下:
  • 提出一种新的模块化的训练多模态大模型的方式
  • 提出测评集OwlEval,以便测试多模态模型在视觉相关任务上的能力
  • 开源模型代码,demo代码和模型权重文件,方便研究者进行进一步的研究。

01

chatgpt中文版 http://chatgpt.guige.xyz 

mPLUG-Owl

模型架构

本文提出了 mPLUG-Owl,其整体架构如图2所示。它由视觉基础模型、视觉抽象模块和预训练语言模型组成。视觉抽象模块将较长的、细粒度的图象特点概括为少许可学习的 Token,从而实现对视觉信息的高效建模。生成的视觉 Token 与文本查询一起输入到语言模型中,以生成相应的回复。

训练策略

如图1所示,目前存在三种主要的训练策略来训练端到真个多模态LLM模型。这些策略分别是:
  1. 在预训练和指令微调阶段冻结视觉模块和语言模块,调剂有限的参数,如MiniGPT4。
  2. 冻结视觉模块,训练语言模块,如Kosmos⑴。
  3. 在指令微调阶段冻结视觉模块,训练语言模块,如LLaVA。
但是,这些模型都冻结了视觉模块的参数调剂,从而限制了区别模态之间的对齐。另外,它们缺少单模态和多模态数据的共同训练,难以有效地激起大型模型的各种潜能。
为了克服这些限制,mPLUG-Owl采取了一种区别的训练策略。首先,其使用多模态数据训练视觉模块,并冻结语言模块。这样可让视觉特点贴合语言特点。然后,其使用多模态和单模态数据联合调剂语言模块的LoRA参数,同时冻结视觉模块。这样,模型可以学习多样化的单模态和多模态指令,同时具有单模态和多模态多轮对话能力。

02

实验

定量分析

如图3所示,本文在构建的多模态测评集 OwlEval 上对 mPLUG-Owl 进行了人工评估。评价结果分为四个等级 A-D,代表对应的生成质量顺次递减。从测评结果中可以看出,mPLUG-Owl 获得了最好的结果。
为了分别探究 mPLUG-Owl 在单轮对话和多轮对话上的性能,本文还从 OwlEval 中单独抽出了一些单轮对话和一些多轮对话,分别进行人工评估。结果如图4所示。可以发现,mPLUG-Owl 具有较强的多轮对话能力。

消融实验

为了探究训练策略与指令数据的使用对模型结果的影响,本文还展现了消融实验的结果,如表2所示。
另外,本文还发现了一个有趣的现象:多模态数据的学习可以提高模型的文本单模态能力。正如表3所示,使用ChatGPT对生成结果进行评分发现,仅调剂LoRA参数的mPLUG-Owl在纯文本生成能力上击败了全参数调剂的Alpaca。
定性分析
从图6中可以发现,mPLUG-Owl有较强的多轮对话能力。
从图7中可以发现,mPLUG-Owl还具有很强的推理能力。
虽然mPLUG-Owl已具有较强的图文理解能力,但和GPT⑷相比仍有一些差距。如图8所示,mPLUG-Owl虽然已正确理解了笑点,但毛病地将VGA插头辨认为了USB插头。
图9展现了一些额外的笑话解释例子。
如图10所示,虽然在训练阶段并没有进行多图关联数据的训练。mPLUG-Owl展现出了一定的多图关联能力。
如图11所示,虽然mPLUG-Owl在训练阶段仅接触了英文数据,但其展现出了有趣的多语言能力。这多是由于mPLUG-Owl中的语言模块采取了支持多语言的LLaMa,从而出现了这一现象。
虽然mPLUG-Owl没有在带有标注的文档数据上进行训练,但其依然展现出了一定的文字辨认和文档理解能力。测试结果如图12所示。
如图13、14所示,mPLUG-Owl在多模态的开放式结尾续写方面展现出了较强的能力。以下是更多有趣的例子:

桂}哥}网}络www.gUIgege.cn

本文来源于chatgptplus账号购买平台,转载请注明出处:https://chatgpt.guigege.cn/jiaocheng/29697.html 咨询请加VX:muhuanidc

联系我们

在线咨询:点击这里给我发消息

微信号:muhuanidc

工作日:9:30-22:30

X

截屏,微信识别二维码

微信号:muhuanidc

(点击微信号复制,添加好友)

打开微信

微信号已复制,请打开微信添加咨询详情!