效果超出LLaVA&MiniGPT⑷，阿里开源多模态版ChatGPT「mPLUG-Owl」-chatgptplus账号购买平台

GPT⑷的热度至今未减，距离LLaVA的推出也不到半个月，而新的看图聊天模型已问世了。今天要介绍的模型是一款类似于miniGPT⑷和LLaVA的多模态对话生成模型，它的名字叫mPLUG-Owl。

论文链接：https://arxiv.org/abs/2304.14178
项目链接：https://github.com/X-PLUG/mPLUG-Owl
在线demo：https://modelscope.cn/studios/damo/mPLUG-Owl/summary

mPLUG-Owl展现出强大的图文理解能力：

以下是本文作者的试用结果：

本文贡献以下：

提出一种新的模块化的训练多模态大模型的方式
提出测评集OwlEval，以便测试多模态模型在视觉相关任务上的能力
开源模型代码，demo代码和模型权重文件，方便研究者进行进一步的研究。

chatgpt中文版 http://chatgpt.guige.xyz

mPLUG-Owl

模型架构

本文提出了 mPLUG-Owl，其整体架构如图2所示。它由视觉基础模型、视觉抽象模块和预训练语言模型组成。视觉抽象模块将较长的、细粒度的图象特点概括为少许可学习的 Token，从而实现对视觉信息的高效建模。生成的视觉 Token 与文本查询一起输入到语言模型中，以生成相应的回复。

训练策略

如图1所示，目前存在三种主要的训练策略来训练端到真个多模态LLM模型。这些策略分别是：

在预训练和指令微调阶段冻结视觉模块和语言模块，调剂有限的参数，如MiniGPT4。
冻结视觉模块，训练语言模块，如Kosmos⑴。
在指令微调阶段冻结视觉模块，训练语言模块，如LLaVA。

但是，这些模型都冻结了视觉模块的参数调剂，从而限制了区别模态之间的对齐。另外，它们缺少单模态和多模态数据的共同训练，难以有效地激起大型模型的各种潜能。

为了克服这些限制，mPLUG-Owl采取了一种区别的训练策略。首先，其使用多模态数据训练视觉模块，并冻结语言模块。这样可让视觉特点贴合语言特点。然后，其使用多模态和单模态数据联合调剂语言模块的LoRA参数，同时冻结视觉模块。这样，模型可以学习多样化的单模态和多模态指令，同时具有单模态和多模态多轮对话能力。

实验