出品 | 虎嗅科技组
作者 | 杜钰君
碾压谷歌的Gemini Pro和阿里的Qwen-VL-Plus,与GPT-4V正面硬刚,这个有着SOTA等级功能的多模态大模型真实做到了“人无我有,人有我优”。
继2023年4月的初级版别、2023年10月的LLaVA-1.5之后,2024年1月31日,微软研究院又联合威斯康星大学麦迪逊分校和哥伦比亚大学的研究者一起发布了多模态大模型LLaVa(Large Langu***e and Vision Assistant)的1.6版别。与GPT-4V只提供API接口的闭源运营理念不同,LLaVA1.6的代码、模型与练习数据全开源,且在规范评测数据集上跑出了较为亮眼的成果。
一、LLaVA1.6:卷上加卷
LLaVA是一种端到端练习的大型多模态模型,又被称为“大型言语和视觉帮手”。LLaVa-1.6是微软LLaVa系列的第三个迭代版别。晋级后的LLaVa-1.6可谓buff叠满:SOTA等级的功能,低练习花销,多模态的内容生成才能和再一次将开源大模型卷上了新高度。
依据LLaVa-1.6***的规范评测数据集,该模型的体现逾越了Qwen-VL-Plus、CogVLM和Yi-VL等一众模型,在大部分数据集上的体现都优于Gemini Pro,在Math-Vista、MMB-ENG等部分数据集上的体现乃至胜于GPT-4V,成为了开源模型中的“功能王者“。
图片来历:LLaVA-1.6***的规范评测数据
在不拘泥于单一模态的内容生成,具有Text-to-Text和Im***e-to-Text两种形式的一起,LLaVa-1.6的过人之处还在于更低的练习数据本钱。LLaVA-1.6能用32个GPU在一天之内完结练习,仅需1.3M条练习数据,其核算和练习数据比其他模型小100到1000倍。
除了经过对话式AI生成文本外,LLaVA-1.6还能够辨认图片信息并转化成文字答案。晋级后的LLaVa-1.6对输入图画的分辨率提升到本来的4倍以上,使得模型能够捉住图片的更多细节。现在支撑的图画分辨率有672x672、336x1344以及1344x336三种。
LLaVA模型架构依据很多的图画-文本配对的数据集,将预练习的CLIP视觉编码器与大型言语模型(Vicuna)经过映射矩阵相连接,来完成视觉和言语特征的匹配。依据该模型的研制团队成员Haotian Liu在X渠道的介绍,此增强版别树立在其前身的精约规划和数据功率基础上,并经过改善视觉指令数据集和SGLang,提升了“推理、OCR等方面的功能”,意味着人类向***I(通用人工智能)探究的道路上又迈进了一步。
LLaVA-1.6的研制团队成员Haotian Liu在X渠道发文原文
二、更适合中国人体质的GPT-4V
在奋力追平GPT-4V的一起,LLaVa-1.6也展现出强壮的零样本中文才能。
LLaVa-1.6不需要额定练习便具有出色的中文了解和运用才能,其在中文多模态场景***现优异,使得用户不用学习杂乱的“prompt”便能够轻松上手,这关于履行“免费(约束文本长度、运用次数等)+付费会员”制的文心一言们而言无疑提出了新的应战。
笔者在对LLaVa-1.6模型的demo进行测验时发现,LLaVa-1.6对古诗词等具有中文言语特征的文本内容了解也较为到位,且能给出中上水平的答案。因此关于有图生文或文生文需求的用户而言,LLaVa-1.6模型不失为更适合中国人体质的GPT-4V。
图片来历:笔者在文心一格渠道的运用截图
更强的视觉对话才能使得LLaVa-1.6的智能服务能够掩盖更多元的场景、具有更强的知识和逻辑推理才能。
图片来历:用户在X渠道对LLaVA-1.6的试用截图
在上图的使用场景中,用户发给LLaVA-1.6一张机票,问询与之相关的接机和日程安排。LLaVA-1.6不只精确的估量了驾驭时刻,还考虑到了或许堵车的状况,颇具一个“智能管家”的自我涵养。
图片来历:用户在X渠道对LLaVA-1.6的试用截图
为了促进多模态大模型社区的开展,开发者们开源了LLaVa-1.6的悉数代码、练习数据和模型。这无疑有益于人工智能开发的透明度和协作。在较小练习样本和开源的前提下,***如能够依据本地数据练习专业模型,推进处理当时大模型依据云的产品的职责和隐私问题。
不难发现,轻量化的练习数据是LLaVa-1.6与其他多模态大模型不同的要害一点。一直以来,本钱的高企就是横亘在大模型练习面前的一大难题。跟着大模型赛道越来越卷,研制者们开端将重视点从功能转向本钱,在重视大规模参数量的一起着力下降模型的运算和推理本钱,完成模型紧缩化和核算高效化。
标签: 模型