浙商证券：OpenAI谷歌相继发力有望引领多模态大模型浪潮

qweasjd 2024-02-17 15:00:14 20 0

　　OpenAI 发布文生***模型 Sora，可遵从用户的指示生成长达一分钟的***，并坚持视觉质量。浙商证券发布研报称，OpenAI 发布 Sora 模型，有望敞开多模态大模型的新一轮浪潮。

　　以下为研报摘要：

　　近来，OpenAI 发布文生***模型 Sora，可遵从用户的指示生成长达一分钟的***，并坚持视觉质量；而谷歌发布 Gemini 1.5 Pro 大模型，可支撑超长文本上下文推理，而且多模态才能体现优异，可精确捕捉电影***细节。咱们以为在 OpenAI、谷歌的引领下，有望敞开多模态大模型的新一轮浪潮。

（图片来历网络，侵删）

　　OpenAI 发布 Sora 文生***模型，可生成最长一分钟***

　　北京时刻 2024 年 2 月 16 日，OpenAI 发布文生***模型 Sora，可遵从用户的指示生成长达一分钟的***，并坚持视觉质量。Sora 可以生成包括多个人物、特定类型的动作以及主体和布景的精确细节的杂乱场景。在 OpenAI ***上可看到多个由 Sora 模型生成的***事例，如时髦女子在东京街头、猛犸象在雪原上行走、在艺术馆中边走边赏识艺术品等等；

　　Sora 模型依据 DALL-E 和 GPT 模型研究成果，可完成***加工、拼接等功能

（图片来历网络，侵删）

　　除了依据文本生成***的才能，Sora 模型也可以承受其他输入，例如预先存在的图画或***。Sora 可以履行多种图画和***修改使命，如创立循环***、为静态图画增加动画、将***向前或向后延伸、将两段***进行拼接等。

　　OpenAI 官方技能文档指出，研究人员探究了生成模型在***数据上的大规模练习，并在时长、分辨率和宽高比可变的***和图画上联合练习了文本条件下的分散模型。与大言语模型运用文本 Token 不同的是，Sora 模型运用了视觉补丁（Visual Patches）办法，OpenAI 证明了这种视觉补丁的办法在***/图画生成模型中非常有用。

　　谷歌发布 Gemini 1.5 Pro 大模型，长文本及多模态推理才能超卓

（图片来历网络，侵删）

　　美国时刻 2024 年 2 月 15 日，谷歌发布依据 MoE 架构的 Gemini 1.5 Pro 大模型，是依据前期发布的 Gemini 1.0 Pro 的更新版别。大模型在处理 530，000 token 文本时，可以完成 100%的检索完整性，在处理 1，000，000 token 的文本时也可到达 99.7% 的检索完整性。在多模态才能方面，Gemini 1.5 Pro 可以分别在约 11 小时的音频材料和大约 3 小时的***内容中，100%成功检索到各种躲藏的音频片段或视觉元素。依据谷歌***信息，Gemini 1.5 Pro 可完成对阿波罗 11 号的 402 页飞翔记载、或是 44 分钟的无声电影内容的精确推理。

　　看好 2024 年多模态大模型以及大模型在 3D 建模、***范畴迎来迸发

　　咱们在 2023 年 11 月 15 日发布的《大地回春，百家争鸣——计算机职业 2024 年度战略》中提出，2024 年国内外厂商有望发布愈加杂乱的多模态大模型，完成文本、语音、图画以及音***等多模态数据的杂乱处理和交互。咱们以为 OpenAI 发布 Sora 模型，有望敞开多模态大模型的新一轮浪潮。

标签：模型