OpenAI 发布文生***模型 Sora,可遵从用户的指示生成长达一分钟的***,并坚持视觉质量。浙商证券发布研报称,OpenAI 发布 Sora 模型,有望敞开多模态大模型的新一轮浪潮。
以下为研报摘要:
近来,OpenAI 发布文生***模型 Sora,可遵从用户的指示生成长达一分钟的***,并坚持视觉质量;而谷歌发布 Gemini 1.5 Pro 大模型,可支撑超长文本上下文推理,而且多模态才能体现优异,可精确捕捉电影***细节。咱们以为在 OpenAI、谷歌的引领下,有望敞开多模态大模型的新一轮浪潮。
OpenAI 发布 Sora 文生***模型,可生成最长一分钟***
北京时刻 2024 年 2 月 16 日,OpenAI 发布文生***模型 Sora,可遵从用户的指示生成长达一分钟的***,并坚持视觉质量。Sora 可以生成包括多个人物、特定类型的动作以及主体和布景的精确细节的杂乱场景。在 OpenAI ***上可看到多个由 Sora 模型生成的***事例,如时髦女子在东京街头、猛犸象在雪原上行走、在艺术馆中边走边赏识艺术品等等;
Sora 模型依据 DALL-E 和 GPT 模型研究成果,可完成***加工、拼接等功能
除了依据文本生成***的才能,Sora 模型也可以承受其他输入,例如预先存在的图画或***。Sora 可以履行多种图画和***修改使命,如创立循环***、为静态图画增加动画、将***向前或向后延伸、将两段***进行拼接等。
OpenAI 官方技能文档指出,研究人员探究了生成模型在***数据上的大规模练习,并在时长、分辨率和宽高比可变的***和图画上联合练习了文本条件下的分散模型。与大言语模型运用文本 Token 不同的是,Sora 模型运用了视觉补丁(Visual Patches)办法,OpenAI 证明了这种视觉补丁的办法在***/图画生成模型中非常有用。
谷歌发布 Gemini 1.5 Pro 大模型,长文本及多模态推理才能超卓
美国时刻 2024 年 2 月 15 日,谷歌发布依据 MoE 架构的 Gemini 1.5 Pro 大模型,是依据前期发布的 Gemini 1.0 Pro 的更新版别。大模型在处理 530,000 token 文本时,可以完成 100%的检索完整性,在处理 1,000,000 token 的文本时也可到达 99.7% 的检索完整性。在多模态才能方面,Gemini 1.5 Pro 可以分别在约 11 小时的音频材料和大约 3 小时的***内容中,100%成功检索到各种躲藏的音频片段或视觉元素。依据谷歌***信息,Gemini 1.5 Pro 可完成对阿波罗 11 号的 402 页飞翔记载、或是 44 分钟的无声电影内容的精确推理。
看好 2024 年多模态大模型以及大模型在 3D 建模、***范畴迎来迸发
咱们在 2023 年 11 月 15 日发布的《大地回春,百家争鸣——计算机职业 2024 年度战略》中提出,2024 年国内外厂商有望发布愈加杂乱的多模态大模型,完成文本、语音、图画以及音***等多模态数据的杂乱处理和交互。咱们以为 OpenAI 发布 Sora 模型,有望敞开多模态大模型的新一轮浪潮。
标签: 模型