您現在的位置是：探索 >>正文

智源 Emu3 证明多模WhatsApp%E3%80%90+86%2015855158769%E3%80%91hurricane%20milton%20crane态模型新范式：只需基于下一个 token 预测

探索121人已圍觀

簡介OpenAI前首席科學家、聯合創始人Ilya Sutskever曾在多個場合表達觀點：只要能夠非常好的預測下一個token，就能幫助人類達到通用人工智能AGI）。雖然，下一token預測已在大語言模型 ...

OpenAI前首席科学家、智源u证联合创始人Ilya Sutskever曾在多个场合表达观点：只要能够非常好的明多模态模型预测下一个token，就能帮助人类达到通用人工智能（AGI）。新范需基WhatsApp%E3%80%90+86%2015855158769%E3%80%91hurricane%20milton%20crane

虽然，于下预测下一token预测已在大语言模型领域实现了 ChatGPT 等突破，智源u证但是明多模态模型在多模态模型中的适用性仍不明确，多模态任务仍然由扩散模型（如Stable Diffusion）和组合方法（如结合 CLIP视觉编码器和LLM）所主导。新范需基

2024年10月21日，于下预测智源研究院正式发布原生多模态世界模型Emu3。智源u证该模型只基于下一个token预测，明多模态模型无需扩散模型或组合方法，新范需基即可完成文本、于下预测图像、智源u证视频三种模态数据的明多模态模型理解和生成。

智源 Emu3 证明多模态模型新范式：只需基于下一个 token 预测

Emu3在图像生成、视频生成、视觉语言理解等任务中超过了 SDXL 、LLaVA、OpenSora等知名开源模型，但是无需扩散模型、CLIP视觉编码器、WhatsApp%E3%80%90+86%2015855158769%E3%80%91hurricane%20milton%20crane预训练的LLM等技术，只需要预测下一个token。

智源 Emu3 证明多模态模型新范式：只需基于下一个 token 预测

图注：在图像生成任务中，基于人类偏好评测，Emu3优于SD-1.5与SDXL模型。在视觉语言理解任务中，对于12 项基准测试的平均得分，Emu3优于LlaVA-1.6。在视频生成任务中，对于VBench基准测试得分，Emu3优于OpenSora 1.2。

Emu3提供了一个强大的视觉tokenizer，能够将视频和图像转换为离散token。这些视觉离散token可以与文本tokenizer输出的离散token一起送入模型中。与此同时，该模型输出的离散token可以被转换为文本、图像和视频，为Any-to-Any的任务提供了更加统一的研究范式。而在此前，社区缺少这样的技术和模型。

此外，受益于Emu3下一个token预测框架的灵活性，直接偏好优化（DPO）可无缝应用于自回归视觉生成，使模型与人类偏好保持一致。

Emu3研究结果证明，下一个token预测可以作为多模态模型的一个强大范式，实现超越语言本身的大规模多模态学习，并在多模态任务中实现先进的性能。通过将复杂的多模态设计收敛到token本身，能在大规模训练和推理中释放巨大的潜力。下一个token预测为构建多模态AGI提供了一条前景广阔的道路。

目前Emu3已开源了关键技术和模型。（开源模型和代码地址在文末）

Emu3一经上线便在社交媒体和技术社区引起了热议。

智源 Emu3 证明多模态模型新范式：只需基于下一个 token 预测

有网友指出，“这是几个月以来最重要的研究，我们现在非常接近拥有一个处理所有数据模态的单一架构。”

智源 Emu3 证明多模态模型新范式：只需基于下一个 token 预测

“Emu3 是一种非常新颖的方法（至少在我看来是这样），它有机会将多模态合并为一，只需将它们都视为token即可。虽然还处于初期，但演示效果很不错。想象一下，我们可以无限扩展视频和生成多种模态。”

智源 Emu3 证明多模态模型新范式：只需基于下一个 token 预测

甚至有网友评价：“也许我们会得到一个真正开放的 OpenAI v2？”

智源 Emu3 证明多模态模型新范式：只需基于下一个 token 预测

对于Emu3的意义和影响，有评论指出：“Emu3 将彻底改变多模态AI领域，提供无与伦比的性能和灵活性。”

智源 Emu3 证明多模态模型新范式：只需基于下一个 token 预测

“Emu3在各行各业的广泛适用性和开源灵活性将为开发者和企业解锁人工智能创新能力的机会。”

智源 Emu3 证明多模态模型新范式：只需基于下一个 token 预测

“对于研究人员来说，Emu3意味着出现了一个新的机会，可以通过统一的架构探索多模态，无需将复杂的扩散模型与大语言模型相结合。这种方法类似于transformer在视觉相关任务中的变革性影响。”

智源 Emu3 证明多模态模型新范式：只需基于下一个 token 预测

“Emu3的统一方法将带来更高效、更多功能的AI系统，简化多模态AI的开发和应用以及内容生成、分析和理解的新可能性。”

智源 Emu3 证明多模态模型新范式：只需基于下一个 token 预测

"Emu3 改写了多模态人工智能的规则...Emu3 重新定义了多模态AI，展示了简单可以战胜复杂。多模态AI的未来变得更加精炼与强大。"

智源 Emu3 证明多模态模型新范式：只需基于下一个 token 预测

效果展示

1. 视觉理解

Emu3 展现了强大的图像及视频的感知能力，能够理解物理世界并提供连贯的文本回复。值得注意的是，这种能力是在不依赖于基础LLM模型和CLIP的情况下实现的。

1.1 图像输入

智源 Emu3 证明多模态模型新范式：只需基于下一个 token 预测

用户问题: Describe the landmark.

模型回答: The image showcases the Brooklyn Bridge, a prominent suspension bridge in New York City, recognized by its distinctive towers and the web of cables that support it. This iconic structure connects the boroughs of Brooklyn and Manhattan.

智源 Emu3 证明多模态模型新范式：只需基于下一个 token 预测

用户问题: Please describe the image in detail.

模型回答: The image is the cover of a magazine titled "Parktakes," which is the Fall 2017 issue. The cover features two individuals in a white kayak, paddling on a body of water. The kayak is positioned diagonally, with the two individuals seated towards the front. Both individuals are wearing life jackets, which are red with black straps, and they are holding paddles with orange blades. The person on the left is a woman with long dark hair, wearing sunglasses and a black top. The person on the right is a man with short hair, wearing a green shirt and a light-colored cap. They both appear to be smiling and enjoying their time on the water. ? ? ? ?

The background shows a natural setting with trees and greenery, indicating that they are likely in a park or natural reserve. The water is calm, and the sky is not visible, suggesting a serene and peaceful environment. ? ? ???

The magazine cover includes several text elements:? ? ? ??

1.**Title**: "Parktakes" is prominently displayed at the top in large, bold, blue letters.? ? ? ??

2. **Fall 2017 Issue**: The issue is marked in the top right corner in a smaller, white font. ? ? ? ?

3. **Main Feature**: "Enjoy Fall Adventures in Parks" is written in a large, bold, orange font, emphasizing the theme of outdoor activities.?

4. **Additional Features**: The cover lists several topics covered in the magazine: ? ? ? ? ? - "Birding, Boating, and Hiking" ? ? ? ? ? - "Seasonal Festivals" ? ? ? ? ? - "New Attractions" ? ? ? ?

5. **Registration Information**: At the bottom, there is a call to action to "Registration begins Aug. 1 for full classes" and a website link: "www.fairfaxcounty.gov/parks." ? ? ? ?

Analysis and Description ? ? ? ?

The cover of "Parktakes" effectively conveys the theme of outdoor recreational activities, particularly in parks. The image of the two individuals in a kayak suggests that the magazine features content related to kayaking, canoeing, and other water sports. The inclusion of life jackets indicates a focus on safety and preparedness for water activities. The mention of seasonal festivals and new attractions implies that the magazine includes information on various events and attractions within the parks. ? ? ? ?

The cover also highlights the magazine's commitment to providing a comprehensive guide to outdoor activities, with a clear emphasis on safety and accessibility. The registration information suggests that the magazine is a resource for planning and participating in various outdoor activities, likely targeting a wide audience interested in parks and recreational activities. ? ? ? ?

In summary, the magazine cover is designed to attract readers interested in outdoor adventures, safety, and seasonal events within parks. The use of a kayak and life jackets emphasizes the magazine's focus on water sports and safety, while the inclusion of various features and registration information suggests a well-rounded resource for park visitors.

1.2 视频输入

用户问题: What is the man doing in the video?

模型回答: The man in the video appears to be performing a fire dance, a form of entertainment where a person uses fire to create dynamic and visually appealing movements. The sparklers he holds produce a mesmerizing display of light and shadows, capturing the intensity of his performance.

2. 图像生成

Emu3通过预测下一个视觉token来生成高质量的图像。该模型自然支持灵活的分辨率和不同风格。

智源 Emu3 证明多模态模型新范式：只需基于下一个 token 预测

3. 视频生成

与使用视频扩散模型以从噪声生成视频的Sora不同，Emu3只是通过预测序列中的下一个token来因果性的生成视频。

4. 视频预测

在视频的上下文中，Emu3可以自然地扩展视频并预测接下来会发生什么。模型可以模拟物理世界中环境、人和动物。

Emu3技术细节

1 数据

Emu3 是在语言、图像和视频混合数据模态上从头开始训练的。

语言数据：使用与 Aquila 模型相同的语言数据，一个由中英文数据组成的高质量语料库。

图像数据：构建了一个大型图像文本数据集，其中包括开源网络数据、AI生成的数据和高质量的内部数据。整个数据集经过了分辨率、图片质量、类型等方面的过滤过程。训练了一个基于 Emu2 的图像描述模型来对过滤后的数据进行标注以构建密集的图像描述，并利用 vLLM 库来加速标注过程。

视频数据：收集的视频涵盖风景、动物、植物和游戏等多个类别。

整个视频处理流程包括了场景切分、文本过滤、光流过滤、质量评分等阶段。并使用基于图像描述模型微调得到的视频描述模型来对以上过滤后的视频片段打标文本描述。

2 ? 统一视觉Tokenizer

在 SBER-MoVQGAN 的基础上训练视觉tokenizer ，它可以将 4 × 512 × 512 的视频片段或 512 × 512 的图像编码成 4096 个离散token。它的词表大小为 32,768。Emu3的tokenizer 在时间维度上实现了 4× 压缩，在空间维度上实现了 8×8 压缩，适用于任何时间和空间分辨率。

此外，基于MoVQGAN 架构，在编码器和解码器模块中加入了两个具有三维卷积核的时间残差层，以增强视频token化能力。

3 架构

Emu3 保留了主流大语言模型（即 Llama-2）的网络架构。不同点在于，其扩展了Llama-2架构中的嵌入层，以容纳离散的视觉token。网络中使用 RMSNorm 进行归一化。其还使用了 GQA 注意力机制、SwiGLU 激活函数和一维旋转位置编码（RoPE）等技术，并并去除了注意力模块中QKV层和线性投影层中的偏置。此外，还采用了 0.1 的dropout率来提高训练的稳定性，使用QwenTokenizer对多语言文本进行编码。详细架构配置表。

智源 Emu3 证明多模态模型新范式：只需基于下一个 token 预测

4 ? ?预训练

在预训练过程中，首先要定义多模态数据格式。与依赖外部文本编码器的扩散模型不同，Emu3 原生集成了用于生成图像/视频的文本条件信息。在视觉和语言的固有token中新增了五个特殊token来合并文本和视觉数据，以为训练过程创建类似文档的输入。生成的训练数据结构如下：

[BOS] { caption text} [SOV] { meta text} [SOT] { vision tokens} [EOV] [EOS]

其中，[BOS] 和 [EOS] 是QwenTokenizer中的原始特殊token 。额外新增的特殊token包括：[SOV] 表示视觉输入（包含图像和视频的meta信息部分）的开始，[SOT] 表示视觉token的开始，[EOV] 表示视觉输入的结束。

此外，特殊token [EOL] 和 [EOF] 作为换行符和换帧符插入到了视觉token中。元文本包含图像的分辨率信息，视频则包括分辨率、帧率和持续时间，均以纯文本格式呈现。在构建理解数据时，Emu3将部分数据中的 "caption text"字段移至[EOV] token之后。

训练目标：由于 Emu3 中的视觉信号已完全转换为离散token，因此只需使用标准的交叉熵损失进行下一个token预测任务的训练。为了防止视觉token在学习过程中占据主导地位，对与视觉token相关的损失加权 0.5。

训练细节：Emu3 模型在预训练期间利用非常长的上下文长度来处理视频数据。为便于训练，采用了张量并行（TP）、上下文并行（CP）和数据并行（DP）相结合的方法。同时将文本和图像数据打包成最大上下文长度，以充分利用计算资源，同时需要确保在打包过程中不会分割完整的图像。

预训练过程分为两个阶段，第一阶段不使用视频数据，训练从零开始，文本和图像数据的上下文长度为 5,120；在第二阶段，引入视频数据，并使用 131,072 的上下文长度。

5 ? ?SFT阶段

5.1 ? ?视觉生成

质量微调：在预训练阶段之后，对视觉生成任务进行后训练，以提高生成输出的质量。使用高质量数据进行质量微调。

直接偏好优化：Emu3在自回归多模态生成任务中采用直接偏好优化（Direct Preference Optimization，DPO）技术，利用人类偏好数据来提高模型性能。

5.2 ? ?视觉语言理解

预训练模型经过两个阶段的视觉语言理解后训练过程：1) 图像到文本的训练以及 2) 指令调整。

第一阶段：将图像理解数据与纯语言数据整合在一起，而与视觉token相关的损失则在纯文本预测中被忽略。

第二阶段：利用 LLaVA 数据集中的约 320 万个问答对进行指令微调。低于 512 × 512 或高于 1024 × 1024 的图片将被调整到较低或较高的分辨率，同时保持相应的长宽比，而其他图片则保持原始分辨率。

开源地址

除了先前经SFT的Chat模型和生成模型外，智源研究院还在近日开源了Emu3生成和理解一体的预训练模型以及相应的SFT训练代码，以便后续研究和社区构建与集成。

代码：https://github.com/baaivision/Emu3

项目页面：https://emu.baai.ac.cn/

模型：https://huggingface.co/collections/BAAI/emu3-66f4e64f70850ff358a2e60f

未来方向

Emu3为多模态AI指出了一条富有想象力的方向，有机会将AI基础设施收敛到单一技术路线上，为大规模的多模态训练和推理提供基础。统一的多模态世界模型未来有广泛的潜在应用，包括自动驾驶、机器人大脑、智能眼镜助手、多模态对话和推理等。预测下一个token有可能通往AGI。

雷峰网(公众号：雷峰网)

Tags：

上一篇：武汉备孕老中医分享：中医调理，解决备孕困扰，助力妇女顺利受孕

下一篇：孕前检查要做哪些检查（准备怀孕必做的体检项目）

女生孕前饮食一个月减肥
探索
女生在孕前一个月减肥时，需要注意以下几点：1. 均衡饮食：确保膳食中含有足够的蛋白质、碳水化合物、健康脂肪和纤维。避免过度限制某一类食物，要保证身体获得全面的营养。2. 控制卡路里摄入：合理控制每日卡 ...
2025-12-23 00:36【探索】
閱讀更多
花戏楼街道开展“高龄津贴”申报工作
探索
本报讯近日，谯城区花戏楼街道切实做好辖区80岁以上老人高龄补贴工作。该街道通过张贴公告、电话通知、上门入户等多种方式加大宣传，组织人员认真摸底，做实基础数据的收集，做好新增、年审户的上报，以方便群众为 ...
2025-12-22 23:09【探索】
閱讀更多
纳帅不排除剥夺诺伊尔队长袖标，下赛季基米希可能接任
探索
纳帅不排除剥夺诺伊尔队长袖标，下赛季基米希可能接任叮当猫发布时间：2023-02-07 10:37作者：叮当猫据德国媒体《图片报》的消息，纳帅不排除剥夺诺伊尔队长职务的可能性，基米希可能成为拜仁下赛 ...
2025-12-22 22:43【探索】
閱讀更多

友情鏈接

热刺官方：任命前城市足球集团高层卢温登为新任表现总监
2024浙江省人民医院试管成功率、费用整理，你关心的都在这
郭敬明《晴雅集》下线，意味着将损失16亿，这才是抄袭的真正成本
某音蹭易烊千玺电影小红花的热度，不但没有令人反感，反而很开心
东阳人民医院供卵试管婴儿怎么样，2024助孕成功率数据公开
2024辽宁试管私立医院排行top10公布，沈阳菁华霸榜前三
阜新试管婴儿医院排名大公开，附2024助孕费用明细
2024江西省试管婴儿费用明细大公开，这家医院做一次竟最贵
预售破亿！《送你一朵小红花》为何能影市寒冬中杀出重围？
焦点访谈丨“十四五”·答卷——文脉赓续谱新篇
布鲁斯：温格曾说14年足总杯决赛要是输了他就完蛋了
别不知道自贡哪里做试管婴儿了，2024助孕机构排行榜单公布
25岁适合用什么眼霜好?欧雅泊思让您永葆青春!
2024沈阳盛京医院试管成功率数据更新，选对大夫费用减半
首映票房近2亿，海信蒸烫洗衣机邀您一起来看《温暖的抱抱》
2024南医大二附院试管成功率分析，3大案例分享助孕体验
1月27日新增确诊64例其中本土病例39例
“组合拳”出击!影儿商城官方旗舰店京东盛大开业带来超多秋冬新品
2024浙江省人民医院试管成功率、费用整理，你关心的都在这
【有理有句】抗美援朝精神跨越时空历久弥新
主持人说自己相信阿莫林，克洛普：你可能对足球一无所知
血压升高时，会出现哪些表现？医生：这些食物要管住嘴！
赣州人民医院二代试管技术怎么样，2024助孕成功率数据公布
运动可以降血压吗？医生：也要注意这些细节，血压或慢慢降下来
以意式极简构筑家居美学磐豪斯住宅家具让人们尽享轻奢浪漫
《大秦赋》：影像叙事的历史观照——讲述秦王政的奋斗故事
诺丁汉森林任命戴奇为新任主教练
2024沈阳市妇婴医院试管成功率、费用更新，3大助孕经历分享
西藏助孕中医哪家好，2024新版专家排名榜了解下
《柳叶刀》研究发文：威胁女性的乳腺癌，为何发病率还在增加？
布鲁斯：温格曾说14年足总杯决赛要是输了他就完蛋了
五一放假新姿势get：有一种快乐叫免单躺赢！
开心麻花新片立项，沈腾出演大反派，网友：看了海报就想笑
吉滕斯：我依然在适应切尔西，球队的训练和比赛水准很高
“组合拳”出击!影儿商城官方旗舰店京东盛大开业带来超多秋冬新品
布鲁斯：温格曾说14年足总杯决赛要是输了他就完蛋了
吉滕斯：我依然在适应切尔西，球队的训练和比赛水准很高
25岁适合用什么眼霜好?欧雅泊思让您永葆青春!
法兰克福主帅：利物浦无疑是顶级球队，明天我们将更换守门员
2024四川试管婴儿补助比例不低，符合助孕条件是前提
经济责任审计工作方案
还焦虑续航么？小米第一款9000mAh手机来了
马斯克：未来将由AI主宰不再有传统的手机和App
《勇者斗恶龙1&2：HD
风靡全球经久不衰《我的世界》全球销量突破3.5亿份
日本正在大学内部测试动漫风格在线心理咨询服务应用
《怪奇镇生存指南》跳票至明年年初新预告片公布
原创想瘦身记得多吃它，低脂低卡，好吃不长肉，常吃让你又瘦又美
太原南部将新建多个产业项目最新方案出炉
《血肉生惧》登陆Steam 初代生化危机风格恐怖冒险

麻豆精产国品一二三产区-麻豆精品-麻豆精品91-麻豆精品传媒官网-麻豆精品国产-麻豆精品国产传媒-麻豆精品国产高清在线-麻豆精品秘国产传媒MV-麻豆精品秘入口蜜桃-麻豆精品视频在线观看

您現在的位置是：探索 >>正文

智源 Emu3 证明多模WhatsApp%E3%80%90+86%2015855158769%E3%80%91hurricane%20milton%20crane态模型新范式：只需基于下一个 token 预测

效果展示

Emu3技术细节

开源地址

未来方向

相關文章

女生孕前饮食一个月减肥

花戏楼街道开展“高龄津贴”申报工作

纳帅不排除剥夺诺伊尔队长袖标，下赛季基米希可能接任

熱門文章

最新文章

友情鏈接