JEPA:联合嵌入预测架构——通往世界模型的非生成之路¶
在当前大语言模型(LLM)主导的 AI 浪潮中,图灵奖得主 Yann LeCun(杨立昆) 始终坚持一条不同的道路:AI 不应该只学会生成文字,更应该学会理解世界。
这条道路的核心,就是 联合嵌入预测架构(Joint Embedding Predictive Architecture,JEPA)。
建议搭配阅读:
1. 为什么需要 JEPA¶
1.1 当前 AI 的根本局限¶
当前以 GPT、Claude 为代表的自回归大语言模型,本质上遵循同一个范式:预测下一个 Token。
这种范式带来了惊人的语言能力,但也存在根本性的缺陷:
| 局限 | 说明 |
|---|---|
| 缺乏世界模型 | 模型不理解物理世界的运作规律(重力、因果关系、物体恒存性等) |
| 幻觉问题 | 由于缺乏对真实世界的约束,模型会"一本正经地胡说八道" |
| 规划能力弱 | 预测下一个词的范式难以支撑长程推理和复杂规划 |
| 样本效率低 | 需要海量文本数据训练,而人类儿童仅需少量交互就能理解世界 |
| 无法处理不确定性 | 生成式模型被迫对每个细节做出预测,包括不重要的细节 |
1.2 LeCun 的核心洞察¶
LeCun 的核心观点是:
智能的本质不是生成,而是预测——在抽象表征空间中的预测。
人类之所以智能,不是因为能"生成"世界的每一个像素,而是因为能在脑中构建一个简化的世界模型,用来:
- 预测行动的后果
- 推理因果关系
- 规划复杂行为
- 只关注重要的信息,忽略无关细节
这正是 JEPA 试图实现的目标。
2. JEPA 核心原理¶
2.1 架构定义¶
JEPA(Joint Embedding Predictive Architecture) 是一种自监督学习架构,其核心思想是:
在联合嵌入空间中进行预测,而非在输入空间(像素、Token)中进行生成。
2.2 架构组成¶
JEPA 由三个核心组件构成:
flowchart TB
X["输入 x<br/>(图像/视频/文本)"]
Y["输入 y<br/>(上下文/条件信息)"]
X --> E1["编码器 E₁"]
Y --> E2["编码器 E₂"]
E1 --> S1["表示 s₁<br/>(状态表征)"]
E2 --> S2["表示 s₂<br/>(条件表征)"]
S2 --> P["预测器 P"]
P --> S1_hat["预测 ŝ₁"]
S1 -.->|距离最小化| L["损失函数 L"]
S1_hat --> L
三个关键组件:
| 组件 | 功能 | 特点 |
|---|---|---|
| 编码器 E₁(状态编码器) | 将目标输入 x 编码为抽象表示 s₁ | 独立于预测任务 |
| 编码器 E₂(条件编码器) | 将上下文 y 编码为条件表示 s₂ | 提供预测所需的上下文信息 |
| 预测器 P | 从 s₂ 预测 s₁ | 在抽象空间中完成预测 |
2.3 与生成式模型的本质区别¶
这是理解 JEPA 最关键的一点:
| 维度 | 生成式模型(如 GPT、VAE) | JEPA |
|---|---|---|
| 预测空间 | 输入空间(像素、Token) | 抽象嵌入空间 |
| 输出 | 重建/生成原始输入 | 预测抽象表示 |
| 信息瓶颈 | 无——被迫预测所有细节 | 内置——只预测可预测的抽象信息 |
| 不确定性处理 | 困难(必须选择一个具体输出) | 自然(不匹配的部分直接忽略) |
| 计算成本 | 高(生成每个细节) | 低(只计算抽象预测) |
核心优势:JEPA 不需要预测不可预测的细节(如树叶的精确位置、背景噪声),只关注高层语义和物理规律的预测。这与人类的认知方式高度一致。
2.4 防崩溃机制¶
JEPA 面临一个经典问题:如果两个编码器自由演化,它们可能退化为常数(即所有输入映射到同一个点),使预测任务变得平凡。
LeCun 提出了多种防崩溃策略:
- 信息最大化:确保表示中保留输入的关键信息
- 标准化约束:对表示的统计特性施加约束
- 对比学习变体:通过样本间的关系防止退化
- 条件编码器正则化:对条件编码器施加额外约束(VL-JEPA 中使用)
3. JEPA 家族:三大实现¶
JEPA 是一个通用架构框架,根据输入模态的不同,衍生出三个主要实现:
3.1 I-JEPA(Image JEPA)—— 图像理解¶
论文:I-JEPA: Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture (2023)
核心思路:给定图像的部分可见区域,预测被遮挡区域的抽象表示。
flowchart LR
IMG["输入图像"]
IMG --> VISIBLE["可见块"]
IMG --> MASKED["遮挡块"]
VISIBLE --> VIT_CTX["Vision Transformer<br/>(上下文编码器)"]
VIT_CTX --> CTX_REP["上下文表示"]
MASKED --> VIT_TARGET["独立 ViT<br/>(目标编码器·仅推理)"]
VIT_TARGET --> TARGET_REP["目标表示"]
CTX_REP --> PRED["预测器"]
PRED -.->|≈| TARGET_REP
关键特点:
- 使用 Vision Transformer(ViT) 作为编码器
- 遮挡策略:随机遮挡图像中的一个矩形区域
- 预测器是一个轻量级 Transformer
- 不生成像素,只预测抽象表示
性能表现:
- 在 ImageNet-1K 线性评估中达到 82.0% 准确率(2023年 SOTA)
- 低层特征迁移能力优于 MAE、iGPT 等方法
- 计算效率高,训练时间更短
3.2 V-JEPA / V-JEPA 2(Video JEPA)—— 视频世界模型¶
V-JEPA 论文:V-JEPA: Video Joint Embedding Predictive Architecture (2024)
V-JEPA 2 论文:V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction, and Control (2025年6月)
核心思路:给定视频的前半段,预测后半段的抽象表示,从而学习物理世界的动态规律。
flowchart LR
OBS["已观测帧<br/>t₁, t₂, ..., tₖ"] --> ENC["视频编码器<br/>ViT-H/16"]
ENC --> CTX["上下文表示"]
CTX --> PRED["预测器 Transformer"]
PRED --> FUTURE["预测未来帧<br/>tₖ₊₁, ..., tₖ₊ₙ<br/>的抽象表示"]
V-JEPA 2 的重大升级(2025年6月):
| 维度 | V-JEPA(初代) | V-JEPA 2 |
|---|---|---|
| 编码器 | ViT-H/16 | ViT-H/16(优化训练) |
| 训练数据 | 内部视频数据集 | 扩大规模,更高质量 |
| 预测时长 | 短期 | 更长时程预测 |
| 应用场景 | 视频理解 | 理解 + 预测 + 机器人控制 |
| 基准测试 | — | 三个新基准(物理推理、操作规划、导航) |
| 开源 | GitHub + HuggingFace | GitHub + HuggingFace |
V-JEPA 2 的关键突破:
- 物理推理能力:能理解物体运动轨迹、遮挡关系、重力效果
- 机器人控制:可直接用于机器人操作任务的规划
- 零样本迁移:在未见过的环境中仍能做出合理预测
- 非生成式:不生成视频像素,只预测抽象语义
3.3 VL-JEPA(Vision-Language JEPA)—— 视觉-语言理解¶
论文:VL-JEPA: Joint Embedding Predictive Architecture for Vision-Language (2025年12月)
核心思路:将 JEPA 扩展到视觉-语言多模态领域,在视觉和语言的联合嵌入空间中进行预测。
flowchart TB
VL["图像/视频输入"] --> VENC["视觉编码器"]
TXT["文本输入"] --> LENC["语言编码器"]
VENC --> SV["视觉表示 sᵥ"]
LENC --> SL["语言表示 sₗ"]
SV --> CROSS["跨模态预测器"]
SL --> CROSS
CROSS --> OUTPUT["预测跨模态表示"]
VL-JEPA 的突破:
- 1.6B 参数,性能比肩 72B 参数的 Qwen-VL
- 不依赖自回归生成,避免了"预测下一个 Token"的局限
- 在视觉问答、图像描述、视觉推理等任务上达到 SOTA
- 证明了 JEPA 架构在多模态领域的有效性
技术亮点:
- 视觉编码器和语言编码器独立处理各自输入
- 跨模态预测器在联合嵌入空间中完成预测
- 使用了改进的防崩溃策略(条件编码器正则化)
- 支持图像和视频输入
4. JEPA 的技术深度解析¶
4.1 抽象预测 vs 像素生成¶
理解 JEPA 的关键在于理解抽象预测与像素生成的根本区别:
像素生成(如 VAE、扩散模型):
- 必须预测每个像素的精确值
- 对不可预测的细节(噪声、纹理变化)也必须尝试生成
- 计算成本高,且容易产生不自然的输出
抽象预测(JEPA):
- 只预测高层语义信息("这里有一个杯子"、"杯子在移动")
- 不可预测的细节自然被忽略(信息瓶颈)
- 计算效率高,预测更准确
类比:
像素生成就像要求画家精确复制每一片树叶;抽象预测就像要求一个人描述"这是一棵树,树叶在风中摇曳"。后者是人类真正需要的理解能力。
4.2 与其他自监督方法的对比¶
| 方法 | 代表 | 预测目标 | 优势 | 劣势 |
|---|---|---|---|---|
| 自回归 | GPT | 下一个 Token | 强生成能力 | 幻觉、无世界模型 |
| 掩码重建 | BERT, MAE | 被遮挡的输入 | 理解能力强 | 预测低层细节,浪费算力 |
| 对比学习 | CLIP, SimCLR | 样本间关系 | 表征质量高 | 需要负样本,batch size 敏感 |
| JEPA | I-JEPA, V-JEPA | 抽象表示 | 高效、可扩展、内置信息瓶颈 | 架构设计复杂,防崩溃 |
4.3 损失函数设计¶
JEPA 的损失函数核心是在嵌入空间中衡量预测与目标的距离:
其中:
- \(s_x = E_1(x)\) 是目标输入的编码表示
- \(\hat{s}_x = P(E_2(y))\) 是基于上下文的预测表示
- \(d(\cdot, \cdot)\) 是距离度量(通常为余弦距离或欧氏距离)
关键约束:
- 编码器 \(E_1\) 和 \(E_2\) 必须满足信息最大化条件
- 预测器 \(P\) 不能过于强大(否则退化为恒等映射)
5. JEPA 与世界模型¶
5.1 什么是世界模型¶
世界模型(World Model) 是指一个能够:
- 对环境状态进行编码和预测
- 理解物理规律和因果关系
- 支持反事实推理("如果...会怎样")
- 指导行动规划和决策
的系统。
5.2 JEPA 作为世界模型的优势¶
LeCun 认为,JEPA 是构建世界模型的最佳架构候选:
| 世界模型需求 | JEPA 如何满足 |
|---|---|
| 抽象表征 | JEPA 天然在抽象空间中操作 |
| 多模态输入 | VL-JEPA 支持视觉+语言 |
| 时序预测 | V-JEPA 2 支持视频时序预测 |
| 行动条件 | 可将行动作为条件输入 |
| 不确定性 | 信息瓶颈天然处理不确定性 |
| 层次化 | 可堆叠多层 JEPA 实现层次化预测 |
5.3 JEPA vs 扩散世界模型¶
当前世界模型领域有两条主要路线:
| 维度 | JEPA 路线(LeCun) | 扩散模型路线(Sora 等) |
|---|---|---|
| 预测方式 | 抽象表示预测 | 像素级生成 |
| 计算成本 | 低 | 极高 |
| 物理理解 | 强(专注语义规律) | 弱(容易被表面纹理欺骗) |
| 可解释性 | 较高 | 低 |
| 生成质量 | 不生成(非目标) | 高 |
| 适用场景 | 规划、推理、控制 | 内容创作、视频生成 |
LeCun 的观点:生成式世界模型(如 Sora)虽然能生成逼真视频,但并不真正"理解"物理世界。它们更像是高级的"插值",而非真正的推理。
6. 2026:JEPA 的工程化拐点¶
6.1 LeCun 创立 AMI Labs¶
2026年初,Yann LeCun 离开 Meta,创立了 AMI Labs(Advanced Machine Intelligence Labs):
- 估值:35 亿美元(尚未推出公开产品)
- 使命:将 JEPA 架构推向新高度
- 目标:构建能理解物理世界、拥有持久记忆、能推理和规划的 AI 系统
- 策略:开源优先,与 Meta 的闭源路线形成鲜明对比
LeCun 离开 Meta 的原因:Meta 的战略重心在 LLaMA 等大语言模型上,与 LeCun 的非生成式世界模型理念相悖。LeCun 曾直言:"我对 LLaMA 没有什么贡献。"
6.2 三篇关键论文¶
2026年初,LeCun 团队连续发表三篇论文,标志着 JEPA 从理论走向工程化:
- R-JEPA(Robotics JEPA):将 JEPA 应用于机器人控制,实现基于世界模型的操作规划
- H-JEPA(Hierarchical JEPA):层次化 JEPA,支持多时间尺度的预测和规划
- M-JEPA(Memory JEPA):为 JEPA 添加持久记忆模块,支持长期知识积累
这三篇论文被形容为"同一张地图的三条等高线",共同勾勒出 JEPA 走向实用化的路径。
6.3 产业影响¶
JEPA 的理念正在影响产业界:
- 具身智能:国内初创公司"具脑磐石"完成亿元融资,押注 JEPA 具身路线
- Meta FAIR:继续推进 V-JEPA 2 的开源和生态建设
- 学术界:JEPA 框架被越来越多的研究组采用和扩展
7. JEPA 的挑战与争议¶
7.1 当前挑战¶
| 挑战 | 说明 |
|---|---|
| 架构复杂性 | 防崩溃机制的设计需要大量工程经验 |
| 评估困难 | 如何衡量"抽象预测"的质量仍缺乏统一标准 |
| 生成能力缺失 | JEPA 不擅长生成任务(但这本身也是设计选择) |
| 规模效应 | JEPA 是否能像 LLM 一样从规模中受益尚待验证 |
| 生态不成熟 | 相比 Transformer/LLM 生态,JEPA 工具链和社区仍较小 |
7.2 学术争议¶
支持方:
- LeCun:JEPA 是通往 AGI 的正确道路
- Gary Marcus:认同世界模型的重要性,支持非生成路线
质疑方:
- 部分研究者认为自回归模型通过规模扩展仍能达到世界模型能力
- 有人质疑抽象预测是否真的比像素生成更有效(Sora 等模型的成功似乎反驳了这一点)
- "信息瓶颈"是否真的能学到正确的物理规律,还是只是学到了统计相关性
7.3 LeCun 的回应¶
LeCun 对质疑的回应核心观点:
- LLM 没有物理世界的根基——无论规模多大,仅从文本中无法学到真正的物理推理
- 生成 ≠ 理解——能生成逼真视频不等于理解物理规律
- 五年内 JEPA 将全面统治——这是 LeCun 在 2025 年做出的预言
8. 对开发者的意义¶
8.1 JEPA 适合什么场景¶
| 场景 | 适用性 | 说明 |
|---|---|---|
| 具身智能/机器人 | ⭐⭐⭐⭐⭐ | 世界模型的核心架构 |
| 自动驾驶 | ⭐⭐⭐⭐⭐ | 物理推理和预测 |
| 游戏 AI | ⭐⭐⭐⭐ | 环境理解和规划 |
| 科学计算 | ⭐⭐⭐⭐ | 物理规律建模 |
| 内容生成 | ⭐⭐ | 不是 JEPA 的设计目标 |
| 对话系统 | ⭐⭐ | 需要与其他架构结合 |
8.2 学习路径¶
入门:
- 阅读 LeCun 2022 年论文 A Path Towards Autonomous Machine Intelligence
- 理解自监督学习基础(对比学习、掩码学习)
- 运行 I-JEPA 开源代码(Meta GitHub)
进阶:
- 研究 V-JEPA 2 论文和代码
- 尝试 VL-JEPA 的多模态实验
- 关注 AMI Labs 的最新发布
8.3 开源资源¶
| 资源 | 链接 | 说明 |
|---|---|---|
| I-JEPA | github.com/facebookresearch/ijepa | Meta 开源图像 JEPA |
| V-JEPA 2 | github.com/facebookresearch/vjepa2 | Meta 开源视频 JEPA |
| VL-JEPA | 论文 arXiv | 2025年12月发表 |
| LeCun 论文 | arxiv.org/abs/2302.08442 | A Path Towards Autonomous Machine Intelligence |
9. 小结¶
JEPA 代表着 AI 研究中一条与主流 LLM 不同的道路:
- LLM 路线:通过规模扩展和生成式训练,让 AI 学会"说"
- JEPA 路线:通过抽象预测和世界模型,让 AI 学会"理解"
2026 年,随着 LeCun 创立 AMI Labs、V-JEPA 2 开源、VL-JEPA 发布,JEPA 正在从学术概念走向工程实践。无论这条道路最终能否"全面统治",它对 AI 如何理解物理世界的思考,已经深刻影响了整个领域。
对于关注具身智能、世界模型和 AGI 路线的开发者而言,JEPA 是一个不可忽视的架构范式。
延伸阅读¶
参考文献¶
核心论文¶
[1] LeCun, Y. (2022). A Path Towards Autonomous Machine Intelligence. OpenReview. arXiv:2302.08442.
[2] Assran, M., et al. (2023). I-JEPA: Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture. arXiv:2301.08243. Meta FAIR.
[3] Bardes, A., et al. (2024). V-JEPA: Video Joint Embedding Predictive Architecture. arXiv:2401.13872. Meta FAIR.
[4] Bardes, A., et al. (2025). V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction, and Control. arXiv:2506.xxxxx. Meta FAIR.
[5] Fung, P., et al. (2025). VL-JEPA: Joint Embedding Predictive Architecture for Vision-Language. arXiv:2512.xxxxx. Meta FAIR / HKUST / Sorbonne University / New York University.
技术分析¶
[6] Balestriero, R. & LeCun, Y. (2025). On the Power of Joint Embedding Predictive Architectures. arXiv.
[7] Assran, M., et al. (2025). Self-Supervised Learning from Video with Joint-Embedding Predictive Architectures. arXiv.
新闻报道¶
[8] 36氪. (2026). Yann LeCun 离开 Meta 创立 AMI Labs,估值 35 亿美元. 36氪.
[9] 机器之心. (2025). Meta 开源世界模型 V-JEPA 2:能看懂视频、预测未来、控制机器人. 机器之心.
[10] 新智元. (2025). LeCun 的 JEPA 已进化为视觉-语言模型,1.6B 参数比肩 72B Qwen. 新智元.
[11] 量子位. (2026). 具脑磐石完成亿元融资,前华为具身一号位押注 JEPA 具身路线. 量子位.
官方资源¶
[12] Meta AI. (2025). V-JEPA 2 GitHub Repository. Retrieved from https://github.com/facebookresearch/vjepa2
[13] Meta AI. (2023). I-JEPA GitHub Repository. Retrieved from https://github.com/facebookresearch/ijepa
[14] AMI Labs. (2026). Advanced Machine Intelligence Labs. Retrieved from https://ami.ai