Llama 4是什么
Llama 4 是 Meta 开源的多模态系列AI模型。首次采用混合专家(MoE)架构,在训练和推理时计算效率更高。Llama 4 目前有 Scout 和 Maverick 两个版本。Scout 有 170 亿个活跃参数、16 个 “专家” 模型、1090 亿个总参数,支持 1000 万上下文,可处理 20 多小时视频,在单个 H100 GPU 上就能运行,性能超越 等模型。Maverick 有 170 亿个活跃参数,128 个 “专家” 模型,4000 亿总参数,在图像精准理解和创意写作方面表现突出,适合通用助手、聊天类应用,在大模型 LMSYS 排行榜上位居第二。Llama 4 Behemoth 为预览版本,还在训练中,拥有2 万亿参数在 STEM 基准测试中表现优异。Llama 4 通过在 200 种语言上预训练支持开源微调,训练数据超 30 万亿个 token。
Llama 4的主要功能
- 强大的语言理解与生成能力:经过大量文本数据训练,语言理解精准。能生成连贯、有逻辑的文本,可用于创意写作、文章撰写、对话交互等。如进行故事创作时,能根据给定主题和情节线索,生成丰富生动的故事内容;在对话场景中,能理解用户意图并给出恰当回复。
- 多模态处理能力:通过图像数据训练,具备图像理解能力,可识别图像中的物体、场景、颜色等元素,能对图像内容进行描述和分析。Scout 版本支持 1000 万 tokens 上下文窗口,可处理多达数百万字的文本,适用于总结长文档、基于大型代码库推理等任务。
- 高效的推理与计算能力:采用混合专家(MoE)架构,将模型划分为多个专注特定任务的 “专家” 子模型,在训练和回答用户查询时效率更高,可降低模型服务成本和延迟,提高推理效率。
- 多语言处理能力:通过对 200 种语言进行预训练,能处理和生成多种语言的文本,支持跨语言交流和处理任务,如语言翻译、不同语言文本的分析与生成等,帮助用户打破语言障碍。
Llama 4的技术原理
- 混合专家(MoE)架构:Llama 4 是 Llama 系列中首个采用 MoE 架构的模型。在 MoE 模型中,单独的 token 只会激活全部参数中的一小部分。例如,Llama 4 Maverick 模型的 4000 亿个总参数中有 170 亿个活跃参数。为提高推理效率,Meta 交替使用了稠密层和 MoE 层,MoE 层用到了 128 个路由专家和一个共享专家,每个 token 都会被送到共享专家,同时也会送到 128 个路由专家中的一个,这样在运行模型时,只有部分参数会被激活,提升了推理效率,降低了模型服务的成本和延迟。
- 原生多模态设计:Llama 4 是原生多模态模型,采用早期融合技术,能将文本和视觉 token 无缝整合到一个统一的模型框架里。可以用海量的无标签文本、图片和视频数据一起来预训练模型。Meta 升级了 Llama 4 的视觉编码器,编码器基于 MetaCLIP,在训练时跟一个冻结的 Llama 模型分开进行,能更好地调整编码器,更适配大语言模型(LLM)。
- 模型超参数优化:Meta 开发了 MetaP 新训练方法,能更靠谱地设置关键的模型超参数,如每层的学习率和初始化规模,这些超参数在不同的批大小、模型宽度、深度和训练 token 量上都能很好地适配。
- 高效的模型训练:采用 FP8 精度,既不牺牲质量,又能保证模型的高 FLOPs 利用率。如在使用 FP8 精度和 32K 个 GPU 预训练 Llama 4 Behemoth 模型时,达到了每个 GPU 390 TFLOPs 的性能。训练数据包含超过 30 万亿个 token,涵盖文本、图片和视频数据集。通过 “中期训练” 方式继续训练模型,用专门数据集扩展长上下文,提升核心能力,为 Llama 4 Scout 解锁了领先的 1000 万输入上下文长度。
- 后训练流程优化:训练流程为轻量级监督微调(SFT)> 在线强化学习(RL)> 轻量级直接偏好优化(DPO)。为解决 SFT 和 DPO 可能过度限制模型的问题,Meta 使用 Llama 模型作为评判者,移除超过 50% 被标记为 “简单” 的数据,对剩余更难数据进行轻量级 SFT,在多模态在线 RL 阶段精心选择更难的提示,并实施持续在线 RL 策略,交替进行模型训练和数据筛选,保留中等到高难度的提示,最后进行轻量级 DPO,平衡模型的智能性和对话能力。
Llama 4的项目地址
- 项目官网:https://ai.meta.com/blog/llama-4
- HuggingFace模型库:https://huggingface.co/collections/meta-llama/llama-4
Llama 4的应用场景
- 对话系统:Llama 4 可用于构建智能聊天机器人,如 Maverick 适用于通用 AI 助手和聊天应用,能理解用户问题并生成自然流畅的回答,提供信息、解答疑问、进行闲聊等。
- 文本生成:能进行创意写作,如创作故事、诗歌、剧本等,可用于撰写新闻报道、产品说明、文案策划等,根据给定主题和要求生成高质量文本。
- 代码生成与辅助:可帮助开发者生成代码,根据功能描述生成相应代码片段或完整程序,能提供代码解释、注释生成、代码规范检查等辅助功能,提高开发效率。
- 代码理解与分析:Scout 能基于大型代码库进行推理,帮助开发者理解复杂代码库的逻辑和功能,进行代码审查、漏洞检测等工作。
- 图像理解与描述:Maverick 在图像精准理解方面表现出色,能识别图像中的物体、场景、颜色等元素,对图像内容进行描述和分析,如输入一张照片,可描述照片内容、判断拍摄地点等。
- 信息检索与推荐:结合其语言理解和生成能力,可用于信息检索系统,理解用户查询意图,提供更精准的搜索结果,还能基于用户兴趣和行为进行个性化推荐。