Miras是什么
Miras是谷歌推出的用在深度学习架构设计的通用框架,特别是序列建模任务。Miras基于关联记忆和注意力偏差的概念,将Transformer、现代线性RNN等模型重新定义为具有内部优化目标的关联记忆模块。Miras基于四种关键选择构建模型,关联记忆架构、注意力偏差目标、保持门及记忆学习算法。Miras能生成具有不同优势的新型序列模型,例如Moneta、Yaad和Memora,模型在语言建模、常识推理等任务中表现出色,超越现有的Transformer和线性RNN模型。
Miras的主要功能
- 统一现有架构:将现有的多种序列模型(如Transformer、RetNet、Mamba等)纳入统一的框架下。
- 优化记忆管理:基于引入注意力偏差(Attentional Bias)和保留门(Retention Gate)的概念,Miras能够更好地平衡学习新信息和保留旧信息,从而优化模型的记忆管理能力。
- 设计新型模型:支持设计出具有不同注意力偏差和保留机制的新型序列模型,如Moneta、Yaad和Memora。
- 提升模型性能:提升模型在长序列任务中的性能,保持快速的并行化训练能力。
Miras的技术原理
- 关联记忆:将输入(键,Keys)映射到输出(值,Values)的机制。在Miras中,序列模型被看作是关联记忆模块,基于学习输入和输出之间的映射关系存储和检索信息。关联记忆是Miras的核心,决定模型如何存储和利用序列数据中的信息。
- 注意力偏差:注意力偏差是关联记忆的内部优化目标,用在衡量模型如何优先关注某些事件或刺激。决定模型如何学习输入(键和值)之间的映射关系。基于选择不同的注意力偏差目标(如ℓ2回归、ℓ1回归、Huber损失等),调整模型对数据的敏感度和鲁棒性。
- 保持门:一种正则化机制,控制模型在学习新信息时如何保留旧信息。引入保留正则化项(如ℓ2正则化、KL散度等)平衡学习和保留。防止模型过度遗忘旧信息,在长序列任务中保持更好的性能。
- 记忆学习算法:记忆学习算法用在优化关联记忆的目标函数。常见的算法包括梯度下降、动量梯度下降等。基于选择合适的优化算法,提高模型的训练效率和收敛速度。
Miras的项目地址
- arXiv技术论文:https://arxiv.org/pdf/2504.13173
Miras的应用场景
- 语言建模:NLP研究人员、文本生成开发者用于高效处理长文本,捕捉长距离依赖。
- 常识推理:AI研究者、智能助手开发者提升对隐含信息的理解和推理能力。
- 长文本处理:文本分析工程师、信息检索专家优化长文本处理效率,减少资源消耗。
- 多模态任务:多模态研究者、多媒体内容分析工程师融合多种模态信息,提升跨模态推理能力。