NoteLLM是什么
NoteLLM 是小红书推出的针对笔记推荐的多模态大型语言模型框架。NoteLLM 基于生成笔记的压缩嵌入和自动生成标签类别,用大型语言模型(LLM)的强大语义理解能力,结合对比学习和指令微调技术,提升笔记推荐的准确性和相关性。NoteLLM-2 在NoteLLM基础上引入多模态输入,基于端到端微调策略,结合视觉编码器和 LLM,解决视觉信息被忽视的问题。NoteLLM-2 提出多模态上下文学习(mICL)和晚期融合(late fusion)两种机制,进一步增强多模态表示能力,显著提升多模态推荐任务的性能。框架在小红书平台上展示强大的推荐能力,已应用在实际推荐系统中。
NoteLLM的主要功能
- 自动生成标签类别:为笔记生成标签和类别,增强笔记嵌入的质量。
- 提升用户体验:基于更精准的推荐,提高用户在平台上的参与度和满意度。
- 多模态笔记推荐:结合文本和图像信息,生成更全面的笔记表示,提升多模态推荐的准确性和相关性。
- 解决视觉信息忽视问题:基于多模态上下文学习(mICL)和晚期融合(late fusion)机制,增强视觉信息的表示能力。
NoteLLM的技术原理
- Note Compression Prompt:设计特定的提示模板,将笔记内容压缩为一个特殊标记,同时生成标签和类别。
- 对比学习(Contrastive Learning):基于用户行为数据中的共现机制构建相关笔记对,对比学习训练模型,增强笔记嵌入的语义表示。
- 指令微调(Instruction Tuning):基于指令微调,让 LLM 更好地理解任务需求,生成高质量的标签和类别。
- 多模态上下文学习(mICL):将多模态内容分离为视觉和文本两部分,分别压缩为两个模态压缩词,基于对比学习平衡模态间的注意力。
- 晚期融合(Late Fusion):在 LLM 的输出阶段直接融合视觉信息,保留更多原始视觉信息,避免早期融合导致的视觉信息丢失。
- 端到端微调:结合任意现有的 LLM 和视觉编码器,基于端到端微调,定制高效的多模态表示模型,无需预训练对齐。
NoteLLM的项目地址
- GitHub仓库:https://github.com/Applied-Machine-Learning-Lab/NoteLLM
- arXiv技术论文:
- NoteLLM:https://arxiv.org/pdf/2403.01744
- NoteLLM2:https://arxiv.org/pdf/2405.16789
NoteLLM的应用场景
- 个性化笔记推荐:根据用户兴趣和行为,从海量笔记中精准推荐相关内容,提升用户发现体验。
- 冷启动笔记推荐:帮助新发布的笔记快速获得曝光,基于内容相似性进行推荐。
- 标签和类别生成:自动生成与笔记内容相关的标签和类别,提升内容的可检索性,帮助用户更快找到感兴趣的内容。
- 多模态内容推荐:处理文本和图像信息,生成更全面的笔记表示,提升多模态推荐的准确性和相关性。
- 内容创作辅助:为创作者提供创作灵感和建议,如关键词、标签和相关笔记推荐,辅助内容创作。