微软 发布全新的多语言嵌入模型 Harrier-OSS-v1,为多种语言提供高质量的语义表示

微软宣布推出Harrier-OSS-v1,这是一套包含三种多语言文本嵌入模型的系列产品,旨在为多种语言提供高质量的语义表示。该版本包含三种不同规模的模型:2.7 亿参数模型、6 亿参数模型和270 亿参数模型。

Harrier-OSS-v1 模型在多语言 MTEB(大规模文本嵌入基准测试)v2上取得了最先进的 (SOTA) 结果。对于人工智能专业人士而言,此次发布标志着开源检索技术领域的一个重要里程碑,它提供了一系列可扩展的模型,这些模型利用现代 LLM 架构来完成嵌入任务。

架构与基础

Harrier-OSS-v1 系列摒弃了多年来主导嵌入领域的传统双向编码器架构(例如 BERT)。相反,这些模型采用了仅解码器架构,类似于现代大型语言模型 (LLM) 中的架构。

使用仅解码器基础架构代表了上下文处理方式的转变。在因果(仅解码器)模型中,每个词元只能关注其前面的词元。为了导出代表整个输入的单个向量,Harrier 采用了末词元池化。这意味着序列中最后一个词元的隐藏状态被用作文本的聚合表示,然后进行L2 归一化以确保向量具有一致的幅度。

技术规格

Harrier-OSS-v1 模型的特点是嵌入维度可变,并且始终支持长上下文输入。下表提供了技术规格的详细说明:

微软 发布全新的多语言嵌入模型 Harrier-OSS-v1,为多种语言提供高质量的语义表示

在所有三种规模下,32,768(32k)词元的上下文窗口是检索增强生成(RAG)系统的一项重要特性。大多数传统嵌入模型的上下文窗口仅限于512 或 1,024 个词元。扩展后的窗口使 AI 开发者能够嵌入规模大得多的文档或代码文件,而无需进行激进的切块处理,这种处理往往会导致语义连贯性的丧失。

实现方式:基于指令的嵌入

对于 AI 开发者而言,最重要的操作细节之一是 Harrier-OSS-v1 是一种指令调优的嵌入模型。为了达到基准测试的性能,该模型需要在查询时提供特定任务的指令。

该实现遵循特定的逻辑:

  • 查询端:所有查询都应以一句话的任务指令作为前缀,该指令定义了意图(例如,检索语义相似的文本或查找翻译)。
  • 文档端:文档应在不包含任何说明的情况下进行编码。

查询格式示例如下所示:

"Instruct: Retrieve semantically similar text\nQuery: [User input text]"

这种基于指令的方法允许模型根据任务动态调整其向量空间,从而提高网络搜索或双文本挖掘等不同领域的检索准确率。

训练与知识提炼

Harrier-OSS-v1 系列的开发涉及多阶段训练过程。虽然 27B 模型拥有最高的参数数量和维度(5376),但微软团队运用了专门的技术来提升较小版本模型的性能。

此外,我们还利用知识蒸馏技术,从更大的嵌入模型中对2.7 亿6 亿个模型进行了训练。知识蒸馏是一种训练“学生”模型来复制高性能“教师”模型的输出分布或特征表示的技术。这一过程使得较小的 Harrier 模型能够获得比其参数数量通常预期更高的嵌入质量,从而使它们在内存或延迟受限的部署环境中更加高效。

多语言 MTEB v2 的性能

多语言MTEB v2是一个综合性基准测试,用于评估模型在各种任务上的表现,包括:

  • 分类:识别文本的类别。
  • 聚类:将相似的文档分组。
  • 句子对分类:判断两个句子是否互为释义。
  • 检索:查找与给定查询最相关的文档。

Harrier 系列产品在发布之初便在该基准测试中取得了 SOTA 的优异成绩,展现了其在跨语言检索方面的卓越能力。这对于需要在同一向量空间内处理不同语言查询和文档的全球应用而言尤为重要。

要点总结

  1. 可扩展的多语言 SOTA:该系列包括三个型号(270M、0.6B 和 27B ),自发布之日起,它们在多语言 MTEB v2基准测试中取得了最先进的结果。
  2. 仅解码器基础:这些模型摒弃了 BERT 风格的编码器,采用仅解码器架构,并结合了最后一个标记池化L2 归一化
  3. 扩展的 32k 上下文:所有模型都支持32,768 个标记的上下文窗口,允许表示长文档或代码库,而不会因激进的分块而造成语义损失。
  4. 指令依赖型检索:最佳性能需要查询端指令(在输入前附加一句任务描述),而文档应该在没有任何指令的情况下进行编码。
  5. 通过知识蒸馏提高质量:较小的270M(640 维)0.6B(1,024 维)模型通过从较大的嵌入模型中知识蒸馏进行训练,以提高其相对于参数数量的语义表示质量。

参考资料:https://huggingface.co/microsoft/harrier-oss-v1-270m

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/65862.html

(0)

相关推荐