微软Bing发布开源Embedding模型系列Harrier,27B版本在多语言MTEB v2基准上以74.3分登顶,成为当前最强的开源Embedding方案。

三个规格,全部开源

模型MTEB v2分数相对提升
Harrier-OSS-v1-27B74.3+2.0% vs之前SOTA
Harrier-OSS-v1-0.6b69.0+4.7% vs Qwen3-Embedding-0.6B
Harrier-OSS-v1-270m66.5+5.3% vs gemma-270m

更值得注意的是,即便是270M参数的最小版本,也已经超越了所有闭源方案

模型MTEB多语言均分
OpenAI text-embedding-3-large58.92
Amazon titan-embed-text-v260.37
Gemini Embedding 2 (多模态)69.9
Harrier-OSS-v1-270m66.55

技术细节

数据规模

  • 超过20亿条弱监督对比预训练数据
  • 超过1000万条高质量精调数据
  • 全程使用GPT-5生成合成数据
  • 辅以大规模数据过滤和LLM重写

训练方法:先用大模型训练出27B旗舰版,再用知识蒸馏压缩出0.6B和270M两个小模型。

核心能力

  • 支持100+语言
  • 32k上下文窗口
  • 固定维度向量输出,无缝对接向量数据库

对比闭源的意义

Embedding是RAG系统的核心——检索质量直接决定最终回答质量。Harrier的开源意味着:

  • 任何团队都可以在本地部署,无需付费API
  • 270M小模型足够在边缘设备运行
  • 多语言支持对出海产品是直接利好

下一步:Agent时代的Groundining

微软在文中点出了更宏大的目标:Harrier只是"Agent时代新一代Groundining系统"的组成部分。同一技术将登陆Bing搜索本身,提升语义理解、上下文选择和检索质量。