阿里又开源两款Qwen3模型!拿下文本嵌入模型SOTA,技术报告公布


6月6日消息,昨天,阿里巴巴宣布推出Qwen3-Embedding和Qwen3-Reranker系列模型,正式发布Qwen3-Embedding和Qwen3-Reranker系列大模型技术报告,首次公开开源模型Qwen3-Embedding和Qwen3-Reranker的推理架构、训练策略及评测结果。

Qwen3-Embedding和Qwen3-Reranker,均基于Qwen3基础模型训练,专为文本表征、检索与排序任务设计。其中,Qwen3-Embedding接收单段文本,将其转换为语义向量,以用于语义搜索、问答系统等场景。Qwen3-Reranker则接收文本对,利用单塔结构计算并输出两个文本的相关性得分,可在各类文本检索场景中显著提升搜索结果的相关性。在实际应用中,二者常结合使用,比如在RAG系统里,Qwen3-Embedding用于初步检索,Qwen3-Reranker用于优化候选结果,兼顾效率和精度。

Qwen3-Embedding 8B以70.58分登顶MTEB(当前全球公认的文本嵌入模型评测基准,通过整合检索、聚类、分类等7大场景,系统评估向量模型的语义表征能力)多语言榜全球第一,创历史新高(截至2025年6月6日);Qwen3-Reranker在mMARCO跨语言检索中MRR@10达0.42,超越行业标杆。双模型支持119种语言及编程语言,提供0.6B/4B/8B全尺寸覆盖,其中Reranker对100文档排序延迟压至80ms内(A100),长文本处理突破32k上下文。即日起双模型在Hugging Face/GitHub/ModelScope开源免费商用,阿里云API同步上线。

模型地址:

https://github.com/QwenLM/Qwen3-Embedding

https://huggingface.co/collections/Qwen/qwen3-reranker-6841b22d0192d7ade9cdefea

一、阿里巴巴发布Qwen3-Embedding模型,模型多语言得分超70

阿里巴巴昨天正式推出Qwen3-Embedding文本向量模型,提供0.6B、4B、8B三档参数规模,全面覆盖轻量级边缘计算到高性能云端场景。该模型支持119种自然语言及Python、Java等编程语言,并突破性地实现32k tokens长文本处理能力。

目前Qwen3-Embedding模型以Apache 2.0协议免费开源,开发者可通过Hugging Face、ModelScope及阿里云API一键部署。

在权威评测中,Qwen3-Embedding 8B版本以70.58分登顶MTEB多语言Leaderboard榜单(截至2025年6月6日),超越Google Gemini-Embedding等商业模型。

Qwen3-Embedding模型在MTEB多语言Leaderboard榜单中位列第一

Qwen3-Embedding模型在代码检索(MTEB-Code)任务中,搜索精准度排名第一。

Qwen3-Embedding在代码检索任务中表现的性能

在多模态文本嵌入(MTEB)跨语言场景下,Qwen3-Embedding 8B模型在多语言检索任务中取得了69.02的高分,在中文检索任务中得分达到77.45,在英文检索任务中得分达到69.76。

Qwen3 Embedding在多模态文本嵌入任务中表现的性能

除此,技术报告还透露,Qwen3 Embedding依托Qwen3基座模型的深度语言理解能力,创新采用双编码器架构,能独立处理查询文本与文档内容,生成高精度语义向量。

Qwen3-Embedding模型采用三阶段训练框架:首阶段基于36万亿token多语言数据弱监督预训练,第二阶段融合MS MARCO标注数据进行监督微调,最终通过模型融合技术提升泛化性。推理层面Qwen3-Embedding模型创新性支持自定义指令模板,使特定任务性能提升3%-5%。

Qwen3-Embedding的模型架构

Qwen3-Embedding的核心优势在于多语言深度适配(跨语言检索误差率降低30%)、长文本处理标杆级能力(32k窗口+双块注意力机制),以及灵活定制化设计(竞品如OpenAI text-embedding仅支持固定维度)。

同时,Qwen3-Embedding模型的开源免费策略显著降低技术门槛,中小企业可零成本构建文档检索、知识库聚类等系统,可能使多语言文本处理技术进入普惠化应用阶段。

二、32k长文档精准排序:Qwen3-Reranker支持法律科研检索99%稳定性

阿里巴巴的Qwen3-Reranker系列模型专门用于提升搜索和推荐系统相关性排序能力的模型,该系列提供0.6B/4B/8B三档参数规模。Qwen3-Reranker系列模型专为文本表征、检索与排序任务设计。该系列模型采用基于Qwen3基础模型的稠密版本,并与Qwen3-Embedding模型协同构建端到端检索链路。

Qwen3-Embedding与Qwen3-Reranker系列的训练流程

Qwen3-Reranker系列模型的32k tokens上下文窗口专为法律文书、科研论文等长文档排序优化,显著提升长文本处理稳定性。模型以Apache 2.0协议开源免费,开发者可通过Hugging Face、GitHub、ModelScope获取,或通过阿里云API一键调用集成。

Qwen3-Reranker模型采用单塔交互结构,将用户查询与候选文档拼接输入,通过动态计算查询-文档交互特征输出相关性得分,实现非静态向量匹配的实时排序。

Qwen3-Reranker的模型架构

针对长文档场景,Qwen3-Reranker模型集成RoPE位置编码与双块注意(Dual Chunk Attention)机制,有效避免长程信息丢失,确保32k上下文内语义连贯性。

同时,Qwen3-Reranker模型支持任务指令微调,开发者可通过自定义指令(如“按病例描述相关性排序”)优化特定领域性能,实测可提升排序准确率3%-5%,而竞品如ColBERT缺乏此类功能。

阿里巴巴Qwen3-Reranker系列模型提供了三种不同参数规模的模型配置,分别为0.6B、4B和8B参数,以满足不同场景下的性能与效率需求。

Qwen3-Reranker 0.6B模型参数量为0.6B,属于超小型模型,适合端侧设备部署。其上下文长度达32k,采用基于Transformer的架构,以RMSNorm对层输入进行归一化,确保训练稳定;Qwen3-Reranker 0.6B模型能无缝集成两种思考模式,在保持推理效率的同时,展现出良好的多语言处理能力。

Qwen3-Reranker 4B模型参数量为4B,性能匹敌Qwen2.5-72B-Instruct。Qwen3-Reranker 4B模型同样具备32k的上下文长度,它通过多项架构增强提升语义理解能力;Qwen3-Reranker 4B模型在AIME25(美国数学邀请赛)评测中得分为81.5,刷新了开源模型记录,展现出强大的数学推理能力,能够处理复杂的数学问题,进行严谨的计算和多步推理。

Qwen3-Reranker 8B模型参数量为8B,上下文长度在标准配置下为32768个 Token;Qwen3-Reranker 8B在多语言检索任务中取得了69.02分,性能超越bge-reranker-large等开源竞品;在中文检索任务中得分达到77.45,在英文检索任务中得分达到69.76,显著优于传统BM25和ColBERT等其他基线模型。

另外,Qwen3-Reranker模型或推动高精度检索技术普及,企业知识库问答准确率提升40%,大幅降低人工成本;跨境电商实现119语言商品精准搜索,误检率下降35%;科研法律领域长文档检索效率突破90%,加速信息提取。

阿里巴巴的开源策略激活开发者生态,通过Hugging Face快速微调行业模型,阿里云API支持5行代码接入,极大降低技术门槛。同时推动文本检索从“关键词匹配”升级至“语义理解+动态交互”,为AI Agent与多模态应用奠定基础。

结语:告别通用泛化!阿里报告揭示:文本处理进入精准专用

Qwen3-Embedding/Reranker通过“多语言+长文本+可定制”三位一体设计,解决了传统文本处理模型泛化性差、成本高的痛点。其开源策略更将加速产业应用创新,开发者可基于Hugging Face快速微调,企业可通过阿里云API即时部署。阿里巴巴在文本嵌入领域的技术布局覆盖从轻量级到高性能的全场景需求。

技术报告特别提醒,在实际检索场景中,建议应用者根据具体任务、语言和场景设计指令模板,否则可能影响效果。这一细节可能反映出AI模型正从“通用泛化”向“精准专用”演进,也为行业提供了新的优化思路。