Skip to content

Embedding(嵌入)是现代AI的基石技术。其核心思想是将离散的、高维的、非结构化的数据(如文字、图片、音频)映射到一个连续的、低维的、稠密的向量空间中。这个生成的向量(即Embedding)就是原始数据的“语义指纹”,它捕捉了数据背后深层次的语义和关联性。

在向量空间中,语义相近的数据点距离也相近,这使得机器能够以数学方式度量和理解复杂数据的关系,从而赋能(跨模态)搜索、推荐、聚类、分类等各种下游任务。

技术演进脉络:四个阶段的飞跃

阶段一:静态词嵌入 (Static Word Embeddings, c. 2013 - 2018)

  • 代表Word2Vec, GloVe。
  • 核心为词汇表中的每个词生成一个固定的向量,是NLP“向量化”的开创性阶段。

阶段二:编码器革命与动态嵌入 (The Encoder Revolution, c. 2018 - 2022)

  • 代表BERT, Sentence-BERT (SBERT)。
  • 核心借助Transformer Encoder的双向注意力机制,实现了上下文相关的动态嵌入。SBERT等模型的出现使得高质量句子级Embedding成为现实,是该时期检索任务的绝对主流。

阶段三:巨模型与多范式融合 (Mega-Models & Multi-Paradigm Fusion, c. 2022 - 2024)

  • 代表OpenAI text-embedding-ada-02 / text-embedding-3系列, BGE, GTE。
  • 核心进展巨型闭源模型树立性能标杆;Matryoshka表征(MRL)技术带来可变维度嵌入,提升效率;BGE等开源Encoder模型在MTEB榜单上奋起直追。

阶段四:超长上下文与架构再平衡 (Ultra-Long Context & Architectural Rebalancing, c. 2024 - 至今) 这是我们目前所处的、由解码器(Decoder)架构崛起所定义的最新阶段:

  1. 上下文长度的竞赛为满足长文档RAG需求,上下文长度从512词元飞跃至32K、64K甚至128K,使模型能编码几十万字长文。
  2. Decoder架构登顶SOTA这是一个历史性的转折点。以阿里巴巴最新发布的Qwen3-Embedding为代表,首次由Decoder架构的模型在MTEB(大规模文本嵌入基准)的综合排名上超越所有对手(包括顶尖的Encoder和闭源模型)登顶世界第一。这有力地证明了,为生成任务设计的Decoder架构,通过特定优化,同样可以在表征和检索任务上做到极致。

核心对比:Encoding vs. Decoding 架构(2025年最新视角)

Qwen3-Embedding的成功,彻底重塑了这场技术路线之争,使得对比变得前所未有的重要和微妙。

对比维度Encoding-based (编码器架构)Decoding-based (解码器架构)
代表模型BERT, SBERT, BGE, GTEGPT系列, LLAMA系列, Qwen3-Embedding
核心架构Transformer Encoder (双向注意力)Transformer Decoder (单向因果注意力)
工作原理同时融合前后所有上下文信息生成[CLS]或池化表征。为“理解”和“概括”设计。仅依赖前面的上下文信息生成最后一个Token的表征。为“预测”下一个词设计。
参数量专而精为表征任务优化,参数量相对较小(~0.1B到~2B),追求效率与性能的平衡。大而全通常直接利用通用LLM,参数量巨大(7B是入门级,可达上百B)。但Qwen3-Embedding作为专用模型,证明了Decoder架构也可以在相对较小的规模(如~2B)下做到顶尖性能。
上下文长度已追平: 历史上受限于512。但最新模型已通过技术升级支持超长上下文,不再是劣势。原生优势,持续引领设计上天然支持长序列,一直是长上下文能力的引领者,如Qwen3-Embedding支持128K。
准确率 (MTEB)传统王者,依然强大历史上长期统治该榜单,顶级的Encoder模型(如BGE)依然是性能极强的选择。在许多特定任务上仍有优势。实现历史性突破,新晋王者传统上被认为非最优,但Qwen3-Embedding的登顶彻底改变了这一认知。通过专门的对比学习和指令微调,Decoder架构已被证明可以在检索任务上达到甚至超越顶级Encoder模型。
准确率 (推理能力)语义匹配强,抽象推理弱擅长语义相似性搜索。但在需要复杂推理或利用广泛世界知识时,能力受限于模型规模和训练目标。推理能力强,匹配能力已证明优势在于其背后LLM强大的世界知识和推理能力。Qwen3-Embedding的成功表明,这种推理优势可以通过特定微调,转化为顶级的语义匹配能力
应用场景所有以检索为核心的任务RAG、语义搜索、文本聚类/分类等。是久经考验、性能稳定的选择。新一代检索系统的首选Qwen3-Embedding的出现使其成为当前构建SOTA检索系统的首选。同时,其强大的LLM基座也为处理需要深度推理的复杂查询提供了更高上限。

未来趋势与展望

  1. 架构的再平衡与融合Qwen3-Embedding的成功是标志性事件,预示着基于Decoder的Embedding模型将成为主流。未来的竞争将不再是简单的架构之争,而是看谁能更好地将LLM的强大世界知识与为检索优化的对比学习目标相结合。探索融合两种架构优点的混合模型也可能成为新方向。
  2. 效率与性能的权衡Matryoshka表征(MRL)技术将成为标配,实现“一个模型,多种维度”,满足不同场景下对性能和效率的动态需求。
  3. 模型即服务(MaaS)与专业化的双轨制市场将继续呈现双轨发展。强大的通用API服务与可精细微调的高性能开源模型(如Qwen3-Embedding)将并存,赋能企业打造专业化解决方案。
  4. 走向真正的世界表征Embedding的终极目标是将物理世界的万事万物(视频、传感器数据、机器人动作)都映射到统一的向量空间,为通用人工智能(AGI)和具身智能(Embodied AI)构建可计算的语义基石。
返回专题 · RAG / Embedding上一篇:RAG系统的落地挑战

持续沉淀企业 AI 技术内容。