真钱投注谷歌发布首个原生多模态镶嵌模子Gemini Embedding 2

3 月 10 日，谷歌 DeepMind 推出 Gemini Embedding 2，这是该公司首个原生多模态镶嵌模子，将文本、图像、视频、音频及文档调处映射至单一镶嵌空间，标识着 AI 镶嵌时刻迈入全模态会通的新阶段。

Gemini Embedding 2 扶植超 100 种谈话的语义厚实，并在文本、图像及视频任务的基准测试中卓绝现存主流模子，同期引入了此前镶嵌模子所欠缺的语音处理才能。

该模子现已通过 Gemini API 及 Vertex AI 参加公开预览阶段，建筑者可即时接入。

关于企业用户而言，该模子的发布平直镌汰了构建多模态检索增强生成（RAG）、语义搜索及数据分类系统的时刻门槛，有望简化此前需跨模态分裂处理的复杂数据管说念。

全模态调处：从文本膨大至五类媒体神志

Gemini Embedding 2 基于 Gemini 架构构建，天博体育将镶嵌才能从纯文本膨大至五类输入神志：

文本扶植最多 8192 个输入 token；

图像每次肯求最多处理 6 张，扶植 PNG 及 JPEG 神志；

视频扶植最长 120 秒的 MP4 和 MOV 文献；

{jz:field.toptypename/}

音频可平直摄入并生成镶嵌向量，无需历程中间文本转录法子；

文档则扶植最多 6 页的 PDF 文献平直镶嵌。

区别于一一处理单一模态的传统方式，该模子扶植交错输入，正规投注平台即在单次肯求中同期传入图像与文本等多种模态组合，使模子粗略捕捉不同媒体类型之间复杂而隐微的语义有关。

Gemini Embedding 2 持续了谷歌此前镶嵌模子中选拔的 Matryoshka 暗示学习（MRL）时刻。该时刻通过 " 嵌套 " 方式动态压缩向量维度，使输出维度可从默许的 3072 天真缩减，匡助建筑者在模子性能与存储资本之间取得均衡。

基准测试逾越，语音才能为新亮点

客服QQ：88888888

谷歌暗示，Gemini Embedding 2 在文本、图像及视频任务的基准测试中均优于刻下主流竞品模子，并将其定位为多模态镶嵌规模的新性能标杆。

谷歌提倡建筑者字据利用场景取舍 3072、1536 或 768 三档维度，以取得最优质的镶嵌效能。这一谋划关于需要大限度部署镶嵌向量的企业尤为伏击，可在不权贵罢休精度的前提下灵验戒指基础四肢资本。

在才能掩饰方面，该模子引入了此前同类模子多数缺失的原生语音镶嵌才能，无需借助语音转笔墨的中间关节即可平直处理音频数据。

谷歌指出，镶嵌时刻已正常利用于其多款家具之中，掩饰 RAG 场景下的高下文工程、大限度数据束缚以及传统搜索与分析场景。

当今已有部分早期探望互助伙伴运转基于 Gemini Embedding 2 构建多模态利用，谷歌称这些用例正在竣事该模子在高价值场景中的践诺后劲。