
3 月 10 日,谷歌 DeepMind 推出 Gemini Embedding 2,这是该公司首个原生多模态镶嵌模子,将文本、图像、视频、音频及文档调处映射至单一镶嵌空间,标识着 AI 镶嵌时刻迈入全模态会通的新阶段。

Gemini Embedding 2 扶植超 100 种谈话的语义厚实,并在文本、图像及视频任务的基准测试中卓绝现存主流模子,同期引入了此前镶嵌模子所欠缺的语音处理才能。
该模子现已通过 Gemini API 及 Vertex AI 参加公开预览阶段,建筑者可即时接入。
关于企业用户而言,该模子的发布平直镌汰了构建多模态检索增强生成(RAG)、语义搜索及数据分类系统的时刻门槛,有望简化此前需跨模态分裂处理的复杂数据管说念。
全模态调处:从文本膨大至五类媒体神志
Gemini Embedding 2 基于 Gemini 架构构建,天博体育将镶嵌才能从纯文本膨大至五类输入神志:
文本扶植最多 8192 个输入 token;
图像每次肯求最多处理 6 张,扶植 PNG 及 JPEG 神志;
视频扶植最长 120 秒的 MP4 和 MOV 文献;
{jz:field.toptypename/}音频可平直摄入并生成镶嵌向量,无需历程中间文本转录法子;
文档则扶植最多 6 页的 PDF 文献平直镶嵌。
区别于一一处理单一模态的传统方式,该模子扶植交错输入,正规投注平台即在单次肯求中同期传入图像与文本等多种模态组合,使模子粗略捕捉不同媒体类型之间复杂而隐微的语义有关。

Gemini Embedding 2 持续了谷歌此前镶嵌模子中选拔的 Matryoshka 暗示学习(MRL)时刻。该时刻通过 " 嵌套 " 方式动态压缩向量维度,使输出维度可从默许的 3072 天真缩减,匡助建筑者在模子性能与存储资本之间取得均衡。
基准测试逾越,语音才能为新亮点
客服QQ:88888888
谷歌暗示,Gemini Embedding 2 在文本、图像及视频任务的基准测试中均优于刻下主流竞品模子,并将其定位为多模态镶嵌规模的新性能标杆。

谷歌提倡建筑者字据利用场景取舍 3072、1536 或 768 三档维度,以取得最优质的镶嵌效能。这一谋划关于需要大限度部署镶嵌向量的企业尤为伏击,可在不权贵罢休精度的前提下灵验戒指基础四肢资本。
在才能掩饰方面,该模子引入了此前同类模子多数缺失的原生语音镶嵌才能,无需借助语音转笔墨的中间关节即可平直处理音频数据。
谷歌指出,镶嵌时刻已正常利用于其多款家具之中,掩饰 RAG 场景下的高下文工程、大限度数据束缚以及传统搜索与分析场景。
当今已有部分早期探望互助伙伴运转基于 Gemini Embedding 2 构建多模态利用,谷歌称这些用例正在竣事该模子在高价值场景中的践诺后劲。
