亚快企业服务(亚快集团)旗下外贸供应链综合服务平台



代码、多模态检索登顶SOTA!智源BGE向量模子三连

日期:2025-05-29 11:46 来源:OETY欧亿官网



  BGE-VL-Screenshot模子基于 Qwen2。5-VL-3B-Instruct ,以旧事、商品、论文、文档、项目从页等七类数据源进行锻炼,收集跨越 1300 万张截图和 700 万组标注截图问答样本。

  智源研究院将继续深耕向量模子取检索加强手艺,进一步提拔 BGE 模子系列的能力取通用性。将来等候取更多科研机构取财产伙伴合做,配合鞭策检索取人工智能成长。欢送泛博研究者取开辟者关心并利用 BGE 系列模子,共建繁荣的开源生态。

  BGE-VL-Screenshot 正在 4 项使命中表示超卓,以 60。61 的分析得分达到 SOTA。正在此根本上,通过少量 query2screenshot 多言语数据锻炼,模子实现了正在英文之外的多言语使命上的超卓表示。

  跟着根本模子代码能力快速成长,Cursor、Copilot 等辅帮编程东西大幅提拔出产力。正在面临百万行级代码库时,代码块检索加强需求凸显,因而检索模子的代码理解能力至关主要。专为各类代码检索相关使命而设想,同时配备了强大的多言语文本理解能力。模子基于 CoIR 锻炼集和大量高质量代码 - 文本的合成数据进行锻炼,并利用课程进修,以 BGE-gemma2-multilingual 的 retrieval、STS 数据为辅帮,进一步提拔代码取文本的理解能力。BGE-Code-v1 合用于开辟文档搜刮、代码库语义检索、跨言语消息获取等多种现实使用场景,是面向代码 - 文本检索使命的最优选择。

  BGE-VL-v1。5是基于 LLaVA-1。6(7。57B 参数)锻炼的新一代通用多模态检索模子,全面升级了图文理解能力并具有更强大的检索能力。BGE-VL-v1。5 正在 MagePairs 300 万 (3M) 图文对齐数据根本上又收集了共 100 万条天然取合成数据(涵盖 image-captioning 数据、视觉问答数据、分类使命数据)进行多使命锻炼,显著地提拔了模子正在各类使命上的泛化性取理解能力。

  检索加强手艺正在代码及多模态场景中的阐扬着主要感化,而向量模子是检索加强系统中的主要构成部门。针对这一需求,近日,智源研究院结合多所高校研发了三款向量模子,包罗代码向量模子 BGE-Code-v1,多模态向量模子 BGE-VL-v1。5 以及视觉化文档向量模子 BGE-VL-Screenshot。这些模子取得了代码及多模态检索的最佳结果,并以较大劣势登顶 CoIR、Code-RAG、MMEB、MVRB 等范畴内次要测试基准。BGE 自 2023 年 8 月发布以来,已成为中国首个登顶 Hugging Face 榜首的国产 AI 模子以及 2023 年所有发布模子的全球下载量冠军。

  CoIR 代码检索基准,收集了笼盖 14 种编程言语的 4 大类 8 个子使命,可以或许无效地评估模子正在天然言语和代码的各类夹杂场景中的检索能力。CodeRAG-Bench 基准评估了代码检索模子正在代码检索加强(RACG)中的表示。BGE-Code-v1 正在两个基准上均以显著劣势超越谷歌、Voyage AI、Salesforce、Jina 等贸易 / 开源模子,登顶 SOTA。

  基于 MegaPairs 数据,BGE-VL-v1。5 正在多模态检索使命中机能劣势显著,不只正在图像检索中表示强劲,合用于图文婚配、多模态问答、跨模态保举等场景。文档等多模态使命常由图文、符号、图表等多元素夹杂数据形成,这类使命称为 “可视化消息检索”(Vis-IR),因而,多模态模子不只需要具备从复杂布局中提取环节消息的视觉能力,还需精准理解文本取视觉语义。目前,现有检索模子正在此类使命中表示欠佳。

  由智源研究院从导研发的通用向量模子系列 BGE,旨正在为各类数据供给高效一坐式向量表征取语义检索方案,已推出笼盖中英文、多言语检索及沉排模子等多个版本,持续刷新 MTEB、C-MTEB、BEIR、MIRACL 等支流文本向量评测基准。BGE 凭仗高机能取开源特征备受业界关心,已普遍使用于 RAG、神经搜刮等场景,累计下载超 6 亿次,被国表里多家 AI 企业集成。

  为了精确评估模子正在 Vis-IR 使命上的表示,团队设想并推出了多模态检索基准MVRB(Massive Visualized IR Benchmark,榜单链接:,涵盖截图检索、复合截图检索、截图 QA 和分类 4 项使命共 20 个数据集。