北京大学联合OceanBase发布LoVR基准:突破长视频检索瓶颈,入选WWW 2026,引领“全视频+片段级”智能检索新范式

AI资讯4周前发布 全启星小编
1,021 0

长视频理解的深水区终于迎来了权威评测标准。2026 年 3 月 2 日,由 与 联合提出的长视频多模态检索基准 LoVR Long Video Retrieval 正式宣布被国际顶级会议 WWW 2026 The Web Conference 录用。这一成果填补了业界在真实长视频Longform Video多粒度检索评测领域的空白。

核心突破:解决长视频检索的三座大山传统的视频检索基准大多局限于短视频如 TikTok 风格,难以应对长视频中复杂的语义关联。LoVR 的出现针对性地解决了三大痛点:全粒度覆盖:既支持全视频 Videolevel 的宏观检索,也支持片段级 Cliplevel 的微观精确定位,满足了从搜整部片子到搜某个瞬间的多元需求。规模化高质量标注:配套了一套创新的标注流水线,通过大模型VLM自动化生成、质量自动评

分与动态修正相结合,实现了低成本、可扩展的高质量多模态数据构建。真实场景建模:系统性地刻画了长视频检索中的长程语义偏移、信息密度极高等真实难点。技术规格:40,000 精细片段的支撑不仅仅是一个理论框架,更是一个庞大的实战数据库:海量数据:包含 467 个真实长视频,平均时长超过 25 分钟。

精细切片:衍生出超过 40,804 个精细片段,每个片段均配有经过人工和机器双重验证的高质量文本描述Captions。语义融合技术:引入了语义融合方法,确保在生成全视频摘要时不会丢失关键的上下文信息,为长程语义建模提供了统一的评测平台。行业观察:校企联研助推 AGI 落地作为与北大校企联合研究的代表作,LoVR 的入选意味着国产数据库领军企业正从单一的存储计算向 向量检索多模态理解 的前沿领域迈进

。随着长视频在流媒体、监控监控、在线教育等领域的爆发,LoVR 提供的多粒度检索标准将成为未来视频搜索引擎、AI 剪辑助手等应用走向可靠的重要基石。。

相关文章