暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

​T2Vid: 革命性多模态大模型,重塑视频理解的未来|数据增强的突破性方法

AI 搜索引擎 2024-12-28
107

本文由中国科学技术大学 (USTC),南京大学 (NJU),腾讯优图实验室 (Tencent YouTu Lab),清华大学 (THU),中国科学院 (CAS)联合发布。
标题: T2Vid: Translating Long Text into Multi-Image is the Catalyst for Video-LLMs

论文地址:https://arxiv.org/pdf/2411.19951

代码链接:https://github.com/xjtupanda/T2Vid

01

摘要

本文研究了利用预训练图像-LLMs 进行视频理解的两种主流方法:零样本推理和微调。作者发现零样本推理存在泛化能力和时间理解能力有限的局限性,而微调方法则存在学习效率低的问题。为了解决这些问题,作者提出了T2Vid方法,通过将长篇文本内容转化为一系列图像,进而模拟视频样本,以此来增强训练数据中指令多样性,进而提升 LLMs 对视频的理解能力。实验结果表明,T2Vid 方法可以有效地提高图像-LLMs 的视频理解能力,并在长视频理解方面表现出色。

02

核心内容

T2Vid 的核心策略在于将长篇文本转化为一系列图像序列,以此模拟视频数据,进而扩展训练语料中的指令多样性,并增强多模态大型语言模型(MLLMs)在视频理解任务上的性能。这种方法专门针对零样本推断的短板和微调学习效率不高的问题,通过创造合成视频样本来提升模型对视频内容的理解和处理能力。
具体步骤如下:
1. 数据准备:
  • 选择包含 (long-context, instruction, answer) 三元组的文本数据集。

  • long-context 是一个长文本段落,例如书籍章节或学术论文片段。

  • instruction 是一个针对 long-context 的指令,例如“总结这段文字”。

  • answer 是 instruction 对应的答案。

2. 文本分割:
  • 将 long-context 分割成多个段,每个段包含一定数量的句子。
  • 段落数量可以根据需要进行调整,以模拟不同长度的视频。

3. 文本转图像:
  • 使用文本到图像生成模型(例如 Stable Diffusion 或 DALL-E)将每个文本段转换为图像。
  • 可以根据需要调整图像的风格和分辨率。

4. 数据格式转换:
  • 生成的图像序列、instruction 和 answer 按照视频指令数据的格式进行组织。
  • 例如,可以使用 (image_sequence, instruction, answer) 三元组的形式。

5. 数据集成:
  • 将生成的视频样本与现有的视频指令数据集进行混合,作为微调训练的语料库。

实验:
1. 使用模式:
  • Image-LLM,如 MiniCPM-8B、Idefics3-8B 等。

2. 评估数据集:
  • Video-MME:包含各种场景的视频数据集。
  • MVBench:评估视觉感知任务。
  • TempCompass:测量时态上下文理解。

3. 实验结果:
  • 作者提出的方法在 Video-MME 基准测试中,无论在数据量为 30K 还是 200K 的情况下,都展现出了比其他方法更高的准确性。

  • 不同模型/设置在三个视频基准测试上的表现。作者提出的方法仅使用总样本量的15%(与完整的视频集(200K)相比)进行微调,即可实现相似甚至更优的性能。

03

总结

1. T2Vid 的优势:

  • 指令多样性:文本数据包含丰富的指令类型,可以有效提高模型的学习效率。
  • 时间结构模拟:文本段之间存在相关性,可以模拟视频帧的时间结构,帮助模型学习时间理解能力。
  • 经济高效:文本数据更容易收集,且生成图像的成本较低。

2. T2Vid 的局限性:
  • 图像质量:文本到图像生成模型的输出质量可能不如真实视频图像。
  • 时间结构:文本段之间的时间结构可能与真实视频帧之间的时间结构存在差异。
  • 数据平衡:生成的视频样本可能与真实视频样本在数据分布上存在差异。

3. 未来改进方向:
  • 改进图像生成模型:使用更先进的文本到图像生成模型,以提高图像质量。
  • 优化文本分割:研究更有效的文本分割方法,以更好地模拟视频帧的时间结构。
  • 数据增强:使用数据增强技术,例如随机裁剪、旋转和缩放,以提高模型鲁棒性。

总而言之,T2Vid 是一种很有潜力的方法,可以帮助研究人员利用 Image-LLM 进行视频理解。通过不断改进,T2Vid 可以在未来发挥更大的作用。

文章转载自AI 搜索引擎,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论