T2Vid: 革命性多模态大模型，重塑视频理解的未来｜数据增强的突破性方法

AI 搜索引擎 2024-12-28

107

本文由中国科学技术大学 (USTC)，南京大学 (NJU)，腾讯优图实验室 (Tencent YouTu Lab)，清华大学 (THU)，中国科学院 (CAS)联合发布。

标题: T2Vid: Translating Long Text into Multi-Image is the Catalyst for Video-LLMs

论文地址：https://arxiv.org/pdf/2411.19951

代码链接：https://github.com/xjtupanda/T2Vid

摘要

本文研究了利用预训练图像-LLMs 进行视频理解的两种主流方法：零样本推理和微调。作者发现零样本推理存在泛化能力和时间理解能力有限的局限性，而微调方法则存在学习效率低的问题。为了解决这些问题，作者提出了T2Vid方法，通过将长篇文本内容转化为一系列图像，进而模拟视频样本，以此来增强训练数据中指令多样性，进而提升 LLMs 对视频的理解能力。实验结果表明，T2Vid 方法可以有效地提高图像-LLMs 的视频理解能力，并在长视频理解方面表现出色。

核心内容

T2Vid 的核心策略在于将长篇文本转化为一系列图像序列，以此模拟视频数据，进而扩展训练语料中的指令多样性，并增强多模态大型语言模型（MLLMs）在视频理解任务上的性能。这种方法专门针对零样本推断的短板和微调学习效率不高的问题，通过创造合成视频样本来提升模型对视频内容的理解和处理能力。

具体步骤如下：

1. 数据准备：

选择包含 (long-context, instruction, answer) 三元组的文本数据集。
long-context 是一个长文本段落，例如书籍章节或学术论文片段。
instruction 是一个针对 long-context 的指令，例如“总结这段文字”。
answer 是 instruction 对应的答案。

2. 文本分割：

将 long-context 分割成多个段，每个段包含一定数量的句子。
段落数量可以根据需要进行调整，以模拟不同长度的视频。

3. 文本转图像：

使用文本到图像生成模型（例如 Stable Diffusion 或 DALL-E）将每个文本段转换为图像。
可以根据需要调整图像的风格和分辨率。

4. 数据格式转换：

将生成的图像序列、instruction 和 answer 按照视频指令数据的格式进行组织。
例如，可以使用 (image_sequence, instruction, answer) 三元组的形式。

5. 数据集成：

将生成的视频样本与现有的视频指令数据集进行混合，作为微调训练的语料库。

实验：

1. 使用模式：

Image-LLM，如 MiniCPM-8B、Idefics3-8B 等。

2. 评估数据集：

Video-MME：包含各种场景的视频数据集。
MVBench：评估视觉感知任务。
TempCompass：测量时态上下文理解。

3. 实验结果：

作者提出的方法在 Video-MME 基准测试中，无论在数据量为 30K 还是 200K 的情况下，都展现出了比其他方法更高的准确性。
不同模型/设置在三个视频基准测试上的表现。作者提出的方法仅使用总样本量的15%（与完整的视频集（200K）相比）进行微调，即可实现相似甚至更优的性能。

总结

1. T2Vid 的优势：

指令多样性：文本数据包含丰富的指令类型，可以有效提高模型的学习效率。
时间结构模拟：文本段之间存在相关性，可以模拟视频帧的时间结构，帮助模型学习时间理解能力。
经济高效：文本数据更容易收集，且生成图像的成本较低。

2. T2Vid 的局限性：

图像质量：文本到图像生成模型的输出质量可能不如真实视频图像。
时间结构：文本段之间的时间结构可能与真实视频帧之间的时间结构存在差异。
数据平衡：生成的视频样本可能与真实视频样本在数据分布上存在差异。

3. 未来改进方向：

改进图像生成模型：使用更先进的文本到图像生成模型，以提高图像质量。
优化文本分割：研究更有效的文本分割方法，以更好地模拟视频帧的时间结构。
数据增强：使用数据增强技术，例如随机裁剪、旋转和缩放，以提高模型鲁棒性。

总而言之，T2Vid 是一种很有潜力的方法，可以帮助研究人员利用 Image-LLM 进行视频理解。通过不断改进，T2Vid 可以在未来发挥更大的作用。

大数据

文章转载自AI 搜索引擎，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

​T2Vid: 革命性多模态大模型，重塑视频理解的未来｜数据增强的突破性方法

具体步骤如下：

实验：

1. T2Vid 的优势：

2. T2Vid 的局限性：

3. 未来改进方向：

评论

T2Vid: 革命性多模态大模型，重塑视频理解的未来｜数据增强的突破性方法