浙大与阿里达摩院构建多模态教科书语料库

AI导读

浙江大学与阿里巴巴达摩院合作构建了全球首个多模态教科书语料库，旨在突破传统数据集的知识密度瓶颈。针对现有网络数据图文关联弱、知识稀疏的缺陷，研究团队从15.9万教学视频中精选7.5万个跨学科高质量视频（总时长超22,000小时），通过"视频到教科书"处理框架实现知识重构：运用语音识别精准转译讲解内容，结合图像分析与图文匹配算法提取知识点相关片段，最终形成包含关键帧、OCR文本及转录文本的结构化教学资源。该语料库显著提升了视觉语言模型训练的深度知识关联，为多模态推理任务提供了突破性数据基础。

在人工智能和教育技术快速发展的背景下，浙江大学与阿里巴巴达摩院联合推出的多模态教科书语料库项目，标志着多模态学习资源建设的重大突破。这一创新性研究旨在通过高质量的教学视频语料，为大规模视觉语言模型(VLMs)的训练提供全新的数据基础。

研究团队面临的首要挑战是现有多模态数据集普遍存在的问题：网页类数据往往图文关联性较弱，知识密度不高，难以支撑复杂的视觉推理任务。为此，他们将目光转向互联网海量的教学视频资源，构建了一个前所未有的教科书语料库。

在数据收集过程中，研究团队展现出极大的专业性和系统性。他们广泛搜集了超过15.9万个教学视频，经过严格筛选，最终保留了75,000个高质量视频。这些视频跨越数学、物理、化学等多个学科，总时长超过22,000小时，为多模态学习提供了丰富的知识源。

语料库构建的技术路径同样令人印象深刻。研究团队设计了一套精细的”视频到教科书”处理流程。首先，利用先进的自动语音识别(ASR)技术，将视频中的讲解内容精准转录为文本；随后通过复杂的图像分析与文字匹配算法，提取与知识点紧密相关的视频片段。最终，将关键帧、OCR文本和转录文本巧妙编排，形成结构严谨的多模态教科书。

这一语料库的独特价值在于其高度结构化和知识密集的特点。相较于传统的网页数据集，新构建的教科书数据集在知识关联性和内容深度上都实现了显著提升。初步研究表明，这个语料库能够为视觉语言模型提供更优质的训练基础，有望推动多模态学习技术的重大进展。