• 注册
  • 查看作者
  • 浙大与阿里达摩院构建多模态教科书语料库

    AI导读
    浙江大学与阿里巴巴达摩院合作构建了全球首个多模态教科书语料库,旨在突破传统数据集的知识密度瓶颈。针对现有网络数据图文关联弱、知识稀疏的缺陷,研究团队从15.9万教学视频中精选7.5万个跨学科高质量视频(总时长超22,000小时),通过"视频到教科书"处理框架实现知识重构:运用语音识别精准转译讲解内容,结合图像分析与图文匹配算法提取知识点相关片段,最终形成包含关键帧、OCR文本及转录文本的结构化教学资源。该语料库显著提升了视觉语言模型训练的深度知识关联,为多模态推理任务提供了突破性数据基础。

    浙大与阿里达摩院构建多模态教科书语料库

    在人工智能和教育技术快速发展的背景下,浙江大学与阿里巴巴达摩院联合推出的多模态教科书语料库项目,标志着多模态学习资源建设的重大突破。这一创新性研究旨在通过高质量的教学视频语料,为大规模视觉语言模型(VLMs)的训练提供全新的数据基础。

    研究团队面临的首要挑战是现有多模态数据集普遍存在的问题:网页类数据往往图文关联性较弱,知识密度不高,难以支撑复杂的视觉推理任务。为此,他们将目光转向互联网海量的教学视频资源,构建了一个前所未有的教科书语料库。

    在数据收集过程中,研究团队展现出极大的专业性和系统性。他们广泛搜集了超过15.9万个教学视频,经过严格筛选,最终保留了75,000个高质量视频。这些视频跨越数学、物理、化学等多个学科,总时长超过22,000小时,为多模态学习提供了丰富的知识源。

    语料库构建的技术路径同样令人印象深刻。研究团队设计了一套精细的”视频到教科书”处理流程。首先,利用先进的自动语音识别(ASR)技术,将视频中的讲解内容精准转录为文本;随后通过复杂的图像分析与文字匹配算法,提取与知识点紧密相关的视频片段。最终,将关键帧、OCR文本和转录文本巧妙编排,形成结构严谨的多模态教科书。

    这一语料库的独特价值在于其高度结构化和知识密集的特点。相较于传统的网页数据集,新构建的教科书数据集在知识关联性和内容深度上都实现了显著提升。初步研究表明,这个语料库能够为视觉语言模型提供更优质的训练基础,有望推动多模态学习技术的重大进展。

    智创聚合API
  • 0
  • 0
  • 0
  • 101
  • 请登录之后再进行评论

    登录

    推荐圈子

  • 圈子版务
    圈子版务
    关注我们,获取最新平台动态。
  • 智创聚合API
    智创聚合API
    国内最大的聚合API平台,支持OpenAI、阿里、智谱、360、讯飞、百度等国内外大语言模型。https://s.lconai.com/
  • Midjourney中国社区
    Midjourney中国社区
    Midjourney是一款由Midjourney有限公司开发的数字艺术工具软件,具有生成虚拟世界的强大能力,可根据用户输入的文字或语音在虚拟世界中生成对应场景,使用户能够探索和创造自己的数字艺术作品。
  • Midjourney接口服务
    Midjourney接口服务
    目前接口已经支持码多多AI系统、小狐狸AI系统,如需其它接口请联系微信客服:lonconst
  • 智狐AI-MAX系统
    智狐AI-MAX系统
    智狐AI-MAX系统,企业级AI知识库,可以进行AI对话、AI应用,拥有强大的第三方对接能力。适用企业智能客服、企业智能文档、专家顾问助理等多种企业级商业场景,具有较大的商业使用价值。 如需购买请联系客服微信:lonconst
  • 智狐AI系统售前交流
    智狐AI系统售前交流
    创新型AI对话与绘画系统(非官方) 如需购买请联系微信客服:lonconst
  • 任务
  • 单栏布局 侧栏位置: