• 注册
  • 查看作者
  • 淘天新方法实现多模态对齐,无需细粒度标注!

    AI导读
    淘天集团未来生活实验室团队提出创新性Token Preference Optimization(TPO)方法,通过自我校准的视觉锚定奖励机制实现多模态令牌级偏好对齐,无需依赖人工细粒度标注即可优化视觉与文本的关联性。该方法突破传统多模态对齐对标注数据的高度依赖,结合双分支跨模态定位架构和动态伪标注法,在商品定位任务中实现全局视觉与语言信息的充分交互,显著提升无监督域自适应场景下的模型性能。其技术突破不仅降低标注成本、增强生成精准度,更通过搜索推荐等业务场景验证了多模态大模型在电商领域的应用价值,为行业提供自动化高效解决方案。

    近年来,视觉大模型(LVLMs)在图像理解和视觉对话等跨模态任务中展现出卓越能力。然而,随着这些模型的复杂性增加,幻觉现象的挑战也愈发明显。为此,淘天集团的未来生活实验室团队提出了一种创新的令牌级偏好对齐方法,称为Token Preference Optimization(TPO)。该方法通过自我校准的视觉锚定奖励信号,首次在多模态偏好对齐领域实现了自动校准奖励,优化了每个令牌生成时与视觉信息的相关性。

    TPO方法的核心在于无需人工细粒度标注,这显著提升了模型的优化效率和自动化水平。传统的多模态对齐方法通常依赖于大量的人工标注数据,这不仅耗时且成本高昂。淘天的新方法通过自动化的方式,减少了对人工标注的依赖,使得模型在处理多模态数据时更加高效和精准。

    此外,淘天集团还在全监督商品定位任务中设计了双分支跨模态定位架构,能够同时处理全局视觉和语音文本信息。这种架构通过充分的交互来完成商品坐标的准确定位,尤其在无监督域自适应商品定位方面取得了突破。通过迁移学习和动态伪标注法,团队实现了无需全量标注的商品定位,显著提高了模型在实际应用中的表现。

    在多模态数据对齐的研究中,淘天的创新不仅体现在技术层面,还在于其对行业应用的深刻理解。通过结合淘天的业务场景,推动多模态大语言模型在搜索、推荐、广告等业务中的应用,团队不仅提升了用户体验,还为商家带来了更高的经营效果。

    淘天的研究表明,在多模态对齐领域,创新的对齐方法和架构设计能够有效应对复杂的跨模态任务挑战。通过减少对人工标注的依赖,提升模型的自动化水平,淘天为多模态技术的未来发展提供了新的思路和方向。

    智创聚合API
  • 0
  • 0
  • 0
  • 57
  • 请登录之后再进行评论

    登录

    推荐圈子

  • 圈子版务
    圈子版务
    关注我们,获取最新平台动态。
  • 智创聚合API
    智创聚合API
    国内最大的聚合API平台,支持OpenAI、阿里、智谱、360、讯飞、百度等国内外大语言模型。https://s.lconai.com/
  • Midjourney中国社区
    Midjourney中国社区
    Midjourney是一款由Midjourney有限公司开发的数字艺术工具软件,具有生成虚拟世界的强大能力,可根据用户输入的文字或语音在虚拟世界中生成对应场景,使用户能够探索和创造自己的数字艺术作品。
  • Midjourney接口服务
    Midjourney接口服务
    目前接口已经支持码多多AI系统、小狐狸AI系统,如需其它接口请联系微信客服:lonconst
  • 智狐AI-MAX系统
    智狐AI-MAX系统
    智狐AI-MAX系统,企业级AI知识库,可以进行AI对话、AI应用,拥有强大的第三方对接能力。适用企业智能客服、企业智能文档、专家顾问助理等多种企业级商业场景,具有较大的商业使用价值。 如需购买请联系客服微信:lonconst
  • 智狐AI系统售前交流
    智狐AI系统售前交流
    创新型AI对话与绘画系统(非官方) 如需购买请联系微信客服:lonconst
  • 任务
  • 单栏布局 侧栏位置: