淘天新方法实现多模态对齐，无需细粒度标注！

AI导读

淘天集团未来生活实验室团队提出创新性Token Preference Optimization（TPO）方法，通过自我校准的视觉锚定奖励机制实现多模态令牌级偏好对齐，无需依赖人工细粒度标注即可优化视觉与文本的关联性。该方法突破传统多模态对齐对标注数据的高度依赖，结合双分支跨模态定位架构和动态伪标注法，在商品定位任务中实现全局视觉与语言信息的充分交互，显著提升无监督域自适应场景下的模型性能。其技术突破不仅降低标注成本、增强生成精准度，更通过搜索推荐等业务场景验证了多模态大模型在电商领域的应用价值，为行业提供自动化高效解决方案。

近年来，视觉大模型（LVLMs）在图像理解和视觉对话等跨模态任务中展现出卓越能力。然而，随着这些模型的复杂性增加，幻觉现象的挑战也愈发明显。为此，淘天集团的未来生活实验室团队提出了一种创新的令牌级偏好对齐方法，称为Token Preference Optimization（TPO）。该方法通过自我校准的视觉锚定奖励信号，首次在多模态偏好对齐领域实现了自动校准奖励，优化了每个令牌生成时与视觉信息的相关性。

TPO方法的核心在于无需人工细粒度标注，这显著提升了模型的优化效率和自动化水平。传统的多模态对齐方法通常依赖于大量的人工标注数据，这不仅耗时且成本高昂。淘天的新方法通过自动化的方式，减少了对人工标注的依赖，使得模型在处理多模态数据时更加高效和精准。

此外，淘天集团还在全监督商品定位任务中设计了双分支跨模态定位架构，能够同时处理全局视觉和语音文本信息。这种架构通过充分的交互来完成商品坐标的准确定位，尤其在无监督域自适应商品定位方面取得了突破。通过迁移学习和动态伪标注法，团队实现了无需全量标注的商品定位，显著提高了模型在实际应用中的表现。

在多模态数据对齐的研究中，淘天的创新不仅体现在技术层面，还在于其对行业应用的深刻理解。通过结合淘天的业务场景，推动多模态大语言模型在搜索、推荐、广告等业务中的应用，团队不仅提升了用户体验，还为商家带来了更高的经营效果。

淘天的研究表明，在多模态对齐领域，创新的对齐方法和架构设计能够有效应对复杂的跨模态任务挑战。通过减少对人工标注的依赖，提升模型的自动化水平，淘天为多模态技术的未来发展提供了新的思路和方向。