• 注册
  • 查看作者
  • 研究:GPT-4 Turbo回答高级历史题准确率仅46%

    AI导读
    奥地利复杂科学研究所的最新研究显示,GPT-4 Turbo等顶尖大语言模型在回答博士级历史问题时准确率仅46%,接近随机猜测水平。通过基于Seshat历史数据库开发的Hist-LLM基准测试,研究者发现这些模型虽能处理基础历史事实,却难以应对涉及专业深度和技术细节的复杂问题,例如错误断言古埃及早期存在鳞甲和职业常备军。研究揭示AI存在认知偏差,过度依赖高频历史数据而忽视冷门知识,反映出训练数据广度对专业领域表现的直接影响。该成果警示AI在学术研究中的应用风险,强调人类专家在深度知识领域不可替代的核心价值,同时指明提升训练数据质量是改善AI专业能力的关键方向。

    人工智能在各领域的迅速发展引发了广泛关注,然而最新研究揭示了AI在处理高级历史问题时的显著局限性。奥地利复杂科学研究所(CSH)的研究团队发现,即使是最先进的大型语言模型(LLMs)在回答高级历史题时也表现不佳,准确率仅为46%。

    CSH团队开发了名为”Hist-LLM”的基准测试工具,用于评估三大顶尖LLMs——OpenAI的GPT-4、Meta的Llama和谷歌的Gemini——在历史问题上的表现。该工具基于Seshat全球历史数据库,这是一个以古埃及智慧女神命名的庞大历史知识库。研究结果于上月在知名AI会议NeurIPS上公布,显示即使是表现最佳的GPT-4 Turbo模型,其准确率也仅为46%,与随机猜测相差无几。

    伦敦大学学院计算机科学副教授Maria del Rio-Chanona指出,尽管LLMs在处理基本历史事实时表现出色,但在面对复杂、博士级别的历史研究时仍显得力不从心。这一发现突显了AI在深度历史理解方面的短板,同时也揭示了当前AI技术在处理专业学科知识时的局限性。

    研究人员通过具体案例阐明了LLMs在历史问题上的误判。例如,当被问及古埃及某一特定时期是否存在鳞甲时,GPT-4 Turbo错误地给出了肯定回答,而实际上这种技术直到1500年后才出现在埃及。类似地,在询问古埃及某一时期是否拥有职业常备军时,LLM也给出了错误的肯定答复。

    这些错误反映出LLMs在处理技术性历史问题时的困境。Del Rio-Chanona解释道,这可能是因为模型倾向于从突出的历史数据中推断,而难以检索到更冷门的历史知识。她比喻道:”如果你被反复告知A和B,而C只被提到一次,当你被问及C时,你可能会只记得A和B,并试图从中推断。”

    这项研究深入探讨了AI模型在历史领域的认知偏差问题。LLMs可能过度依赖于常见或广为人知的历史信息,而忽视了更具体、专业的历史细节。这种偏差不仅影响了模型在历史问题上的表现,也反映了AI在处理需要深度背景知识和复杂上下文理解的任务时的局限性。

    研究结果对AI在教育和学术研究中的应用提出了重要质疑。虽然AI在处理大量数据和执行基础任务方面表现出色,但在需要深度理解和专业知识的领域,如高级历史研究,AI的能力仍然有限。这一发现强调了在依赖AI进行复杂学术任务时应保持谨慎,同时也凸显了人类专家在这些领域的持续重要性。

    此外,这项研究还揭示了AI模型训练数据的重要性。LLMs的表现很大程度上取决于其训练数据的质量和广度。在历史这样需要广泛且深入知识的领域,确保训练数据的全面性和准确性变得尤为重要。这一点对于提升AI在专业学科领域的表现至关重要。

    研究结果表明,尽管AI技术在某些领域取得了显著进展,但在处理需要深度专业知识的复杂问题时仍面临挑战。GPT-4 Turbo在高级历史题上的低准确率(46%)揭示了当前AI技术的局限性,特别是在处理需要深入理解和专业知识的领域。这项研究不仅突显了AI在历史学等专业学科中应用的潜在风险,也为AI技术的未来发展提供了重要的参考方向。

    智创聚合API
  • 0
  • 0
  • 0
  • 53
  • 请登录之后再进行评论

    登录

    推荐圈子

  • 圈子版务
    圈子版务
    关注我们,获取最新平台动态。
  • 智创聚合API
    智创聚合API
    国内最大的聚合API平台,支持OpenAI、阿里、智谱、360、讯飞、百度等国内外大语言模型。https://s.lconai.com/
  • Midjourney中国社区
    Midjourney中国社区
    Midjourney是一款由Midjourney有限公司开发的数字艺术工具软件,具有生成虚拟世界的强大能力,可根据用户输入的文字或语音在虚拟世界中生成对应场景,使用户能够探索和创造自己的数字艺术作品。
  • Midjourney接口服务
    Midjourney接口服务
    目前接口已经支持码多多AI系统、小狐狸AI系统,如需其它接口请联系微信客服:lonconst
  • 智狐AI-MAX系统
    智狐AI-MAX系统
    智狐AI-MAX系统,企业级AI知识库,可以进行AI对话、AI应用,拥有强大的第三方对接能力。适用企业智能客服、企业智能文档、专家顾问助理等多种企业级商业场景,具有较大的商业使用价值。 如需购买请联系客服微信:lonconst
  • 智狐AI系统售前交流
    智狐AI系统售前交流
    创新型AI对话与绘画系统(非官方) 如需购买请联系微信客服:lonconst
  • 任务
  • 单栏布局 侧栏位置: