人工智能在各领域的迅速发展引发了广泛关注,然而最新研究揭示了AI在处理高级历史问题时的显著局限性。奥地利复杂科学研究所(CSH)的研究团队发现,即使是最先进的大型语言模型(LLMs)在回答高级历史题时也表现不佳,准确率仅为46%。
CSH团队开发了名为”Hist-LLM”的基准测试工具,用于评估三大顶尖LLMs——OpenAI的GPT-4、Meta的Llama和谷歌的Gemini——在历史问题上的表现。该工具基于Seshat全球历史数据库,这是一个以古埃及智慧女神命名的庞大历史知识库。研究结果于上月在知名AI会议NeurIPS上公布,显示即使是表现最佳的GPT-4 Turbo模型,其准确率也仅为46%,与随机猜测相差无几。
伦敦大学学院计算机科学副教授Maria del Rio-Chanona指出,尽管LLMs在处理基本历史事实时表现出色,但在面对复杂、博士级别的历史研究时仍显得力不从心。这一发现突显了AI在深度历史理解方面的短板,同时也揭示了当前AI技术在处理专业学科知识时的局限性。
研究人员通过具体案例阐明了LLMs在历史问题上的误判。例如,当被问及古埃及某一特定时期是否存在鳞甲时,GPT-4 Turbo错误地给出了肯定回答,而实际上这种技术直到1500年后才出现在埃及。类似地,在询问古埃及某一时期是否拥有职业常备军时,LLM也给出了错误的肯定答复。
这些错误反映出LLMs在处理技术性历史问题时的困境。Del Rio-Chanona解释道,这可能是因为模型倾向于从突出的历史数据中推断,而难以检索到更冷门的历史知识。她比喻道:”如果你被反复告知A和B,而C只被提到一次,当你被问及C时,你可能会只记得A和B,并试图从中推断。”
这项研究深入探讨了AI模型在历史领域的认知偏差问题。LLMs可能过度依赖于常见或广为人知的历史信息,而忽视了更具体、专业的历史细节。这种偏差不仅影响了模型在历史问题上的表现,也反映了AI在处理需要深度背景知识和复杂上下文理解的任务时的局限性。
研究结果对AI在教育和学术研究中的应用提出了重要质疑。虽然AI在处理大量数据和执行基础任务方面表现出色,但在需要深度理解和专业知识的领域,如高级历史研究,AI的能力仍然有限。这一发现强调了在依赖AI进行复杂学术任务时应保持谨慎,同时也凸显了人类专家在这些领域的持续重要性。
此外,这项研究还揭示了AI模型训练数据的重要性。LLMs的表现很大程度上取决于其训练数据的质量和广度。在历史这样需要广泛且深入知识的领域,确保训练数据的全面性和准确性变得尤为重要。这一点对于提升AI在专业学科领域的表现至关重要。
研究结果表明,尽管AI技术在某些领域取得了显著进展,但在处理需要深度专业知识的复杂问题时仍面临挑战。GPT-4 Turbo在高级历史题上的低准确率(46%)揭示了当前AI技术的局限性,特别是在处理需要深入理解和专业知识的领域。这项研究不仅突显了AI在历史学等专业学科中应用的潜在风险,也为AI技术的未来发展提供了重要的参考方向。

请登录之后再进行评论