研究：GPT-4 Turbo回答高级历史题准确率仅46%

AI导读

奥地利复杂科学研究所的最新研究显示，GPT-4 Turbo等顶尖大语言模型在回答博士级历史问题时准确率仅46%，接近随机猜测水平。通过基于Seshat历史数据库开发的Hist-LLM基准测试，研究者发现这些模型虽能处理基础历史事实，却难以应对涉及专业深度和技术细节的复杂问题，例如错误断言古埃及早期存在鳞甲和职业常备军。研究揭示AI存在认知偏差，过度依赖高频历史数据而忽视冷门知识，反映出训练数据广度对专业领域表现的直接影响。该成果警示AI在学术研究中的应用风险，强调人类专家在深度知识领域不可替代的核心价值，同时指明提升训练数据质量是改善AI专业能力的关键方向。

人工智能在各领域的迅速发展引发了广泛关注，然而最新研究揭示了AI在处理高级历史问题时的显著局限性。奥地利复杂科学研究所（CSH）的研究团队发现，即使是最先进的大型语言模型（LLMs）在回答高级历史题时也表现不佳，准确率仅为46%。

CSH团队开发了名为”Hist-LLM”的基准测试工具，用于评估三大顶尖LLMs——OpenAI的GPT-4、Meta的Llama和谷歌的Gemini——在历史问题上的表现。该工具基于Seshat全球历史数据库，这是一个以古埃及智慧女神命名的庞大历史知识库。研究结果于上月在知名AI会议NeurIPS上公布，显示即使是表现最佳的GPT-4 Turbo模型，其准确率也仅为46%，与随机猜测相差无几。

伦敦大学学院计算机科学副教授Maria del Rio-Chanona指出，尽管LLMs在处理基本历史事实时表现出色，但在面对复杂、博士级别的历史研究时仍显得力不从心。这一发现突显了AI在深度历史理解方面的短板，同时也揭示了当前AI技术在处理专业学科知识时的局限性。

研究人员通过具体案例阐明了LLMs在历史问题上的误判。例如，当被问及古埃及某一特定时期是否存在鳞甲时，GPT-4 Turbo错误地给出了肯定回答，而实际上这种技术直到1500年后才出现在埃及。类似地，在询问古埃及某一时期是否拥有职业常备军时，LLM也给出了错误的肯定答复。

这些错误反映出LLMs在处理技术性历史问题时的困境。Del Rio-Chanona解释道，这可能是因为模型倾向于从突出的历史数据中推断，而难以检索到更冷门的历史知识。她比喻道：”如果你被反复告知A和B，而C只被提到一次，当你被问及C时，你可能会只记得A和B，并试图从中推断。”

这项研究深入探讨了AI模型在历史领域的认知偏差问题。LLMs可能过度依赖于常见或广为人知的历史信息，而忽视了更具体、专业的历史细节。这种偏差不仅影响了模型在历史问题上的表现，也反映了AI在处理需要深度背景知识和复杂上下文理解的任务时的局限性。

研究结果对AI在教育和学术研究中的应用提出了重要质疑。虽然AI在处理大量数据和执行基础任务方面表现出色，但在需要深度理解和专业知识的领域，如高级历史研究，AI的能力仍然有限。这一发现强调了在依赖AI进行复杂学术任务时应保持谨慎，同时也凸显了人类专家在这些领域的持续重要性。

此外，这项研究还揭示了AI模型训练数据的重要性。LLMs的表现很大程度上取决于其训练数据的质量和广度。在历史这样需要广泛且深入知识的领域，确保训练数据的全面性和准确性变得尤为重要。这一点对于提升AI在专业学科领域的表现至关重要。

研究结果表明，尽管AI技术在某些领域取得了显著进展，但在处理需要深度专业知识的复杂问题时仍面临挑战。GPT-4 Turbo在高级历史题上的低准确率（46%）揭示了当前AI技术的局限性，特别是在处理需要深入理解和专业知识的领域。这项研究不仅突显了AI在历史学等专业学科中应用的潜在风险，也为AI技术的未来发展提供了重要的参考方向。