AI在历史知识考验中受挫：GPT-4 Turbo 高级历史考试准确率仅46%

导读近期，奥地利复杂科学研究所的一项研究显示，大型语言模型在高级历史问题上的表现不尽如人意。研究针对GPT-4、Llama和Gemini三大模型进行测

近期，奥地利复杂科学研究所的一项研究显示，大型语言模型在高级历史问题上的表现不尽如人意。研究针对GPT-4、Llama和Gemini三大模型进行测试，通过“Hist-LLM”基准测试工具评估其历史知识准确性，结果最佳模型GPT-4 Turbo的准确率仅为46%。这表明AI在处理复杂历史问题时存在局限，例如对古埃及特定时期技术的误解。此外，模型在处理特定区域问题时的表现较差，暗示训练数据可能存在偏见。伦敦大学学院副教授指出，尽管大型语言模型令人印象深刻，但在高级历史知识理解方面仍有待提高。

研究负责人强调，这些结果反映了LLMs在某些领域仍无法替代人类的专业知识和理解。