AI在历史知识考验中受挫:GPT-4 Turbo 高级历史考试准确率仅46%
2025-01-20 19:47:28
•
来源:
导读 近期,奥地利复杂科学研究所的一项研究显示,大型语言模型在高级历史问题上的表现不尽如人意。研究针对GPT-4、Llama和Gemini三大模型进行测
近期,奥地利复杂科学研究所的一项研究显示,大型语言模型在高级历史问题上的表现不尽如人意。研究针对GPT-4、Llama和Gemini三大模型进行测试,通过“Hist-LLM”基准测试工具评估其历史知识准确性,结果最佳模型GPT-4 Turbo的准确率仅为46%。这表明AI在处理复杂历史问题时存在局限,例如对古埃及特定时期技术的误解。此外,模型在处理特定区域问题时的表现较差,暗示训练数据可能存在偏见。伦敦大学学院副教授指出,尽管大型语言模型令人印象深刻,但在高级历史知识理解方面仍有待提高。
研究负责人强调,这些结果反映了LLMs在某些领域仍无法替代人类的专业知识和理解。
免责声明:本文由用户上传,如有侵权请联系删除!