跳动百科

DeepSeek-R1、o1都在及格线挣扎字节开源全新知识推理测评集

匡茜宏   来源:网易

【DeepSeek-R1、o1在知识推理测评中表现挣扎,字节跳动开源全新测评数据集】

近日,字节跳动AI实验室发布了一款全新的知识推理测评数据集——Kaggle-Wiki-QA。该数据集旨在评估机器理解复杂问题并提供准确答案的能力。测试结果显示,目前主流的AI系统如DeepSeek-R1和o1等,在处理一些较为复杂的推理问题时,表现并不理想,甚至在及格线上下徘徊。

Kaggle-Wiki-QA数据集基于Wikipedia构建,包含超过10万个问题-答案对,覆盖了历史、科学、艺术等多个领域,难度较之前的数据集有所提升。它不仅考察模型对于事实性知识的理解,还要求模型具备一定的逻辑推理能力,以解答那些需要跨多个句子或段落进行综合分析的问题。

该数据集的发布,将有助于推动知识推理技术的发展,促进研究人员发现现有模型的不足之处,并针对性地改进算法。未来,随着数据集规模的扩大和技术的进步,我们有望看到更加智能的AI系统,能够更好地理解和解决现实世界中的复杂问题。