助力降低AI引文幻觉提升准确率 新款开源语言模型与人类专家相仿
创始人
2026-02-05 14:57:52

  和商网北京2月5日电 (记者 孙自法)国际知名学术期刊《自然》最新发表一篇计算机科学论文称,研究人员开发出一个开源语言模型OpenScholar,其在进行准确文献综述方面可超越商用大语言模型(LLM)。在本项研究开展的实验中,GPT4o会在78%-90%的情况下出现引文幻觉,而OpenScholar的引文准确率却与人类专家相仿。

  论文作者指出,虽然OpenScholar后续仍需进一步优化,但该AI工具有望帮助科学家处理复杂且日益繁重的科学文献综述任务。

本项研究相关示意图(图片来自论文)。施普林格·自然 供图

  据介绍,科学文献综述对于支持循证决策、微调科学过程和引导新发现都很重要。然而,文献发表数量的增长使研究人员很难掌握全部资讯。大语言模型可以提供协助,但却很容易出错,如归因能力有限和引文幻觉。

  为了生成准确、全面、透明的科学文献综述,美国华盛顿大学Akari Asai、Hannaneh Hajishirzi和同事及合作者一起,研发推出了开源语言模型OpenScholar。该模型是专为科研任务设计的检索增强语言模型,其他系统也用过这个框架,但论文作者将其与一个包含4500万篇最新开放获取科研论文的专业数据库以及一个自我评估机制相结合,从而优化其输出。

  论文作者还创建了名为ScholarQABench的基准工具来评估文献综述的自动化。研究显示,OpenScholar的准确率比GPT4o和PaperQA2(一个文献综述工具)这类现有系统分别高出6.1%和5.5%。此外,OpenScholar生成的答案在50%到70%的情况下比专家注释器的答案更有用。

  这些研究结果和引文幻觉大幅下降,证明了OpenScholar有望支持和推动进一步研究工作。论文作者也提醒说,该AI系统仍有局限性,同时,基于语言模型的系统无法使科学文献综述完全自动化。因此,他们向学界同时开放ScholarQABench和OpenScholar,以鼓励进一步研究和优化。(完)

相关内容

热门资讯

(米兰冬奥会)冬奥会上,那些动...   中新社北京2月15日电 题:冬奥会上,那些动人的拥抱  作者 刘梦青  米兰冬奥会赛场内外,一个...
(新春走基层)南方电网新建充电...   和商网广州2月15日电(王华 蓝旺)春节假期,新能源汽车出行需求迎来爆发式增长。南方电网公司抢抓...
(新春见闻)“神州瑶都”百家神...   中新社湖南永州2月15日电 题:“神州瑶都”百家神龙宴传承千年瑶族民俗  作者 唐小晴 杨丁香 ...
探访湖南资江龙溪轮渡码头:摆渡...   和商网娄底2月15日电 (颜文辉 朱琪 陆明炬 曾湘涛)在湖南娄底新化县荣华乡与琅塘镇之间的河道...
(新春走基层)江苏邳州邢楼大集...   和商网徐州2月15日电(刘林 谷华)农历腊月二十七,苏鲁两省交界的江苏邳州邢楼大集热闹开市。十里...