ChatGPT性能最多提升214%,刷新7个榜单!IDEA、港科大广州等提出ToG思维图谱_每日快讯(日常热点指南)

ChatGPT性能最多提升214%,刷新7个榜单!IDEA、港科大广州等提出ToG思维图谱


ChatGPT性能最多提升214%,刷新7个榜单!IDEA、港科大广州等提出ToG思维图谱

  2023-12-04 23:30:41     简体|繁體
http://news.qghjm.com/1012196.html

原文来源:新智元

图片来源:由无界 AI生成

大模型虽好,但「一本正经的胡说八道」的问题该怎么解?

在金融、法律、医疗等严肃领域,幻觉问题一直是制约大模型落地应用的主要瓶颈。

如何弥补这部分缺陷,使更多行业能快速加入对新一轮生产力变革的探索,是当下AI研究的重要课题,其中,大模型(LLM)与知识图谱(KG)的融合来弥补前者的能力短板,是颇受关注的研究方向。

最近,来自IDEA研究院、微软亚洲研究院、香港科技大学、香港科技大学(广州)、厦门大学和美国南加州大学的研究团队推出Think-on-Graph(思维图谱)技术,通过LLM与KG的紧耦合交互,驱动LLM agent在知识图谱上「思考」,逐步搜索推理出最优答案。

论文地址:https://arxiv.org/abs/2307.07697‌

代码链接:https://github.com/IDEA-FinAI/ToG‌

下面,我们先用一个刁钻的问题来认识Think-on-Graph的「脑回路」:如何客观评价段誉和洪七公谁的武功更高强?(段誉出自《天龙八部》,洪七公出自《射雕英雄传》,两者未在同一部作品中出现。)

首先看看地表最强大模型GPT-4是怎么说的:

由于LLM是经由海量碎片化语料训练而成,此类线索分析型的推理问题确实对其挑战很大。从回答中不难看出,除了幻觉现象的出现之外,在比较两位人物的武功水平时,GPT-4着重罗列表象事实,缺乏深度的逻辑分析。

那么, Think-on-Graph是怎样解题的呢?

首先,图谱知识显示,六脉神剑是大理段氏最强武功,而一阳指是大理段氏常用武功,大模型由此判断「六脉神剑」强于「一阳指」;继而推理出段誉武功强于以一阳指冠绝江湖的一灯大师。

然后,又根据图谱上的「一灯大师与洪七公同属『华山四绝』」,推理出两者武功相当。最终,段誉>一灯大师,而一灯大师=洪七公,于是得出结论:段誉武功更高。

可见,融合了结构化知识与大模型推理能力的Think-on-Graph,不仅条理清晰,还提供了可追溯的推理链条。

LLM从「翻译官」变「跑腿」,与KG紧耦合实现深度推理

众所周之,大模型擅长理解、推理、生成与学习;知识图谱则因其结构化的知识存储方式,在逻辑链条推理上表现更佳,且具备更好的推理透明度与可信度。两者是互补度极高的好拍档,关键在于能否找到好的结合方式,据研究人员介绍,目前主流的方法有两类。

第一类是在模型预训练或微调阶段,将知识图谱嵌入到一个高维向量空间,并与大模型的嵌入向量相融合。

但此类方法不仅耗时、耗算力,也无法发挥知识图谱的许多天然优势(如:实时知识更新、可解释性、推理可追溯等)。

第二类路径则利用知识图谱的知识结构,通过prompt engineering来进行两者的融合,这之中又分松耦合、紧耦合两种范式。

松耦合范式中的LLM相当于「翻译官」,理解用户的自然语言输入后,将其翻译成知识图谱中的查询语言,再将KG上的搜索结果反向翻译给用户,这种范式对知识图谱本身的质量与完整度要求极高,忽略了大模型的内在知识与推理能力。

在Think-on-Graph所代表的紧耦合范式中,LLM变身「跑腿」,作为agent在KG的关联实体上一步一步搜索推理出最优答案。因此,在每一步推理中,LLM都亲自参与,与知识图谱取长补短。

在研究中,团队用以下例子展示了紧耦合范式的优势:堪培拉所在国家当前的多数党是哪个党派?

从上面例子中可以看出,ChatGPT由于信息滞后,给出了错误答案。

松耦合范式下,尽管引入了包含最新信息的KG,但由于缺少「多数党」信息,导致推理无法完成;而在紧耦合范式中,LLM自行推理出「议会制国家的政府首脑(总理)通常也是多数党领袖」,弥补了KG中的信息缺失,绕道推理出正确答案。

Think-on-Graph,高效的紧耦合新范式

据研究团队介绍,Think-on-Graph借鉴了Transformer的beam-search算法思路。该算法为一个可循环的迭代过程,每次循环需先后完成搜索剪枝、推理决策两个任务。

搜索剪枝用于找出最有希望成为正确答案的推理路径,推理决策任务则通过LLM来判断已有的候选推理路径是否足以回答问题——如果判断结果为否,则继续迭代到下个循环。

我们依然以「堪培拉所在国当前的多数党是哪个党派?」为例来解释。

案例:用搜索宽度N=2的beam-search实现Think-on-Graph推理

在搜索剪枝任务中,大模型从关键词Canberra出发,匹配到知识图谱中最接近(或一致)的实体,分别搜索了5个「关系→实体」对,并为它们打分(得分越高,则代表此新实体加入推理路径中,可正确回答问题的能力越高)。

将分数从高到低排序后,LLM保留了得分最高的2个,形成两条候选推理路径:

接下来,LLM对候选推理路径进行评估,并将结果以Yes/No的形式反馈给算法。

在案例中可见,LLM连续两轮否决了候选路径,直到完成第三轮迭代时,LLM才判断已获取回答问题的充分信息,因此停止算法迭代,向用户输出答案(该答案确为正确答案)。

大模型推理如何更可信?可解释、可追溯、可修正

研究团队表示,Think-on-Graph算法还有效提升了大模型推理的可解释性,并实现知识的可追溯、可纠错与可修正。尤其是借助人工反馈与LLM推理能力,发现并修正知识图谱中的错误信息,弥补LLM训练时间长、知识更新慢的缺点。

为测试此能力,我们设计了一个实验:在前述「段誉与洪七公武功对比」案例的知识图谱中,故意掺入错误信息「大理段氏的最强武功是一阳指,一般武功是六脉神剑」。

可见,尽管Think-on-Graph根据错误知识得出了错误答案,但由于算法内置的「自我反思」能力,当判断答案可信度不足时,会自动回溯在知识图谱上的推理路径,检查路径中的所有三元组。

此时,LLM将利用自有知识,将疑似有误的三元组挑选出来,并向用户反馈分析与纠错建议。

7个新SOTA,深度推理较ChatGPT最多提升214%

研究在四类知识密集型任务(KBQA, Open-Domain QA, Slot Filling, Fact Checking)的共9个数据集上,对Think-on-Graph的表现进行了评估。

与IO、CoT、CoT-SC等不同prompting策略下的ChatGPT(GPT-3.5)相比,Think-on-Graph在所有数据集上的表现都显著更优。以Zeroshot-RE数据集中的对比为例,基于CoT的ChatGPT精度为28.8%,而同底座的Think-on-Graph精度为88%。

当底座模型升级为GPT-4后,Think-on-Graph的推理精度也明显提升,在7个数据集上取得了SOTA,剩余数据集中的CWQ上也十分接近SOTA。

值得注意的是,Think-on-Graph未在上述任何测试数据集上进行过监督学习性质的增量训练或增量微调,体现出超强的即插即用能力。

此外,研究者还发现,即便替换小规模的底座模型(如LLAMA2-70B),Think-on-Graph依然可在多个数据集上超越ChatGPT,这或可为大模型使用者提供一条低算力需求的技术路线选择。

参考资料:

https://arxiv.org/abs/2307.07697

https://github.com/IDEA-FinAI/ToG



编辑:web3528btc 来源:加密钱包代币

免责声明:以上文章内容信息均搜集自互联网或用户发布,并不代表本站观点或立场,本站不对其真实合法性负责。如有信息侵犯了您的权益,请联系本站将立即删除。
分享到:

  • 上一篇
    下一篇

  • 今日要闻|实事关注

    每日快讯(日常热点指南)
    手机查看(二维码扫一扫)

    每日快讯网为您提供最新的行业简讯、新闻报道,以及今日热点内容,重大事件等实时资讯,24小时不间断播报,让您获得最新行业信息。
    « 2026年 » « 01月 »
    1234
    567891011
    12131415161718
    19202122232425
    262728293031

    最新资讯

    我是汇朴科技的运营主管赵辉辉,[开户代运营]全网订单解M/快递面单解M/另出全行业订单分,cid,男科, 痔疮1,白酒,气血等信息流埋点,全网最低价,我们是推广代运营服务商,欢迎点击对接合作与我联系。
  • 2026-01-15 23:05:45

     

    我是北京巨宣的销售经理梁林坤,[开户代运营] 视频号ai 百度(baidu)ai 快手ai 抖音ai 有量,需要的联系我,我们是乙方综合性服务商,欢迎点击对接合作与我联系。
  • 2026-01-15 22:57:39

     

    我是沈阳鼎创的销售经理任丽丽,[开户代运营] 闲鱼35+返点开户 全行业可接,我们是,欢迎点击对接合作与我联系。
  • 2026-01-15 22:49:33

     

    我是民众普康的ad信息流销售何骋远,[开户代运营]千川白牌5 一手婚恋相亲表单 三角洲护 航有量 、抖快手涨粉 、手机回收、抖音证券,我们是广告媒体代理商,欢迎点击对接合作与我联系。
  • 2026-01-15 22:41:27

     

    “一杯奶茶钱” 畅享戏曲盛宴!“百戏入皖・星耀合肥” 阶段性成果发布:三成戏迷观众来自省外
  • 2026-01-15 22:33:23

     

    我是湖北亿星诚的商务销售刘洪,[代运营托管]血糖软文/咨询问答,肝囊肿,肺结节,耳鸣,痛风,驼奶,便秘,瑶浴,心脑,关节肽高打回,成单率高,有需要的老板渠道来聊,我们是推广代运营服务商,欢迎点击对接合
  • 2026-01-15 22:25:15

     

    拒绝智商税!新手爸妈的宝宝保险实用攻略!给孩子的第一份“安全感”
  • 2026-01-15 22:17:08

     

    寻百度文库一手代理,快手极速一手代理,寻应用宝一手代理
  • 2026-01-15 22:09:02

     

    我是武汉二三的武汉二三,[开户代运营]腾讯企业贷 百度(baidu)快手企业贷户,超低成本,出量,需要的来,我们是,欢迎点击对接合作与我联系。
  • 2026-01-15 22:00:56

     

    我是青岛时光互动的广告销售许崇锋,[开户代运营]拉新量,寻千问新预算,有接这个的老板来聊聊,我们是,欢迎点击对接合作与我联系。
  • 2026-01-15 21:52:51

     

    我是信鸿百货的运营曲弘毅,[开户代运营][开户代运营]抖音婚恋、腾讯旅游有户,需要的联系,我们是,欢迎点击对接合作与我联系。
  • 2026-01-15 21:44:44

     

    我是万兔斯瑞的高级销售刘瑞琴,[开户代运营]百度(baidu)免领/电商/食品功效/基木鱼二跳/教育/养生/短剧国学 抖音千川,本地推高政策.----,我们是乙方综合性服务商,欢迎点击对接合作与我联系
  • 2026-01-15 21:36:42

     

    我是北京博今广告的销售总监李华妮,[开户代运营]快手智投高返点合作,含账户、素材、代运营与投放优化,我们是广告媒体代理商,欢迎点击对接合作与我联系。
  • 2026-01-15 21:28:32

     

    我是时光互动的渠道经理李晓萌,[开户代运营]淘宝砍价 美团助力等稳定有量 可代运营 在玩的老板来聊,我们是广告媒体代理商,欢迎点击对接合作与我联系。
  • 2026-01-15 21:20:25

     

    我是巨划算的销售专员练文杰,[开户代运营]百度(baidu)电商高点开户代运营 50+❗❗❗❗,我们是推广代运营服务商,欢迎点击对接合作与我联系。
  • 2026-01-15 21:12:19