AI佟湘玉 PK AI吕秀才!人大和北邮联合发布的评测基准,能分辨大模型角色扮演哪家强_每日快讯(日常热点指南)

AI佟湘玉 PK AI吕秀才!人大和北邮联合发布的评测基准,能分辨大模型角色扮演哪家强


AI佟湘玉 PK AI吕秀才!人大和北邮联合发布的评测基准,能分辨大模型角色扮演哪家强

  2024-01-11 19:41:39     简体|繁體
http://news.qghjm.com/1034872.html

原文来源:品玩

作者:吕可

图片来源:由无界 AI生成

Role-Playing Conversational Agents(RPCA)是一类对话代理,它们被设计成能够模仿特定角色或人物进行对话。这些角色通常来自于现有的文学作品、电影、卡通、游戏等,具有特定的知识、行为和回应风格。RPCA的目标是与用户进行沉浸式的互动,提供情感价值而非仅仅是信息或生产力。

与传统的聊天机器人不同,RPCA更注重于角色扮演和情感交流。它们能够根据用户的输入,以特定角色的身份进行回应,从而创造出一种仿佛与真实人物对话的体验。这种类型的对话代理在娱乐、教育、心理辅导等领域有着广泛的应用前景,因为它们能够提供更加个性化和情感化的交互体验。

RPCA的挑战在于如何准确地模拟角色的知识、行为和风格,同时保持对话的连贯性和吸引力。为了评估这些代理的性能,来自中国人民大学高瓴人工智能学院的三位研究者联手北京邮电大学人工智能学院共同推出了一个名为CharacterEval的中文基准测试。并辅以一个量身定制的高质量数据集。

该数据集由 1785 个多回合角色扮演对话组成,包含 23020 个例子和 77 个来自中国小说和剧本的角色。比如《武林外传》中的佟湘玉和吕秀才。CharacterEval 可以直接让不同的大模型生成这两个角色进行对话,并根据基准测试的标准来给出相应的能力评分。

作为基准测试,CharacterEval 采用多维度评估方式,包括对话能力、角色一致性、角色扮演模式以及个性测试四个维度,每个维度还有不同的指标,一共十三个具体指标。

对话能力(Conversational Ability)

  • 流畅性(Fluency):衡量响应的语法正确性和可读性。
  • 连贯性(Coherency):评估响应与对话上下文的相关性。
  • 一致性(Consistency):检查RPCA在对话中是否保持一致性,避免自相矛盾。

角色一致性(Character Consistency)

  • 知识曝光(Know-Exposure, KE):评估RPCA在响应中提供的信息量。
  • 知识准确性(Know-Accuracy, KA):衡量RPCA基于角色知识生成响应的准确性。
  • 知识幻觉(Know-Hallucination, KH):评估RPCA在缺乏知识时是否会产生幻觉。
  • 角色行为(Persona-Behavior, PB):评估RPCA的行为描述是否符合角色特征。
  • 角色台词(Persona-Utterance, PU):检查RPCA的说话风格是否与角色相符。

角色扮演吸引力(Role-playing Attractiveness)

  • 人类相似度(Human-Likeness, HL):评估RPCA的响应是否具有人类特征。
  • 沟通技巧(Communication Skills, CS):衡量RPCA在对话中的沟通能力。
  • 表达多样性(Expression Diversity, ED):检查RPCA在对话中是否展现出多样性。
  • 同理心(Empathy, Emp):评估RPCA在对话中表达同理心的能力。

个性测试(Personality Back-Testing)

  • MBTI准确性(MBTI Accuracy):使用Myers-Briggs Type Indicator(MBTI)个性类型作为参考,评估RPCA在个性测试中的准确性。

研究团队还推出了一个名为 CharacterRM 的奖励模型,用于对主观指标的评估。CharacterRM 通过与人类判断的相关性来评估RPCA在主观指标上的表现。而根据实验结果,其性能优于GPT-4,当人这只能说是角色扮演这方面。

研究团队用了几个比较常用的 AI 大模型进行了测试,其中包括常见的 ChatGLM3-6B、GPT-4、minimax、Baichuan2-13B等,并根据他们的表现给出了评分。

CharacterEval 的诞生,填补了角色扮演对话代理(RPCAs)领域缺乏全面评估基准的空白。而他的发布也有助于该领域的发展以及以及用户体验提升。

研究团队先已经放出了CharacterEval 相关数据集、论文等信息,感兴趣的人可以通过GitHub访问。此外,该测试的代码也将会在不久后更新在其 GitHub页面中。

论文地址:GitHub - morecry/CharacterEval: repository for CharacterEval, a benchmark for role-playing conversation

Arxiv地址:https://arxiv.org/abs/2401.01275



编辑:web3528btc 来源:加密钱包代币

免责声明:以上文章内容信息均搜集自互联网或用户发布,并不代表本站观点或立场,本站不对其真实合法性负责。如有信息侵犯了您的权益,请联系本站将立即删除。
分享到:

  • 上一篇
    下一篇

  • 今日要闻|实事关注

    每日快讯(日常热点指南)
    手机查看(二维码扫一扫)

    每日快讯网为您提供最新的行业简讯、新闻报道,以及今日热点内容,重大事件等实时资讯,24小时不间断播报,让您获得最新行业信息。
    « 2023年 » « 05月 »
    1234567
    891011121314
    15161718192021
    22232425262728
    293031

    最新资讯

    我是河南随风去的销售组长刘朋朋,[开户代运营]本地推超高点收量。视频号&抖音:砂锅、养生壶、男士内裤、微压锅 艾灸毯 银水杯 驼绒马甲 治疗仪 小护士源头好量[勾引]​,我们是乙方综合性服务商,欢迎
  • 2026-01-11 15:06:38

     

    我是广州云狄的广告销售赵善钟,[开户代运营]本地推口腔 植发 眼科 医美 整形 生美 律所 旅游 招商加盟 餐饮等全行业开户,协助直客免费加白,欢迎咨询,我们是广告媒体代理商,欢迎点击对接合作与我联系
  • 2026-01-11 14:58:31

     

    我是辛辉煌的业务经理张小琴,[代运营托管]腾讯:驼绒被,养生壶,买菜车,驼绒马甲,微压锅,扫地机器人,貂绒大衣,养生书,激光治疗仪,血糖仪,小护士 头条/百度(baidu):小病种,我们是推广代运营
  • 2026-01-11 14:50:25

     

    我是武汉维冠的武汉维冠,[代运营托管]小病种技术软文加粉 武汉源头公司 方便随时到公司 全程接待 欢迎各位老板的大驾光临,我们是乙方综合性服务商,欢迎点击对接合作与我联系。
  • 2026-01-11 14:42:19

     

    我是河南随风去的渠道经理丁事亮,[代运营托管]本地推14,汽后10收量ad二手车可开,我们是广告媒体代理商,欢迎点击对接合作与我联系。
  • 2026-01-11 14:34:13

     

    投放无资质可投 不限地区不限行业 精准投放
  • 2026-01-11 14:26:07

     

    我是武汉舜动的商务专员沈四梅,[代运营托管]大健康养生,小病种加粉社群打粉,量大可按A或代运营,有实力的来,我们是,欢迎点击对接合作与我联系。
  • 2026-01-11 14:18:00

     

    我是六安零动的市场部总监零动科技,[开户代运营]微信朋友圈、视频号广告投放全行业套户 黄金回收 金融 男科 驾校 婚恋 医院 翡翠等禁投行业可接 无需资质免保证金,我们是广告媒体代理商,欢迎点击对接合
  • 2026-01-11 14:09:54

     

    我是安徽科又的商务经理卞慧慧,[开户代运营]直播投流:脾胃/脚部八段锦/面部瑜伽/小土方/控糖/失眠/养胃/八段锦/一人一方 要量可以来聊[烟花],我们是乙方综合性服务商,欢迎点击对接合作与我联系。
  • 2026-01-11 14:01:53

     

    我是广州壹点通的广告销售陈玥桐,[开户代运营]本地推充值开户 团购对公反14% 对私17% 线索对公10% 对私13%,我们是广告媒体代理商,欢迎点击对接合作与我联系。
  • 2026-01-11 13:53:42

     

    “一勺膏方十碗药”?选用不当易“踩坑”!避开3大误区
  • 2026-01-11 13:45:36

     

    新闻分析丨管好长护服务机构 守护失能人员幸福
  • 2026-01-11 13:37:30

     

    出台新规破解“认定难” 推动存量土地盘活利用
  • 2026-01-11 13:29:23

     

    2025年底旗舰单品激活百万机型曝光,含小米17 Pro、华为Mate80
  • 2026-01-11 13:21:17

     

    十多个农业农村重点项目在孵化期就受到专项投资基金扶持 百亿金融“活水”赋能乡村振兴
  • 2026-01-11 13:13:11