跑分没输过,体验没赢过,大模型刷分何时休?_每日快讯(日常热点指南)

跑分没输过,体验没赢过,大模型刷分何时休?


跑分没输过,体验没赢过,大模型刷分何时休?

  2023-12-25 10:23:25     简体|繁體
http://news.qghjm.com/1025036.html

作者:一号

编辑:美美

图片来源:由无界 AI生成

从手机到大模型,国内产品为啥都这么热衷跑分?

IDCAI大模型技术能力评估,12项指标,7项满分,文心大模型3.5“大满贯”;360智脑在SuperCLUE评测中多项能力位列国产大模型第一,某些方面甚至跑赢了GPT-4;夸克大模型在C-Eval和CMMLU两大权威评测榜单中名列第一,显示出其在写作、考试等部分场景中甚至优于GPT-4......

今年以来,国产AI大模型发展趋势之迅猛,不得不让人感慨。截至目前,国产大模型数量已经超过了200个,而且,这些大模型纷纷表现不俗,从百度文心一言到阿里巴巴的夸克大模型,国产AI在各类评测榜单上的表现引人注目。有人对此评价,“跑分没输过,体验没赢过”。

这种似曾相识的“跑分”现象,不禁让人想到手机市场里类似的做法。这种在评测中名列前茅、表现出色,但实际用户体验一言难尽的情况,究竟意味着什么?


为何跑分与体验不符?


回顾手机市场,“跑分没输过,体验没赢过”这句话最开始就是从手机圈中兴起的,各大厂商通过不断叠加定语,来让自己获得第一;还有的手机会自动识别跑分软件,针对性地开启性能模式,让自己的跑分数据好看些,从而实现“作弊”。用户买到跑分高的手机后,实际体验并不是那么回事。

而在AI大模型领域,评估标准则相对公平,并且是同意的,其中包括MMLU(用于衡量多任务语言理解能力)、Big-Bench(用于量化和外推LLMs的能力),以及AGIEval(用于评估人类级任务的能力)。


目前国内厂商经常饮用的榜单就是SuperCLUE、CMMLU和C-Eval,其中C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的综合性考试评测集,CMMLU则是MBZUAI、上海交通大学、微软亚洲研究院共同推出,至于SuperCLUE,则是由各大高校的AI专业人士设立的。

尽管大模型的评测标准相对公平,但其仍有一定的局限性,实际的测评之中总会出现问题,其中一个最大的问题就是“考题泄露”。

大模型评测的一个主要方法就是做题。为了让评测相对透明公开,避免暗箱操作,评测机构通常会将评测的方法、标准甚至是题库对外公开。例如C-Eval榜单在上线之初就有13948道题目,由于题库有限,并且更新频率不是特别高,这就给了一些大模型刷题“钻空子”的机会。

我们都知道,如果在考试之前知道会考哪些题目,那考生完全可以做针对性的学习,大模型也一样,并且大模型最擅长的就是记忆。在评测之前,把题库直接加入大模型的训练集,训练之后的大模型就能在评测中表现得比实际能力更好,甚至跑出一些夸张的成绩,例如1.3B的模型在某些任务上超越了10倍体量的大模型。

那么这样的评测结果,跟实际体验一定会很不相符。


为何热衷于跑分?


无论是国产手机厂商还是AI大模型公司,他们对跑分的热衷,本质上是一种营销策略。跑分成绩容易被量化、对比,因此成为了向公众展示技术实力的便捷手段。这种做法在短期内可能会吸引消费者和投资者的注意,但它也可能引起误导,使人们过分关注理论性能,而忽视了实际应用中的体验和效能。

这种营销策略的问题在于,它可能导致公司本末倒置,过分投入于提高特定测试的分数,而非真正的技术创新。在手机行业,这可能意味着优化设备性能以提升特定跑分软件的测试成绩;在AI领域,则可能表现为优化模型以应对评测榜单的特定题目。这种做法虽然能在短期内提高产品在评测榜单上的排名,但却可能忽视了产品在真实使用环境中的性能和用户体验。

这种以跑分为核心的营销策略需要被重新审视。尽管高分成绩在营销中具有吸引力,但它们并不总是反映产品的真实价值。对于消费者而言,理论上的高性能与日常使用中的实际体验之间往往存在差距。因此,无论是手机行业还是AI领域,公众和行业都应该更加关注产品在真实世界中的表现。


要放弃跑分吗?


从隋唐的科举到今天的高考,从国内的四六级到国外的托福雅思,考试在时间和空间的维度上,都是一种相对公平的衡量机制。因此,大模型评测作为大模型的“考试”,同样不能被轻易抛弃。

倘若评测相对准确、靠谱、权威,那么对于所有的大模型公司来说都是好事。研发者可以通过评测结果了解自家大模型的优缺点,查漏补缺,找到正确的方向钻研算法、提升技术、加强训练,不断攻克,进行优化迭代,从而让产品更具有竞争力。

对于AI大模型开发者而言,榜单的排名不应该成为最终目的,真正的挑战在于如何将先进的技术转化为实际应用中的有效工具,这不仅仅是一场分数的竞赛,更是对技术创新和实用性的追求。我们期待一个更加全面和科学的评测体系的出现,这不仅能正确评估AI模型的实际能力,还能促进整个行业向着更加健康、理性的方向发展。



编辑:美美

免责声明:
以上文章内容信息均搜集自互联网或用户发布,并不代表本站观点或立场,本站不对其真实合法性负责。如有信息侵犯了您的权益,请联系本站将立即删除。
分享到:

  • 上一篇
    下一篇

  • 今日要闻|实事关注

    每日快讯(日常热点指南)
    手机查看(二维码扫一扫)

    每日快讯网为您提供最新的行业简讯、新闻报道,以及今日热点内容,重大事件等实时资讯,24小时不间断播报,让您获得最新行业信息。
    « 2025年 » « 12月 »
    1234567
    891011121314
    15161718192021
    22232425262728
    293031

    最新资讯

    我是广州祥亿的运营推广胡坝成,[开户代运营] 跨境电商粉 股票粉 直播粉 视频号ai 百度(baidu)腾讯企业贷,我们是推广代运营服务商,欢迎点击对接合作与我联系。
  • 2026-01-15 16:20:37

     

    我是上海火车头的总经理张国强,[开户代运营]直播团队,有稳定收量项目的老板可以来聊,我们是乙方综合性服务商,欢迎点击对接合作与我联系。
  • 2026-01-15 16:12:31

     

    我是新唐科技的销售总监刘波,[开户代运营]百度(baidu)机械设备,房产,食品,检测认证,教育培训,招商加盟,名酒回收均有资质,可以套户,量大可放端口,政策35+/55+ 端口稳定!,我们是推广代运
  • 2026-01-15 16:04:25

     

    我是河北古戈尔的广告运营李鑫,[开户代运营] 男科-耳鼻口-通风-甲状腺-胃肠,我们是推广代运营服务商,欢迎点击对接合作与我联系。
  • 2026-01-15 15:56:19

     

    大家金禧一生年金保险测评,投保规则和保障内容详解
  • 2026-01-15 15:40:06

     

    快手、抖音、视频号、代发视频、0费用、多劳多得、日收益100到500
  • 2026-01-15 15:32:00

     

    提供全国三甲**的大健康流量,提供男性私域流量,提供男粉
  • 2026-01-15 15:23:54

     

    我是山东双月的渠道经理岳铮,[开户代运营]百度(baidu) 抖音 快手出AI剪辑 信息流粉 数字人直播粉需要的老板来​,我们是乙方综合性服务商,欢迎点击对接合作与我联系。
  • 2026-01-15 15:15:48

     

    我是湖北佰牛的渠道经理张明敏,[开户代运营]抖音|腾讯社群量 养生壶/ 暖菜板/ 驼绒被 / 护膝 / 驼绒马甲/ 艾灸毯/ 买菜车/ 激光治疗仪 / 小护士/ 血糖仪 一手源头,我们是推广代运营
  • 2026-01-15 15:07:42

     

    我是巨量广告的渠道总监谢兴华,[开户代运营]腾讯视频号养生粉,我们是乙方综合性服务商,欢迎点击对接合作与我联系。
  • 2026-01-15 14:59:36

     

    我是广州默耘的大客户经理谢金彪,[代运营托管]腾讯快手AI剪辑,日供5000+源头供量,我们是广告媒体代理商,欢迎点击对接合作与我联系。
  • 2026-01-15 14:51:29

     

    我是河南随风去的渠道经理丁事亮,[代运营托管]本地推16 汽后10收量,我们是广告媒体代理商,欢迎点击对接合作与我联系。
  • 2026-01-15 14:43:23

     

    铁路12306线上广告位 寻食品美妆个护金融品牌推广合作
  • 2026-01-15 14:35:17

     

    提供小说,短剧类(快应用,小程序)工具类(益智类,测评类,壁‮类纸‬等)推广渠道,日耗10+,寻甲方
  • 2026-01-15 14:27:11

     

    想买一个保终身的重疾险,有推荐吗?应该怎么选择呀?不踩坑+高口碑
  • 2026-01-15 14:19:05