跑分没输过,体验没赢过,大模型刷分何时休?_每日快讯(专注热点分享网)

跑分没输过,体验没赢过,大模型刷分何时休?


跑分没输过,体验没赢过,大模型刷分何时休?

  2023-12-25 10:23:25     简体|繁體
http://news.qghjm.com/1025036.html


作者:一号

编辑:美美

图片来源:由无界 AI生成

从手机到大模型,国内产品为啥都这么热衷跑分?

IDCAI大模型技术能力评估,12项指标,7项满分,文心大模型3.5“大满贯”;360智脑在SuperCLUE评测中多项能力位列国产大模型第一,某些方面甚至跑赢了GPT-4;夸克大模型在C-Eval和CMMLU两大权威评测榜单中名列第一,显示出其在写作、考试等部分场景中甚至优于GPT-4......

今年以来,国产AI大模型发展趋势之迅猛,不得不让人感慨。截至目前,国产大模型数量已经超过了200个,而且,这些大模型纷纷表现不俗,从百度文心一言到阿里巴巴的夸克大模型,国产AI在各类评测榜单上的表现引人注目。有人对此评价,“跑分没输过,体验没赢过”。

这种似曾相识的“跑分”现象,不禁让人想到手机市场里类似的做法。这种在评测中名列前茅、表现出色,但实际用户体验一言难尽的情况,究竟意味着什么?


为何跑分与体验不符?


回顾手机市场,“跑分没输过,体验没赢过”这句话最开始就是从手机圈中兴起的,各大厂商通过不断叠加定语,来让自己获得第一;还有的手机会自动识别跑分软件,针对性地开启性能模式,让自己的跑分数据好看些,从而实现“作弊”。用户买到跑分高的手机后,实际体验并不是那么回事。

而在AI大模型领域,评估标准则相对公平,并且是同意的,其中包括MMLU(用于衡量多任务语言理解能力)、Big-Bench(用于量化和外推LLMs的能力),以及AGIEval(用于评估人类级任务的能力)。


目前国内厂商经常饮用的榜单就是SuperCLUE、CMMLU和C-Eval,其中C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的综合性考试评测集,CMMLU则是MBZUAI、上海交通大学、微软亚洲研究院共同推出,至于SuperCLUE,则是由各大高校的AI专业人士设立的。

尽管大模型的评测标准相对公平,但其仍有一定的局限性,实际的测评之中总会出现问题,其中一个最大的问题就是“考题泄露”。

大模型评测的一个主要方法就是做题。为了让评测相对透明公开,避免暗箱操作,评测机构通常会将评测的方法、标准甚至是题库对外公开。例如C-Eval榜单在上线之初就有13948道题目,由于题库有限,并且更新频率不是特别高,这就给了一些大模型刷题“钻空子”的机会。

我们都知道,如果在考试之前知道会考哪些题目,那考生完全可以做针对性的学习,大模型也一样,并且大模型最擅长的就是记忆。在评测之前,把题库直接加入大模型的训练集,训练之后的大模型就能在评测中表现得比实际能力更好,甚至跑出一些夸张的成绩,例如1.3B的模型在某些任务上超越了10倍体量的大模型。

那么这样的评测结果,跟实际体验一定会很不相符。


为何热衷于跑分?


无论是国产手机厂商还是AI大模型公司,他们对跑分的热衷,本质上是一种营销策略。跑分成绩容易被量化、对比,因此成为了向公众展示技术实力的便捷手段。这种做法在短期内可能会吸引消费者和投资者的注意,但它也可能引起误导,使人们过分关注理论性能,而忽视了实际应用中的体验和效能。

这种营销策略的问题在于,它可能导致公司本末倒置,过分投入于提高特定测试的分数,而非真正的技术创新。在手机行业,这可能意味着优化设备性能以提升特定跑分软件的测试成绩;在AI领域,则可能表现为优化模型以应对评测榜单的特定题目。这种做法虽然能在短期内提高产品在评测榜单上的排名,但却可能忽视了产品在真实使用环境中的性能和用户体验。

这种以跑分为核心的营销策略需要被重新审视。尽管高分成绩在营销中具有吸引力,但它们并不总是反映产品的真实价值。对于消费者而言,理论上的高性能与日常使用中的实际体验之间往往存在差距。因此,无论是手机行业还是AI领域,公众和行业都应该更加关注产品在真实世界中的表现。


要放弃跑分吗?


从隋唐的科举到今天的高考,从国内的四六级到国外的托福雅思,考试在时间和空间的维度上,都是一种相对公平的衡量机制。因此,大模型评测作为大模型的“考试”,同样不能被轻易抛弃。

倘若评测相对准确、靠谱、权威,那么对于所有的大模型公司来说都是好事。研发者可以通过评测结果了解自家大模型的优缺点,查漏补缺,找到正确的方向钻研算法、提升技术、加强训练,不断攻克,进行优化迭代,从而让产品更具有竞争力。

对于AI大模型开发者而言,榜单的排名不应该成为最终目的,真正的挑战在于如何将先进的技术转化为实际应用中的有效工具,这不仅仅是一场分数的竞赛,更是对技术创新和实用性的追求。我们期待一个更加全面和科学的评测体系的出现,这不仅能正确评估AI模型的实际能力,还能促进整个行业向着更加健康、理性的方向发展。



编辑:美美

免责声明:
以上文章内容信息均搜集自互联网或用户发布,并不代表本站观点或立场,本站不对其真实合法性负责。如有信息侵犯了您的权益,请联系本站将立即删除。
分享到:

  • 上一篇
    下一篇

  • 今日要闻|实事关注

    每日快讯(专注热点分享网)
    手机查看(二维码扫一扫)

    每日快讯网,最有影响力热点信息分类网站,覆盖品牌价值、汽车资讯、视频、基金、财经、房产、金融新闻、券商、公司等多类信息分享交流,免费提供最有价值的头条信息平台。
    « 2025年 » « 04月 »
    123456
    78910111213
    14151617181920
    21222324252627
    282930

    最新资讯

    微信朋友圈‬广告/D音‬頭条/快手广告/百度搜索/小红书广告/全国接‬单 专业‬代运营稳定‬服务 欢迎‬洽谈合作
  • 2025-04-28 10:31:03

     

    [开户代运营]支付宝信息流、成功案例和数据,寻找三大运营商移动花卡,联通大王卡,电信星卡流量卡
  • 2025-04-28 10:25:59

     

    [开户代运营]无需资质 特殊行业可投 全国现户提供 朋友圈第五条官方广告
  • 2025-04-28 10:20:55

     

    [开户代运营]精准粉源头 高转化
  • 2025-04-28 10:15:51

     

    [开户代运营]百度(baidu)全行业开户收量,大搜40点收量,百度(baidu)金融股票有户。
  • 2025-04-28 10:10:46

     

    [开户代运营]【毛孔-生发-祛斑-祛痘-狐臭-祛疤-眼袋】群推 精选加粉流量
  • 2025-04-28 10:05:42

     

    [开户代运营] 男科 前列腺 痔疮 耳鸣 黑发 三高户,中老年流量,私域引粉
  • 2025-04-28 10:00:38

     

    [开户代运营] 百度(baidu)推广账户代运营,欢迎您对接详聊!
  • 2025-04-28 09:55:34

     

    [开户代运营]青云官方微转平台,无中间商差价,源头对接。有实力的广告主与媒介来洽谈
  • 2025-04-28 09:50:30

     

    [开户代运营]一跳二跳、ab跳技术、屏蔽审核/低质流量、落地页 、技术支持
  • 2025-04-28 09:45:26

     

    [开户代运营]​地产/汽车/金融/个债/逾期/莆田/医疗/奢侈品等 朋友圈第五条广告全行业投放
  • 2025-04-28 09:40:21

     

    [开户代运营]微信朋友圈广告渠道投放,价格美丽,特殊行业无资质可接!
  • 2025-04-28 09:35:17

     

    [开户代运营]uc信息流神马(uc)一代资质开户 四大搜索 信息流媒体资质开户 可包运营
  • 2025-04-28 03:06:48

     

    [开户代运营] 谷歌 google Facebook Tik Tok 海外开户运营
  • 2025-04-28 02:56:40

     

    信用卡逾期第三方上门怎么处理的?能拒绝吗?
  • 2025-04-28 02:51:36