开源仅12天,通义千问包揽多个大模型权威评测冠军_每日快讯(日常热点指南)

开源仅12天,通义千问包揽多个大模型权威评测冠军


开源仅12天,通义千问包揽多个大模型权威评测冠军

  2023-12-17 20:41:53     简体|繁體
http://news.qghjm.com/1019961.html

原文来源:Tech星球

作者:贾宁宇

图片来源:由无界 AI生成

自12月1日阿里云宣布开源,通义千问72B大模型就开启了“屠榜”模式,接连问鼎多个权威排行榜。今天,通义千问又摘得一重要榜单冠军。

12月12日,中国权威的大模型评测平台OpenCompass日前更新了榜单,阿里云通义千问登上开源基座大模型榜首,并在中文数据集评测中包揽前二。

图注:通义千问72B登顶OpenCompass基座大模型榜。

OpenCompass是上海人工智能实验室开源的大模型评测平台,Qwen、LLaMA2等开源模型及GPT-4、ChatGPT等主流模型均参与评测,可全面评估大模型能力,是业界公认最权威的中文能力评测榜单之一。

通义千问72B开源模型(Qwen-72B),以67.1的综合得分夺得OpenCompass基座大模型榜单冠军,并在学科能力、理解能力两大维度评测中超越标杆GPT-4,创下开源大模型的新纪录。

而在OpenCompass中文数据集评测中,通义千问72B基座大模型和对话大模型(Qwen-72B-Chat)包揽前二,与其他模型拉开差距。

图注:通义千问72B基座大模型及对话大模型包揽中文数据集测试前二。


登顶HuggingFace榜单,刷新国产大模型纪录


就在几天前,通义千问力压Llama2等国内外开源大模型,登顶全球最大的开源大模型社区HuggingFace最新的开源大模型排行榜。

HuggingFace是全球最具影响力的AI开源社区,其开源大模型排行榜(Open LLM Leaderboard)被认为是最具公信力的专业榜单,收录了Qwen系列、LLaMA2等全球上百个开源大模型。

开源的通义千问(Qwen-72B)表现抢眼,以73.6的综合得分在所有预训练模型中排名第一。刷新了中国大模型在HuggingFace榜单上的纪录。

图注:通义千问72B登顶HuggingFace排行榜。


性能最强开源大模型,超越标杆LLaMA2


通义千问72B已成为国内外公认的性能最强的开源大模型,完全可满足企业级、科研级应用对大模型性能的高要求。

此前,在宣布开源的12月1日,Qwen-72B就在10个权威基准测评中夺得开源模型最优成绩,超越LLaMA2-70B,并在部分测评中超越闭源的GPT-3.5和GPT-4。

图注:通义千问720亿开源模型部分成绩超越闭源的GPT-3.5和GPT-4。

具体来看,在英语任务上,Qwen-72B在MMLU基准测试取得开源模型最高分;中文任务上,Qwen-72B霸榜C-Eval、CMMLU、GaokaoBench等基准,得分超越GPT-4;数学推理方面,Qwen-72B在GSM8K、MATH测评中断层式领先其他开源模型;代码理解方面,Qwen-72B在HumanEval、MBPP等测评中的表现大幅提升,代码能力有了质的飞跃。


将开源进行到底


据了解,阿里云已开源通义千问18亿、70亿、140亿、720亿参数的4款大语言模型,以及视觉理解Qwen-VL、音频理解Qwen-Audio的 2款多模态大模型,引领“全尺寸、全模态”开源之先。

截至目前,通义千问开源模型系列总下载量超150万,并涌现出150余款新模型和新应用。

阿里云CTO周靖人曾表示,开源生态对促进中国大模型的技术进步与应用落地至关重要,通义千问将持续投入开源,希望成为“AI时代最开放的大模型”,与伙伴们共同促进大模型生态建设。

开发者可在阿里云魔搭社区直接体验系列模型效果,也可通过阿里云灵积平台调用模型API,或基于阿里云百炼平台定制大模型应用;阿里云人工智能平台PAI还针对通义千问全系列模型进行深度适配,推出轻量级微调、全参数微调、分布式训练、离线推理验证、在线服务部署等服务。



编辑:web3528btc 来源:加密钱包代币

免责声明:以上文章内容信息均搜集自互联网或用户发布,并不代表本站观点或立场,本站不对其真实合法性负责。如有信息侵犯了您的权益,请联系本站将立即删除。
分享到:

  • 上一篇
    下一篇

  • 今日要闻|实事关注

    每日快讯(日常热点指南)
    手机查看(二维码扫一扫)

    每日快讯网为您提供最新的行业简讯、新闻报道,以及今日热点内容,重大事件等实时资讯,24小时不间断播报,让您获得最新行业信息。
    « 2023年 » « 01月 »
    1
    2345678
    9101112131415
    16171819202122
    23242526272829
    3031

    最新资讯

    我是奕维网络的销售总监陈小凡,[开户代运营]闲鱼30收量 需要的滴滴我,我们是乙方综合性服务商,欢迎点击对接合作与我联系。
  • 2026-01-15 23:54:22

     

    我是民众普康的ad信息流销售何骋远,[开户代运营]千川白牌5 一手婚恋相亲表单 三角洲 护航有量 、抖快手涨粉 、手机回收、抖音证券,我们是广告媒体代理商,欢迎点击对接合作与我联系。
  • 2026-01-15 23:46:16

     

    我是傲视科技的销售总监董国强,[开户代运营]维权户,相亲户,百度(baidu)证劵财商快手证劵-腾讯股票均有户,网店,个债,小说,短剧,一代直开,我们是,欢迎点击对接合作与我联系。
  • 2026-01-15 23:38:10

     

    国任常惠宝结直肠癌专项保险有什么投保要求?有什么保障?
  • 2026-01-15 23:30:04

     

    网贷逾期协商停息挂账:3个实操要点,帮你理清债务出路
  • 2026-01-15 23:21:58

     

    我是巨划算的销售专员练文杰,[代运营托管]百度(baidu)电商高点开户代运营 50+ ❗❗❗❗,我们是推广代运营服务商,欢迎点击对接合作与我联系。
  • 2026-01-15 23:13:51

     

    我是汇朴科技的运营主管赵辉辉,[开户代运营]全网订单解M/快递面单解M/另出全行业订单分,cid,男科, 痔疮1,白酒,气血等信息流埋点,全网最低价,我们是推广代运营服务商,欢迎点击对接合作与我联系。
  • 2026-01-15 23:05:45

     

    我是北京巨宣的销售经理梁林坤,[开户代运营] 视频号ai 百度(baidu)ai 快手ai 抖音ai 有量,需要的联系我,我们是乙方综合性服务商,欢迎点击对接合作与我联系。
  • 2026-01-15 22:57:39

     

    我是沈阳鼎创的销售经理任丽丽,[开户代运营] 闲鱼35+返点开户 全行业可接,我们是,欢迎点击对接合作与我联系。
  • 2026-01-15 22:49:33

     

    我是民众普康的ad信息流销售何骋远,[开户代运营]千川白牌5 一手婚恋相亲表单 三角洲护 航有量 、抖快手涨粉 、手机回收、抖音证券,我们是广告媒体代理商,欢迎点击对接合作与我联系。
  • 2026-01-15 22:41:27

     

    “一杯奶茶钱” 畅享戏曲盛宴!“百戏入皖・星耀合肥” 阶段性成果发布:三成戏迷观众来自省外
  • 2026-01-15 22:33:23

     

    我是湖北亿星诚的商务销售刘洪,[代运营托管]血糖软文/咨询问答,肝囊肿,肺结节,耳鸣,痛风,驼奶,便秘,瑶浴,心脑,关节肽高打回,成单率高,有需要的老板渠道来聊,我们是推广代运营服务商,欢迎点击对接合
  • 2026-01-15 22:25:15

     

    拒绝智商税!新手爸妈的宝宝保险实用攻略!给孩子的第一份“安全感”
  • 2026-01-15 22:17:08

     

    寻百度文库一手代理,快手极速一手代理,寻应用宝一手代理
  • 2026-01-15 22:09:02

     

    我是武汉二三的武汉二三,[开户代运营]腾讯企业贷 百度(baidu)快手企业贷户,超低成本,出量,需要的来,我们是,欢迎点击对接合作与我联系。
  • 2026-01-15 22:00:56