首页研究报告机构研究人工智能SuperCLUE:中文大模型基准测评2024年10月报告-2024年度中文大模型阶段性进展评估
在在

文档

2227

关注

0

好评

0
PDF

SuperCLUE:中文大模型基准测评2024年10月报告-2024年度中文大模型阶段性进展评估

阅读 538 下载 53 大小 6.87M 总页数 80 页 2024-11-24 分享
价格:¥ 9.90
下载文档
/ 80
全屏查看
SuperCLUE:中文大模型基准测评2024年10月报告-2024年度中文大模型阶段性进展评估
还有 80 页未读 ,您可以 继续阅读 或 下载文档
1、本文档共计 80 页,下载后文档不带水印,支持完整阅读内容或进行编辑。
2、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
4、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。
SuperCLUE中文大模型综合性测评基准中文大模型基准测评2024年10月报告一2024年度中文大模型阶段性进展评估SuperCLUE团队2024.11.08报告核心结论摘要SuperCLUEo1-preview的推出进一步拉大了与其他模型的差距。经测评,目前国内大模型正在持续接任务》上相差约为14%,在中文通用能力上相差约8%。ArdGPT-2fosrTeleChat2-35B同样表现出色,超过了国内外众多开源模型;国内闭源模型GLM4-Pus、SenseChat5.5、AndesGPT-2.0表现优异,与ChatGPT.-4o-latest相距2分以内。国内外模型在不同维度任务表现各有特色。o1-preview在Hard任务中表现卓越,有较大领先性,国内大模型则更擅长理科和文科任务。国内端侧小模型进展迅速,部分小尺寸模型表现要好于上一代的稍大尺寸模型,如2023-2024年大模型关键进展2024年值得关注的中文大模型全景图2023-2024年度国内外大模里技术发展趋势2.SuperCLUE通用能力测评中文大模型基准SuperCLUE介绍SuperCLUE测评体系及数据集总榜、理科榜单、文科榜单、Hard榜单及模型象限开源榜单及端侧小模型榜单评测与人类一数性分析目录3.SuperCLUE-AI产品能力测评SuperCLUE-AlSearch搜素产品测评SuperCLUE-Voice实时语音产品测评4.SuperCLUE多模志能力测评SuperCLUE-V多模态理解测评AlGV Bench视频生成测评SuperCLUE-Image文生图测评5.SuperCLUE专项与行业盖准测评·各行业、专项测评·来来两个月基准发布计划·优秀模型案例介超SuperCLUE中文大模型综合性测评基准独立第三方AGI评机构精准量化通用人工智能(AG)进展,定义人类迈向AG的路线图Accurately quantifying the progress of AGl,defining the roadmap for humanity's journey towards AGl.第1部分国内大模型关键进展及趋势云营动1.2023-2024年大模型关键进进展2.2024年值得关注的中文大模型全景图3.2023-2024年度国内外大模型技术发展趋势52023-2024大模型关键进展SuperCLUE◆自2022年11月30日ChatGPT发布以来,A1大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮.国内学术和产业界在过去一年半也有了实质性的突破.大致可以分为四个阶段,即准备期(ChatGPT发布后国内产学研迅速形成大模型共识),成长期(国内大模型数量和质量开始逐渐增长),樱发期(各行各业开源闭源大模型层出不穷。形成百模大战的竞争态势)、繁荣期(更多模态能力的延伸和应用)·SuperCLUE:AI大模型2023-2024年关键进展·语言模型:GLM4、Baichuan4、作-Large、成长期心一言4.0、讯飞星火3.0、小米ChatGPT爱布开潭模型:ChatGLM,Baichuan等Baichuan2等模型相港开潭.2022.122023.022023.062023.122024.1062024年值得关注的中文大模型全景图SuperCLUEvivo BlueLMう紫东太初字节豆包MINIMAX8DeepSeek用万物AndesGPT ZTE中兴GM-4YiBaichuan2RWKV-LMXVERSE实时交互火速山海多模态多VidupixVerseVimiHiDream.aiMINIMAXQwen2.VLYi-VisionSeaseChat-Vialon文生图BlueLM快手可回meitu工业⑦MathGPT行小SMore LrMoHithinkGPTEduChatLightGPT2023-2024年度国内外大模型发展趋势SuperCLUE·2023年5月至今,国内外大模型能力持续发展.其中GPT系列模型为代表的海外最好模型经过了从GPT3.5、GPT4、GPT4-Tubo、GPT4o、o1的多个版本的选代升级,国内模型也经历了波潮壮阁的18个月的选代周期,其中T0p1的模型经历了10次易主,不断提升国内模型的最强战力,·总体趋势上,国内外第一梯队大模型在中文领城的通用能力差距在持续缩小,从2023年5月的30.12%的差距,缩小至2024年8月的1.29%.随着01的发布,差距再次拉大到8.19%.SuperCLUE基准:过去18个月国内外TOP大模型对比趋势23年5月23年8月23年9月23年10月23年11月23年12月24年2月24年4月24年6月24年8月24年10月78.7670.8981.0383.2087.0889.7990.6392.7179.1381.007585国内TOP153.5863.532.0060.0262.7570.7474.0279.0287.7573.3277.00国内TOP249.5262.58593555.707042728878.5486.77725876.00782469.00国内TOP346.45598058.0253.4362.1269.57718775.0485.7072.4576.008第2部分SuperCLUE通用能力测评1.SuperCLUE介绍6.SuperCLUE模型象限11.大模型对战胜率分布图2.SuperCLUE综合测评体系及数据集7.子任务测评结果及示例12.SuperCLUE成熟度指数3.各维度测评说明8.开源模型榜单13.评测与人类一致性验证4.测评模型列表9.10B级别小模型榜单5.SuperCLUE通用能力测评结果10.端侧5B级别小模型榜单9SuperCLUE介绍SuperCLUESuperCLUE三大特征Evaluation)是致力于科学,客观、中立的语言模型评测基准,发起于2019年,陆续推出CLUE、FewCLUE、KgCLUE、DataCLUE等广为引用的测随着昌内外大模型的竞争日益藏烈,模型开发方主导的评测可能存在偏向自家产品的风险。与之形成解明对比的是,SuperCLUE作为一个完全独立的第三方评测机构,承诺是供无偏倚的客现评测结果。SuperCLUE采用先走的自动化评测SuperCLUE是大横型时代CLUE基准的发晨和莲续.聚焦于通用大模型的综技术,有效清愍人为因素带来的不确定性,确保每一项评测都公正无私。合性测评.SuperCLUE根据多年的测评经验,基于通用大模型在学术,产业与用户侧的广泛应用,构建了多层次、多维度的综合性测评基准。其他测评SuperCLUE02不同于传统测评通过选择题形式的测评,SuperCLUE目标是与真实用户体验目VS体系以及对话的形式,模拟大模型的应用场景,真实有效的考察模型生或能力。03不同于传统学术领域的评测,SuperCLUE根据全球的大模型技术发展趋势,不新升级达代测评体系,测评谁度和方法,以保证尽可能精准量化大模型的技术演走程度。并且每次测评集均为原创的新题,且保证题目的高保密性。10SuperCLUE大模型综合测评体系SuperCLUESuperCLUE大模型综合测评体系通用能力评估专项能力评估行业/应用评估理科计算Long代码逻辑推理长本学多步助手推理代码语音交互搜索工具使用RAGSuperCLUE文科重点专项评估行业智能体Code3知识百科生成创作语言理解代码汽车终端消费者角色扮演传统安全长文本小学奥数多模态金融文生图CoT链式推理安全Hard工业精确指令遵循专项能力评估包括文本专项和多模态专项注:专项与通用能力侧重点不同,通用侧重基础能力,医疗复杂任务高阶推理专项侧重场景应用能力11SuperCLUE通用测评基准数据集SuperCLUE本次10月报告聚焦通用能力测评,采用多维度、多层次的综合性测评方案,由理科.文科和Hard三大维度构成.愿目灼为原创新惠,总量为2900道多轮衢答厘,二【理科任务】分为计算、逻辑推理。代码、工具使用测评集:【文科任务】分为知识百科、语言理解、长文本、角色扮演、生成与创作、安全六大测评集:【Hard任务】分为精确指令遵循测评集,复杂任务高阶推理测评集,理科包括三论、关系推理、种素推理等在内的多步推理算术在内的础数学数据壤。7.长文本留知识类数据集,包括但不限于历史、地理、科学、体文科9生成与创作行为习惯、角色背景等数据壤。Hard12SuperCLUE-理科测评说明SuperCLUESuperCLUE-理科评测数据集计算■包括线性代数、概率统计、微积分及数学包括三段论、关系推理、朴素推理等在多步推理算术在内的基础数学数据集。内的中文逻辑推理数据集。工具使用考账模型的函数调用能力,包括查找、调用、规划函数以及通用函数使用能力的数据集。测评方法以【计算】任务为风,设定的评价标准包话:符合基本要求、推理准确性、结论合理性,假设在一个具体的题目中,候型A的得分如下:符合基本要求3分、推理准确性4分、结论合理性多13SuperCLUE-理科测评说明SuperCLUESuperCLUE-理科评测数据集示例-代码Human Eva的中文升级版,分为初级、中级和高级的8种常见类型代码数据集。测评方法4.计算候型得分:14SuperCLUE-文科测评说明SuperCLUESuperCLUE-文科评测数据集示例-长文本长文本安金测评方法打分与评价开始:
文档评分
    请如实的对该文档进行评分
  • 0
发表评论

特惠

限量优惠活动

正在火热进行

站长

添加站长微信

领取运营礼包

下载

便携运营智库

立即下载APP

导航

运营工具导航

AI工具导航

AI

AI运营助手

帮助

帮助中心

常见问题

顶部