模型“日日新”!中文语言大模型“商量2.0”多个评测基准综合表现超ChatGPT
来源/东方IC
近日,商汤科技公布了自研中文语言大模型“商量 2.0”在MMLU、AGIEval、C-Eval三个权威大语言模型评测基准的成绩。根据评测结果,“商量2.0”在三个测试集中表现均领先ChatGPT,实现了我国语言大模型研究的重要突破。
截至目前,已有近千家企业客户通过申请,应用和体验“商量2.0”的长文本理解、逻辑推理、多轮对话、情感分析、内容创作、代码生成等综合能力,并且“商量2.0”还在服务客户过程中,持续实现着快速迭代和提升,以及知识的实时更新。
(资料图)
图说:各语言大模型在三个评测基准中的得分情况 采访对象供图(下同)
“商量2.0”综合能力超ChatGPT
商汤科技公布的评测结果,选取了全球三大权威语言模型测评基准MMLU、AGIEval、C-Eval,结果显示“商量2.0”在三个测试集中表现均领先ChatGPT,部分已十分接近GPT-4的水平。
图说:图中粗体表示结果最佳,下划线表示结果第二
MMLU是由美国加州大学伯克利分校、哥伦比亚大学、芝加哥大学及伊利诺伊大学厄巴纳-香槟分校联合打造的大规模多任务语言理解的评测基准,涵盖了科学、技术、工程、数据,人文、社会科学等领域的57个科目,难度从初级水平到高级专业水平,考验世界知识和解决问题的能力。在该评测中,“商量2.0”综合得分为68.6,超过了ChatGPT(67.3分),落后GPT-4(86.4分)。
图说:图中粗体表示结果最佳,下划线表示结果第二
AGIEval是由微软研究院发布的,专门用于评估基础模型在人类认知和问题解决相关任务中表现出的一般能力,从而实现模型智能和人类智能的对比。该基准选取20种面向普通人类考生的官方、公开、高标准往常和资格考试,包括普通大学入学考试(中国高考和美国SAT考试)、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等。在该评测中,“商量2.0”测出49.91的分数,再次超越ChatGPT(42.9分),仅次于GPT-4的56.4分。在其中一项评测子集中,“商量2.0”以58.5分仅微弱差距落后GPT-4(58.8分)。
C-Eval是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集,包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别。面对C-Eval评测基准,“商量2.0”拿到了66.1的分数,在参评的18个大模型中,仅次于GPT-4(68.7分),全面领先ChatGPT、Claude、Bloom等一众海内外大模型。
技术创新+应用落地 推动能力持续提升
今年4月,商汤正式发布“商汤日日新”大模型体系,以及自研中文语言大模型“商量”。截至6月,全球范围内正式发布的大语言模型已超过40款,其中由中国厂商、高校、科研院所等发布的大语言模型近20款。
在“百花齐放”的市场格局中,通过对比成绩与表现,可以了解各大预言模型的特点与差异,并且直观地了解每个大语言模型当前的智能水平。目前“商量2.0”实现了对GPT-3.5超越,并且随着商业化落地的推进,在众多行业、场景中发挥令人满意的作用。
例如在需要大量文案工作的场景中,“商量2.0”可以协助处理各类文章、报告、信函、产品信息、IT信息等,进行编辑、重写、总结、分类、提取信息、制作Q&A等,有效提高企业员工的生产效率。在客户服务场景中,“商量 2.0”还可以扮演许多不同的企业角色,如银行客服、给孩子讲故事的绘本老师等等,并进行顺畅的交流和互动,提升客户体验。
此外,“商量2.0”还拥有广泛的知识储备,能够结合企业自身所在行业的专有数据,非常高效地打造满足企业需要的高阶知识库,帮助实现更智能化的知识库管理。“商量2.0”还是高水平的AI代码助手,能够极大帮助提高开发效率,实现新的“二八定律”——80%的代码由AI生成,20%则由人工生成。
据悉,商汤大语言模型能力的提升源于更多高质量中文数据的训练学习,得益于团队在底层大模型技术上的不断创新。商汤团队在训练阶段采用自研的一系列增强复杂推理能力的方法,以及更加有效的反馈学习机制,让大模型增强推理能力的同时,减轻了传统大模型的幻觉问题。
新民晚报记者 郜阳
关键词:
推荐阅读
域名抢注是是什么意思?投资角度来看什么域名好?
域名抢注是是什么意思域名抢注是通过抢先注册的方式获得互联网删除的域名的使用权。域名是由点分隔的一串数字,用于标记一台计算机或一组计 【详细】
捷达保养费用是多少?捷达是哪个国家的品牌?
捷达保养费用是多少?全新捷达的保修期为2年或6万公里,以先到者为准,新车可享受一次免费保养,首次免费保养在5000-7500km或1年内进行。如 【详细】
天然气泄露会造成爆炸吗?天然气泄漏怎么办?
天然气泄露会造成爆炸吗?家里用的天然气如果泄露是会发生爆炸的。当空气中含有混合天然气时,在与火源接触的一系列爆炸危险中,就会发生爆 【详细】
四部门明确App收集个人信息范围 个人信息保护范围判断标准
四部门明确App收集个人信息范围近日,国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合印发《常见类型移动互联网 【详细】
丰田致炫介绍 致炫威驰对比汇总
丰田致炫介绍参考价格: 6 88ー10 28W,基本参数: 1 3升 1 5升 5mt,5 3升 100公里。YARiS L致炫是YARiS L的替代传统车型,也是我们中国 【详细】
相关新闻
- 模型“日日新”!中文语言大模型“商量2.0”多个评测基准综合表现超ChatGPT
- 科学家提出新型光纤成像系统,实现彩色图像的高质量传输-天天快看点
- 世界微资讯!中阶之王确定!安兔兔近百万分!2023最高CP值手机POCO F5 试玩
- 潞城小菜:家常小菜,一学就就会 天天快播报
- 每日热议!冻土是什么(永久冻土是什么?它是如何形成的?有什么作用?)
- 成都地铁被诬偷拍男子决定起诉:偷拍与诬告都应付出代价丨快评
- “粽”享端午假期 各地举办丰富多彩民俗文化活动-世界热闻
- 当前短讯!500亿!上海文旅元宇宙目标定了
- chatGPT回答:中国最先被chatGPT取代的十个工作
- 速看:四十年前动手组装调试彩电费的劲老大了!(下集)
- 天天快资讯丨快递江湖座次生变:顺丰止损、极兔吃撑,“战国七雄”走向“三足鼎立”
- 双双获奖!中兴通讯全栈自研车规级5G模组与车用OS再获行业认可
- 秋天果园里有什么(秋天的果园里有什么水果?)
- 黄子佼出院第3天伤势如何?张小燕松口回应了 焦点热议
- 热门车讯全新蒙迪欧配置曝光 1.5T三缸直喷是亮点
- 世界热议:电梯归谁管、怎么建?这个规定提出了新的要求
- 天天通讯!失联“泰坦”号还有几分搜救胜算?
- 郭台铭:如果苹果退出中国市场,后果将无法想象!
- 世界新动态:我国芯片产业崛起,本土芯片已广泛应用,鼓励使用国产芯片
- 当前观察:iOS15.4 Beta3:首批果粉反馈已出炉,存储空间问题也已修复