logo

甲骨易AI 研究院“超越”中文大模型测试集正式发布

社会民生 护法使者三 2023-05-23 14:35:23 70

 5 月 22 日消息,近期中文大语言模型蓬勃发展,但却一直少有出现可应用于评测 ”大模型能力“ 的测试。甲骨易 AI 研究院提出一种衡量中文大模型处理多任务准确度的测试,并在此基础上制作了一套适配“测试中文大模型”的数据集,并将其命名为“超越”,MMCU (Massive Multitask Chinese Understanding)。 5 月 20 日,甲骨易 AI 研究院 “超越”中文大模型测试集正式发布。

  据介绍,“超越” 的意义是希望中文大语言模型 “超” 出多数模型只能基于英文数据集测试的现状,通过发现大模型的缺陷,从而促进大模型理解中文语言的能力,使其 “越” 来越强大。 这里“超”和“越”要单独来理解,并不是超越别人的意思。

  甲骨易 AI 研究院首席研究员 Felix 透露,4 月推出了 MMCU 的测试集和测试方法。数据集的测试内容涵盖四大领域:医疗、法律、心理学和教育。题目的数量达到 1 万+,其中包括医疗领域 2819 道题,法律领域 3695 道题,心理学领域 2001 道,教育领域 3331 道。

  “我们是把大模型当作一个真正的人类来看待,”Felix 表示,测试集之所以涉及语、数、物理、化学这些科目,因为人工智能必须像人类一样,具备对于世界的基础的认知;而医疗、法律、心理学专业领域则是将大模型视为专业人士进行考核。

  “所有题目都不是从网络上直接能够抓到的,而是由大量的人工整理,尽可能确保不会出现在大模型的训练数据中。而整套的测试集涵盖的领域能够确保模型测试的知识的广度和深度,从而帮助研究者们去发现这一模型的哪个领域有缺陷或者说它的整体上都有缺陷。”Felix 说到。

  中国科学院大学网络数据重点实验室的咸宁针对 MMCU 测试集的使用情况进行分享,解释了测试数据集的分析原理,对几大模型的测试成果进行了展示与客观分析,并指出了超越 MMCU 测试数据集当下尚存在一些亟待解决的问题。

  通过大模型测试发现,在本应有明显优势的语文科目中,国产大模型的表现却差强人意。Felix 指出,现在很多模型评估还是处于人工评估阶段,甲骨易推出“超越”MMCU 数据集的初衷是希望实现对大模型进行大规模的评估。当下的评测结果可能存在随机误差,但未来还将持续优化评测方式并扩充评测领域。

  “大模型的训练以及大规模评估需要大量算力。”甲骨易 AI 研究院最后表示,愿与业界更多机构联手,一道携手推进大模型的发展,加速人工智能技术的产学研用进程。

 
 
来自: TechWeb
 

声明:本站为个人程序内部测试网站,所有的文章均为测试,不对外运营,如文章内容不小心侵犯到您的权益,请发邮箱投诉 wplhsf@163.com 收到后立马删除!

本文链接: https://www.523it.com/faluzixun/78885.html
资源总数
192284+
今日更新
68
会员总数
38
今日注册
0