一起学习网 一起学习网


“弱智吧”帖子训练AI效果遥遥领先?研究团队回应

新闻资讯 数据,模型,指令,白岳霖,中国科学报,帖子,论文,中文,团队,张舸 04-17

文 |《中国科学报》记者 赵广立

白岳霖和他的小伙伴们实在想不到,他们最近做的中文指令微调数据集,会因为使用了百度贴吧“弱智吧”的帖子相关数据而火爆“出圈”。

白岳霖是中国科学院深圳先进技术研究院三年级硕士生。他的团队在题为“COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning”的研究中,使用“弱智吧标题+GPT-4回答”微调后的大模型评估结果,超过了他们收集的其他有监督微调(SFT)指令集数据。后者来自包括知乎、百科、豆瓣、小红书等社交平台。对此,业内人士表示“看论文看到哈哈大笑”。

网友纷纷跟帖评论:“这把‘弱智吧’上大分”“大智若愚”“‘弱智吧’才是人类面对AI的最后一道堡垒”。

“没想到这个工作‘出圈’了,但网上存在一些错误解读,比如有人拿这个研究调侃‘知乎不如弱智吧’。”作为论文共同第一作者,白岳霖告诉《中国科学报》,这篇文章的作者来自国内外多个顶尖机构,“考虑到团队学术声誉与社会影响,这些误读有必要澄清一下”。

张舸

张舸

由于对“弱智吧”数据的“区别对待”在传播中很难被关注到,吃瓜群众很容易就对这项工作产生了误读,认为仅使用“弱智吧”的内容就能将大模型训练出远超其他平台的效果。

白岳霖进一步谈到:“我们的实验结果也不能完全代表互联网中的各个平台,任何关于平台对立的情绪都不是我们想要探讨或者希望看到的。”

不过,也正是研究团队对“弱智吧”数据的特殊操作,在论文内容发酵后引发了相关人士对实验结果的质疑。

有质疑者提出:来自知乎、豆瓣等平台的其它子数据集采样了原内容和网友评论,只有“弱智吧”的子数据集完全不包括网友的评论、而是采用了GPT-4合成的回答——这样的回答明显更完善、准确、多样,且最终来评分的居然还是GPT-4。“既当运动员又当裁判员,Evaluation bias(评估偏见)不会爆炸吗?用这种操作误导公众、获取流量,是不是有点过于不严谨了?”

对于这一诘问,白岳霖也给出了正面回应。

“获取流量并不是我们的初衷,我们也无意哗众取宠,更没有计划或安排任何宣传内容,我们的初衷只是想默默为中文NLP(自然语言处理)社区贡献些高质量数据集;对平台‘跑分’的实验本意,是想观察各平台数据对于测试集中各任务都有哪些影响。”白岳霖解释说。

至于为何只有“弱智吧”子集不包括网友评论,正如前述所提到的,也是出于“弱智吧”部分网友评论经判断达不到训练语言模型的回答质量标准,因此决定重新构造回答。而使用GPT-4辅助构造回答,则主要是为了尽可能减少人力投入。白岳霖同时表示,已经注意到有关评估偏见的问题,他们计划在下一版论文更新中“补充人工评估实验”。

张舸告诉《中国科学报》,“手搓”一个通用的、高质量的中文指令微调数据集,需要做大量筛选、检查和调优的工作,“是个体力活儿”,能寻求机器帮忙的当然不会放过。

一切为了“更适合中国宝宝的AI”

张舸是这项研究的核心人物,他也是COIG(Chinese Open Instruction Generalist,中文开源指令数据集)系列工作的发起人之一。

谈及发起这项研究的初衷,他告诉《中国科学报》,国内在有关中文指令微调数据集方面,目前还没有质量特别好的开源项目,个别项目也只是“勉强能用”,因此萌生了给业界提供一个完全开源的、包含中文社交媒体数据等在内各种来源的、可以直接微调大模型的数据集的想法。

通过筛选收集,构建出具有挑战性的、真实的中文语料互动数据,对于训练和评估大语言模型理解和执行中文指令的能力而言,无疑是极具价值的。最直接地,将有利于减少大模型在回答中出现“幻觉”(模型在输出文本时出现的一些并不符合事实或常识的内容)。

在这项工作中,作者团队构建了一个包含4万多条高质量数据的中文指令微调数据集,并将其开源给研究机构、企业等各方,为中文NLP社区提供了宝贵的资源。

然而,这项工作繁琐复杂,不仅要去各个平台“爬取”高质量的内容数据,还需要运用各种技术手段清洗、审核,工作量非常大,需要群策群力。因此,该工作的作者团队就达20人。

团队中,除了来自中国科学院深圳先进技术研究院的白岳霖外,还有来自中国科学院自动化研究所、中国科学技术大学、北京大学、加拿大滑铁卢大学、曼彻斯特大学等顶尖机构的成员,因此这项工作被网友们戏称为是国内外研究天团“为了开发出适合中国宝宝体质的AI”之作。

《中国科学报》进一步了解到,这群年轻人从2023年11月起着手该研究,仅用了不到4个月就完成了几乎全部工作。如此高效率的表现,他们是怎样组织协作的?

“我们创建了一个致力于多模态AI的开源社区—— M-A-P(Multimodal Art Projection),没有线下实体、没有任何盈利目的,只要能来一起做事情,我们就欢迎。”张舸介绍说,两年多前,他和几位小伙伴因一个音乐类大模型训练项目走到了一起,共同创办了M-A-P。之后,朋友、朋友的朋友、朋友的朋友的朋友……感兴趣加入的小伙伴越来越多,就形成了一个有稳定贡献的开源社区。

他告诉记者,在M-A-P社区,大家发起一个课题后,就寻求合作者一起做;如果涉及到一些资源需求,大家会和科技公司等洽谈,公司若愿意投入资源,可以一起合作、共同开发。但前提是,项目完成之后,公司除保留一些私有资源外,必须将项目成果共享给开源社区。

“我们所有项目的目标,都是能够做出来一些好东西开源给大家用。”张舸说,开源社区具有高校院所和企业所不具备的灵活性和纯粹性,此次中文指令微调数据集(CQIA)的工作,就是在M-A-P社区发起、逐步汇聚了国内外科研力量完成的。

张舸坦言,这项工作从发起到完成,一些参与的小伙伴他甚至都没见过面。

(中国科学院自动化研究所在读博士生梁燚铭(论文共同第一作者)对本文亦有贡献)


编辑:一起学习网

标签:弱智,数据,中文,模型,指令,团队,中国,高质量,网友,开源