GPT系列的数据集之谜( 五 )


于2014年被谷歌收购,并在创建时获得了海量数据 。虽然论文中没有进一步详细描述,但第44页附录中的表A3b注明了中出现的前20个域[29] 。根据披露的每个域所占的百分比,我们可以使用的总token数(5060亿token)和总原始大小()来确定每个域的token数量和大小 。
▲表17. :前20个域 。公开的数据以粗体表示,确定的数据以斜体表示 。9.2. :关于维基百科数据集的分析
维基百科数据集的总规模很难确定 。在论文中,研究人员指出维基百科没有进行数据去重[30] 。然而,论文中列出的不同大小数据集(12.5GB与1GB)可能是由于失误而造成的,误将“10GB”写成了“1GB” 。无论如何,本文仅使用数据集版本 (12.5GB) 。
9.3. :不包括
数据集的组成部分不包括外链的数据集 。为了清楚起见,尽管是中的顶级域,但该数据集仅抓取域内的链接 。根据定义,[31]由“所有的外链”组成(即指向域外的链接) 。
9.4. 分组数据集
被认为是的子组件,并被集成到的数据集汇总中,其分组基于以下列出的可用信息:
▲表18. 分组数据集 。公开的数据以粗体表示,确定的数据以斜体表示9.5. 数据集总结
是本文中最大的数据集,大小为10.5TB 。模型的最终数据集总结分析为:
▲表19. 数据集总结 。公开的数据以粗体表示,确定的数据以斜体表示 。10 结论
对于训练当代大型语言模型的数据集而言,这可能是最全面的整合分析内容(截止2022年初) 。在主要数据源不透明的情况下,本次研究主要从二级和三级来源收集数据,并经常需要假定来确定最终估计值 。随着研究人员要处理千万亿个token(1,000万亿)和数千TB的数据(1,000TB),确保详细披露数据集组成的文档变得越来越重要 。
特别值得关注的是,基于大型语言模型的强大AI系统产生的冗长而匿名的输出正在迅速发展,其中许多数据集的细节内容几乎没有文档说明 。
强烈建议研究人员使用突出显示的“数据集的数据表( for )”论文中提供的模板,并在记录数据集时使用最佳实践论文(即Pile v1论文,包括token数量) 。数据集大小(GB)、token数量(B)、来源、分组和其他详细信息指标均应完整记录和发布 。
随着语言模型不断发展并更广泛地渗透到人们的生活中,确保数据集的详细信息公开透明、所有人都可访问且易于理解是有用、紧迫和必要的 。