研究人员分析了 Common Crawl、C4、OpenWebText 和 OpenWebText2 等数据集,以了解法学硕士是如何训练的、他们喜欢什么类型的内容,以及这些选择如何影响人工智能的行为和输出。
您可以在此处阅读完整的研究报告。
Zeff Davis 法学硕士研究的亮点
如果您想跳过本文的其余部分,我总结了以下主要发现:
与其他原始网络数据相比,法学硕士更 电话号码业务线索 重视精心策划的高质量数据集。
权威出版商主导着这些精选数据集。
与未归档的数据集相比,OpenWebText 和 OpenWebText2 提供的高 DA 内容比例要高得多。
LLM 开发人员更喜欢商业出版商的内容,反映了对质量和可靠性的偏好。
分析了哪些数据集?
Ziff Davis 的研究检查了对于训练大型语言模型很重要的四个关键数据集:
Common Crawl:从互联网上抓取的不安全的网络文本存储库,质量控制最低。
C4:CommonCrawl 的清理版本,专注于英文页面并排除重复和低质量的文本。它提供了更精细的数据集,无需严格管理。
OpenWebText:OpenAI WebText 的代理,强调以最低的点赞阈值链接到 Reddit 的高质量内容。
OpenWebText2:OpenWebText 的后续版本,具有扩展和更新的数据集,同时保持相同的以标准为中心的方法。
值得注意的是,这些数据集的创建并不相同。更精心策划的数据集(例如 OpenWebText 和 OpenWebText2)包含更高比例的真实内容,而未经过滤的来源(例如 CommonCrawl)则从更广泛但质量较低的网页池中提取内容。数据集的差异会影响法学硕士学习和生成答案的方式。
这项研究旨在解决这个问题
-
- Posts: 569
- Joined: Sun Dec 22, 2024 4:04 am