DatologyAI 发布合成数据框架 BeyondWeb


DatologyAI 发布了 BeyondWeb,一个专为大规模语言模型(LLM)预训练设计的合成数据生成框架,旨在突破当前面临的数据瓶颈问题。

该框架采用“目标导向的文档重写”策略,对现有高质量网络数据进行改写,而非从头生成,从而在保证数据多样性和信息密度的同时,避免了低质量内容的引入。

据介绍,BeyondWeb 通过高质量、信息密集的合成数据,显著提升了模型性能,即使在原始网络数据有限的情况下,也能实现超越传统数据规模扩展的效果。在14项基准测试中,使用 BeyondWeb 生成的合成数据训练的 3B 参数模型,其性能超过了使用 Cosmopedia 数据训练的 8B 参数模型,同时训练速度提升了最高达 7.7 倍。

论文地址:https://arxiv.org/pdf/2508.10975


相關推薦

2025-07-23

近日,苹果发布了一份关于其基础模型的详细报告,名为《Apple Intelligence基础语言模型2025年技术报告》,该报告深入介绍了最新人工智能模型的关键要素,几乎涵盖了所有内容,从模型架构到训练阶段、训练后阶段,以及如何

2025-06-11

最佳实践,包括遵循广泛采用的robots.txt协议,允许网页发布者选择性地退出其内容被用于训练Apple的生成基础模型。网页发布者可以对Applebot可以查看的页面以及这些页面如何被使用进行精细控制,同时这些页面仍会出现在Siri和

2025-05-09

智源研究院宣布已发布大型开源文本数据集CCI 4.0,兼顾多样性与高质量,从单一语言数据集扩展为多语种数据集。 根据介绍,本次发布包括了中、英语两种语言,并将在随后的发布中,开源更多语言的版本。此外,CCI 4.0首次

2024-09-26

阿里通义实验室发布了一个用于可控角色视频合成的通用模型 MIMO,能够模仿任何人在复杂动作和物体交互的场景中的表现。简单讲,用户只要给定一个图像和视频或者动作序列,它就能把给定图像的人物直接替换成视频里面

2025-03-21

了位于圣迭戈的初创公司 Gretel,该公司开发了一个生成合成人工智能训练数据的平台。 收购条款尚不清楚。 据《连线》报道,收购价格高达九位数,超过了 Gretel 最近 3.2 亿美元的估值。 Gretel 及其约 80 名员工组成的团队将并

2025-07-17

带来了令人兴奋的消息!AigcPanel v0.14.0 版本现已正式发布,本次更新致力于为大家带来更加流畅、高效且便捷的使用体验,快来看看都有哪些惊喜变化吧! 软件介绍 AigcPanel是一个简单易用的一站式AI数字人系统,小白也

2023-06-08

OpenAtom OpenHarmony(简称“OpenHarmony”) 4.0 Beta1 版本现已发布,在3.2 Release版本基础上,继续提升标准系统的ArkUI、应用框架、图形媒体等子系统能力,并提供首批API Level 10接口。 作为OpenHarmony 4.0的首个Beta版本,其推出了系列新特性

2025-04-18

正式推出 AIGCPanel v0.11.0 版本!本次更新聚焦 声音合成能力升级 与 系统稳定性优化,为您带来更高效、多元的使用体验。 软件介绍 AigcPanel 是一个简单易用的一站式AI数字人系统,小白也可使用。 支持视频合成、

2022-04-13

来的性能;该工具旨在使用多模式输入为 Python Pandas API 合成代码。Pandas 是数据科学中广泛使用的 API,具有数百个用于 manipulating dataframes 或具有行和列的表的函数。 微软方面称,其经验表明,随着这些大型语言模型演变为根据

2025-08-21

腾讯 AI Lab 推出一项名为 AudioGenie 的新型无训练多智能体系统,为多模态到多音频(MM2MA)生成领域带来重大突破。 该系统能从视频、文本、图像等多模态输入中,精准合成音效、语音、音乐、歌曲等多种音频,有效解决了

2022-09-24

提供了一个非常基础的全功能桌面环境。 目前 Weston 11.0 发布了,此版本在色彩管理的基础设施方面有改进,比如提供了实验性的色彩管理支持,它可以与监视器 ICC 配置文件一起使用。还可以将监视器设置为 HDR 模式,并从 West

2025-08-12

开源AI数字人系统,小白也可使用。 支持智能直播、视频合成、声音合成、声音克隆,简化本地模型管理、一键导入和使用AI模型。 禁止使用本产品进行违法违规业务,使用本软件请遵守中华人民共和国法律法规。 重磅

2023-05-15

式开源。 Deluge 是一款 grid-based 乐器,集便携式音序器、合成器和采样器于一体。它有 128 个 RGB pads,排列在一个 16 x 8 的网格中;一个内置的合成器;从 SD 卡上播放多达 12 分钟的样本;以及多达数千个音符的排序。 “在 Syn

2022-09-18

Tinker v1.9.14.25 发布了。Tinker 是腾讯开源的 Android 热解决方案库,它支持在不重新安装 apk 的情况下对 dex、library 和 resources 进行更新。 更新内容: Bugfix & ChangeLog 增加了32位 Android N 及更旧的系统上使用解释模式触发 dexopt