DatologyAI 发布了 BeyondWeb,一个专为大规模语言模型(LLM)预训练设计的合成数据生成框架,旨在突破当前面临的数据瓶颈问题。
该框架采用“目标导向的文档重写”策略,对现有高质量网络数据进行改写,而非从头生成,从而在保证数据多样性和信息密度的同时,避免了低质量内容的引入。
据介绍,BeyondWeb 通过高质量、信息密集的合成数据,显著提升了模型性能,即使在原始网络数据有限的情况下,也能实现超越传统数据规模扩展的效果。在14项基准测试中,使用 BeyondWeb 生成的合成数据训练的 3B 参数模型,其性能超过了使用 Cosmopedia 数据训练的 8B 参数模型,同时训练速度提升了最高达 7.7 倍。
论文地址:https://arxiv.org/pdf/2508.10975