DatologyAI 发布合成数据框架 BeyondWeb

2025-08-21 發表於开源资讯

DatologyAI 发布了 BeyondWeb，一个专为大规模语言模型（LLM）预训练设计的合成数据生成框架，旨在突破当前面临的数据瓶颈问题。

该框架采用“目标导向的文档重写”策略，对现有高质量网络数据进行改写，而非从头生成，从而在保证数据多样性和信息密度的同时，避免了低质量内容的引入。

据介绍，BeyondWeb 通过高质量、信息密集的合成数据，显著提升了模型性能，即使在原始网络数据有限的情况下，也能实现超越传统数据规模扩展的效果。在14项基准测试中，使用 BeyondWeb 生成的合成数据训练的 3B 参数模型，其性能超过了使用 Cosmopedia 数据训练的 8B 参数模型，同时训练速度提升了最高达 7.7 倍。

论文地址：https://arxiv.org/pdf/2508.10975

相關推薦

苹果公开 AI 模型训练策略：从大规模网络抓取到秘密授权交易和合成内容

2025-07-23

近日，苹果发布了一份关于其基础模型的详细报告，名为《Apple Intelligence基础语言模型2025年技术报告》，该报告深入介绍了最新人工智能模型的关键要素，几乎涵盖了所有内容，从模型架构到训练阶段、训练后阶段，以及如何

苹果设备端和服务器端基础语言模型的更新

2025-06-11

最佳实践，包括遵循广泛采用的robots.txt协议，允许网页发布者选择性地退出其内容被用于训练Apple的生成基础模型。网页发布者可以对Applebot可以查看的页面以及这些页面如何被使用进行精细控制，同时这些页面仍会出现在Siri和

智源研究院发布开源中文互联网语料库 CCI 4.0

2025-05-09

智源研究院宣布已发布大型开源文本数据集CCI 4.0，兼顾多样性与高质量，从单一语言数据集扩展为多语种数据集。根据介绍，本次发布包括了中、英语两种语言，并将在随后的发布中，开源更多语言的版本。此外，CCI 4.0首次

一觉醒来，发现宇智波佐助在跳芭蕾

2024-09-26

阿里通义实验室发布了一个用于可控角色视频合成的通用模型 MIMO，能够模仿任何人在复杂动作和物体交互的场景中的表现。简单讲，用户只要给定一个图像和视频或者动作序列，它就能把给定图像的人物直接替换成视频里面

英伟达收购合成数据初创公司 Gretel

2025-03-21

了位于圣迭戈的初创公司 Gretel，该公司开发了一个生成合成人工智能训练数据的平台。收购条款尚不清楚。据《连线》报道，收购价格高达九位数，超过了 Gretel 最近 3.2 亿美元的估值。 Gretel 及其约 80 名员工组成的团队将并

9 月 1 日起，AI 生成合成内容必须添加标识

2025-08-30

化部、公安部、国家广播电视总局制定了《人工智能生成合成内容标识办法》（以下简称《办法》），办法共14条，将于2025年9月1日开始施行。接下来，所有AI合成的内容，都必须依法打“电子水印”。AI合成的内容，也就是利

AigcPanel v0.14.0 直播功能优化更新，一大波模型更新升级

2025-07-17

带来了令人兴奋的消息！AigcPanel v0.14.0 版本现已正式发布，本次更新致力于为大家带来更加流畅、高效且便捷的使用体验，快来看看都有哪些惊喜变化吧！软件介绍 AigcPanel是一个简单易用的一站式AI数字人系统，小白也

OpenHarmony 4.0 Beta1 发布

2023-06-08

OpenAtom OpenHarmony(简称“OpenHarmony”) 4.0 Beta1 版本现已发布，在3.2 Release版本基础上，继续提升标准系统的ArkUI、应用框架、图形媒体等子系统能力，并提供首批API Level 10接口。作为OpenHarmony 4.0的首个Beta版本，其推出了系列新特性

AigcPanel v0.11.0 聚合声音合成，支持千种声音，已知问题修复

2025-04-18

正式推出 AIGCPanel v0.11.0 版本！本次更新聚焦声音合成能力升级与系统稳定性优化，为您带来更高效、多元的使用体验。软件介绍 AigcPanel 是一个简单易用的一站式AI数字人系统，小白也可使用。支持视频合成、

微软推出 AI 代码审查工具，可将准确率提升至 >80%

2022-04-13

来的性能；该工具旨在使用多模式输入为 Python Pandas API 合成代码。Pandas 是数据科学中广泛使用的 API，具有数百个用于 manipulating dataframes 或具有行和列的表的函数。微软方面称，其经验表明，随着这些大型语言模型演变为根据

腾讯 AI Lab 发布多模态音频生成工具 AudioGenie

2025-08-21

腾讯 AI Lab 推出一项名为 AudioGenie 的新型无训练多智能体系统，为多模态到多音频（MM2MA）生成领域带来重大突破。该系统能从视频、文本、图像等多模态输入中，精准合成音效、语音、音乐、歌曲等多种音频，有效解决了

Weston 11.0 发布，Wayland 合成器的参考实现

2022-09-24

提供了一个非常基础的全功能桌面环境。目前 Weston 11.0 发布了，此版本在色彩管理的基础设施方面有改进，比如提供了实验性的色彩管理支持，它可以与监视器 ICC 配置文件一起使用。还可以将监视器设置为 HDR 模式，并从 West

AigcPanel v1.1.0 语音识别，声音替换，模型自启动，应用工具上线

2025-08-12

开源AI数字人系统，小白也可使用。支持智能直播、视频合成、声音合成、声音克隆，简化本地模型管理、一键导入和使用AI模型。禁止使用本产品进行违法违规业务，使用本软件请遵守中华人民共和国法律法规。重磅

Deluge 固件即将开源，便携式音序器、合成器和采样器

2023-05-15

式开源。 Deluge 是一款 grid-based 乐器，集便携式音序器、合成器和采样器于一体。它有 128 个 RGB pads，排列在一个 16 x 8 的网格中；一个内置的合成器；从 SD 卡上播放多达 12 分钟的样本；以及多达数千个音符的排序。 “在 Syn

熱門推薦