中科院软件所开源流式机器学习新框架 FreewayML


近日,中国科学院软件研究所软件工程技术研究开发中心分布式计算与系统工程研究团队提出了一种新的流式机器学习框架FreewayML,为复杂场景数据流的高效分析提供了创新解决方案。

现有典型流式学习框架如Flink ML、River、Alink、StreamDM等存在稳定性和通用性不足两个难题。在稳定性方面,现有框架一般采用简单直接的模型更新方法,没有充分考虑数据动态变化对训练和预测的影响,导致实时正确率波动较大。在通用性方面,这些框架大多只能支持少量传统机器学习算法,如流式Logistic Regression、流式K-Means聚类等,难以支持流式深度学习等复杂数据分析算法。

针对上述问题,研究团队提出了一种新的流式机器学习框架FreewayML。团队首先通过实证研究深入分析数据动态变化(非独立同分布)对流式学习稳定性的影响,定义了三种典型的数据偏移模式——轻微偏移、严重偏移和重现型偏移,并相应提出三重自适应调节机制,即多时间粒度模型组合机制、协同经验聚类机制和历史知识重用机制,通过优化框架处理流程,实现模型准确率与稳定性的协同提升。

FreewayML还设计了数据训练流和预测流,可以同时支持传统机器学习算法和深度学习算法,突破了现有框架通用性上的局限。

FreewayML框架能广泛适用于现有流式机器学习模型,相关成果已经在南方电网合作项目开展实际应用。在电力、交通、网络安全等典型流式数据集上的实验表明,相较现有框架,FreewayML的平均准确率提升3%至7%,实时准确率最高提升45%。


相關推薦

2023-03-28

架 OneFlow。 OneFlow 是一个采用全新架构设计的工业级通用开源深度学习框架,采用了 Apache 2.0 License。OneFlow 率先提出了静态调度和流式执行的核心理念,解决了大数据、大模型、大计算带来的异构集群分布式扩展挑战,具有五大

2023-04-27

力支撑业务需求: 自研训练框架:目前除了业界开源的 Tensorflow、Pytorch,为了满足用户的各种需求,字节也在机器学习场景进行了深入探索,自研多个训练框架用于满足用户需求; 拥有底层资源调度系统 YARN 和 Kube

2024-08-16

8 月 15 日,2024 全球开源技术峰会 GOTC × GOGC 全球开源极客嘉年华于上海张江科学会堂隆重举办。大会现场,开源生态网络共建暨张江节点正式揭牌;世纪互联与开源PHP宣布正式开启战略合作,共同推动智算互联的深化发展。主

2023-02-07

-brpc Apache bRPC是由百度初始创立并持续贡献的工业级别RPC开源项目,在2018年正式贡献给 Apache 软件基金会进行项目孵化,2022年12月24日经过 Apache 董事会集体投票表决,Apache bRPC 项目顺利毕业,成为 Apache 软件基金会顶级项目(TLP

2023-10-26

InfoWorld 公布了 2023 年最佳开源软件榜单,旨在表彰年度领先的软件开发、数据管理、分析、人工智能和机器学习开源工具。 InfoWorld 是致力于引领 IT 决策者走在科技前沿的国际科技媒体品牌,每年 InfoWorld 都会根据软件对开源

2023-12-01

布 ML.NET 3.0,带来了许多新功能和改进。 ML.NET 是一个开源、跨平台的机器学习框架,专为 .NET 开发者设计,可以将自定义的机器学习模型集成到 .NET 应用程序中。 在这个版本中,深度学习方案得到了大幅扩展——引入了

2023-08-25

is/issues/1161   3 ► 内容贡献:发布 WeDataSphere 开源组件相关的内容,包括但不限于安装部署教程、使用经验、案例实践等,形式不限,请投稿给小助手。例如: 技术干货 | Linkis 实践:新引擎实现流程解析 技术

2023-12-06

人工智能行业应用系统集成服务等。 OneFlow 是国内知名开源深度学习框架及开发平台,拥有完全自主知识产权,已获得十余项发明专利授权。OneFlow 创始人袁进辉(微博人称老师木),2008 年 7 月自清华大学计算机系获得工学博

2023-09-02

输入,即可触发应用功能。 openKylin语音助手服务端采用开源模型库paddlespeech作为语音识别服务,将客户端上传的流式语音进行识别并且返回给客户端;客户端采用Qt的Multimedia模块进行语音识别,然后进行格式封装上传到服务端

2022-10-01

框架协议,双方将在学术研究、人才培养、联合实验室、开源社区共建等方面展开深入合作,并将成立“云原生数据编排服务系统联合实验室”。 刘譞哲表示,数字经济时代,数据作为重要生产要素,其价值发挥依赖于多

2022-09-06

自研模型。在经过内部业务打磨之后,我们将EasyNLP 推向开源社区,希望能够服务更多的 NLP 算法开发者和研究者,也希望和社区一起推动 NLP 技术特别是中文 NLP 的快速发展和业务落地。 开源项目地址:https://github.com/alibaba/EasyN

2022-10-24

Waifu2x-Extension-GUI v3.95.31-beta 已经发布,机器学习多媒体处理应用。 ➡此为测试版, 点此获取稳定版 下载完整安装包: (PRC) OneDrive (不限速) | (PRC) 百度网盘 因本软件属于独立开发的项目, 没有给某些杀毒软件交过保护费, 所以

2022-08-11

huber 创办的人工智能公司 NNAISENSE 宣布正式发布其 EvoTorch 开源进化算法库。根据介绍,这是同类中的首个开源平台,为工业界提供了一个进化算法包 (evolutionary algorithm,EA);当与机器学习专业知识相结合时,可以在一小部分时间

2024-10-25

自由软件基金会 (FSF) 宣布开始关注机器学习(ML)应用的自由。该组织正在制定一份自由机器学习应用程序的标准声明,该声明将要求软件以及原始训练数据和相关脚本授予用户四项自由。 该声明由 FSF 董事会成员、员工和管