快手开源 KuaiMod,多模态 AI 专治各种劣质内容


快手推出了基于多模态大模型的创新方案 KuaiMod,旨在优化短视频平台生态并提升用户体验。

KuaiMod 的核心在于其对短视频内容的质量判别。传统的内容判别方法往往依赖于静态规则和人工标注,成本高且难以应对用户偏好的动态变化。而 KuaiMod 通过构建一个包含1000条真实短视频的数据集,制定了首个面向短视频的内容质量判别基准测试,涵盖了四类主要的劣质内容与15种细粒度内容类型。

通过引入强化学习策略,KuaiMod 能够根据用户反馈不断更新和优化其判别模型,实时掌握平台趋势,从而实现对新出现的劣质内容的精准识别。

初步测试显示,KuaiMod 在内容质量判别上的整体准确率高达92.4%,相比其他方案提升超过10%。该方案已在快手平台全面部署,为数以百万计的新视频提供质量判别服务,显著降低了用户举报率,展现出强大的市场潜力。

目前,KuaiMod 的评测标准和技术方案论文已经开源。


相關推薦

2024-07-07

在2024世界人工智能大会上,快手高级副总裁、主站业务与社区科学负责人盖坤宣布,快手文生图大模型可图(Kolors)正式开源。该模型基于数十亿图文对进行训练,支持256的上下文token数,支持中英双语,技术细节参考技术报告

2024-08-15

!本周爆火的文生图模型 FLUX.1 系列,支持中文提示词的快手生图,还有 SenseVoice 语音识别,都在本版本得到支持。 图一、图二:由FLUX.1-dev生成 - 新增内置支持模型 📦   - flux.1-schnell 和 flux.1-dev 🌟   - llama-3.1-instruct 4

2025-06-04

模型发布,拥有卓越的动态效果表现,更强的语义响应 快手可灵 AI 发布了其 KLING 2.1 系列视频模型。据悉,可灵 2.1 系列拥有标准版和大师版两个版本模型: 标准版支持标准(720P)和高品质(1080P)两种模式。价格方面,标准

2023-03-31

处理和推理图像、视频和文本的等多模态内容的框架)的开源复制品。 其数据集 OpenFlamingo-9B 的 Demo 页面展示了训练结果,用户可以上传图片让该模型进行识别。 小编浅试了一下,一张简单的图片耗时 11 秒,可以相当精准地

2025-03-20

Mistral AI 现已开源发布全新轻量级 AI 模型 Mistral Small 3.1。Mistral Small 3.1 能够处理文本和图像,参数仅为 240 亿。该模型提高了文本能力和多模态理解能力,并具备 128K 上下文窗口。 核心特性 轻量级部署:可在 单个 RTX 4090

2025-06-11

深度学习模型的训练通常依赖于大规模的非结构化以及多模态数据,如图像、音频、文本和视频。这些数据往往需要进行大量且精准的标注,例如物体检测任务中的边界框、图像分割的掩码、语音识别的文本转录等。 特征:数

2024-01-13

中国电信宣布将自研星辰 AI 大型模型全面开源,公开其底层代码、算法逻辑及其预制的各种基础大模型、开发模块、训练工具等核心产品能力。 用户既可以直接调用大模型,也可以根据自身业务需求对大模型进行微调或个性化

2024-10-15

苹果近日发布多模态大模型 MM1.5,旨在增强对文本丰富的图像的理解、视觉指代和接地,以及多图像推理的能力。 据悉, MM1.5在在 MM1 架构的基础上训练而成,MM1.5 采用了以数据为中心的模型训练方法,在整个模型训练生命周

2023-10-26

,并将为各种AI实际应用奠定坚实基础。PonderV2代码同时开源。 PonderV2具有深度理解和感知三维真实世界的能力,并为广泛的三维应用提供强大支持。在预训练方面,该预训练与模型具备以下四项核心优势。 统一的预训练方式

2023-08-16

上海报业集团、上海文广集团等语料数据联盟成员,共同开源发布“书生·万卷” 1.0多模态预训练语料。 “书生·万卷” 1.0目前包含文本数据集、图文数据集、视频数据集三部分,本次开源的数据总量超过2TB。集合语料数据联

2025-06-11

联合发布行业首个“拍存管一体”的“AI相机”,具备全模态输入、处理、输出的系统化完整交付AI能力。 AI相机已在百度网盘App上线,并已接入百度文库App。百度文库还宣布多智能体协作能力“GenFlow超能搭子”全新升级为2.0

2025-06-11

头同业陆续已展开军备竞赛,如Meta主要依赖自主研发与开源策略推进AI技术发展,微软向OpenAI注资逾130亿美元,谷歌母公司Alphabet则向竞争对手Anthropic投入数十亿美元。       与此同时,资料

2025-04-10

Jina AI 正式发布jina-reranker-m0,一款多模态、多语言重排器(reranker),核心能力在于 对包含丰富视觉元素的文档进行重排和精排,同时兼容跨语言场景。 根据介绍,当用户输入一个查询(query)以及一堆包含文本、图表

2023-03-02

动。经2个月集中攻关,开发出FlagOpen(飞智)大模型技术开源体系,旨在打造全面支撑大模型技术发展的开源算法体系和一站式基础软件平台,支持协同创新和开放竞争,共建共享大模型时代的“新Linux”开源开放生态。 北京