小米大模型团队开源对角蛇形自回归图像生成方式


小米大模型团队宣布,其最新提出了一种新的生成方法,即具有方向感知的对角蛇形(diagonal snake-likeorder)自回归图像生成方式(DAR)。目前,相关的论文、训练代码、模型权重已经开源。

根据介绍,它不是一行一行地画,而是沿着图像的对角线、像蛇一样灵活地生成每个像素。这样的方式比传统方法更自然,也更接近人类绘画时的直觉。

我们提出了一种具有方向感知的对角蛇形扫描自回归图像生成框架(DAR),有效地确保相邻索引的 token 在空间上紧密相邻。此外,方向感知模块显著增强了模型在处理频繁变化的生成方向上的表现。我们开发了一系列不同规模的模型,参数量从485M到2.0B不等。在实验中,我们的DAR模型在256×256的ImageNet基准测试中取得了突破性的FID分数(1.37),超越了此前所有自回归方法。

整个模型是decoder-only的结构,保持了和LLM兼容的next token prediction的训练和推理方法,decoder的网络结构跟LlamaGen一致。小米大模型团队选择IBQ工作中的image tokenizer的codebook作为图像token embedding。并创新地提出了4D-RoPE以及Direction Embedding来控制图像的生成方式。

实验结果:

小米大模型团队方面表示,接下来将进一步支持更灵活的多种分辨率图像生成。鉴于本方法与LLM的训练和推理方式高度兼容,还将持续探索更加统一的多模态理解与生成技术方案。


相關推薦

2025-06-07

小米技术官博发文称,2025年5月,小米自研智能知识库问答框架—Mi-BRAG顺利通过中国信息通信研究院(以下简称“中国信通院”)组织的“可信AI检索增强生成(RAG)”评估,并获当前最高评级4+级。 Mi-BRAG是小米大模型团队自

2025-04-24

立的 Sand.AI,公布了一款名为「Magi-1」的自回归视频生成模型,其主打两个能力: 无限长度扩展:通过前一段生成的内容进行后一段视频的制作,从而实现跨时间的无缝连贯叙事; 生成时长控制精准到每一秒。 而从公

2025-04-17

HiDream 智象未来团队宣布正式开源图像生成大模型 HiDream-I1 与交互编辑模型 HiDream-E1。 HiDream-I1 在权威榜单 Artificial Analysis 中 24 小时内登顶,成为首个跻身全球第一梯队的中国自研生成式 AI 模型,并在图像质量、语义理解、艺

2023-10-18

布已完成A1轮战略融资,融资金额3亿美元,阿里、腾讯、小米等科技巨头及多家顶级投资机构均参与了本轮融资。加上天使轮的5000万美元,百川智能的融资金额已达3.5亿美元。 百川智能成立于2023年4月10日,由前搜狗公司CEO王

2025-06-14

人工智能的迭代创新、维稳升级、开拓生态;DeepSeek将大模型C端全开源和B端实行开源商业模式铸成一体,不但有实行开源创新,并可支持开源产业的发展,这也是DeepSeek一大创造。 五、按现行产出产品排行榜排队,有人以此来

2025-03-26

-V3迎来一波更新,升级至「DeepSeek-V3-0324」版本。 不仅将模型参数量由原版的671B提升至685B,编程、数学等推理思考能力大幅提升,性能表现可以与Claude 3.5/3.7 Sonnet相媲美。同时,模型的开源协议升级为更宽松的MIT许可,进一步

2025-05-15

天眼查资料显示,近日,小米科技有限责任公司申请注册多枚「XIAOMI MIMO」商标,国际分类为运输工具、科学仪器、通讯服务等,当前商标状态均为等待实质审查。 Xiaomi MiMo 是小米首个推理(Reasoning)大模型,联动预训练到后

2024-07-07

裁、主站业务与社区科学负责人盖坤宣布,快手文生图大模型可图(Kolors)正式开源。该模型基于数十亿图文对进行训练,支持256的上下文token数,支持中英双语,技术细节参考技术报告。 地址:https://github.com/Kwai-Kolors/Kolors

2025-03-27

昆仑万维宣布推出 Mureka O1 模型与 Mureka V6 模型。“Mureka O1作为全球首款音乐推理大模型,性能超越Suno、模型登顶SOTA,中国科技创新再次在AI音乐领域领跑全球。” 2024年4月,昆仑万维发布了第一代音乐生成模型:Mureka V1(SkyMus

2025-04-03

Hugging Face 发布了最新的大模型榜单,阿里巴巴通义千问所推出的端到端全模态大模型 Qwen2.5-Omni 成功登顶。紧随其后的是 DeepSeek-V3-0324和群核的 SpatialLM-Llama-1B。 Qwen2.5-Omni 是一种端到端多模态模型,旨在感知文本、图像、音频

2025-06-07

继“悟道”系列大模型之后,智源研究院推出“悟界”系列大模型。其中包括原生多模态世界模型Emu3、脑科学多模态通用基础模型见微Brainμ、跨本体具身大小脑协作框架RoboOS 2.0与具身大脑RoboBrain 2.0以及全原子微观生命模型OpenC

2025-05-23

智能领域双重里程碑式突破:在去年发布的机器人4D世界模型基础上,推出动作序列驱动的世界模型框架 EVAC(EnerVerse-AC),同时配套提出全球首个具身世界模型评测基准 EWMBench,构建从世界模型从训练到评测的全链路闭环。 这

2025-03-27

频的质量和与文本提示的一致性,而无需重新进行昂贵的模型训练。这一创新性的方法为视频生成领域带来了新的可能性。 何为“测试时缩放”? 在大型语言模型 (LLMs) 领域,研究人员已经发现,通过在测试阶段增加计算量

2025-05-01

今天,小米开源首个为推理(Reasoning)而生的大模型「Xiaomi MiMo」,联动预训练到后训练,全面提升推理能力。 在数学推理(AIME 24-25)和 代码竞赛(LiveCodeBench v5)公开测评集上,MiMo 仅用 7B 的参数规模,超越了 OpenAI 的闭源推