当前位置:首页 > 攻略秘籍 > 小红书开源InstanceAssemble:助力AI精准复现复杂图像排版

小红书开源InstanceAssemble:助力AI精准复现复杂图像排版

文章来源:潮游速递网作者:admin发布时间:2026-02-12 14:09:20

12月26日消息,小红书与复旦大学合作,共同推出了布局控制生成(Layout-to-Image)领域的创新方案InstanceAssemble。该方案借助全新的“实例组装注意力”机制,成功达成了从简单到复杂、稀疏到密集布局的精准图像生成效果,相关研究成果已被NeurIPS 2025收录。

近年来,AI绘画技术发展迅猛,其应用方向已从早期的“文字生成图像”(Text-to-Image)逐步拓展至“布局控制生成”(Layout-to-Image)领域。与前者不同,后者能够依据用户提供的空间布局限制条件——例如边界框(Bounding Boxes)、分割掩码(Masks)或是骨架图等——来生成与之相匹配的图像内容。

“布局控制生成”技术的一个难点,在于怎样使AI精准依照用户指定的位置与内容来生成图像,存在布局对齐不精准、语义脱节或是计算成本过高的问题。

复旦大学与小红书携手推出的InstanceAssemble新技术,能够精准把控图像里每个物体的布局,这一成果意味着AI绘画迈入了可实现精准构图的全新阶段。

这项技术以当下主流的扩散变换器架构为基础,创造性地构建了“实例拼装注意力”机制。使用者仅需给出各个物体的边界框位置与内容描述,AI 即可在相应位置生成契合语义的图像内容。不管是由少数简单物体构成的场景,还是物体密集且结构复杂的场景,InstanceAssemble 都能够维持高精度的布局匹配度与语义连贯性。

值得一提的是,该技术采用轻量级适配方式降低了使用门槛,无需重新训练整个模型,仅需约7100万个参数(额外参数占比约3.46%)即可适配Stable Diffusion3-Medium模型,适配Flux.1模型时额外参数占比更是低至0.84%。

在实验过程中,InstanceAssemble 在涵盖 90 万个实例的密集布局数据集上展现出出色的性能,其表现显著优于现有的各类方法。

为了更精准地评估布局与图像的匹配度,研究团队构建了包含5000张图像和90000个实例的“Denselayout”基准测试集,同时提出了全新的“Layout Grounding Score”(LGS)评估指标。

实验结果显示,InstanceAssemble 在不同布局条件下都展现出出色的表现,即便训练过程中仅采用稀疏布局(实例数量≤10 个),它在密集布局(实例数量≥10 个)场景下依然能维持稳定可靠的性能。

这项技术已开源,代码和预训练模型可在 GitHub 获取,为设计、广告和内容创作等领域的应用提供了强大支持。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表本站立场。文章及其配图仅供学习分享之用,如有内容图片侵权或者其他问题,请联系本站作侵删。
  • 最新文章