文章来源:潮游速递网作者:admin发布时间:2026-02-12 14:09:20
12月26日消息,小红书与复旦大学合作,共同推出了布局控制生成(Layout-to-Image)领域的创新方案InstanceAssemble。该方案借助全新的“实例组装注意力”机制,成功达成了从简单到复杂、稀疏到密集布局的精准图像生成效果,相关研究成果已被NeurIPS 2025收录。
近年来,AI绘画技术发展迅猛,其应用方向已从早期的“文字生成图像”(Text-to-Image)逐步拓展至“布局控制生成”(Layout-to-Image)领域。与前者不同,后者能够依据用户提供的空间布局限制条件——例如边界框(Bounding Boxes)、分割掩码(Masks)或是骨架图等——来生成与之相匹配的图像内容。
“布局控制生成”技术的一个难点,在于怎样使AI精准依照用户指定的位置与内容来生成图像,存在布局对齐不精准、语义脱节或是计算成本过高的问题。
复旦大学与小红书携手推出的InstanceAssemble新技术,能够精准把控图像里每个物体的布局,这一成果意味着AI绘画迈入了可实现精准构图的全新阶段。
这项技术以当下主流的扩散变换器架构为基础,创造性地构建了“实例拼装注意力”机制。使用者仅需给出各个物体的边界框位置与内容描述,AI 即可在相应位置生成契合语义的图像内容。不管是由少数简单物体构成的场景,还是物体密集且结构复杂的场景,InstanceAssemble 都能够维持高精度的布局匹配度与语义连贯性。
值得一提的是,该技术采用轻量级适配方式降低了使用门槛,无需重新训练整个模型,仅需约7100万个参数(额外参数占比约3.46%)即可适配Stable Diffusion3-Medium模型,适配Flux.1模型时额外参数占比更是低至0.84%。
在实验过程中,InstanceAssemble 在涵盖 90 万个实例的密集布局数据集上展现出出色的性能,其表现显著优于现有的各类方法。
为了更精准地评估布局与图像的匹配度,研究团队构建了包含5000张图像和90000个实例的“Denselayout”基准测试集,同时提出了全新的“Layout Grounding Score”(LGS)评估指标。
实验结果显示,InstanceAssemble 在不同布局条件下都展现出出色的表现,即便训练过程中仅采用稀疏布局(实例数量≤10 个),它在密集布局(实例数量≥10 个)场景下依然能维持稳定可靠的性能。
这项技术已开源,代码和预训练模型可在 GitHub 获取,为设计、广告和内容创作等领域的应用提供了强大支持。
工信部新规即将于明年落地,新车申报时必须提交内饰照片,“底裤不再”成为过去式
16:03网友花5元在二手平台购得高铁贵宾特权,享用自助餐“薅羊毛”,高铁站已作出回应
15:53微软已着手优化Windows11的文件资源管理器,搜索过程中内存占用将有所降低
15:49中原保时捷中心疑似停业失联,母公司回应称将负责到底,不会跑路
15:42年轻人的首款徕卡相机,小米17Ultra徕卡版起售价7999元,市场炒价最高达2万元
15:39《燕云十六声》就性感美女新服装被指低俗一事做出回应:已进行修复优化
15:35鸡排哥一夜爆火后的近况登上热搜本人直言不被流量焦虑裹挟
15:32国产抗战题材《抵抗者》实机演示播放量突破50万,评论区彻底沸腾了!
15:28宝马销冠尝试特斯拉式“一口价”销售:8天售出11台部分客户未曾见面
15:25