文章来源:潮游速递网作者:admin发布时间:2026-02-14 07:05:15
如今,AI驱动的内容生成技术已深度嵌入Adobe、Canva等主流工具中,不少机构与工作室也已将其整合到工作流程里。目前的图像模型能够稳定产出逼真的写实效果,视频模型则可以生成更长时长、更具连贯性的画面内容,并且这两类模型都能依据创作指令来完成生成任务。
创作者正越来越多地在本地 PC 上运行这些工作流,以便把控创作素材、节省云服务成本,避免反复修改的阻碍,从而更高效地优化生成结果,满足创意项目的创作时间需求。
自诞生以来,NVIDIA RTX PC 凭借强大的性能成为运行创意 AI 的首选平台,不仅大幅缩短了迭代时间,还允许用户免费在本地运行模型,彻底消除了对 Token 消耗的焦虑。
本月早些时候在 CES 上发布的 RTX 优化与全新开放权重模型让创作者能以更快的速度、更高的效率进行创作,并获得远超以往的创意呈现。
如何开始
视觉生成式 AI 可能会让新用户感觉复杂且有诸多限制。在线AI生成工具虽然使用简单,但可控性有限。
ComfyUI 这样的开源社区工具简化了高级创意工作流的搭建,且安装便捷。同时,它们还提供了获取最新、强大的模型,如 FLUX.2 和 LTX-2,以及优秀社区工作流的简单途径。
以下是如何在 RTX PC 上使用 ComfyUI 和主流模型,使用视觉生成式 AI 进行本地创作的方法:
访问comfy.org下载并安装适用于Windows的ComfyUI。启动ComfyUI。使用入门模板创建第一张图像:
点击“模板”按钮,接着选择“快速开始”选项,再点击“文本转图片”。把“节点”模型与“保存图像”节点连接起来。这些节点通过流水线模式相互配合,借助AI来生成内容。点击蓝色的“运行”按钮,留意绿色“节点”是否亮起,此时RTX电脑就会启动并生成你的首张图像。
修改提示词并再次运行,即可进一步深入探索视觉生成式AI的创作世界。
下面介绍了如何深入使用更多 ComfyUI 模板,体验采用更高级的图像与视频模型的创作流。
模型规模与 GPU
当用户逐渐熟悉 ComfyUI 及其支持的模型后,就需要开始考虑GPU显存容量,以及某个模型是否能够在显存范围内运行。以下是根据不同 GPU 显存容量给出的入门示例:
[1] *为获得最佳效果,建议在 NVIDIA GeForce RTX 50 系列 GPU 上使用 FP4 模型,在 RTX 40 系列 GPU 上使用 FP8 模型。这样可以在占用更少显存的同时提供更高性能。
[2] *为获得最佳效果,建议在 NVIDIA GeForce RTX 50 系列 GPU 上使用 FP4 模型,在 RTX 40 系列 GPU 上使用 FP8 模型。这样可以在占用更少显存的同时提供更高性能。
生成图像
探索如何使用FLUX.2-Dev提升图像生成质量:
在 ComfyUI 的“模板”部分,点击“所有模板”,并搜索“FLUX.2 Dev 文生图”。选择后,ComfyUI 将加载一组已连接的节点,即“工作流”。
FLUX.2-Dev 包含需要下载的模型权重。
模型权重是 AI 模型内部所包含的“知识”,可以将其理解为大脑中的突触。当像 FLUX.2 这样的图像生成模型被训练时,它会从数百万张图像中学习模式,而这些模式会以数十亿个数值的形式存储下来,这些数值就被称为“权重”。
ComfyUI 本身没有内置这些权重文件,而是会在实际需要时从 Hugging Face 之类的仓库里按需进行下载。这类文件的体积一般都比较大(像 FLUX.2 就会因版本差异,大小可能超过 30GB),所以系统得有足够的存储空间,同时也要预留出对应的下载时间。
系统会弹出一个对话框,引导用户下载模型权重。权重文件(filename.safetensors)会自动保存到用户 PC 上 ComfyUI 对应的正确文件夹中。
保存工作流:
在模型权重下载完成后,下一步是将这个新下载的模板保存为一个“工作流”。
点击左上角的汉堡菜单(三条横线),选择“保存”。该工作流将被保存到用户的“工作流”列表中(按下 W 键可显示或隐藏该窗口)。随后可关闭标签页,在不丢失任何内容的情况下退出该工作流。
如果在模型权重尚未下载完成前意外关闭了下载对话框:
按下 W 键可快速打开“工作流”窗口。选择该工作流,ComfyUI 将重新加载,并自动提示下载缺失的模型权重。
此时,ComfyUI 已准备就绪,可使用 FLUX.2-Dev 生成图像。
FLUX.2-Dev提示词技巧:
可以先从清晰具体的主体、场景、风格与氛围描述入手,比如:“电影感特写镜头下,一辆行驶在雨中的复古赛车,湿漉漉的柏油路面倒映着霓虹光影,高对比度,采用35mm摄影风格。”在刚开始尝试时,简短到中等长度的提示词——一两句话且聚焦明确的描述——往往比冗长、带有故事性的提示更便于把控最终效果。还可以添加一些约束条件来引导画面的一致性与质量,像构图方面(“广角镜头”或者“人像构图”)、细节程度(“高细节呈现,清晰对焦”)、写实与否(“写实风格”或是“风格化插画”)。要是画面看起来太过杂乱,建议优先减少形容词的使用,而非继续增添内容。尽量避免使用负面提示词,把注意力放在描述你真正想要的画面上。
请参见 Black Forest Labs 提供的指南,了解更多关于FLUX.2提示词的使用技巧。
本地存储路径:
完成图像细化后,右键点击“保存图像”节点,即可在浏览器中打开图像,或将其保存到新的位置。
根据应用类型和操作系统不同,ComfyUI 的默认输出文件夹通常如下:
Windows(独立版/便携版):一般在C:\ComfyUI\output,或是程序解压所在目录下的相近路径。Windows(桌面版):路径常处于AppData目录里,比如:C:\Users\%username%\AppData\Local\Programs\@comfyorg\comfyui-electron\resources\ComfyUI\outputLinux:默认的安装路径是~/.config/ComfyUI。
视频生成
以全新的 LTX-2 模型为例,探索如何提升视频生成质量:
Lightrick 的 LTX-2 是一款先进的音视频模型,它专为在 ComfyUI 里实现可控、分镜式的视频生成而打造。在下载好 LTX-2 图生视频模板与模型权重之后,建议把提示词当作简短的镜头描述,而不是完整的电影剧本。
与前两个模板不同,LTX-2 图生视频结合了一张图像与文本提示词来生成视频。
用户可以选用在 FLUX.2-Dev 中生成的图像之一,并添加文本提示词,让画面“动”起来。
LTX-2 提示词技巧:
为在ComfyUI中获得最佳效果,建议将提示词用现在时写成一个连贯的段落,或采用简洁的脚本格式,包括场景标题、动作、角色名称和对白。整体以4到6句描述性语句为宜,覆盖所有关键要素:
确立镜头与场景(远景/中景/特写、光照、色彩、材质、氛围)。将动作描述为清晰的连续过程,定义角色的可见特征与肢体语言,并明确镜头运动方式。最后补充音频元素,如环境音、音乐和对白,并使用引号标注。
细节层级需与镜头尺度相匹配。例如,特写镜头比远景镜头更需要精确的角色与材质细节。要清楚说明镜头与主体之间的关系,而不仅仅是镜头如何移动。
提示词中可考虑加入更多细节,包括:
镜头运动语言:需清晰指定“缓慢推轨前进”“手持跟拍”“过肩镜头”“横向摇摄”“向上俯仰”“推进”“拉远”或“固定镜头”等具体方式。镜头类型:要明确说明是远景、中景还是特写,并搭配适宜的光照、浅景深效果与自然动态元素。节奏把控:可借助慢动作、延时摄影、停留镜头、长镜头、定格画面或无缝转场等手法,来塑造独特的节奏与氛围。环境氛围营造:融入雾气、薄雾、雨水、黄金时刻光线、反射效果以及丰富的表面纹理等场景细节,增强画面的真实感。风格设定:在提示词开头明确标注风格,例如绘画感、黑色电影、胶片风格、定格动画、像素化边缘、时尚大片或超现实风格。光照运用:采用具体表述描绘逆光、特定配色方案、柔和轮廓光、镜头光晕或其他光照细节。情绪传递:着重刻画单一主体的表现,通过清晰的面部表情与细微动作来传达情感。声音与音频设计:提示角色使用不同语言进行对话或歌唱,并配合明确的环境音描述。
优化显存占用和图像质量
作为一款前沿模型,LTX-2 为了提供高质量效果,需要占用大量显存(VRAM)。随着分辨率、帧率、视频时长或采样步数的提升,显存占用也会随之增加。
ComfyUI 与 NVIDIA 合作优化了一项 weight streaming 功能,当 GPU 显存不足时,可将工作流的部分内容卸载到系统内存中运行——但这会以性能下降为代价。
根据GPU型号和使用场景的不同,用户可能需要对这些因素加以限制,以确保生成时间保持在合理范围内。
LTX-2 是一款极其先进的模型——但与任何模型一样,参数设置的调整都会对最终质量产生显著影响。
了解如何在 RTX GPU 上优化 LTX-2,请参考用于 ComfyUI 的 LTX-2 快速入门指南,
使用 FLUX.2-Dev 与 LTX-2 构建自定义工作流
用户如需简化在不同 ComfyUI 工作流之间来回切换、在本地寻找 FLUX.2-Dev 生成的图片并插入 LTX-2 工作流中的过程,可以将 FLUX.2-Dev 与 LTX-2 组合到一个新的工作流中:
打开已保存的FLUX.2-Dev文本转图像工作流,按住Ctrl键同时用鼠标左键点击该工作流中的FLUX.2-Dev文本转图像节点。切换到LTX-2图像转视频工作流后,按下Ctrl+V组合键粘贴刚才选中的节点。接着把鼠标移到FLUX.2-Dev文本转图像节点的“IMAGE”接口处,按住左键并拖动到“调整图像/掩码大小”节点的对应接口点,此时会自动生成蓝色的连接线。
以新名称保存该工作流,即可在同一个工作流中同时为图像和视频输入提示词。
高级 3D 生成
在利用FLUX.2生成图像、LTX-2生成视频之后,接下来的步骤是融入3D引导技术。NVIDIA推出的3D引导生成式AI蓝图,演示了如何借助3D场景与资产,在RTX PC上构建更具可控性、适配专业制作流程的图像与视频管线,同时还提供了现成的工作流,方便用户进行查看、调整和拓展。
创作者还可以在 Stable Diffusion subreddit 和 ComfyUI Discord 上展示作品、与其他用户交流并获取帮助。
特斯拉2025年遭遇重大挫折,在加州的市场份额降至个位数以下
08:24尊界S800废案专利遭曝光,与现款机型对比,你更倾向哪一款
08:21""临终关怀""?国行Switch停服前夕竟意外推送系统更新
08:17Switch2确实不愁销路!它可是美国主机史上销售速度最快的机型
08:14被称作枪战王者!iQOO15Ultra率先搭载超感触控肩键:使用寿命几乎没有上限
08:07雷诺首席执行官称:中国市场竞争激烈雷诺近期无计划在华销售汽车
08:03《伊莫》官方发布公告,游戏开服时间确定延期!
07:39或许你还不清楚:育碧的市值在过去8年里大约蒸发了95%。
07:36苹果软件业务负责人费德里吉接掌AI领域助力Siri借外部技术加快发展步伐
07:29