Kling2.6增添了语音操控与动态更新功能，与此同时，AI视频工具正朝着愈发逼真的方向发展

文章来源：潮游速递网作者：admin发布时间：2026-02-28 17:43:04

新的语音控制功能依托于近期发布的同步视频音频生成技术Kling 2.6。和谷歌的Veo 3、Sora 2相类似，这一模型可以生成与视频内容相匹配的各类音效，其中涵盖了语音以及音乐。

据Kling AI方面透露，这项功能可适配说话、对话、旁白、唱歌以及说唱等多种人声类型，同时具备处理环境噪声和合成场景声音的能力。该模型的输入形式灵活，既可以是单纯的文本描述，也能接受文本与图像相结合的内容。

Kling AI 呈现出丰富多样的应用场景，涵盖产品演示、生活方式类视频博客、新闻播报、体育赛事解说、纪录片制作、访谈节目形式、戏剧短片创作，以及音乐表演领域，其中既包含歌唱表演，甚至还有复调合唱形式。

自定义语音训练使角色更加一致

新的语音控制功能允许用户上传自己的声音来训练模型。他们也可以直接上传音频文件。训练过或上传的语音可以应用到文本转视频的创作中。

这提高了角色的一致性——生成视频中的角色现在可以用明确且易于识别的声音说话。这使得在多个视频片段中创建一致的角色成为可能。

体感控制现在更好地处理复杂动作

第二个核心功能在于体感控制的优化升级。Kling AI方面表示，目前该系统可更细致地捕捉人体全身动作，即便面对武术、舞蹈这类快速且复杂的动作，也能实现更精准的识别与处理。

公司特别强调了AI视频在两个通常存在不足的方面有所改进：手部动作现在应显得精准且无模糊，面部表情和口型同步应保持自然。

用户可以上传3到30秒的动作参考，以创建不间断的序列。场景细节也可以通过文本提示进行调整。

社交媒体上已出现不少令人印象深刻的实例，显示出随着平台算法倾向于奖励快速点击量，AI创作者抓住这一便捷机遇，AI生成的视频内容会持续增多。而在此过程中，一些极具创意的思路也在不断涌现。

竞争性定价

Kling 除了自有平台外，还可通过 Fal.ai、Artlist 和 Media.io 等第三方平台进行购买。这些提供商的 API 定价极具竞争力，约为每秒生成视频 0.07 至 0.14 美元，具体价格会根据生成速度、视频长度和分辨率有所不同。而 KlingAI 自身则采用信用系统。

12月初，快手推出了Video O1，该公司将其定义为“全球首个融合生成与剪辑功能的统一多模态视频模型”。借助Video O1，用户能够通过文本指令对已有的视频进行编辑操作，比如更换视频中的主角、调整天气状况或是改变视频的整体风格。

借助Kling 2.6这些全新功能，快手得以在竞争白热化的市场里，与谷歌、OpenAI、Runway等西方企业，以及海洛、Seedance、Vidu等中国同行展开角逐。

快手旗下运营着Kwai这一产品，它是全球范围内规模领先的短视频平台之一，足以和TikTok相抗衡。借助这一优势，公司得以直接获取海量的视频-音频配对数据以及运动相关数据，进而为训练具备声音同步特性与真实动作序列的视频模型提供支持。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表本站立场。文章及其配图仅供学习分享之用，如有内容图片侵权或者其他问题，请联系本站作侵删。

相关攻略+更多