文章来源:潮游速递网作者:admin发布时间:2026-02-28 17:43:04
新的语音控制功能依托于近期发布的同步视频音频生成技术Kling 2.6。和谷歌的Veo 3、Sora 2相类似,这一模型可以生成与视频内容相匹配的各类音效,其中涵盖了语音以及音乐。
据Kling AI方面透露,这项功能可适配说话、对话、旁白、唱歌以及说唱等多种人声类型,同时具备处理环境噪声和合成场景声音的能力。该模型的输入形式灵活,既可以是单纯的文本描述,也能接受文本与图像相结合的内容。
Kling AI 呈现出丰富多样的应用场景,涵盖产品演示、生活方式类视频博客、新闻播报、体育赛事解说、纪录片制作、访谈节目形式、戏剧短片创作,以及音乐表演领域,其中既包含歌唱表演,甚至还有复调合唱形式。
自定义语音训练使角色更加一致
新的语音控制功能允许用户上传自己的声音来训练模型。他们也可以直接上传音频文件。训练过或上传的语音可以应用到文本转视频的创作中。
这提高了角色的一致性——生成视频中的角色现在可以用明确且易于识别的声音说话。这使得在多个视频片段中创建一致的角色成为可能。
体感控制现在更好地处理复杂动作
第二个核心功能在于体感控制的优化升级。Kling AI方面表示,目前该系统可更细致地捕捉人体全身动作,即便面对武术、舞蹈这类快速且复杂的动作,也能实现更精准的识别与处理。
公司特别强调了AI视频在两个通常存在不足的方面有所改进:手部动作现在应显得精准且无模糊,面部表情和口型同步应保持自然。
用户可以上传3到30秒的动作参考,以创建不间断的序列。场景细节也可以通过文本提示进行调整。
社交媒体上已出现不少令人印象深刻的实例,显示出随着平台算法倾向于奖励快速点击量,AI创作者抓住这一便捷机遇,AI生成的视频内容会持续增多。而在此过程中,一些极具创意的思路也在不断涌现。
竞争性定价
Kling 除了自有平台外,还可通过 Fal.ai、Artlist 和 Media.io 等第三方平台进行购买。这些提供商的 API 定价极具竞争力,约为每秒生成视频 0.07 至 0.14 美元,具体价格会根据生成速度、视频长度和分辨率有所不同。而 KlingAI 自身则采用信用系统。
12月初,快手推出了Video O1,该公司将其定义为“全球首个融合生成与剪辑功能的统一多模态视频模型”。借助Video O1,用户能够通过文本指令对已有的视频进行编辑操作,比如更换视频中的主角、调整天气状况或是改变视频的整体风格。
借助Kling 2.6这些全新功能,快手得以在竞争白热化的市场里,与谷歌、OpenAI、Runway等西方企业,以及海洛、Seedance、Vidu等中国同行展开角逐。
快手旗下运营着Kwai这一产品,它是全球范围内规模领先的短视频平台之一,足以和TikTok相抗衡。借助这一优势,公司得以直接获取海量的视频-音频配对数据以及运动相关数据,进而为训练具备声音同步特性与真实动作序列的视频模型提供支持。
怎样在喜马拉雅app上免费收听付费内容
22:50timing要怎么退出群聊呢
22:43超神清理app的使用方法是什么
22:29声洞放歌的方法是什么
22:23timing账号的注销方法是什么
22:16怎样在希沃白板里导入PPT文件
22:12柠檬喝水怎么查看自己的喝水量
21:58vivo手机怎样隐藏游戏应用,避免被他人察觉
21:5158到家的缓存要怎么清理呢
21:45