无需折腾剪辑软件,几分钟,就能拿到自然如实拍,画面质感如电影的动态视频。
可灵稳坐国产 AI 视频的头把交椅许久,从去年 6 月 6 日首次上线开放测试以来,产品快速经历了二十多个版本的迭代。可灵 1.6 模型的图生视频内部评测,比 1.5 模型整体效果提升近 200%,还让毛绒玩具的特效迅速出圈。
现在,可灵终于又迎来了一次重大更新:可灵 2.0 视频生成,以及可图 2.0 文生图模型。
从人物跑动、火焰燃烧的真实物理轨迹,到机械蝴蝶穿梭未来都市的奇幻场景,AI 不仅能精准模拟现实世界的运动规律,更能将抽象文字转化为惊艳的动态画面。
APPSO 第一时间来到发布会现场,本次的更新亮点包括:
1.
可灵、可图模型层面更新, 快手结合多项自研技术创新,画面美学、语义响应和动态质量大幅度提升。2.0 全面升级了训练和推理策略,尤其是强化了对于复杂运动主体交互滤镜、构图术语等专业的表达和理解响应。
2.
精准微调功能。可灵新增新增「多模态编辑」功能,支持在一段 5s 的视频的基础上,输入图片/文字,对视频进行灵活、精准的修改和再创作。可图新增「图片编辑」及「风格转绘」功能。
3.
AI 音效生成,根据影像内容结合文字prompt,生成适配的音效片段
另外,我们还提前体验了内测,除了震撼于新模型的强大之外,也发现了一些使用小技巧,帮助你体验这款强大的生成+编辑工具。
不止是多模态功能,更是一种语言
仅仅使用文字作为和 AI 沟通的语言,显然不足够,只能有限描述脑海中的想法。配合图片,准确程度提高一层。再结合动态影像,又更上一层楼。
这些,共同形成了 MVL:Multi-modal Visual Language,一种全新的交互「语言」。MVL = TXT 语义骨架+MMW 多模态描述子,即通过文本+动作描述文件,生成精细的视频成片。
这套语言形成了 可灵 2.0 中新增的「多模态编辑」功能。包括三种模式:替换、增加和删除。
在可灵的创意社区,我们发现了一个来自可灵用户制作的视频,堪称现实主义创作。
不过嘛,既然是现实主义题材,还可以再写实一点:应该让川普和马斯克,去工厂里装手机。
这就是「多模态编辑」大展身手的时刻了,我们先来把缝纫机删掉。通过下方的文字输入框,@ 具体的图片和部分,进一步明确需要改动的内容。
at 的设计很符合用户直觉,尤其是多个素材的情况下,能更方便地用文字指出要改动的对象。
注意!点击编辑,会弹出笔刷编辑界面。在这里,可以通过用涂抹的方式,选择要替换的具体区域—— 一定要时间线上选几个点,才能保证覆盖到整个视频。
可以看到,在涂抹和文字 prompt 的双重保险下,单个元素能被删的干干净净。
替换模式就有更多可玩的了,除了修改原视频,还可以结合图片。
不是要让这俩人去装手机吗?把手机流水线的图片导入,进入选择主题界面,框出具体的部分。
大功告成!
在可灵 2.0 版本中,「多模态」 不仅是一个新功能,更加是一种全新的互动语言,更充分地开发和调用模型的能力,作用于实际的创作工作流。
从生成到编辑,全链路的创作工作流
如果说「多模态编辑」满足的是影像从业者,在精细调优方面的要求,那可图 2.0 以及可灵的图生视频模式,就是造福所有人民群众的。
图生视频占到使用比例的 85%,是更为可用的手段。再搭配视频模态微调,就能 实现一次跑完所有流程。
比如,先拿胶布人形象图,生成当下最流行的 3D 玩偶版本。
然后直接生成视频——没错,手指和动作,只是一句话即可生成。
文字 prompt 随意更改,镜头视角调整后,又是一支新片。
截取《清明上河图》的一段画面,交给可灵 2.0 即可,汴河水波荡漾,船只随流水轻摇,岸边行人熙熙攘攘。近千年前的社会风貌「焕发生机」。
灯火通明,丝竹乱耳,宾客们酒杯叮当,《韩熙载夜宴图》的主人公半醉半醒的场景也在可灵 AI 2.0 的帮助下得到了很好的还原。 动态质量和运动幅度,都和素材的题材相当符合。
OpenAI 创始团队已然分崩离析,但聚是一团火,散是满天星,下面这张经典的合照倒也很符合 OpenAI 当下的处境。
Sam Altman 与马斯克的恩怨纠葛早已是科技圈的谈资,两人没少针锋相对,我们也用 AI「重现」了他俩干架的名场面。
动作的流畅性,可以看出可灵 2.0 在时序响应上的能力,动作符合逻辑、连贯自然。
下一代创作工具,已经到来
显然,可灵对 2.0 版本,不仅是为了展示技术上的进步,也是理念的再阐述:全新的功能,全新的语言,全新的能力。
在全新设计了 DiT 架构之后,视觉模态和文本模态的融合更加对齐。同时,这次的更新背后是对后训练的大量探索。
除了在预训练阶段,通过精准的建模与训练和视视觉标注的映射,使得文本和图像的对齐做的更好。还有在后训练阶段,通过强化学习提高多模态推理能力
不过,更重要的是,可灵所秉承的「让灵感成真」,使得使用体验成为整个产品的中心。
从发布到现在,有超过 2200 万的用户使用、肯定可灵 AI,在平台上总共创作了 1.68 亿个视频和 3.4 亿张图片。上万名开发者在使用可灵 AI 的 API,应用在自己的行业场景中。而这些开发者已经累计生成了 1200 万张图像,4000 万个视频。
模型能力并不是炫技的武器,也不是秀肌肉的手段,而是需要实在地进入用户的工作流当中,让每个创作者,无论经验如何,都能以简单地方式、便捷的工具,讲好自己心中的故事。
我们正在招募伙伴
📮 简历投递邮箱hr@ifanr.com
✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或