过去一年我开发 AI 视频编辑器的收获

1,878 0 0

文章摘要

Kirk Kaiser在离开原公司后，投身于探索大语言模型（LLM）、扩散模型等在视频领域的新应用。他曾参与打造一个独角兽级别的生成式视频编辑器，并希望实现一些新想法。随着技术进步，这些想法变得可行。他最初致力于开发一个本地视频编辑器，利用计算机视觉和扩散模型改进视频编辑。通过多种模型的组合，他能够在视频中添加由扩散模型生成的新物体。

在构建视频编辑器的过程中，Kaiser关注到当地骑行者和行人的安全问题，并提出了利用人工智能和机器人技术解决这一问题的提案，提交给了美国国家科学基金会的SBIR项目。虽然最终未获批准，但他得以重新公开这项工作并寻求帮助。

Kaiser意识到，将人工智能作为现有视频编辑工作流程的附加层意义不大，视频创作的整个过程需要重新构思，利用LLM、多模态嵌入/搜索以及计算机视觉和扩散模型的力量与潜力。他开始构建一个视频生成器，根据观众需求定制每个视频，允许用户在体验视频时进行协作。

他使用微软的LLM框架Promptflow构建新的生成式视频原型，但发现其设计预期与他设想的动态视频生成和编辑流程不符，于是转向了Temporal工作流执行引擎。Temporal允许将生成过程以持久执行作为基本模块进行重组，加快了开发进程。

在为软件工作流创建语言模型提示的过程中，Kaiser面临了挑战。设计提示需要投入大量时间，了解所选模型在特定使用场景中的表现。他尝试使用Anthropic的Workbench来生成和分析特定的提示。

Kaiser还探讨了嵌入模型和向量数据库在信息检索中的应用，发现通用嵌入模型可能不适用于所有业务问题。他通过结合嵌入模型、传统搜索理念以及特定领域的理念和实验，构建了一个自动视频编辑器。

在创造新事物的过程中，Kaiser面临了许多挑战和弯路，但他感激有机会去寻找答案。他鼓励人们在完成工作时互相祝贺，因为完成任何事情总是伴随着许多看不见的挑战。