文章摘要
【关 键 词】 视频编辑、人工智能、模型应用、技术创新、信息检索
Kirk Kaiser在离开原公司后,投身于探索大语言模型(LLM)、扩散模型等在视频领域的新应用。他曾参与打造一个独角兽级别的生成式视频编辑器,并希望实现一些新想法。随着技术进步,这些想法变得可行。他最初致力于开发一个本地视频编辑器,利用计算机视觉和扩散模型改进视频编辑。通过多种模型的组合,他能够在视频中添加由扩散模型生成的新物体。
在构建视频编辑器的过程中,Kaiser关注到当地骑行者和行人的安全问题,并提出了利用人工智能和机器人技术解决这一问题的提案,提交给了美国国家科学基金会的SBIR项目。虽然最终未获批准,但他得以重新公开这项工作并寻求帮助。
Kaiser意识到,将人工智能作为现有视频编辑工作流程的附加层意义不大,视频创作的整个过程需要重新构思,利用LLM、多模态嵌入/搜索以及计算机视觉和扩散模型的力量与潜力。他开始构建一个视频生成器,根据观众需求定制每个视频,允许用户在体验视频时进行协作。
他使用微软的LLM框架Promptflow构建新的生成式视频原型,但发现其设计预期与他设想的动态视频生成和编辑流程不符,于是转向了Temporal工作流执行引擎。Temporal允许将生成过程以持久执行作为基本模块进行重组,加快了开发进程。
在为软件工作流创建语言模型提示的过程中,Kaiser面临了挑战。设计提示需要投入大量时间,了解所选模型在特定使用场景中的表现。他尝试使用Anthropic的Workbench来生成和分析特定的提示。
Kaiser还探讨了嵌入模型和向量数据库在信息检索中的应用,发现通用嵌入模型可能不适用于所有业务问题。他通过结合嵌入模型、传统搜索理念以及特定领域的理念和实验,构建了一个自动视频编辑器。
在创造新事物的过程中,Kaiser面临了许多挑战和弯路,但他感激有机会去寻找答案。他鼓励人们在完成工作时互相祝贺,因为完成任何事情总是伴随着许多看不见的挑战。
原文和模型
【原文链接】 阅读原文 [ 3655字 | 15分钟 ]
【原文作者】 AI前线
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★