做一个基于ffmpeg的AI Agent智能体

本文来自公众号“音视频小话”
原文：https://mp.weixin.qq.com/s/1Co19KAuCcyjg2E181664w

FFmpeg AI Agent：一条自然语言指令，实现一个简单音视频处理。

让用户说一句：音视频的处理要求，AI Agent帮你把活给做了。

实现比较简单，抛砖引玉，留下tools接口，可以无限扩展。

项目开源地址:

https://github.com/runner365/gollmagent

1. 主要功能

支持连接多个大模型平台：

openai
yuanbao (腾讯)
qwen (阿里)

当前支持下面一些音视频处理功能：

将多媒体文件提取音频, 转换为m4a格式
将多媒体文件转换为mp4格式, 主要为视频文件，并显示进度
合并多个多媒体文件为一个带有视频和音频的mp4文件
合并多个多媒体文件的音频为一个纯音频的m4a文件
给视频添加图片水印
给视频添加文字水印
给视频添加字幕
基于视频的I帧生成图片
在指定时刻截取视频帧

2. 如何使用

2.1 基础环境

golang开发环境
安装ffmpeg：可以系统下运行ffmpeg命令行
设置环境变量LLM_API_KEY：大模型的API_KEY，从各个大模型云厂商获取和配置你自己的API_KEY，个人测试过腾讯元宝大模型，阿里QWen大模型，OpenAI大模型

个人推荐腾讯元宝大模型，它的tools比较灵活，输入语句缺少参数信息，会有多轮对话自动提醒功能，国内的大模型网络也比较快。环境ready后，直接运行: go run gollmagent.go

系统启动一个对话命令行，可以与AI大模型继续聊天，来完成音视频处理任务。下面给出一些通过与AI大模型聊天，来处理音视频文件的例子。

2.1 转码视频

直接向AI提问，要求转码一个视频文件，并指明分辨率

用户: 请转码一个视频文件为360p，文件地址:D:\movies\src\wenjian.mp4

AI: 转码任务已启动，输出文件为 D:\movies\src\wenjian_360p.mp4，需要几分钟，请稍后。
AI:  当前进度: 7.27%，转码中，已耗时1125毫秒。
AI:  进度34.33%，转码中，已耗时5145毫秒。
AI:  进度58.13%，转码中，已耗时8650毫秒。
AI:  进度：84.95%，状态：转码中，耗时：12658毫秒
AI:  任务进度: 100.00%，转码已完成。

用户: 谢谢

AI: 不客气，有什么我可以帮你的吗？

转码完成后，可以得到一个自己想要分辨率的媒体文件。

2.2 合并多个视频

向AI提出要求，合并多个视频文件，给出文件列表。

用户: 合并多个视频文件，文件列表为: D:\movies\src\1.mp4, D:\movies\src\2.mp4, D:\movies\src\3.mp4

AI: 已合并视频文件，输出为 1_concat_2193.mp4。

合并完成后，AI告知合成后的媒体文件地址。

2.3 截取视频某个时刻的图片

向AI提出要求，截取某个视频某时刻一张图片

用户: 对视频文件D:\movies\src\2.mp4，在00:00:15截取一张图片

AI: 已截取视频帧，图片保存为2_screenshot_00_00_15.png

完成后，AI告知图片的地址。

2.4 获取视频所有IFrame的图片

向AI提出要求，截取某个视频中所有IFrame，并生成图片列表

用户: 对视频D:\movies\src\1.mp4的所有iframe截取图片

AI: 已从视频D:\movies\src\1.mp4提取I帧图片，保存在D:\movies\src\1_pics目录下。

完成后，AI会告诉图片的目录。目录下生成所有的iframe图片：

2.5 对视频文件加入图片水印

向AI提出要求，对某视频文件加入图片水印

用户: 对视频文件D:\movies\src\1.mp4添加水印:D:\movies\src\media_talk_Logo.png, 位置左上角

AI: 已为视频添加左上角水印，输出文件为1_watermarked.mp4。

AI生成新视频后，会告知新视频文件地址。

其他的一些功能(不再详细叙述)：

将多媒体文件提取音频, 转换为m4a格式
合并多个多媒体文件的音频为一个纯音频的m4a文件
给视频添加字幕

3. 扩展：动态添加新功能

AI Agent的tools功能，就是向大模型注册一个Tools列表，包含一些功能，功能映射的函数，函数需要的参数；

这里程序给出简单的注册新tools function接口，在llmproxy/tools.go中注册写的函数接口。

以注册一个图片截图功能为例。

第一步：向AI大模型注册功能，如下

func AddScreenshotAtMomentTool() *pub.ToolDefinition {
    screenshotAtMomentParams := map[string]interface{}{
        "type": "object",
        "properties": map[string]interface{}{
            "input_file": map[string]interface{}{
                "type":        "string",
                "description": "输入的视频文件路径",
            },
            "moment": map[string]interface{}{
                "type":        "string",
                "description": "截图时刻，格式为 HH:MM:SS",
            },
        },
        "required": []string{"input_file", "moment"},
    }
    tool := AddFunctionTool("screenshot_at_moment", "在指定时刻截取视频帧", screenshotAtMomentParams)
    return tool
}

func InitTools() string {
   //....
   FunctionTools = append(FunctionTools, AddScreenshotAtMomentTool())
   //...
}

第二步：实现“screenshot_at_moment”功能函数

func CreateFunctionToolsHandler() {
  //.....
  functions["screenshot_at_moment"] = ScreenshotOnePictureAtMoment
}

func ScreenshotOnePictureAtMoment(args map[string]interface{}) interface{} {
    inputFile, ok := args["input_file"].(string)
    if !ok {
        log.Errorf("invalid input_file arguments %+v", args)
        return "invalid input_file arguments"
    }
    moment, ok := args["moment"].(string)
    output := fmt.Sprintf("%s_screenshot_%02d_%02d_%02d.png", strings.TrimSuffix(filepath.Base(inputFile), filepath.Ext(inputFile)), hours, minutes, seconds)
    
    //do ffmpeg cmd job
    ffmpegcmd.ScreenshotOnePictureAtMoment(inputFile, moment, output)
    
    //返回图片文件
    return output_file    
}

只需要两步，就能注册一个新的AI Agent功能。这个开源功能很简单，仅仅是抛砖引玉。

做一个基于ffmpeg的AI Agent智能体

1. 主要功能

2. 如何使用

2.1 基础环境

2.1 转码视频

2.2 合并多个视频

2.3 截取视频某个时刻的图片

2.4 获取视频所有IFrame的图片

2.5 对视频文件加入图片水印

3. 扩展：动态添加新功能

相关推荐

腾讯云李郁韬：云端音视频是全真互联时代的技术底座

元宇宙场景下的实时互动RTI技术能力构建

探索 FFmpeg Basics 音视频技术（19）： 组件和项目

一文看懂音视频流媒体协议及信令技术

VBR 与 CBR 哪个更适合直播？

音视频问题汇总–SDP和编码参数

探索 FFmpeg Basics 音视频技术（19）：组件和项目