做一个基于ffmpeg的AI Agent智能体

本文来自公众号“音视频小话”
原文:https://mp.weixin.qq.com/s/1Co19KAuCcyjg2E181664w

FFmpeg AI Agent:一条自然语言指令,实现一个简单音视频处理。

让用户说一句:音视频的处理要求,AI Agent帮你把活给做了。

实现比较简单,抛砖引玉,留下tools接口,可以无限扩展。

项目开源地址:

https://github.com/runner365/gollmagent

1. 主要功能

支持连接多个大模型平台:

  • openai
  • yuanbao (腾讯)
  • qwen (阿里)

当前支持下面一些音视频处理功能:

  • 将多媒体文件提取音频, 转换为m4a格式
  • 将多媒体文件转换为mp4格式, 主要为视频文件,并显示进度
  • 合并多个多媒体文件为一个带有视频和音频的mp4文件
  • 合并多个多媒体文件的音频为一个纯音频的m4a文件
  • 给视频添加图片水印
  • 给视频添加文字水印
  • 给视频添加字幕
  • 基于视频的I帧生成图片
  • 在指定时刻截取视频帧

2. 如何使用

2.1 基础环境

  • golang开发环境
  • 安装ffmpeg:可以系统下运行ffmpeg命令行
  • 设置环境变量LLM_API_KEY:大模型的API_KEY,从各个大模型云厂商获取和配置你自己的API_KEY,个人测试过腾讯元宝大模型,阿里QWen大模型,OpenAI大模型

个人推荐腾讯元宝大模型,它的tools比较灵活,输入语句缺少参数信息,会有多轮对话自动提醒功能,国内的大模型网络也比较快。环境ready后,直接运行: go run gollmagent.go

做一个基于ffmpeg的AI Agent智能体

系统启动一个对话命令行,可以与AI大模型继续聊天,来完成音视频处理任务。下面给出一些通过与AI大模型聊天,来处理音视频文件的例子。

2.1 转码视频

直接向AI提问,要求转码一个视频文件,并指明分辨率

用户: 请转码一个视频文件为360p,文件地址:D:\movies\src\wenjian.mp4

AI: 转码任务已启动,输出文件为 D:\movies\src\wenjian_360p.mp4,需要几分钟,请稍后。
AI:  当前进度: 7.27%,转码中,已耗时1125毫秒。
AI:  进度34.33%,转码中,已耗时5145毫秒。
AI:  进度58.13%,转码中,已耗时8650毫秒。
AI:  进度:84.95%,状态:转码中,耗时:12658毫秒
AI:  任务进度: 100.00%,转码已完成。

用户: 谢谢

AI: 不客气,有什么我可以帮你的吗?

转码完成后,可以得到一个自己想要分辨率的媒体文件。

2.2 合并多个视频

向AI提出要求,合并多个视频文件,给出文件列表。

用户: 合并多个视频文件,文件列表为: D:\movies\src.mp4, D:\movies\src.mp4, D:\movies\src.mp4

AI: 已合并视频文件,输出为 1_concat_2193.mp4。

合并完成后,AI告知合成后的媒体文件地址。

2.3 截取视频某个时刻的图片

向AI提出要求,截取某个视频某时刻一张图片

用户: 对视频文件D:\movies\src.mp4,在00:00:15截取一张图片

AI: 已截取视频帧,图片保存为2_screenshot_00_00_15.png

完成后,AI告知图片的地址。

2.4 获取视频所有IFrame的图片

向AI提出要求,截取某个视频中所有IFrame,并生成图片列表

用户: 对视频D:\movies\src.mp4的所有iframe截取图片

AI: 已从视频D:\movies\src.mp4提取I帧图片,保存在D:\movies\src_pics目录下。

完成后,AI会告诉图片的目录。目录下生成所有的iframe图片:

做一个基于ffmpeg的AI Agent智能体

2.5 对视频文件加入图片水印

向AI提出要求,对某视频文件加入图片水印

用户: 对视频文件D:\movies\src.mp4添加水印:D:\movies\src\media_talk_Logo.png, 位置左上角

AI: 已为视频添加左上角水印,输出文件为1_watermarked.mp4。

AI生成新视频后,会告知新视频文件地址。

其他的一些功能(不再详细叙述):

  • 将多媒体文件提取音频, 转换为m4a格式
  • 合并多个多媒体文件的音频为一个纯音频的m4a文件
  • 给视频添加字幕

3. 扩展:动态添加新功能

AI Agent的tools功能,就是向大模型注册一个Tools列表,包含一些功能,功能映射的函数,函数需要的参数;

这里程序给出简单的注册新tools function接口,在llmproxy/tools.go中注册写的函数接口。

以注册一个图片截图功能为例。

第一步:向AI大模型注册功能,如下

func AddScreenshotAtMomentTool() *pub.ToolDefinition {
    screenshotAtMomentParams := map[string]interface{}{
        "type": "object",
        "properties": map[string]interface{}{
            "input_file": map[string]interface{}{
                "type":        "string",
                "description": "输入的视频文件路径",
            },
            "moment": map[string]interface{}{
                "type":        "string",
                "description": "截图时刻,格式为 HH:MM:SS",
            },
        },
        "required": []string{"input_file", "moment"},
    }
    tool := AddFunctionTool("screenshot_at_moment", "在指定时刻截取视频帧", screenshotAtMomentParams)
    return tool
}

func InitTools() string {
   //....
   FunctionTools = append(FunctionTools, AddScreenshotAtMomentTool())
   //...
}

第二步:实现“screenshot_at_moment”功能函数

func CreateFunctionToolsHandler() {
  //.....
  functions["screenshot_at_moment"] = ScreenshotOnePictureAtMoment
}

func ScreenshotOnePictureAtMoment(args map[string]interface{}) interface{} {
    inputFile, ok := args["input_file"].(string)
    if !ok {
        log.Errorf("invalid input_file arguments %+v", args)
        return "invalid input_file arguments"
    }
    moment, ok := args["moment"].(string)
    output := fmt.Sprintf("%s_screenshot_%02d_%02d_%02d.png", strings.TrimSuffix(filepath.Base(inputFile), filepath.Ext(inputFile)), hours, minutes, seconds)
    
    //do ffmpeg cmd job
    ffmpegcmd.ScreenshotOnePictureAtMoment(inputFile, moment, output)
    
    //返回图片文件
    return output_file    
}

只需要两步,就能注册一个新的AI Agent功能。这个开源功能很简单,仅仅是抛砖引玉。

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论