从“手动翻视频”到“一句话搜画面”:我为什么做了这款本地AI视频检索工具

一个产品经理的自我修养,就是把“不可能”变成“一键运行”

你有没有经历过这样的时刻——

为了找一段监控录像里“昨晚9点后有人经过”的画面,盯着屏幕看了半小时,眼睛酸了,进度条拖了无数遍,最后还没找到。

或者,你是个视频创作者,硬盘里存了几百小时的素材,想找“一只猫从左边跳上桌子”的镜头,只能凭记忆凭感觉硬翻,效率低到令人崩溃。

再或者,你是做工程验收的,手里几十个G的现场视频,甲方让你“把有安全隐患的画面都找出来”——你只能一帧一帧地看,看到怀疑人生。

这些场景,我全都经历过。

所以,我决定做点什么。


当AI遇上“找画面”

市面上其实不缺视频分析工具。但问题在于:

  • 云端的方案:视频要上传,隐私不放心,网络还卡。
  • 专业的NVR系统:大多是针对实时监控流的,不适合处理离线视频素材。
  • 传统的视频播放器:只能手动拖进度条,跟“智能”两个字毫无关系。

我需要的是一个——完全本地运行、能理解画面内容、像搜索引擎一样找视频片段的工具。

于是,就有了今天想和大家分享的这款AI视频离线检索工具

它不是什么云服务,也不需要你配置复杂的环境。下载后双击运行,导入视频文件夹,剩下的,交给AI。


它到底能做什么?

1. 听懂人话的“语义搜索”

这是我最自豪的功能。

你不需要记住“第几分钟第几秒有什么”,你只需要用自然语言描述你想要找的画面

比如:

  • “穿红色衣服的人在打电话”
  • “一辆白色SUV从右侧驶入”
  • “晚上10点后有人经过门口”
  • “一只猫跳上桌子”

AI会理解你的描述,并从海量视频中精准定位匹配的画面。

这背后用的是CLIP多模态模型,把“文字”和“画面”映射到同一个语义空间,实现了真正的“理解”。

2. 用图片找视频

有时候,你可能找不到合适的词语来描述想要的东西——比如一个特殊形状的物体,或者一种特定的构图。

没关系。上传一张参考图,AI会自动在所有视频中找出视觉相似的画面。

这就是“以图搜视频”,比文字描述更直观、更精准。

3. 人脸识别:找“那个人”

假设你家里装了摄像头,想知道“某人”什么时候来过。

你只需要注册一张TA的照片(或者从视频中截取一张),工具就会在所有视频素材中自动标注出TA出现的每一帧、每一个时间点

再也不用“盯着画面一个一个认人”了。

4. 车牌识别:找“那辆车”

同样,如果你关心的是车辆进出记录,它也支持中国车牌识别,准确率 > 85%。

想看某辆车在什么时间出现、从哪个方向驶入?几秒钟就能筛出来。

5. 基础能力也足够扎实

除了这些“黑科技”,基础功能也一样不落:

  • YOLOv8目标检测:人、车、猫、狗……常见目标都能识别
  • ByteTrack跨帧追踪:即便目标被遮挡再出现,ID也不会乱
  • Zone区域检测:画一个多边形,只检测指定区域
  • Mask排除区:不想检测的地方(比如自家门口)画掉就好
  • 事件瀑布流:所有检测结果以快照网格展示,支持按标签筛选
  • 视频片段导出:事件前后几秒自动剪辑保存

隐私,是刻在基因里的

我知道,很多人对“视频上传云端”这件事心存顾虑。我自己也是。

所以,从设计之初,我就定下了铁律

  • 全本地运行:所有数据处理都在你的电脑上完成,一丁点数据都不上传
  • 零依赖安装:内置Python环境,下载即用,不用折腾环境变量
  • GPU自适应:有NVIDIA显卡自动加速,没有就降级CPU,不报错
  • 单文件SQLite数据库:所有事件数据存在一个文件里,方便随项目迁移备份

这意味着,你可以把整个工具和数据库拷到移动硬盘里,换台电脑也能用。


谁需要这个工具?

说实话,我最初做这个工具是为了自己用。但做着做着发现,它可能对很多人都有用:

人群使用场景
家庭/店铺监控用户快速回放“谁来过”“什么时候有异常”,再也不用一帧帧扒视频
视频创作者/剪辑师在几百小时素材里快速定位想要的镜头,效率提升不止十倍
工程/机电验收人员批量检查验收视频,快速筛选“有人的画面”或“有车的画面”
安防/物业管理者小区、园区监控回放,查找特定人员或车辆
隐私敏感用户任何不想把视频上传云端的人,都可以放心使用

技术底子怎么样?

既然是产品经理视角,我也坦诚交代一下技术底子:

  • UI层:React + TailwindCSS + Electron,界面现代,交互流畅
  • AI引擎:Python + ONNX Runtime,YOLOv8检测 + ByteTrack追踪
  • 视频处理:FFmpeg静态编译,抽帧、剪辑都靠它
  • 数据库:SQLite,轻量但够用
  • 硬件支持:CUDA、DirectML、CPU 三级自适应,什么配置都能跑

整个项目从V1 MVP到V1.5精准化版本,已经完成了包括语义搜索、人脸识别、车牌识别在内的核心能力开发。


未来还会做什么?

产品是不断进化的。接下来的规划包括:

  • Line Crossing(虚拟越线统计):统计穿越某条线的次数和方向
  • 静止目标追踪:超过N帧不动的目标,依然保持track_id不变
  • 置信度阈值精细化配置:不同目标类型可以独立设置阈值
  • 性能持续优化:让老电脑也能流畅跑

写在最后

有人说,做产品最难的不是写代码,而是“理解用户真正需要什么”。

我做这款工具的初心很简单:让“找画面”这件事,变得像“搜照片”一样简单。

它可能还不够完美,但至少,它让我自己再也不用对着监控回放看到眼花了。

如果你也和我一样,被“找视频画面”这件事折磨过,不妨试试它。

它不联网,不上传,不收费。它只是安静地待在你的电脑里,随时帮你找到你想要的那一秒。


如需获取工具或查阅完整开发文档,请在评论区留言或私信。

你的每一次反馈,都是我继续迭代的动力。

发表评论