从“手动翻视频”到“一句话搜画面”：我为什么做了这款本地AI视频检索工具

一个产品经理的自我修养，就是把“不可能”变成“一键运行”

你有没有经历过这样的时刻——

为了找一段监控录像里“昨晚9点后有人经过”的画面，盯着屏幕看了半小时，眼睛酸了，进度条拖了无数遍，最后还没找到。

或者，你是个视频创作者，硬盘里存了几百小时的素材，想找“一只猫从左边跳上桌子”的镜头，只能凭记忆凭感觉硬翻，效率低到令人崩溃。

再或者，你是做工程验收的，手里几十个G的现场视频，甲方让你“把有安全隐患的画面都找出来”——你只能一帧一帧地看，看到怀疑人生。

这些场景，我全都经历过。

所以，我决定做点什么。

当AI遇上“找画面”

市面上其实不缺视频分析工具。但问题在于：

云端的方案：视频要上传，隐私不放心，网络还卡。
专业的NVR系统：大多是针对实时监控流的，不适合处理离线视频素材。
传统的视频播放器：只能手动拖进度条，跟“智能”两个字毫无关系。

我需要的是一个——完全本地运行、能理解画面内容、像搜索引擎一样找视频片段的工具。

于是，就有了今天想和大家分享的这款AI视频离线检索工具。

它不是什么云服务，也不需要你配置复杂的环境。下载后双击运行，导入视频文件夹，剩下的，交给AI。

它到底能做什么？

1. 听懂人话的“语义搜索”

这是我最自豪的功能。

你不需要记住“第几分钟第几秒有什么”，你只需要用自然语言描述你想要找的画面。

比如：

“穿红色衣服的人在打电话”
“一辆白色SUV从右侧驶入”
“晚上10点后有人经过门口”
“一只猫跳上桌子”

AI会理解你的描述，并从海量视频中精准定位匹配的画面。

这背后用的是CLIP多模态模型，把“文字”和“画面”映射到同一个语义空间，实现了真正的“理解”。

2. 用图片找视频

有时候，你可能找不到合适的词语来描述想要的东西——比如一个特殊形状的物体，或者一种特定的构图。

没关系。上传一张参考图，AI会自动在所有视频中找出视觉相似的画面。

这就是“以图搜视频”，比文字描述更直观、更精准。

3. 人脸识别：找“那个人”

假设你家里装了摄像头，想知道“某人”什么时候来过。

你只需要注册一张TA的照片（或者从视频中截取一张），工具就会在所有视频素材中自动标注出TA出现的每一帧、每一个时间点。

再也不用“盯着画面一个一个认人”了。

4. 车牌识别：找“那辆车”

同样，如果你关心的是车辆进出记录，它也支持中国车牌识别，准确率 > 85%。

想看某辆车在什么时间出现、从哪个方向驶入？几秒钟就能筛出来。

5. 基础能力也足够扎实

除了这些“黑科技”，基础功能也一样不落：

YOLOv8目标检测：人、车、猫、狗……常见目标都能识别
ByteTrack跨帧追踪：即便目标被遮挡再出现，ID也不会乱
Zone区域检测：画一个多边形，只检测指定区域
Mask排除区：不想检测的地方（比如自家门口）画掉就好
事件瀑布流：所有检测结果以快照网格展示，支持按标签筛选
视频片段导出：事件前后几秒自动剪辑保存

隐私，是刻在基因里的

我知道，很多人对“视频上传云端”这件事心存顾虑。我自己也是。

所以，从设计之初，我就定下了铁律：

全本地运行：所有数据处理都在你的电脑上完成，一丁点数据都不上传
零依赖安装：内置Python环境，下载即用，不用折腾环境变量
GPU自适应：有NVIDIA显卡自动加速，没有就降级CPU，不报错
单文件SQLite数据库：所有事件数据存在一个文件里，方便随项目迁移备份

这意味着，你可以把整个工具和数据库拷到移动硬盘里，换台电脑也能用。

谁需要这个工具？

说实话，我最初做这个工具是为了自己用。但做着做着发现，它可能对很多人都有用：

人群	使用场景
家庭/店铺监控用户	快速回放“谁来过”“什么时候有异常”，再也不用一帧帧扒视频
视频创作者/剪辑师	在几百小时素材里快速定位想要的镜头，效率提升不止十倍
工程/机电验收人员	批量检查验收视频，快速筛选“有人的画面”或“有车的画面”
安防/物业管理者	小区、园区监控回放，查找特定人员或车辆
隐私敏感用户	任何不想把视频上传云端的人，都可以放心使用

技术底子怎么样？

既然是产品经理视角，我也坦诚交代一下技术底子：

UI层：React + TailwindCSS + Electron，界面现代，交互流畅
AI引擎：Python + ONNX Runtime，YOLOv8检测 + ByteTrack追踪
视频处理：FFmpeg静态编译，抽帧、剪辑都靠它
数据库：SQLite，轻量但够用
硬件支持：CUDA、DirectML、CPU 三级自适应，什么配置都能跑

整个项目从V1 MVP到V1.5精准化版本，已经完成了包括语义搜索、人脸识别、车牌识别在内的核心能力开发。

未来还会做什么？

产品是不断进化的。接下来的规划包括：

Line Crossing（虚拟越线统计）：统计穿越某条线的次数和方向
静止目标追踪：超过N帧不动的目标，依然保持track_id不变
置信度阈值精细化配置：不同目标类型可以独立设置阈值
性能持续优化：让老电脑也能流畅跑

写在最后

有人说，做产品最难的不是写代码，而是“理解用户真正需要什么”。

我做这款工具的初心很简单：让“找画面”这件事，变得像“搜照片”一样简单。

它可能还不够完美，但至少，它让我自己再也不用对着监控回放看到眼花了。

如果你也和我一样，被“找视频画面”这件事折磨过，不妨试试它。

它不联网，不上传，不收费。它只是安静地待在你的电脑里，随时帮你找到你想要的那一秒。

如需获取工具或查阅完整开发文档，请在评论区留言或私信。

你的每一次反馈，都是我继续迭代的动力。