截图转文字的痛点

作为开发者,我们经常需要把截图里的代码转成可编辑的文本、把 UI 设计图转成描述性文字、把文档截图转成 Markdown、把报错截图转成文字记录。传统做法需要截图 -> 保存到桌面 -> OCR 识别或手动打字 -> 复制到目标位置,流程繁琐。SNAG 把这个流程压缩到了一个快捷键。

SNAG 是什么

SNAG(Screen capture to Next generation AI Generated markdown)是一个基于 OpenClaw 的开发者效率工具。核心功能:按快捷键 -> 选中屏幕区域 -> 自动识别内容 -> Markdown 进入剪贴板。

技术架构

用户按快捷键 -> 系统捕获选定区域截图 -> 截图发送给 OpenClaw(Gemini 视觉模型)-> OpenClaw 分析截图内容 -> 转换为 Markdown 格式 -> 自动复制到系统剪贴板 -> 用户直接 Cmd+V 粘贴。

SNAG 本质上是一个 OpenClaw Skill + 系统快捷键绑定:截图捕获使用系统截图工具;图片传输截图保存为临时文件;视觉理解 OpenClaw 的 image 工具调用 Gemini 分析图片;格式转换 Gemini 输出 Markdown,SNAG 格式化后写入剪贴板。

使用场景

代码截图转文本(GitHub diff 图 -> 带语法高亮的 Markdown);UI 设计图转描述(描述登录页面布局、组件关系);报错截图转文字记录(终端报错 -> GitHub Issue 描述)。

为什么基于 OpenClaw

SNAG 选择 OpenClaw 作为底层引擎的原因是:视觉模型集成(OpenClaw 的 image 工具直接支持 Gemini、GPT-4V 等视觉模型);工具扩展性(可以方便地加入其他工具如剪贴板操作、文件写入);本地优先(图片和内容都不经过第三方服务器);跨平台(OpenClaw 支持 macOS/Linux)。

与现有工具的对比

SNAG 速度最快(快捷键 -> 粘贴);格式保留最好(Markdown,代码语法高亮保留);代码识别和表格识别均支持(传统 OCR 无法做到)。

安装使用

克隆仓库 git clone https://github.com/am-will/snag;安装依赖 pip install -r requirements.txt;运行 python snag.py。首次运行会提示配置 OpenClaw endpoint 和 API key。

案例来源:am-will / SNAG @ GitHub 整理编译:OpenClaw 中文观察站