# Peeky：Windows 上的隐私优先 AI 桌面助手，支持离线语音与视觉交互

> Peeky 是一款专为 Windows 设计的桌面 AI 助手，主打隐私优先和完全离线运行。它支持语音对话、屏幕截图分析、摄像头视觉识别、剪贴板内容处理等多种交互方式，所有数据处理均在本地完成，无需担心隐私泄露。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-09T11:41:00.000Z
- 最近活动: 2026-05-09T11:50:16.503Z
- 热度: 154.8
- 关键词: AI助手, 隐私优先, 离线运行, 语音交互, 多模态, Ollama, Windows应用, 本地大模型, 屏幕识别, 视觉问答
- 页面链接: https://www.zingnex.cn/forum/thread/peeky-windows-ai
- Canonical: https://www.zingnex.cn/forum/thread/peeky-windows-ai
- Markdown 来源: ingested_event

---

# Peeky：Windows 上的隐私优先 AI 桌面助手

## 项目概述

Peeky 是一款专为 Windows 系统打造的桌面 AI 助手，其核心理念是"看见、思考、帮助"。与传统的云端 AI 助手不同，Peeky 将所有计算过程保留在本地机器上，通过 Ollama 运行开源大语言模型，实现了真正的隐私优先设计。用户可以通过语音、屏幕截图、摄像头拍照等多种方式与 AI 交互，而无需担心敏感数据离开自己的设备。

## 核心功能详解

### 语音对话系统

Peeky 支持完整的语音输入输出流程。在联网状态下，它使用 Google Speech API 进行语音识别，通过 Microsoft Edge TTS 生成自然语音回复；而在离线状态下，则自动切换到 faster-whisper 本地语音识别和 Windows SAPI 语音合成。这种双模式设计确保了无论网络状况如何，用户都能获得流畅的语音交互体验。

### 屏幕捕获模式

用户可以通过拖拽选择屏幕上的任意区域，然后针对该区域内容进行提问。Peeky 会将选定的屏幕区域截图与用户的语音问题一起发送给本地多模态模型进行分析。这一功能特别适合需要解释界面元素、分析图表数据或获取软件操作指导的场景。

### 摄像头视觉模式

Peeky 支持调用系统摄像头拍摄照片，并对画面中的内容进行识别和解释。拍摄前会显示预览窗口确认画面内容，确保 AI 分析的是用户真正关心的对象。这一功能可以应用于实物识别、环境描述、文档扫描等多种实际场景。

### 剪贴板智能处理

通过剪贴板模式，用户可以直接将当前剪贴板中的文本内容发送给 AI 进行分析、总结、翻译或解释。无需手动粘贴，一键即可完成内容传递，大大提升了工作效率。

### Video Coach 指导功能

这是 Peeky 最具创新性的功能之一。用户可以描述一项需要完成的实际操作任务，Peeky 会拍摄基准画面，然后通过语音指导用户逐步完成。在完成每一步后，它会再次拍摄画面进行验证，确保任务真正完成。这种闭环指导机制特别适合教学演示、设备维修指导、软件操作培训等场景。

## 技术架构与离线能力

Peeky 的技术栈经过精心设计，确保在没有互联网连接的情况下也能完整运行：

| 功能阶段 | 在线方案 | 离线方案 |
|---------|---------|---------|
| 音频采集 | ffmpeg + DirectShow | ffmpeg + DirectShow |
| 语音识别 | Google Speech API | faster-whisper (base) |
| 推理计算 | Ollama 本地运行 | Ollama 本地运行 |
| 语音合成 | edge-tts (Aria) | pyttsx3 + SAPI (Zira) |

系统在每次需要网络服务前都会进行两秒 connectivity 探测，如果检测到无网络连接，会自动跳过在线服务，避免因等待 TCP 超时造成的卡顿。

## 安装与配置

Peeky 的安装过程相对简单，主要依赖包括：

- Windows 10 或 11 操作系统
- Python 3.10 或更高版本
- 本地运行的 Ollama 服务
- 系统麦克风权限
- 约 8GB 磁盘空间用于存储模型

推荐使用 `gemma4:e4b` 多模态模型以获得最佳视觉理解能力，也可以根据需求选择 `llava` 或 `bakllava` 等其他支持视觉的模型。首次启动时会自动下载 faster-whisper base 模型（约 140MB），后续启动即可瞬间完成。

## 隐私保护机制

Peeky 在隐私保护方面采取了多层措施：

首先，所有大语言模型推理都通过本地 Ollama 完成，用户的提示词、图片和回复内容都不会离开本地机器。其次，在线服务仅在用户明确联网且未禁用的情况下才会使用，Google Speech API 仅接收语音音频数据，Microsoft Edge TTS 仅接收回复文本。在离线模式下，faster-whisper 和 SAPI 都不会发送任何数据到外部服务器。

所有交互历史都以纯 JSON 格式存储在本地 `memory.json` 文件中，用户可以随时删除该文件或使用"清除记忆"按钮清空历史记录。

## 使用场景与价值

Peeky 的设计使其适用于多种实际场景：

对于需要频繁查阅屏幕内容的用户，屏幕捕获模式提供了即时的视觉问答能力；对于需要操作指导的场景，Video Coach 功能可以提供 step-by-step 的语音引导；对于注重隐私的用户，完全离线的运行模式确保了数据安全；对于需要快速处理文本内容的场景，剪贴板模式提供了便捷的内容分析入口。

## 总结与展望

Peeky 代表了桌面 AI 助手发展的一个重要方向：在提供强大 AI 能力的同时，将隐私控制权交还给用户。通过支持完全离线运行、本地模型推理和多重隐私保护机制，Peeky 为那些既想享受 AI 便利又担心数据隐私的用户提供了一个理想的选择。随着本地大语言模型能力的不断提升，像 Peeky 这样的隐私优先 AI 工具将在个人计算领域发挥越来越重要的作用。
