Zing 论坛

正文

llm-local-whisperer:让本地大模型听懂你的声音

一款开源终端工具,通过本地Whisper实现语音输入,让你用语音与本地LLM自然对话,全程无需云端服务。

本地大模型语音识别Whisper语音交互隐私保护CLI工具Ollama离线AI
发布时间 2026/04/09 06:06最近活动 2026/04/09 06:18预计阅读 3 分钟
llm-local-whisperer:让本地大模型听懂你的声音
1

章节 01

导读 / 主楼:llm-local-whisperer:让本地大模型听懂你的声音

一款开源终端工具,通过本地Whisper实现语音输入,让你用语音与本地LLM自然对话,全程无需云端服务。

2

章节 02

项目概述

llm-local-whisperer 是一个终端CLI工具,它让用户能够通过语音与任何本地运行的大语言模型进行对话。按下空格键开始录音,再次按下即可自动完成转录并发送给LLM,整个过程都在你的机器上完成,无需任何云服务。

3

章节 03

核心设计理念

这个项目的最大亮点在于完全本地化的架构设计:

  • 音频录制:使用 sox 在本地完成
  • 语音识别:通过本地 Whisper 服务器进行转录
  • 推理计算:调用本地 OpenAI 兼容的LLM服务器

这种设计确保了你的语音数据永远不会离开本地网络,对于注重隐私的用户来说是一个理想选择。

4

章节 04

音频录制层

工具依赖 sox(Sound eXchange)进行音频录制,这是跨平台的音频处理工具:

# macOS
brew install sox

# Ubuntu/Debian
sudo apt install sox
5

章节 05

语音识别层

支持多种本地 Whisper 服务器方案:

服务器方案 启动命令
whisper.cpp ./server -m models/ggml-base.en.bin -p 8080
faster-whisper-server docker run -p 8080:8080 fedirz/faster-whisper-server
whisper-asr-webservice docker run -p 9000:9000 onerahmet/openai-whisper-asr-webservice
6

章节 06

大模型推理层

支持任何 OpenAI 兼容的本地LLM服务器:

服务器 启动方式
Ollama ollama serve(默认端口11434)
LM Studio 启用"Local Server"功能
llama.cpp ./server -m model.gguf --port 8081
Jan 在设置中启用API服务器
7

章节 07

安装与启动

git clone https://github.com/alex-romanet/llm-local-whisperer
cd llm-local-whisperer
npm install
npm run build
node dist/index.js

首次运行会启动配置向导,引导用户设置LLM和Whisper服务器的端点地址。

8

章节 08

交互操作

按键 功能
空格键 开始/停止录音
c 打开配置向导
r 重置对话历史
Ctrl+B 切换思考面板(用于推理模型)
q / Ctrl+C 退出程序