Speed of Sound —— 一款免费的开源工具。它利用本地 AI 模型将您的语音转换为文本,并自动输入到当前处于焦点的任何位置。
该应用内置了 Whisper Tiny 模型(由 OpenAI 开发)。只需按下快捷键即可开始录音,说出您想要输入的文本,然后停止录音;随后,应用便会利用内置模型将语音转换为文本,并自动将其输入到当前处于焦点的应用程序中。
整个语音转文本的过程完全在用户的本地计算机上离线运行。不过,该应用也支持下载更多语音模型,连接 Anthropic、Google 或 OpenAI 等云服务,或者使用您本地服务器上自托管的 Ollama、vLLM 或 llama.cpp 服务(这些功能需要网络权限)。
它支持多种语言。您可以设置主要语言和次要语言,并在使用过程中随时进行切换。
作为一名非英语母语者,我发现它能非常准确地将我所说的英语转换为文本。不过,也许是受语言模型特性的影响,当我说我的母语时,它的识别效果似乎未达到预期的理想水平。
功能特性
- 支持离线、本地设备端转录,由 Whisper、Parakeet、Canary 等模型驱动。所有数据均在本地处理,绝不离开您的设备。
- 多种激活方式:既可点击应用内的按钮,也可使用全局键盘快捷键进行操作。
- 利用 Portals 技术,可将转录结果直接输入至当前处于焦点的任意应用程序中,实现对各类桌面环境(如
X11、Wayland)的广泛兼容。 - 支持多语言识别,且可在使用过程中随时动态切换主、副语言。
- 内置多语言 Whisper 模型,开箱即用。您还可在应用内下载更多模型,以进一步提升转录准确率及语言覆盖范围。
- 可选配基于大型语言模型(LLM,如 Anthropic、Google、OpenAI)的文本润色功能,并支持自定义语境与词汇表。
- 支持 vLLM、Ollama、llama.cpp 等自托管服务(同时也支持云服务,但并非必要条件)。
更多信息查看其主页。
如何安装 Speed of Sound
该应用同时支持 X11 和 Wayland 显示服务器,并提供了多种软件包格式供您选择安装。您可以根据个人喜好任选其一:
- Flatpak 软件包:在沙盒环境中运行,支持 amd64 和 arm64/aarch64 处理器架构。
- Snap 软件包:在沙盒环境中运行(仅支持 amd64 架构,即 Intel/AMD 处理器)。
- AppImage 软件包:无需安装,直接运行(仅支持 amd64 架构)。
- DEB 软件包:适用于 Debian、Ubuntu、Linux Mint 等发行版(仅支持 amd64 架构)。
- RPM 软件包:适用于 Fedora/RHEL 等发行版(仅支持 amd64 架构)。
对于 Ubuntu 用户,可以通过“Ubuntu 软件”或“应用中心”直接搜索并安装 Snap 软件包。
AppImage、DEB、RPM三种软件包均可通过下方链接,前往 GitHub 的“Releases”(发布)页面进行下载:
下载链接(位于“Assets”部分下方)
对于 AppImage 格式,只需右键点击文件打开“属性”对话框,勾选以添加“可执行权限”,随后双击运行即可启动应用。
此外,较新版本的 Debian、Ubuntu、Fedora 等发行版通常支持直接双击 DEB 或 RPM 软件包文件,即可自动打开并完成安装。
配置 Speed of Sound
首次启动应用时,系统会弹出一个欢迎对话框,简要介绍基本的使用方法。您需要点击“允许远程交互”(Allow remote interaction)选项,以便应用能够模拟键盘输入,在其他应用程序窗口中输入文本。
默认情况下,应用支持使用键盘快捷键 Super+Z 来启动/停止语音监听;不过,该快捷键仅在 Speed of Sound 窗口处于开启状态且获得焦点(即当前活动窗口)时才有效。
若想设置一个全局快捷键,使其在应用处于后台运行时也能生效,请打开“首选项”(Preferences),然后点击“全局快捷键”(Global Shortcut)设置项下方的“设置”(Set up)按钮。
如果该“设置”按钮处于不可用状态(如下图所示),请前往 GitHub 的“Releases”页面(同样位于“Assets”部分下方)下载名为 trigger.sh 的脚本文件。请将该脚本保存至一个固定位置(以便长期使用),并为其添加“可执行权限”。
最后,请在系统设置中创建一个自定义键盘快捷键,将其绑定至您刚才保存的那个脚本文件。
完成上述设置后,您只需按下该自定义快捷键即可启动语音监听,再次按下即可停止。欲了解更多关于该应用的信息,请访问 speedofsound官网。