Ubuntu玩AI系列：Speed of Sound -- 一款内置AI模型的Ubuntu语音输入应用

2026 年 04 月 11 日

9 次浏览

2631字数

Speed of Sound —— 一款免费的开源工具。它利用本地 AI 模型将您的语音转换为文本，并自动输入到当前处于焦点的任何位置。
demo-light
该应用内置了 Whisper Tiny 模型（由 OpenAI 开发）。只需按下快捷键即可开始录音，说出您想要输入的文本，然后停止录音；随后，应用便会利用内置模型将语音转换为文本，并自动将其输入到当前处于焦点的应用程序中。

整个语音转文本的过程完全在用户的本地计算机上离线运行。不过，该应用也支持下载更多语音模型，连接 Anthropic、Google 或 OpenAI 等云服务，或者使用您本地服务器上自托管的 Ollama、vLLM 或 llama.cpp 服务（这些功能需要网络权限）。
ss-prefs-model
它支持多种语言。您可以设置主要语言和次要语言，并在使用过程中随时进行切换。
ss-multilanguages
作为一名非英语母语者，我发现它能非常准确地将我所说的英语转换为文本。不过，也许是受语言模型特性的影响，当我说我的母语时，它的识别效果似乎未达到预期的理想水平。

功能特性

支持离线、本地设备端转录，由 Whisper、Parakeet、Canary 等模型驱动。所有数据均在本地处理，绝不离开您的设备。
多种激活方式：既可点击应用内的按钮，也可使用全局键盘快捷键进行操作。
利用 Portals 技术，可将转录结果直接输入至当前处于焦点的任意应用程序中，实现对各类桌面环境（如
X11、Wayland）的广泛兼容。
支持多语言识别，且可在使用过程中随时动态切换主、副语言。
内置多语言 Whisper 模型，开箱即用。您还可在应用内下载更多模型，以进一步提升转录准确率及语言覆盖范围。
可选配基于大型语言模型（LLM，如 Anthropic、Google、OpenAI）的文本润色功能，并支持自定义语境与词汇表。
支持 vLLM、Ollama、llama.cpp 等自托管服务（同时也支持云服务，但并非必要条件）。

更多信息查看其主页。

如何安装 Speed of Sound

该应用同时支持 X11 和 Wayland 显示服务器，并提供了多种软件包格式供您选择安装。您可以根据个人喜好任选其一：

Flatpak 软件包：在沙盒环境中运行，支持 amd64 和 arm64/aarch64 处理器架构。
Snap 软件包：在沙盒环境中运行（仅支持 amd64 架构，即 Intel/AMD 处理器）。
AppImage 软件包：无需安装，直接运行（仅支持 amd64 架构）。
DEB 软件包：适用于 Debian、Ubuntu、Linux Mint 等发行版（仅支持 amd64 架构）。
RPM 软件包：适用于 Fedora/RHEL 等发行版（仅支持 amd64 架构）。

对于 Ubuntu 用户，可以通过“Ubuntu 软件”或“应用中心”直接搜索并安装 Snap 软件包。

AppImage、DEB、RPM三种软件包均可通过下方链接，前往 GitHub 的“Releases”（发布）页面进行下载：
下载链接（位于“Assets”部分下方）
对于 AppImage 格式，只需右键点击文件打开“属性”对话框，勾选以添加“可执行权限”，随后双击运行即可启动应用。

此外，较新版本的 Debian、Ubuntu、Fedora 等发行版通常支持直接双击 DEB 或 RPM 软件包文件，即可自动打开并完成安装。

配置 Speed of Sound

首次启动应用时，系统会弹出一个欢迎对话框，简要介绍基本的使用方法。您需要点击“允许远程交互”（Allow remote interaction）选项，以便应用能够模拟键盘输入，在其他应用程序窗口中输入文本。
ss-injection
默认情况下，应用支持使用键盘快捷键 Super+Z 来启动/停止语音监听；不过，该快捷键仅在 Speed of Sound 窗口处于开启状态且获得焦点（即当前活动窗口）时才有效。