使用 Whisper 離線完成聲音轉文字
· 閱讀時間約 2 分鐘

簡介
Whisper 是一個高效能的聲音轉文字工具,由 Const-me 開發,基於 OpenAI 的 Whisper 自動語音識別(ASR)模型。這個工具主要是針對 Windows 平台開發,提供了一個高效且易於使用的介面來處理語音識別任務,重點是可以離線使用、速度快,專案網址為 https://github.com/Const-me/Whisper ,以下介紹如何安裝與使用。
快速開始指南

-
下載和安裝:從 GitHub 存儲庫的“Releases”部分下載
WhisperDesktop.zip,解壓縮,並運行WhisperDesktop.exe。

-
選擇模型:解壓縮啟動主程式(一個小花圖案),系統會提示您下載一個模型。建議下載
ggml-medium.bin(大小為1.42GB),因為這是作者最常用於測試的模型。

-
轉寫音頻文件:接下來的介面允許您選擇要轉寫的音頻文件。
中文可能是繁體或簡體。WebVTT subtitles檔案可以上傳至Youtube影片字幕(有時間軸),視需要選用。 -
即時轉譯:此外,還有一個介面可以捕獲並轉寫或翻譯來自麥克風的即時音訊。
主要特點
- 廣泛的兼容性:基於 DirectCompute 技術,支持各種供應商的 GPU。
- 效能優化:相較於 OpenAI 的實現,經過 C++ 編譯後的 Whisper 在轉寫速度上有明顯的提升。
- 多格式音頻支持:支持大多數音頻和視訊格式,以及大部分在 Windows 上工作的音頻捕獲設備。
- 低內存使用:相比於其他方案,使用的記憶體更少。
