跳至主要内容

使用 Whisper 離線完成聲音轉文字

· 閱讀時間約 2 分鐘
Willis Chen

image

簡介

Whisper 是一個高效能的聲音轉文字工具,由 Const-me 開發,基於 OpenAI 的 Whisper 自動語音識別(ASR)模型。這個工具主要是針對 Windows 平台開發,提供了一個高效且易於使用的介面來處理語音識別任務,重點是可以離線使用、速度快,專案網址為 https://github.com/Const-me/Whisper ,以下介紹如何安裝與使用。

快速開始指南

image

  1. 下載和安裝:從 GitHub 存儲庫的“Releases”部分下載 WhisperDesktop.zip,解壓縮,並運行 WhisperDesktop.exeimage image

  2. 選擇模型:解壓縮啟動主程式(一個小花圖案),系統會提示您下載一個模型。建議下載 ggml-medium.bin(大小為1.42GB),因為這是作者最常用於測試的模型。 image image image

  3. 轉寫音頻文件:接下來的介面允許您選擇要轉寫的音頻文件。 image image 中文可能是繁體或簡體。WebVTT subtitles檔案可以上傳至Youtube影片字幕(有時間軸),視需要選用。

  1. 即時轉譯:此外,還有一個介面可以捕獲並轉寫或翻譯來自麥克風的即時音訊。

主要特點

  • 廣泛的兼容性:基於 DirectCompute 技術,支持各種供應商的 GPU。
  • 效能優化:相較於 OpenAI 的實現,經過 C++ 編譯後的 Whisper 在轉寫速度上有明顯的提升。
  • 多格式音頻支持:支持大多數音頻和視訊格式,以及大部分在 Windows 上工作的音頻捕獲設備。
  • 低內存使用:相比於其他方案,使用的記憶體更少。

系統要求

  • 平台支持:僅支持64位的 Windows 系統。理論上應該在 Windows 8.1 或更新的版本上運行,但開發者僅在 Windows 10 上進行了測試。
  • 硬體要求:需要一個支持 Direct3D 11.0 的 GPU,以及支持 AVX1 和 F16C 的 CPU。

結語

這個開源專案速度快、離線可用,而且對於隱私資料而言相對安全,可以幫助完成會議紀錄等任務,即便有錯誤也瑕不掩瑜,分享給有需要的各位。