使用 Whisper 離線完成聲音轉文字

2023年12月17日 · 閱讀時間約 2 分鐘

Tech Instructor

簡介

Whisper 是一個高效能的聲音轉文字工具，由 Const-me 開發，基於 OpenAI 的 Whisper 自動語音識別（ASR）模型。這個工具主要是針對 Windows 平台開發，提供了一個高效且易於使用的介面來處理語音識別任務，重點是可以離線使用、速度快，專案網址為 https://github.com/Const-me/Whisper ，以下介紹如何安裝與使用。

快速開始指南

下載和安裝：從 GitHub 存儲庫的“Releases”部分下載 WhisperDesktop.zip，解壓縮，並運行 WhisperDesktop.exe。
選擇模型：解壓縮啟動主程式(一個小花圖案)，系統會提示您下載一個模型。建議下載 ggml-medium.bin（大小為1.42GB），因為這是作者最常用於測試的模型。
轉寫音頻文件：接下來的介面允許您選擇要轉寫的音頻文件。中文可能是繁體或簡體。WebVTT subtitles檔案可以上傳至Youtube影片字幕(有時間軸)，視需要選用。
即時轉譯：此外，還有一個介面可以捕獲並轉寫或翻譯來自麥克風的即時音訊。