為達至最佳瀏覽效果,請更新至最新的瀏覽器版本。
如有問題,歡迎電郵至 pccwmediaiapps@pccw.com 查詢。
【阿棟有事求教】很多內容製作者,因為時間關係,又或者短片內容的本質是做現場直播和不同的觀眾一起互動,為了盡快可以把內容傳達出去,都直接把現場直播的短片發放,然之後爭取時間再繼續蒐集資料預備下一次短片,或者下一次直播,所以有不少的YouTube短片都沒有字幕。當然大家只要懂得廣東話就沒有問題,但是例如好像劉世良對陳橋先生相片 涉嫌侵權的事件,很多資料在YouTube片發放出來,但是我們大家的時間有限,很難一次過去全部掌握,所以 也可以用這個機會直接理解YouTube片的內容,透過OpenAI Whisper生成字幕,然之後再用其他的人工智能軟件去整合出資料,這樣大家就容易明白。 當然這個工具最方便是香港, 廣東話的內容製作者, 因為這樣生成的字幕,非常快捷,而且準確率很高,我們只需要重新再檢閱,發現沒有錯字基本上就可以上載字幕,因此這個方法非常值得做,而且每一次,最高都可以生成30分鐘,非常值得應用。
步驟:
在Google Drive,安裝。Google Colaboratory
打開Google Colaboratory,在 Runtime ,選擇 Change runtime type, 再選擇 T4 GPU,Save。 在 +Code 輸入
!pip install git+https://github.com/openai/whisper.git
!sudo apt update && sudo apt install ffmpeg
上載檔案, 當檔案上載完畢,就在+Code 輸入
!whisper "aa.MP3" --model medium --language zh
其中 "aa.MP3" 就是檔案名稱,記得不可以有中文字或者空格或者其他的標點符號
OpenAI 的 Whisper 是一個用於語音識別和轉錄的高性能模型。其主要功能包括:
1. 語音轉文字 (Speech-to-Text):可以將語音內容準確地轉錄成文本。
2. 多語言支持:支持多種語言的語音識別和轉錄,能夠理解和處理不同語言的語音輸入。
3. 高精度識別:能夠在雜音環境中仍然提供高精度的語音識別,適應不同的音頻質量。
4. 實時處理:可以實時地處理語音輸入,提供快速的轉錄結果。
5. 多種應用場景:適用於會議記錄、字幕生成、語音助手、語音搜索等多種場景。 Whisper 的目的是提供一個強大且靈活的語音識別工具,能夠應對各種語音處理需求。
OpenAI 的 Whisper 模型在語音轉文字(Speech-to-Text)方面的準確度通常被認為是非常高的。其準確度取決於多種因素,包括但不限於:
1. 音頻質量:音頻的清晰度和無噪音程度會影響轉錄的準確度。高質量的錄音會帶來更準確的結果。
2. 說話者的口音和語速:不同的口音和語速會影響模型的理解能力。Whisper 在處理多種口音方面表現出色,但仍可能在特定情況下遇到挑戰。
3. 背景噪音:雖然 Whisper 對背景噪音具有一定的耐受性,但極端噪音環境下準確度可能會下降。
4. 語言和詞彙:Whisper 支持多種語言,但某些語言或特定領域的專業術語可能需要更高的語料支持。 根據公開的測試和反饋,Whisper 的語音轉文字模型在許多應用場景中達到了商業級的準確度,能夠媲美甚至超越一些專業的語音識別服務。
然而,具體的準確度數據可能會根據具體應用場景和測試條件而有所不同。總體而言,Whisper 被認為是當前市場上最先進和準確的語音識別技術之一。
OpenAI 的 Whisper 模型支持多種語言的語音轉文字功能。根據公開資訊,Whisper 的語言支持範圍非常廣泛,包括但不限於以下幾種主要語言:
- 英語
- 中文(包括普通話和粵語)
- 西班牙語
- 法語
- 德語
- 意大利語
- 葡萄牙語
- 日語
- 韓語
- 俄語
- 阿拉伯語
- 荷蘭語
- 印地語
此外,Whisper 還支持其他語言和不同地區的方言。這使得它在全球範圍內的應用變得非常靈活和實用。具體支持的語言列表可能會隨著模型的更新和改進而擴展,因此建議參考 OpenAI 的官方文件或公告以獲取最新的語言支持信息。
#aforadvice #阿棟有事求教
https://www.youtube.com/@aforadvice