動画や音声ファイルから音声を認識して、自動で文字起こしを行うソフトです。
音声認識モデルに文字起こし AI である Whisper を採用し、GPU を利用することで高速な動作を実現しています。
文字越こしされたデータは、字幕ファイル(SRT) / テキスト / CSV で保存可能です。
KoeMill の使い方
ダウンロード と インストール
- 提供元サイトのダウンロードページへアクセスし、「Download」ボタンをクリックしてダウンロードします。
- ダウンロードした圧縮ファイル(KoeMill.7z)を解凍し、KoeMill_Launcher.exe から起動します。
※ 本ソフトはインストール不要で利用できます。
使い方
基本的な使い方
- 本ソフトを起動するとメイン画面が表示されます。
- をクリックして認識させたい言語を選択します。
※ ここでは「日本語」を選択します。 - をクリックして任意のモデル(Tiny / Base / Small / Medium / Large)を選択してダウンロードします。
※ Tiny から Large になるにつれて精度が向上して処理時間が長くなります。認識する音声にもよりますが、精度とモデルサイズを考えると Small または Medium が推奨されています。
※ ここでは「Small」を選択します。モデルを選択
- 「Download model(モデルのダウンロード)」ウィンドウが表示されるので「Download」ボタンをクリックします。
※ 初めて使用するモデルの場合はダウンロードが必要になります。初めて利用するモデルの場合はダウンロードが必要
モデルのダウンロード中
- 画面右の をクリックして文字起こししたいメディアファイルを選択します。
※ 対応フォーマット: wav, mp3, m4a, wma, avi, mp4, m4v, wmv
※ ここでは sample-female.mp3 というファイルを読み込みます。 - 画面中央の をクリックすると、選択したメディアファイルの音声を再生できます。
- 次に をクリックして音声認識を開始します。
- 音声認識が終わると、画面下部にタイムラインとテキストが表示されます。
- 時間部分やテキスト部分は直接編集が可能です。
気になる変換や誤った内容があればすぐに修正・編集できます。 - 右クリックメニューから行の追加・削除も可能です。
- 時間部分やテキスト部分は直接編集が可能です。
- をクリックするか Ctrl + S キーを押すと字幕ファイル(srt)で保存できます。
また、画面右端の をクリックして表示されたメニューから「Export」をクリックすると、テキスト または CSV 形式で保存できます。TXT/CSV へエクスポート
バッチ処理を行う
指定したフォルダー内の複数のメディアファイルの文字を起こしを行います。- 画面右端の をクリックして表示されたメニューから「Batch processing」をクリックします。
- 「Batch processing」ウィンドウが表示されるので、「…」をクリックしてフォルダーを指定します。
また、「SRT」をクリックして出力ファイル形式を SRT/TXT/CSV から選択します。<<60>> - 「OK」ボタンをクリックするとバッチ処理を開始します。<<61>>
- バッチ処理が終わるとメディアファイルと同じ場所に選択した形式のファイルが出力されます。
更新履歴
Version 0.9.0.2 (2023/08/30)
- バッチ処理を追加
- 文字起こし処理時のダイアログを追加
Version 0.9.0.1
- モデルデータダウンロード時のダイアログを追加
- モデルデータのダウンロード先を修正
- モデルデータのファイルが存在しないあるいは破損していた場合にクラッシュしていたのを修正
Version 0.9.0.0
- リリース