音声を認識して自動で文字越こしを行うフリーソフト

KoeMill のアイコン

KoeMill

ダウンロード

バージョン
0.9.0.2
更新日
2023/08/30
対応 OS
Windows 10 以降 (64bit)
言語
※ 現在、日本語または英語のみを表示しています。
日本語
価格
無料
提供元

動画や音声ファイルから音声を認識して、自動で文字起こしを行うソフトです。
音声認識モデルに文字起こし AI である Whisper を採用し、GPU を利用することで高速な動作を実現しています。
文字越こしされたデータは、字幕ファイル(SRT) / テキスト / CSV で保存可能です。

KoeMill の使い方

ダウンロード と インストール

  1. 提供元サイトのダウンロードページへアクセスし、「Download」ボタンをクリックしてダウンロードします。
  2. ダウンロードした圧縮ファイル(KoeMill.7z)を解凍し、KoeMill_Launcher.exe から起動します。
    ※ 本ソフトはインストール不要で利用できます。

使い方

基本的な使い方

  1. 本ソフトを起動するとメイン画面が表示されます。
    KoeMill - メイン画面

    KoeMill - メイン画面

  2. Language をクリックして認識させたい言語を選択します。
    ※ ここでは「日本語」を選択します。
    認識させたい言語を選択

    認識させたい言語を選択

  3. Model をクリックして任意のモデル(Tiny / Base / Small / Medium / Large)を選択してダウンロードします。
    ※ Tiny から Large になるにつれて精度が向上して処理時間が長くなります。認識する音声にもよりますが、精度とモデルサイズを考えると Small または Medium が推奨されています。
    ※ ここでは「Small」を選択します。
    モデルを選択

    モデルを選択

  4. 「Download model(モデルのダウンロード)」ウィンドウが表示されるので「Download」ボタンをクリックします。
    ※ 初めて使用するモデルの場合はダウンロードが必要になります。
    初めて利用するモデルの場合はダウンロードが必要

    初めて利用するモデルの場合はダウンロードが必要

    モデルのダウンロード中

    モデルのダウンロード中

  5. 画面右の Eject をクリックして文字起こししたいメディアファイルを選択します。
    ※ 対応フォーマット: wav, mp3, m4a, wma, avi, mp4, m4v, wmv
    ※ ここでは sample-female.mp3 というファイルを読み込みます。
  6. 画面中央の 再生 をクリックすると、選択したメディアファイルの音声を再生できます。
  7. 次に KoeMill をクリックして音声認識を開始します。
    音声認識 - 文字起こし中

    音声認識 - 文字起こし中

  8. 音声認識が終わると、画面下部にタイムラインとテキストが表示されます。
    認識したテキストとタイムラインが画面下部に表示される

    認識したテキストとタイムラインが画面下部に表示される


    • 時間部分やテキスト部分は直接編集が可能です。
      気になる変換や誤った内容があればすぐに修正・編集できます。
    • 右クリックメニューから行の追加・削除も可能です。
    時間やテキストは直接編集できるほか、行の追加や削除も可能

    時間やテキストは直接編集できるほか、行の追加や削除も可能

  9. Save をクリックするか Ctrl + S キーを押すと字幕ファイル(srt)で保存できます。
    また、画面右端の もっと見る をクリックして表示されたメニューから「Export」をクリックすると、テキスト または CSV 形式で保存できます。
    TXT/CSV へエクスポート

    TXT/CSV へエクスポート


バッチ処理を行う

指定したフォルダー内の複数のメディアファイルの文字を起こしを行います。
  1. 画面右端の もっと見る をクリックして表示されたメニューから「Batch processing」をクリックします。
  2. 「Batch processing」ウィンドウが表示されるので、「…」をクリックしてフォルダーを指定します。
    また、「SRT」をクリックして出力ファイル形式を SRT/TXT/CSV から選択します。<<60>>
  3. 「OK」ボタンをクリックするとバッチ処理を開始します。<<61>>
  4. バッチ処理が終わるとメディアファイルと同じ場所に選択した形式のファイルが出力されます。

更新履歴

Version 0.9.0.2
(2023/08/30)
  • バッチ処理を追加
  • 文字起こし処理時のダイアログを追加

Version 0.9.0.1
  • モデルデータダウンロード時のダイアログを追加
  • モデルデータのダウンロード先を修正
  • モデルデータのファイルが存在しないあるいは破損していた場合にクラッシュしていたのを修正

Version 0.9.0.0
  • リリース

ユーザーレビュー

  • コメント

    開発者のメカ馬です

    MechaUma
    MechaUma
    1
    -

    開発者のメカ馬です

    いくつか情報を整理させていただきます。
    ◯ アーカイバについて
    アーカイバによる相性があるようでファイルが解凍できない報告を受けています。
    kirigiri.kyokoさんが報告してくださった「7-Zip」や「CubeICE」では解凍できることを確認出来ています。
    ◯ 起動時クラッシュについて
    一部の環境では起動時にクラッシュする報告を受けています。
    ・ランタイムは同梱されていること
    ・エラーログが残らないこと
    から原因は特定できておりません。申し訳ありません。
    ◯ 動作スペックについて
    ドキュメント上はIntel Ivy Bridge以降が対象ですが、GPUを使う特性上グラフィックボードなしのオンボードグラフィックだと時間がかかります。オンボード(Intel UHD Graphics 620)でも動作することは確認できていますがあまり現実的ではありません。
    ◯ 解析時のクラッシュについて
    数秒程度の短いファイルだとクラッシュすることがあるようです。
    それ以外にもあるかもしれませんがいずれにしても原因の特定は出来ておりません。

    8人が参考になったと回答しています。
    このレビューは参考になりましたか?
  • コメント

    当該ソフトが正常に動作するPCスペックを教えてほしいです

    セロリパセリ
    セロリパセリ
    5
    Windows 10

    当該ソフトが正常に動作するPCスペックを教えてほしいです。

    2023年12月17日にリリースされたV.0.9.0.3を使ってみました。結果全く動作しませんでした。
    TinyからMediumまでダウンロードし実行してみましたが、全てソフトが強制終了してしまいます。
    低スペックPCでは動作せず高スペックPC限定のソフトという事ですか?であれば推奨スペックを明記してほしいです。

    1人が参考になったと回答しています。
    このレビューは参考になりましたか?
  • 4

    男女複数人の会議音声に使いましたが、ボソボソした喋りも拾っていて、…

    shima
    shima
    1
    Windows 10

    男女複数人の会議音声に使いましたが、ボソボソした喋りも拾っていて、思ったよりも文字が起こせていると思いました。
    もちろん修正必須ですが、一から手動で文字起こしするより断然時短になります。
    有料アプリの精度がどのくらいか分からないので比較できませんが、無料で制限なくここまでできるのは有難いです。

    7人が参考になったと回答しています。
    このレビューは参考になりましたか?