驚異の音声認識ソフトOtterで英語ニュースのスクリプトを作る

  • このエントリーをはてなブックマークに追加
  • Pocket
  • LINEで送る

mp3など音声ファイルもテキスト化できる

スマホアプリOtterの音声認識精度が素晴らしい、という記事を見て、早速インストールしてみました。

このアプリはPCでも使えるのですが、Google音声認識は(わたしが知る限り)マイクからの音声にのみ対応しているのに対し、このOttermp3などの音声ファイルのテキスト化にも対応しています

以前、PC上でマイクに英語ニュースを聴かせ、グーグルの音声認識でテキスト化を試みたことがあったのですが、何度やっても音声認識を開始してから1分かそこらで認識を停止してしまう上に認識精度も今ひとつでした。

今回はBBCニュースのポッドキャスト音声(mp3)をダウンロードし、PC版Otterでテキスト化してみました。

使用した音声ファイルはこれです。

テキスト化の操作

PC版はオンラインソフトですのでプログラムをインストールする必要はありません。
サイトを開いてログインし、画面の Import audio/video ボタンをクリック。

音声認識ソフトOtter

テキスト化したい音声ファイルをドラッグ&ドロップするか、 Browse files ボタンをクリックして選択します。

音声認識ソフトOtter

10秒くらいでファイルのインポートが完了するので、 Done ボタンをクリックします。

音声認識ソフトOtter

すると下記の画面に切り替わり、テキスト化開始。画面に表示されている In Processing … の表示が消えるまで待ちます。(今回テキスト化した27分の英語ニュースで15分ほどかかりました)

音声認識ソフトOtter

完了したら、ファイル名をクリックします。

音声認識ソフトOtter

▷ボタンをクリックするとオリジナルの音声が流れ、かつテキストの聞こえている場所が青色にハイライトされます。(これはとても便利)
Edit ボタンを押すと、編集モードに切り替わります。

音声認識ソフトOtter

こちらが編集モードで、テキストの修正などができます。
編集が完了したら、Done ボタンを押します。

音声認識ソフトOtter

今回のテキスト化でつづりが間違っていたフランスとブラジルの大統領の名前を修正してみましたが、さすがに「一箇所直したらほかも自動で修正される」ことはありませんでした。

音声認識の精度

Otterが作ったテキストを音声ファイルと比べてみたのですが、まさに驚異的と言って差し支えない認識精度です。Google音声認識で日本語を認識させる場合、かなり意識してはっきり発音しなければなりませんし、英語となるとわたしのひどい発音では音声認識も容易では有りません。しかし、Otterの場合はちょっと口ごもったり早口になったり、そして話者が入れ替わったりしても認識精度にほとんど影響がありません。そして文脈の認識もしっかり行われているようで相当に不明瞭な発音以外はきっちり認識しています。

ただし、海外の人名や地名などは単語として登録されていないようで、うまく認識できません。また、それに引きづられて固有名詞の前後で認識が乱れることがあります。

Otterが作り出したテキストをチェック

今回テキスト化したBBCニュースのトップ、フランスのマクロン大統領とブラジルのボルソナロ大統領がアマゾンの火災への対応を巡って喧嘩をした、というニュースのテキストを下記に示します。

ご覧の通り致命的に認識できていないのはフランスとブラジルの大統領の名前のみで、ほかはほぼ完璧の出来栄えです。

 取り消し線=音声認識が正しくなかった部分
 太字=取り消し線部分の訂正、もしくは抜けている単語の追加
イタリック体=外国語なので正しく認識できていない

Hello, this is the global news podcast from the BBC World Service with reports and analysis from across the world. The latest news seven days a week, BBC World Service podcasts are supported by advertising.

This is the global news podcast from the BBC World Service. Hello, I’m Emilio San Pedro. And in the early hours of Wednesday, the 28th of August. These are our main stories. The Brazilian President JE or both so nado Jair Bolsonaro escalates his dispute with the French president, over the fires raging in the Amazon nano dam was not a quantity as such, we have nothing against the g7. On the contrary, when against one president of the g7

we know what he’s insinuating.

The women who’ve abused the late American financier Jeffrey Epstein of abusing them sexually have their day in court. Also in this podcast, how insects could be the future of pet food. As long as they’re treated humanely

They are taken into a cool environment, they start to feel a little bit sleepy. Then in a fraction of a second they are turned into insect flower

and the radio station broadcasting on two wheels in South Sudan. The fires in the Amazon are raging on and now there’s the political route between Brazilian President JE or both so nado Jair Bolsonaro and his French counterpart, and when when McCrone Emmanuel Macron which could have a negative effect on efforts to put them out. President both so nado Bolsonaro said Brazil would only accept $20 million in aid from the g7 to fight the fires. When President McCrone Macron apologize for insulting him. Here’s what Mr. bozo nado Bolsonaro said at a meeting with regional leaders. nano damn was not a quarter second quarter

own president we have nothing against the g7. On the contrary, were we’re against one president of the g7 we know what he’s insinuating. What is the his intention and why. And there’s no doubt about that.

Regardless, Sandra from the BC BBC Brazil is covering the story. So why is the Brazilian President so angry? It seems to be a personal matter between both presidents present Bizarro Bolsonaro has shown signs of saying president my Chrome Macron as someone who threats the President’s sovereignty, the idea of the Amazon as a common land or as an everyone’s space irritates a lot president Boston area Bolsonaro and this is how he has been interpreting president macro Macron statements about the Amazon. This is a new diplomatic problem for Brazil because as we know President boss Mario Bolsonaro has made has made very harsh comments towards president macro Macron his he has mentioned the First Lady and we know he’s endorsing very sexist comments about the First Lady. So yes, the situation now is very personal. We expected today he had a very long meeting with his cabinet a lot, a lot of different governors. We expected to hear a lot on the efforts to control the fires. But mainly we heard about what he sees as a NGO lobby or a foreign lobby as a threat for the Amazon. And my Chrome Macron was pressing President my Chrome Macron was mentioned four different times during the day,

ソフトの利用料金

マイクでの集音と音声ファイルの合計で、テキスト化したソースの長さ(再生時間)が合計600分/月までは無料、プレミアム版ですと月1,090円で6000分/月まで使えるようになります。(機能を考えたらむちゃくちゃ安いです)

まとめ

  • Otterに聞き取らせると、TOEIC900点レベルの聞き取り、テキスト化が可能であり、英語学習にも活用可能
  • 固有名詞の聞き取りに難があるが、それ以外は文脈も含めてほぼ完璧
  • 現在位置がハイライトされたテキストを見ながら音声を聞くことができるので、内容の確認も容易

以上、読んでくださり、ありがとうございます。

  • このエントリーをはてなブックマークに追加
  • Pocket
  • LINEで送る

SNSでもご購読できます。

コメント

  1. 澁谷純一 より:

    ご説明に従いMP4、MP3,WAVファイルをインポートしてやってみました。ご説明のとおり英語のテキスト変換は、十分使えると思われました。VisualSubSyncなどのアプリケーションにて編集し、電子会議議事録の作成などもできました。英語での学習にも十分使えています。リモートコントロールでの、英語教室にて活用してみます。遠隔の生徒はiPad端末を使っています。iOS、Androidどちらでも使えています。その他の応用も是非教えてください。日本語への自動翻訳などです。日本語が使えるようになれば、もっと普及すると思われます。2020年末でしょうか?

    1. jt1962 より:

      澁谷様
      コメントありがとうございます。
      ネットを見ると、ドコモと組んで日本語翻訳にも対応するという記事がありますね。
      otterの素晴らしい聞き取り能力を利用すれば翻訳の精度もアップしそうです。

      ご覧いただいた記事では固有名詞で聞き取りが乱れるという問題がありましたが、有料版のOtter Premiumですと単語の登録ができるようです。(Premiumは試していませんが)

  2. 澁谷純一 より:

    早速の返信に感謝申し上げます。Otterの有料版を使うと、単語登録が可能とは知りませんでした。発話者の識別機能もあるとのことで、会議議事録作成に応用したいと考えております。やはり実際にやってみないと、ユーザーにご提案する事は出来ません。ダイナミックマイクをオーディオインターフイスに接続します。オーディオインターフェイスとPCは、USBケーブルで接続しています。Android、iOSデバイスをUSBケーブルと接続し、音声をPCに入力してみました。複数のダイナミックマイクからの、英語での発話をテキスト変換しています。どうやって発話者名を識別させて、テキストの前に表示させるかです。まだまだ課題は在りますが、少しずつ確実に進めていきたいと考えています。

    1. jt1962 より:

      澁谷様
      コメントありがとうございます。
      話者の識別については、下記のリンク先(スターターガイドのSpeaker Identification)に方法が記載されています。これが個々のトランスクリプトへの話者名表示に繋げられるのかは確認できませんでした。

      ご存知でしたらごめんなさい。

      1. 澁谷純一 より:

        ご教授頂いた内容をまずは理解してみます。そのうえで指向さこ後しながら、やってみます。有難うございました。先ほどはオーディオインターフェイスをスマートデバイスに接続と覆いましたが、直接PCオーディオインターフェイスからのUSBケーブルをPCのUSBポートに接続し、Windowsのサウンド録音設定すれば、こちらでもレコーディングできました。PCのほうがメモリーが十分ありますので、処理が速いと思われます。

        1. jt1962 より:

          澁谷様
          コメントありがとうございます。また新しい情報があれば教えて下さい。

          1. 澁谷純一 より:

            了解しました。こちらは零細企業です。J&Tシステムコンサルティング株式会社
            さいたま市緑区三室1494-5 NECの研究開発者でした。

  3. 澁谷純一 より:

    <3月①開催>はじめてIT活用セミナー 2020年3月4日に申し込みしてみました。
    会員ではありませんが、是非参加させてください。

  4. 澁谷純一 より:

    2020年3月4日(水)ICT活用セミナーに申し込みしてみました。[申込番号]000000006

  5. 澁谷純一 より:

    https://kitacchi869.com/17559.html Brew Japanのアプリケーションに、Brewがあります。実際のアプリケーション開発は、韓国で行われています。LINEの開発に携わった人たちが集まっていました。Brewで動画(MP4)を読み込むと、AIが動画音声を分析して自動でテキストのスクリプトを作り出します。iOS、PCで使えます。英語などの字幕挿入で使っています。Otterと同じような活用方法ができています。韓国人がやっていますので、日本語は少し可笑しなところも見られます。日本には情勢が1名滞在していました。澁谷はNEC田町の会議室で面談しました。日本語、英語、韓国語、スペイン語が使えます。

    1. jt1962 より:

      澁谷様
      コメントありがとうございます。
      Vrewというソフト(BではなくVでした。)は面白そうです。ユーチューバーの方にとっては字幕が自動で入って無音も自動カットカットしてくれるというのはすごく便利そうですね。
      Googleの日本語認識が使われているとの記載がありましたが、、代わりににOtterの音声認識を組み合わせれば最強かと。
      わたしはユーチューバーではないので今すぐ使う、というわけではありませんが、こういうのは知っていていざというときに使えるのが大切。
      情報ありがとうございます。

  6. 澁谷純一 より:

    本日浦和のパルコにて、英語の勉強会がありました。10時から12時までの2時間でした。7名の参加でした。その席でOtterの説明をしてみました。英語の専門家の集まりですので、英語には興味を示しますが、Otterアプリケーションには、関心を示しませんでした。難しい文献を紐解いて、自分で英文に翻訳するような事が得意な参加者です。空振りに終わりました。

    1. jt1962 より:

      仕事ではなく趣味で英語をやっている方々でしょうか。
      英語をいじるのを仕事にしていると、Otterを使って生産性を上げよう、もしくは仕事の幅を広げよう、などと考えてしまいそうですが。

      1. 澁谷純一 より:

        おはようございます。毎日が日曜日の方ばかりで、英語の翻訳にしか興味を持てない人達です。仕事の幅を広げようとは、一切かかわりたくない人達です。そのなかの1名からは、アプリケーションとコンピュータに関しては、一切興味がないので何も話をしないで欲しいとのことでした。メールも送らないようにとの指摘でした。その他の人たちからも、コンピュータに関してはまったく興味ないので、余計な事は話さないようにとの指摘を受けています。そろそろ退会するつもりです。

        1. jt1962 より:

          多分、コンピュータを使ったことがない方々なのでしょう。
          わたしも会社で使っていなかったら今でも使えていないかも。

  7. 澁谷純一 より:

    現在検討している、Googleドキュメントの活用方法です。まだまだ具体化に向けた技術検討が残されています。インターネット接続は、Zoomミーティングをつかわせていただくことを前提にしています。
    今回新規でのGoogleドキュメントの運用操作要件定義
    ① 音声入力は、スマートフォン側から行うこと。
    ② PCはWindowsとMacで、スマートフォンはiOS、Androidを基本とします。
    ③ 音声認識エンジンで、テキスト変換されスマートフォンとPCにリアルタイムに表示される事。
    ④ 複数のスマートフォンが使える事。
    ⑤ 発話者識別機能を盛り込むこと。

    ⑥ スマートフォンから同時発話があった場合には、テキスト出力されているカーソル位置に同時発話テキストが挿入されます。タイミングの問題です。

    ⑦ 具体化に向けて検証が必要です。
    ⑧ パソコン側では、送信されたテキストデータへの編集を実施できる事。キーボードでの入力を基本します。主にパソコンは、事務局側で使います。キーボードはスマートフォンからのテキスト受信に左右されずに、制限なして自由に操作できる事。PC側で削除されたテキストは、スマートフォン側でもリアルタイムに削除されます。
    ⑨ PC側ではフットスイッチによる、足踏みコマンド入力活用も検証します。
    ⑩ スマートフォンから入力されるテキストデータとは、まったく関係なく何処でも修正・加筆作業が行える事。

    ⑪ パソコン側は、デュアルモニタディスプレイにてテキストと画像を表示可能であること。
    ⑫ テキストデータへの句読点の入力は、スマートフォン側で行います。パソコン側ではフットスイッチで入力します。

    ⑬ インターネットを介した、ビデオ会議運用に使える事。テキストに加えて、参加者の画像と音声が必要です。招待者へのメール通知から、ビデオ会議に入れること。
    ⑭ テキストデータの保存は、パソコン側で行います。
    ⑮ 会議の終了時には、簡易議事録を印刷し参加者に配布可能です。

    ⑯ 最終的な正式な議事録は、ドラフト版を参考にして事務局で作成します。

コメントを残す

*

CAPTCHA


このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください