【YouTube】BGMの音量は字幕認識に影響を与えるのか?実際に調べてみた

皆さん、こんにちは。株式会社火燵です。
今回は、BGMの大きさとYouTube上における字幕の認識率の関係性について解説していきます。

YouTubeの字幕機能とは

皆さんご存じのように、YouTubeには字幕機能があります。チャンネルの管理者が直接字幕を入力できますが、YouTubeでは音声認識AIが動画の音声を自動で認識し、字幕として表示することも可能です。

しかし、たびたび実際に話している言葉と表示が異なるケースに遭遇したことがあるでしょう。これは、YouTubeがその動画を間違った言葉で認識しているのです。これでは、動画SEOにも影響がでてしまいます

このような事態の要因としては、以下の3つが挙げられるでしょう。

  1. 出演者の滑舌
  2. 収録時の周囲の環境
  3. BGM

YouTubeにアップロードする際は、メインの音やBGM関係なく一つの動画として処理されるため、可能性としては考えられます。

そこで今回は、BGMが0の状態から少しずつ音量を大きくしていき、どの時点でYouTubeが正確なナレーションを認識できなくなるのか、検証していきます。

検証方法

検証方法は次の通りです。

  1. プロのナレーターさんが読んだ、認識率100%のナレーション音声ファイルを含む動画を用意します。
  2. BGMの最大のピークが、-12から-30dbまで3刻みに設定した7種類のBGMを用意します。
  3. 認識率100%のナレーション音声ファイルと、BGM音量が-30dbのものから順にミックスさせて、YouTubeに投稿します。
  4. 字幕機能を用いて、BGMなし認識率100%のナレーション動画が、どの段階で100%未満となるかを検証します。

再現性を確保するため、ナレーション音声の最大ピークは-3dbに設定しています。最大値は-3dbであっても、平均的には-6〜-9dBの範囲に収まっています。これは、実際の動画のメイン音声に近いレベルと言えるでしょう。

確認用のBGMがないバージョンのナレーション動画です。当然、100%音声を認識しています。

最後の方の「泣くことに」が「鳴くことに」と認識されています。これは日本語の同音異義語という、文字の音声認識において難しい課題ですね。

検証結果

-30dBの場合

認識率 100%

BGMはややかすかに聞こえる程度で、ナレーションは十分聞こえます。想定通りの認識率でした。

-27, -24, -21dBの場合

認識率 100%

-27dB
-24dB
-21dB

一般的な動画のBGMとしてもありえる音量です。認識率は全て100%でした。

-18dBの場合

認識率 100%

動画のジャンルによっては「大きい」と言われることもある音量です。識字率の結果は100%でした。

-15dBの場合

認識率 97.3%

やや大きめの-15dBです。結果は97.3%と、100%を割ってしまいました。

しかし、この結果から「BGMが字幕に影響を与える音量は-15dB!」とは結論付けられません
認識されなかった字幕の箇所を見ると、YouTube上の処理の問題で字幕として正しく表示されなかった可能性があるためです。

-15dBの動画で正しく認識されなかった箇所は、次の2つです。

○ 正× 誤
面積は1都6県面積1は都6県
四国なら4県がすっぽり収まってしまうほど四国しまうなら4県がすっぽり収まってほど
正しく認識されなかった箇所

これを踏まえて、‐12dbも検証してみます。

-12dBの場合

認識率 100%

認識率は100%でした。これにより「BGMが大きすぎた故に字幕が認識されなかった」という仮説は考えづらくなりました。

-9, -6, -3dBの場合

さらに予定外ではありましたが、念のため-9, -6, -3dBも実験しました。

-9db

認識率 100%

-6db

認識率 100%

-3db

認識率 99.1%

認識率の結果は、-9dbおよび-6dbでは100%、-3dbは99.1%となりました。-9db・-6dbは、場合によってはBGMがナレーションよりも大きい箇所がでてきますし、-3dbはナレーションと同じ音量です。-3dbで認識できなかった箇所は、-15dbと同様に文字の位置が異なるだけで、処理の問題である可能性があります。

まとめ

BGM音量(dB)認識率
-30, -27, -24, -21, -18, -12, -9, -6100%
-399.1%
-1597.3%
検証結果まとめ(認識率が高い順)

これらから、YouTubeにおいて音声ファイルの字幕の認識率はBGMに影響されないという結論に至りました。つまり、動画SEOにBGMの大きさは関係ない、ということです。そのため字幕の認識率を上げるべく、収録時から音声の明瞭さを意識するのが重要だとわかりました。

本題ではありませんが、この結果から、YouTubeにおける字幕認識の処理は、ナレーションとBGMを別のレイヤーで行っていることが推測されるでしょう。
当然ながら、視聴者が聞きやすい音量であることが前提となります。

したがって、YouTube上で正しく動画SEOを機能させるためには、以下のことが重要です。

  • 滑舌よく話す
  • 静かな環境で収録する

視聴者が聞きやすい適度なBGMの音量を設定しましょう。

今回の実験結果は2023年3月時点のものです。YouTubeのアップデート等に伴い、字幕認識の精度は変化する場合があります。

受付時間 平日10:00~17:00(土日祝除く)

東京オフィス
香川オフィス
火燵YouTubeチャンネル
火燵 YouTubeチャンネル登録お願いします!
動画で情報を発信する企業・個人を応援するチャンネルです。
登録すると、YouTube運営に関するあらゆる相談を無料でお答えします。