音声読み上げソフトで業界最安!AWS初心者の動画編集者向け Amazon Pollyの紹介と使い方

皆さんこんにちは。株式会社火燵です。 本日は、動画編集でも大活躍する音声合成サービスAWSで利用できるウェブサービス、Amazon Pollyについてご紹介します。Amazon Pollyは、テキストを自然な音声ファイルに変換してくれるサービスで、ボイスアシスタントやウェブアプリ、スマートフォンアプリなど様々な場面で利用されているのが特徴です。

Amazon Pollyとは?

Amazon Pollyの強みは、Amazonの高度な音声処理技術が組み込まれているため、精度の高い合成音声を実現できる点にあります。さらに、ニューラルエンジン(Neural Engine)を使うと、機械的なロボット音声ではなく、人間らしい自然な発声に近づけられるのが大きな魅力です。実は、この動画やブログでも一部、Amazon Pollyのニューラル音声を使用して作成しています。

Amazon Pollyの料金

料金体系(2025年1月現在)

無料枠

日本語のニューラル音声は12か月間、月間100万文字まで無料(年間1,200万文字)

無料枠を超えた場合

100万文字あたり16ドルほど

最新の料金は、AWAのAmazon Polly料金ページをご確認ください。

Amazon Pollyはコストパフォーマンスが非常に良いという特徴があります。まず、新規ユーザー向けには12か月間の無料枠があり、対象期間中は月間100万文字まで、日本語のニューラル音声も無料で利用できます。年間に換算すると合計1,200万文字分が実質無料となりますので、まずは気軽に試してみることが可能です。

無料枠を超過した場合でも、100万文字あたり16ドル程度というリーズナブルな料金が設定されています。詳しい料金は、AWSのAmazon Polly料金ページを確認してみてください。利用頻度や用途に応じて、非常に柔軟にコストをコントロールしやすいのがAmazon Pollyの魅力の一つです。

Amazon Pollyの画面解説

Amazon Polly テキスト読み上げ機能
エンジンの選択
  • 日本語を使う場合、画面上部に表示される「生成」「ロングフォーム」は使えません。
  • 日本語の場合は、「Standard」と「Neural」の2種類から選択可能。
  • 「Standard」はやや不自然な発音があるため、「Neural」をおすすめします。
言語の選択

日本語を選びましょう。

音声の選択
  • 複数の日本語音声オプションから選択可能。
  • 用途に応じて声質を選び、テキストを編集します。
テキスト入力

「入力テキスト」の欄に、読み上げたい日本語テキストを入力すると音声が生成されます。

サンプルの再生

画面右上の「音声を聞く」ボタンで生成音声を確認できます。

ダウンロード

「ダウンロード」ボタンで、生成された音声ファイルをPCに保存できます。

クラウドストレージへの保存

AWS利用者は、Amazon S3(エススリー)というクラウドストレージに直接保存することも可能です。

Amazon Pollyを触ってみる

実際にテキストを入力して、どのような音声が生成されるか試してみるのが一番早い方法です。たとえば「こんにちは、チャットGPTです」と入力すると、すぐに音声ファイルが生成されます。

試してみるポイント
  • まずは短い文章で試す
  • Neuralエンジンを選んで自然な発声を確認
  • 誤った読み方が発生した場合は、後述のレキシコンSSMLで調整

PLSファイルの編集、発音を調整

Amazon Pollyが誤った発音をする場合は、PLSファイルを利用して単語の読み方を修正します。PLSファイルでは、「文字(grapheme)」と「読み方(alias)」の対応を指定し、固有名詞や英語表記の単語なども思い通りに読ませることが可能です。

編集例

「ChatGPT」→「チャットジーピーティー」と読ませたい場合

<grapheme>ChatGPT</grapheme>
<alias>チャットジーピーティー</alias>

Amazon Pollyの専門用語も確認

Amazon Pollyを利用すると、「レキシコン」「PLSファイル」「SSMLファイル」など、いくつかの専門用語に触れることになります。

レキシコン(Lexicon)

単語の発音定義の集合

PLSファイル

発音定義に特化したファイル形式(文字と読み方の対応表)

XMLファイル

PLSの機能+発話スピードや音量などの拡張設定も可能

今回の動画では、単純な発音修正のために主にPLSファイルを使っています。

レキシコンをアップロード方法

レキシコン(PLSファイル)をAmazon Pollyに反映させるには、画面下部の「その他の設定」で「発音のカスタマイズ」をチェックし、「レキシコンをアップロード」を選択します。アップロード後は「レキシコンを適用」から、ファイルを指定して有効にしましょう。

「レキシコンをアップロード」ボタンを押す
Amazon Polly その他の設定「レキシコンをアップロード」ボタン
編集済みのPLSファイルを選択
Amazon Polly レキシコンをアップロード「レキシコンファイルを選択」ボタン
わかりやすい名前を付ける
Amazon Polly レキシコンをアップロード 名前を設定してアップロード
「レキシコンを適用」でファイルを選択
Amazon Polly その他の設定 レキシコンを適用

音声ファイルの書き出し設定

音声ファイルを保存する際には、サンプルレートとファイル形式を指定することになります。
24,000Hzを選べば、多くのシーンで十分高品質な音声が得られます。音質をさらに重視したい場合はPCM形式にしてみましょう。

Amazon Polly 音声ファイル おすすめ設定
おすすめ設定
  • サンプルレート:24,000Hz
  • ファイル形式:PCM(音質重視)

SSMLでの音声パラメータの調整

SSML(Speech Synthesis Markup Language)を使えば、読み上げ速度、イントネーション、間の取り方などを細かくコントロールすることができます。Amazon Pollyのコンソール上で「SSMLを有効にする」をオンにすると、テキスト中にSSMLタグを記述できるようになります。

Amazon Polly SSMLの有効化
よく使われるSSML機能
  • 話す速度を調整(例:<prosody rate="slow">
  • 休止や間を挿入(例:<break time="500ms">
  • ピッチや音量の調整

日本語では未対応のタグもあるため、試聴しながら確認してみてください。

SSML作成専用カスタムGPTを使用する

Amazon Polly向け SSMLタグ作成ツール

初めてSSMLを書く方にとっては、どのタグをどう使うか戸惑うこともあるでしょう。そこで当社では、SSMLのコードを自動生成してくれるカスタムGPTを用意しており、たとえば「この文をゆっくり読み上げるSSMLを作って」と指示するだけでサンプルコードを提示してくれます。

カスタムGPTのメリット
  • タグの学習コストを削減
  • コードをコピペするだけで試せる
  • スピーディーに合成音声をカスタマイズ可能

まとめ

以上、Amazon Pollyの基本的な使い方と、PLSファイルやSSMLを活用した音声のカスタマイズ方法をご紹介しました。リーズナブルな価格自然な発声が両立されているので、動画ナレーションや音声コンテンツ制作にとてもおすすめです。

ポイントのおさらい
  1. 激安のNeuralエンジンでより自然な音声を得る
  2. 火燵のレキシコン(PLS)テンプレートを使って固有名詞の発音を修正
  3. カスタムGPTを使い、SSMLを自動作成。速度や間などをカスタマイズ

もしこの動画や記事がお役に立ちましたら、ぜひ高評価やチャンネル登録をお願いいたします。Amazon Pollyを使いこなして、さまざまなシーンでの音声生成を楽しんでみてください。

受付時間 平日10:00~17:00(土日祝除く)

東京オフィス
香川オフィス
火燵YouTubeチャンネル
火燵 YouTubeチャンネル登録お願いします!
動画で情報を発信する企業・個人を応援するチャンネルです。
登録すると、YouTube運営に関するあらゆる相談を無料でお答えします。