皆さんこんにちは。株式会社火燵です。 本日は、動画編集でも大活躍する音声合成サービスAWSで利用できるウェブサービス、Amazon Pollyについてご紹介します。Amazon Pollyは、テキストを自然な音声ファイルに変換してくれるサービスで、ボイスアシスタントやウェブアプリ、スマートフォンアプリなど様々な場面で利用されているのが特徴です。
Amazon Pollyとは?
Amazon Pollyの強みは、Amazonの高度な音声処理技術が組み込まれているため、精度の高い合成音声を実現できる点にあります。さらに、ニューラルエンジン(Neural Engine)を使うと、機械的なロボット音声ではなく、人間らしい自然な発声に近づけられるのが大きな魅力です。実は、この動画やブログでも一部、Amazon Pollyのニューラル音声を使用して作成しています。
Amazon Pollyの料金
料金体系(2025年1月現在)
日本語のニューラル音声は12か月間、月間100万文字まで無料(年間1,200万文字)
100万文字あたり16ドルほど
最新の料金は、AWAのAmazon Polly料金ページをご確認ください。
Amazon Pollyはコストパフォーマンスが非常に良いという特徴があります。まず、新規ユーザー向けには12か月間の無料枠があり、対象期間中は月間100万文字まで、日本語のニューラル音声も無料で利用できます。年間に換算すると合計1,200万文字分が実質無料となりますので、まずは気軽に試してみることが可能です。
無料枠を超過した場合でも、100万文字あたり16ドル程度というリーズナブルな料金が設定されています。詳しい料金は、AWSのAmazon Polly料金ページを確認してみてください。利用頻度や用途に応じて、非常に柔軟にコストをコントロールしやすいのがAmazon Pollyの魅力の一つです。
Amazon Pollyの画面解説
- 日本語を使う場合、画面上部に表示される「生成」「ロングフォーム」は使えません。
- 日本語の場合は、「Standard」と「Neural」の2種類から選択可能。
- 「Standard」はやや不自然な発音があるため、「Neural」をおすすめします。
日本語を選びましょう。
- 複数の日本語音声オプションから選択可能。
- 用途に応じて声質を選び、テキストを編集します。
「入力テキスト」の欄に、読み上げたい日本語テキストを入力すると音声が生成されます。
画面右上の「音声を聞く」ボタンで生成音声を確認できます。
「ダウンロード」ボタンで、生成された音声ファイルをPCに保存できます。
AWS利用者は、Amazon S3(エススリー)というクラウドストレージに直接保存することも可能です。
Amazon Pollyを触ってみる
実際にテキストを入力して、どのような音声が生成されるか試してみるのが一番早い方法です。たとえば「こんにちは、チャットGPTです」と入力すると、すぐに音声ファイルが生成されます。
- まずは短い文章で試す
- Neuralエンジンを選んで自然な発声を確認
- 誤った読み方が発生した場合は、後述のレキシコンやSSMLで調整
PLSファイルの編集、発音を調整
Amazon Pollyが誤った発音をする場合は、PLSファイルを利用して単語の読み方を修正します。PLSファイルでは、「文字(grapheme)」と「読み方(alias)」の対応を指定し、固有名詞や英語表記の単語なども思い通りに読ませることが可能です。
編集例
「ChatGPT」→「チャットジーピーティー」と読ませたい場合
<grapheme>ChatGPT</grapheme>
<alias>チャットジーピーティー</alias>
Amazon Pollyの専門用語も確認
Amazon Pollyを利用すると、「レキシコン」「PLSファイル」「SSMLファイル」など、いくつかの専門用語に触れることになります。
単語の発音定義の集合
発音定義に特化したファイル形式(文字と読み方の対応表)
PLSの機能+発話スピードや音量などの拡張設定も可能
今回の動画では、単純な発音修正のために主にPLSファイルを使っています。
レキシコンをアップロード方法
レキシコン(PLSファイル)をAmazon Pollyに反映させるには、画面下部の「その他の設定」で「発音のカスタマイズ」をチェックし、「レキシコンをアップロード」を選択します。アップロード後は「レキシコンを適用」から、ファイルを指定して有効にしましょう。
音声ファイルの書き出し設定
音声ファイルを保存する際には、サンプルレートとファイル形式を指定することになります。
24,000Hzを選べば、多くのシーンで十分高品質な音声が得られます。音質をさらに重視したい場合はPCM形式にしてみましょう。
- サンプルレート:24,000Hz
- ファイル形式:PCM(音質重視)
SSMLでの音声パラメータの調整
SSML(Speech Synthesis Markup Language)を使えば、読み上げ速度、イントネーション、間の取り方などを細かくコントロールすることができます。Amazon Pollyのコンソール上で「SSMLを有効にする」をオンにすると、テキスト中にSSMLタグを記述できるようになります。
- 話す速度を調整(例:
<prosody rate="slow">
) - 休止や間を挿入(例:
<break time="500ms">
) - ピッチや音量の調整
日本語では未対応のタグもあるため、試聴しながら確認してみてください。
SSML作成専用カスタムGPTを使用する
初めてSSMLを書く方にとっては、どのタグをどう使うか戸惑うこともあるでしょう。そこで当社では、SSMLのコードを自動生成してくれるカスタムGPTを用意しており、たとえば「この文をゆっくり読み上げるSSMLを作って」と指示するだけでサンプルコードを提示してくれます。
- タグの学習コストを削減
- コードをコピペするだけで試せる
- スピーディーに合成音声をカスタマイズ可能
まとめ
以上、Amazon Pollyの基本的な使い方と、PLSファイルやSSMLを活用した音声のカスタマイズ方法をご紹介しました。リーズナブルな価格と自然な発声が両立されているので、動画ナレーションや音声コンテンツ制作にとてもおすすめです。
- 激安のNeuralエンジンでより自然な音声を得る
- 火燵のレキシコン(PLS)テンプレートを使って固有名詞の発音を修正
- カスタムGPTを使い、SSMLを自動作成。速度や間などをカスタマイズ
もしこの動画や記事がお役に立ちましたら、ぜひ高評価やチャンネル登録をお願いいたします。Amazon Pollyを使いこなして、さまざまなシーンでの音声生成を楽しんでみてください。