ホーム API/ツール API 音声合成

音声合成

    音声合成APIは、テキストを受け付け、その入力に対して自然な感じの読み上げをする機能を提供します。

    API
    基本情報

    ■エーアイ

    提供 : REST, SDK(Android™,iOS,Server side JAVA)

    ■HOYA

    提供 : REST

    ■NTTテクノクロス

    提供 : REST

    法人情報登録あり : 利用可[制限なし]

    法人情報登録なし : 利用可[制限あり]

    利用条件 : あり※1

    ※1「ガイドライン(必読)」に記載の利用条件に予め同意していただく必要がございます。

    ご利用いただくためには「アカウント登録(無料)」が必要です。

    リファレンスを参照するAPI機能名を選択してください

    中間言語(AIカナ)


    • 中間言語(AIカナ)形式で記述することができ、韻律記号や制御タグを使うことで音声の読み上げ方を制御することができます。

    リクエストURL

    https://api.apigw.smt.docomo.ne.jp/aiTalk/v1/textToSpeech

    メソッド : POST
    文字コード : UTF-8

    リクエストヘッダ

    キー 必須 説明
    Content-Type 送信データのMIMEタイプは、下記を指定。
    application/x-aitalk-kana : 中間言語(AIカナ)※2
    ※中間言語(AIカナ)の詳細資料については、こちらのお問い合わせから仕様書をご請求ください。
    Accept Content-Typeにapplication/x-aitalk-kanaを指定したとき、下記のいずれかを指定。
    audio/L16
    text/x-jeita-6004-kana : JEITAカナ※3
    Content-Length リクエストボディの長さを指定(単位はbyte)。

    リクエストクエリパラメータ

    キー 必須 説明
    APIKEY APIにアクセスするアプリの認証に利用する。

    リクエストボディ

    キー 必須 説明
    - 音声合成対象のテキストを指定(AIカナ仕様)。
    サンプル値) <S>(VOICE REQUIRED=nozomi_16)|0エ^ーア!イ$1_1サ^ーバー<N><S>(VOICE REQUIRED=seiji_16)|0ハ!ロー<N>

    レスポンスヘッダ

    キー 必須 説明
    Content-Type リクエストヘッダのAcceptで指定したMIMEタイプにより、下記のいずれかを返却。
    audio/L16; rate=16000; channel=1
    text/x-jeita-6004-kana
    transfer-encoding - リクエストヘッダのAcceptで、audio/L16を指定した場合、下記を返却。
    Chunked
    Content-Length - リクエストヘッダのAcceptで、text/x-jeita-6004-kanaを指定した場合、レスポンスボディのサイズを返却。

    レスポンスボディ

    データ データ形式 説明
    音声データ Binary リクエストヘッダのAcceptで、audio/L16を指定した場合に返却。
    音声データのフォーマットは下記の通り。

    【符号化方式】
    リニアPCM
    【チャネル数】
    1(モノラル)
    【サンプル周波数】
    16000
    【ビット深度】
    16bit(ビッグエンディアン)
    JEITAカナ テキスト
    (シフトJIS)
    リクエストヘッダのAcceptで、text/x-jeita-6004-kanaを指定した場合、JEITAカナを返却。

    リクエストサンプル1

    POST https://api.apigw.smt.docomo.ne.jp/aiTalk/v1/textToSpeech?APIKEY=xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
    
    Content-Type: application/x-aitalk-kana
    Accept: audio/L16
    Content-Length: 182
    
    <S>(VOICE REQUIRED=nozomi_16)|0ノ^ゾミデ!ス<F><S>オ^ハヨーゴザイマ!ス<F><S>(SILENCE MSEC=1000)<F><S>(VOICE REQUIRED=seiji_16)|0セ!イジデス<F><S>コ^ンニチワ<F>
    

    レスポンスサンプル1

    HTTP/1.1 200 OK
    Content-Type: audio/L16; rate=16000; chammel=1
    transfer-encoding:chunked
    
    音声データ(Binary)
    

    リクエストサンプル2

    POST https://api.apigw.smt.docomo.ne.jp/aiTalk/v1/textToSpeech?APIKEY=xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
    
    Content-Type: application/x-aitalk-kana
    Accept: text/x-jeita-6004-kana
    Content-Length: 182
    
    <S>(VOICE REQUIRED=nozomi_16)|0ノ^ゾミデ!ス<F><S>オ^ハヨーゴザイマ!ス<F><S>(SILENCE MSEC=1000)<F><S>(VOICE REQUIRED=seiji_16)|0セ!イジデス<F><S>コ^ンニチワ<F>
    

    レスポンスサンプル2

    HTTP/1.1 200 OK
    Content-Length: 40
    Content-Type: text/x-jeita-6004-kana
    
     ノゾミデ'ス。オハヨーゴザイマ'ス。。 セ'イジデス。コンニチワ。
    

    (※2)中間言語(AIカナ) : カタカナで「読み」、「韻律記号」(アクセント、ポ ーズ位置、ポーズ長など)、「制御タグ」(音声辞書、音量、話速、ポーズなど)を指定できる株式会社エーアイの独自規格。

    (※3)JEITAカナ : 社団法人電子情報技術産業協会のITS車載器用音声合成記号JEITA TT-6004規格準拠。

    よくあるご質問
    APIなどの各サービスに関するよくある質問を掲載します。
    お問い合わせ
    「docomo Developer support」及び「作ろうスマートフォン/iモードコンテンツ」に関するお問い合わせです。よくあるご質問や技術ブログで解決しない場合は、お問い合わせください。