ホーム API/ツール API 音声認識

音声認識

    音声認識APIは、端末等で入力、収集した音声のデータをテキスト化するAPIです。

    API
    基本情報

    ■音声認識【Powered by NTTテクノクロス】

    提供 : Android™、iOS

    ■音声認識【Powered by アドバンスト・メディア】

    提供 : REST

    審査 : アプリ審査

    利用条件 : あり ※1

    ※1「ガイドライン(必読)」に記載の利用条件に予め同意していただく必要がございます。

    ご利用いただくためには「アカウント登録(無料)」が必要です。
    音声認識【Powered by アドバンスト・メディア】

    音声データを解析し文字列を返却します。

    テクニカルガイドライン

    リクエストURL

    https://api.apigw.smt.docomo.ne.jp/amiVoice/v1/recognize

    メソッド : POST
    文字コード : UTF-8

    リクエストヘッダ

    キー 必須 説明
    Content-Type 送信データのMIMEタイプは、下記を指定。
    multipart/form-data; boundary=<バウンダリ文字列>\r\n

    リクエストクエリパラメータ

    キー 必須 説明
    APIKEY APIにアクセスするアプリの認証に利用する

    リクエストパラメータ

    キー 必須 説明
    a

    音声のバイナリデータ。10秒を超える音声データは途中で打ち切られます。

    音声データのフォーマット:PCM(MSB)16khz/16bit

    サンプルの音声データはこちらからダウンロードできます。

    v - 発話区間検出処理。"on"を指定すると、音声データの無音部分を無視して音声認識処理を行います。

    レスポンスヘッダ

    キー 必須 説明
    Content-Type 受信データのMIMEタイプは、下記を返却。
    application/json

    レスポンスボディ(JSON形式)

    キー 必須 説明
    utteranceid サーバーが発行する発話ID
    text 音声認識結果文字列
    code コード一覧 を参照
    message エラー発生時の内容
    results 音声認識結果の配列
    confidence  信頼度(0~1の値。 0:信頼度低, 1:信頼度高)
    starttime  発話開始時間
    endtime  発話終了時間
    tags  未使用
    rulename  音声認識辞書名
    tokens  認識結果テキストの形態素の配列
    written  形態素解析結果の表記
    spoken  形態素解析結果のよみ
    confidence  形態素解析結果の信頼度
    starttime  形態素解析結果の開始時間
    endtime  形態素解析結果の終了時間

    リクエストサンプル

    POST https://api.apigw.smt.docomo.ne.jp/amiVoice/v1/recognize?APIKEY=xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
    Content-Type: multipart/form-data; boundary=<バウンダリ文字列>
    --<バウンダリ文字列>
    Content-Disposition: form-data; name="v"
    
    on
    --<バウンダリ文字列>
    Content-Disposition: form-data; name="a"; filename="sample.adc"
    Content-Type: application/octet-stream
    
    音声データ(binary)
    --<バウンダリ文字列>--

    レスポンスサンプル

    Content-Type: application/json;charset=UTF-8
    {
    "results": [
        {
            "tokens": [
                {
                    "written": "音声",
                    "confidence": 0.87,
                    "starttime": 110,
                    "endtime": 500,
                    "spoken": "おんせー"
                },
                {
                    "written": "認識",
                    "confidence": 0.86,
                    "starttime": 500,
                    "endtime": 880,
                    "spoken": "にんしき"
                },
                {
                    "written": "です",
                    "confidence": 0.74,
                    "starttime": 880,
                    "endtime": 1100,
                    "spoken": "です"
                },
                {
                    "written": "と",
                    "confidence": 0.74,
                    "starttime": 1100,
                    "endtime": 1280,
                    "spoken": "と"
                }
            ],
            "confidence": 0.899,
            "starttime": 0,
            "endtime": 1690,
            "tags": [],
            "rulename": "",
            "text": "音声認識ですと"
        }
    ],
    "utteranceid": "20150731/1788752144-JvYOG9I",
    "text": "音声認識ですと",
    "code": "",
    "message": ""
    }

    コード一覧

    Code 説明
    値無し 正常終了
    -1 認証に失敗
    -2 必須パラメータがない
    -3 音声データがない
    -4 音声認識サーバー側でエラーが発生
    -5 無効なデータが指定された
    1 利用回数制限を超えている
    2 利用秒数制限を超えている
    o

    サーバーエラー: 認識結果全体の信頼度が信頼度閾値を下回ったため認識に失敗

    b

    サーバーエラー: 音声認識サーバが混んでいるため認識に失敗

    c

    サーバーエラー: 認識処理中断要求がなされたために認識に失敗

    その他文字列

    サーバーエラー

    よくあるご質問
    APIなどの各サービスに関するよくある質問を掲載します。
    お問い合わせ
    「docomo Developer support」及び「作ろうスマートフォン/iモードコンテンツ」に関するお問い合わせです。よくあるご質問や技術ブログで解決しない場合は、お問い合わせください。