あなたが何を言っているのか、マイクロソフトは(恐らく)わかっている。
Theo Wargo/Getty Images
マイクロソフトの音声認識が、重要なマイルストーンに達した。
同社のテクニカルフェローXuedong Huang氏によると、マイクロソフトの音声認識システムの誤認識率(エラーレート)がついに5.1%となった。これは人間が同様の書き起こし作業を行った場合と同じ数字だ。
誤認識率をめぐっては当初、人間のエラーレートは5.9%とされており、マイクロソフトは昨年、この数字を達成していた。ところがその後、別の研究によって、人間の誤認識率は5.1%であるとの結果が出されていた。
マイクロソフトは、この数字に並んだ。「ニューラルネットベースの音響・言語モデル」といったAI(人工知能)技術を使って、誤認識率を12%下げることに成功したのだ。そして5.1%を達成したもう1つのイノベーションとして挙げられるのが、人間同様、スピーチの文脈を考慮に入れ、うまく聞き取れなかった言葉の意味を推測する能力だ。
例えば、「that's not fair(ザッツ・ノット・フェア:フェアでない)」と言ったのか、「that's not fur(ザッツ・ノット・ファー:毛皮ではない)」と言ったのか、音声だけではわかりづらいことがある。こうした発音の曖昧さが、エラーの原因になってきた。だが、進化した音声認識技術は、文脈を考慮に入れることで、ヒントを探し出す。ギャンブルのリスクについて話しているなら、「that's not fair」と発された可能性が高く、衣服の生地について話しているなら、「that's not fur」だった可能性が高いと考えられる。
Huang氏は同じブログ記事で、「過去25年間、人間と同等の正確さを実現することが研究目標だった」と綴っている。だが、技術の実用化に向け、乗り越えなければならないハードルはまだ残っている。「マイクから離れた、さまざまなノイズのある環境における精度の向上や、訛りの理解、システム学習用のデータが限られている話し方や言語への対応」もこれに含まれる。
つまり、マイクロソフトの技術は素晴らしいものだが、現実世界の全ての状況において人間と同等の能力を発揮できるレベルには至っていないということだ。
同氏は言う。「やるべきことは、まだまだある。口頭から発せられた言葉を書き起こすだけでなく、その意味やその意図を理解できるよう、コンピューターに教えなければならない。音声認識技術の主要領域は、音声の認識から理解へと移っている」
マイクロソフトの最新の株価はこちら。
[原文:Microsoft's AI is getting crazily good at speech recognition]
(翻訳:まいるす・ゑびす)