IBMのCEOジニ・ロメッティ氏。同社は誤認識率を1.5%近く下げるために、様々な音声に対応できるよう微調整を行った。
Reuters
音声認識ソフトウェアの世界では、「5.1%」は特別な意味を持つ数字だ。
誤認識率が5%程度の音声認識ソフトウェアは、ほぼ人間の能力に匹敵すると言える。というのも、人間は会話の中の約5%を誤って聞き取っているからだ。
3月7日(現地時間)、IBMは誤認識率5.5%を達成したと発表した。Siri、Alexa、Google Assistantなどの音声アシスタントに組み込まれている人工知能(AI)にとって、大きな前進だ。
「人間の言語、特に自然な会話で話される言語は非常に複雑です」。コロンビア大学コンピュータ・サイエンス学科のジュリア・ヒルシュベルグ(Julia Hirschberg)教授は述べる。
昨年1年間でIBMは、前回の6.9%という記録を破るために開発を重ねてきた。誤認識率を1.5%近く下げるために、様々な音声に対応できるよう微調整を行った。
ヒルシュベルグ教授など専門家たちは、(音声認識ソフトウェアは)人間の口調や言葉のニュアンスを正確に認識するまでには至っていないとする。しかし、話した内容を機械的に文字にする「文字起こし」の点ではかなりの進歩を見せたという。
音声認識の成果は、特にヒューマンエラーが許されない分野において重要だとIBMは言う。
「多くのIT企業が我々と同様、この課題に取り組んでいる。先日5.9%を達成し、人間と同レベルの音声認識能力を達成したと主張した企業もあった」と、IBMの研究者ジョージ・サオン(George Saon)氏は述べた。
2016年、マイクロソフトの研究者は、会話の認識において人間に勝るコンピュータを開発したと発表した。ただし、同社の誤認識率は6.3%だ。
IBMは5.1%をゴールに設定している。「祝杯をあげるにはまだ早い」とサオン氏は言う。
[原文:IBM speech recognition is on the verge of super-human accuracy]
(翻訳:Wizr)