Simejiの音声認識をデモ機でテストした様子。口語の言葉もキッチリ認識し、内容に合わせて絵文字も選ばれている。
6月14日、バイドゥはプレス向けに「百度AI技術を活用した新機能提供に関する説明会」を開催。同社のAIについての取り組みとともに、2011年に買収したスマートフォンやPC向けの日本語入力アプリ「Simeji」の機能強化について説明を行った。
検索サービスというと日本ではグーグルやヤフーのイメージが強いが、バイドゥも中国発の検索エンジンで事業を拡大してきた企業だ。中国で2000年にサービスをスタートし、現在では4万5000人を越える従業員をかかえる巨大企業だ。特に中国では、インターネット規制によってグーグルが中国国内で利用できないこともあり、中国では最大手の検索サービスだ。
一方、日本では2015年に検索サービスからは撤退している。現在はスマートフォンやPC向けの日本語入力アプリ「Simeji」と、ネイティブ広告のリコメンドサービス「popIn」、どちらも日本発でバイドゥが買収した2つのサービスをメインとして日本での事業を展開している。
発表会ではまずバイドゥ株式会社のチャールズ・ジャン社長から、中国本社の取り組みについての解説からスタートした。
バイドゥ株式会社チャールズ・ジャン社長。
検索エンジンをメインサービスとしてスタートしたバイドゥだが、現在はAI(人工知能)を使ったサービスへとシフトしているという。直近の2017年1月には、本国のグループ社長兼最高執行責任者(COO)に、米Yahoo!やマイクロソフトの幹部を務めたルー・キー氏が就任。ルー氏は米国でのAIに関する特許を自信で40件以上保有しているAIの専門家だ。ルー氏の就任を機に、同社のスローガンも「人々に最も平等かつ便利な情報をオンラインで提供する」という検索エンジンをベースとしたものから、「テクノロジーで複雑な世界をもっとシンプルに」とAIに関連したものへと変更されている。
2017年1月からグループ社長兼最高執行責任者(COO)に就任したルー・キー氏は、AIについて世界でもトップクラスの専門家。
Simejiの開発者でバイドゥ株式会社のプロダクト事業部部長の矢野りん氏。
バイドゥはAI分野を「AIアルゴリズム」「コンピューティングパワー」「ビックデータ」の3つジャンルに分けて研究しているが、そのなかでも鍵になる技術が「音声認識」だという。
たとえばひと口に中国語といっても、地域ごとに方言がありそれぞれ特徴のある音声になる。そこで地域ごとにデータを分類し、自己最適化を行なうことで、方言ごとの音声認識性能を向上させているという。このあたりは方言の多い日本語にも活用できそうな技術だ。
実際、日本語については個別に研究を進めている。ルー氏は「同音異義語が多いことと、長音、清濁音化、固有名詞の語彙数、句読点の位置」が日本語での音声入力時に難しいポイントだと解説。長音、清濁音化、固有名詞の語彙数については、アノテーションを強化して長音と単音やひらがな、カタカナを区別することで解決した。さらに句読点については、LSTM(Long short-term memory)深層学習モデルを使って適切な位置に配置できるという。
音声認識の精度テストでは、人間の聞き取り能力を超えたスコアをだしている。
中国で研究されたこうした音声認識の技術を使ったのが、今回の「Simeji」の新機能になる。発表会ではSimejiの開発者でもあり、バイドゥ株式会社のプロダクト事業部部長の矢野りん氏がデモンストレーション披露。「従来の音声認識は句読点の位置もさることながら、絵文字などを入力するのも不便で、若者が敬遠していた」(矢野氏)。そこでSimejiの最新バージョンには、正確な日本語認識はもちろん、音声入力をしたあとに、入力内容に合った絵文字や顔文字をレコメンドしてくれる機能を搭載した。
デモンストレーションや発表会後のデモ機でテストをみると、たしかにふだん話している言葉使いが、そのまま精度高く認識される。さらに入力されたテキストを元に、関連した絵文字や顔文字も候補としてピックアップされる。これまで筆者もいくつかの音声認識を活用したサービスやアプリを使用してきたが、そのなかでも認識率はトップクラスという印象だ。
Simejiの音声入力は句読点も自動で挿入されるのがポイント。
音声入力後に自動で顔文字や絵文字をレコメンドしてくる機能を備えている。
「バイドゥ」というブランドに落ちる影
しかしバイドゥというと、日本ではどうしても思い起こすある騒動がある。2013年に社会を騒がせた"Simejiの無断情報送信問題"だ。
これは、Simejiで入力した全角文字列がユーザーに無断で自社サーバーに送信されていることを第三者が発見したもので、氏名からパスワードまで入力するIME(日本語入力ソフト)にまつわるセンシティブなスキャンダルとして、瞬く間にネット上を駆け巡った。事の重大さは、内閣官房情報セキュリティセンターが中央省庁に対して注意喚起を行うまでに問題が大きくなったことからもわかる。
また、1年半前の2015年11月には、バイドゥが提供したいたソフトウェア開発キットの「Moplus」が、ユーザーの権限なしに外部へと情報を送信するバックドア機能を自動で挿入するといった問題も明るみになっている(トレンドマイクロの注意喚起エントリーはこちら)。
現時点でのバイドゥの対応はどうなっているのか。発表会の質疑応答で確認したところ、「公開している弊社のポリシーに則って対応している」(矢野氏)という回答だった。
同社のウェブサイトを確認すると、バイドゥ広告について「取得するユーザーの情報の取り扱い方針」が掲載されていたり、Simejiの公式サイトには「Simejiを安心・安全に使っていただくための取り組みについて」というページが用意されており、入力データが流出しないような対策が取られているとともに、ユーザーへの呼び掛けもしっかりとなされていると説明している。
今回のSimejiに組み込まれたような、AIの学習に用いられる"深層学習"(ディープラーニング)という技術は、簡単に言えば、大量のデータを集めて演算することで最適解を導き出す技術。AIの研究を進め、精度を高めるためには、データ収集は避けては通れない道だ。
その点について矢野氏は「Simejiに関しては、個人が特定できるような解析はしていない。今回の音声入力も含めて、あくまで(AIを学習させるための)"教師データ"を作成するための情報収集している」と回答する。
公平を期すために指摘しておくと、教師データを作成するために情報収集をしている企業はなにもバイドゥだけではない。グーグルやアマゾン、Facebook、マイクロソフトなどAIに取り組んでいると公言している企業は、それぞれデータの収集と、解析に注力している。AI技術を発展させ、市場を制するには、より多くのデータを集めることが確実に有利に働く。
情報を収集する方法が"適切"なら、何も問題はない。適切に"個人と切り離した情報"として扱いながら、ユーザーにも情報提供することによる見返り(たとえば利便性高いサービスの提供など。グーグルの検索やGoogleフォトなどは良い例)をつくって、安全安心に使ってもらえばいいのだ。
「バイドゥ ジャパンにとってもAI元年と言える年になる」。ジャン社長は発表会でこう宣言した。過去のトラブルの経緯から、ユーザーの印象はマイナスからのスタートともいえる。AIに軸足を置いたバイドゥが、果たしてどのようにユーザーに受け入れられ、安全で安心なサービスを提供していくのか。今後の推移を見守る必要がある。
バイドゥの中国本社で音声認識技術アーキテクトを担当しているリー・チャオ氏
設立から17年で社員4万5000人、時価総額7兆3000万円までに成長したバイドゥ
バイドゥ・ブレインと名付けられた同社のAIへの取り組み
Simejiについての安全性を解説したウェブサイト
(撮影:中山智)
中山智:海外取材の合間に世界を旅しながら記事執筆を続けるノマド系テクニカルライター。雑誌・週刊アスキーの編集記者を経て独立。IT、特に通信業界やスマートフォンなどのモバイル系のテクノロジーを中心に取材・執筆活動を続けている。