AIがメディアを激変させる NYタイムズの「感情広告」実証、中立報道AIの衝撃

shutterstock_1157644414

Shutterstock

こんにちは。パロアルトインサイトCEO・AIビジネスデザイナーの石角友愛です。先日、サンフランシスコでニューヨークタイムズのデータサイエンティストのトークセッションに参加する機会がありました。今日はアメリカのジャーナリズム業界でどんな機械学習の取り組みが行われているかご紹介したいと思います。

記事を読んだ人の「気持ちの推定」が広告を変える?

ニューヨークタイムズの「Project Feels」プロジェクト

ニューヨークタイムズのデータサイエンティスト、アレクサンダー・スパンガー氏による記事。「Project Feels」プロジェクトについて語っている。

ニューヨークタイムズが行った「Project Feels」というプロジェクトがあります。目的は、それぞれの記事を読んで、どんな感情を読者が感じるかを予測する感情予測モデルの構築です。

感情検知(Emotional Recognition)という分野は現在の流行りの1つです。たとえば、人のバイタルデータや顔の表情のほか、RF信号の反射などを通して対象者が喜んでいるか怒っているかなどの感情を検知するものもあります。Project Feelsの場合、記事に登場する単語や内容などから、「読者がどんな感情を持つかをあらかじめ予測するモデル」です。

発端は、広告チームから「記事を読んで、読者がどんな感情を持つかあらかじめ予測できたら、広告主の希望により寄り添った広告表示ができる。どうにかできないか?」と依頼されてプロジェクトが始まったとのこと。プロジェクトの簡単な手順は以下の通りです。

1. 記事に対する感情も千差万別では予測できないので、あらかじめアンケート調査を通して、9種類の感情グループを用意しておきます(つまらない、嬉しい、嫌い、怖い、興味深い、希望、愛情、悲しい、何も感じない)

2. 1200人以上のクラウドソーシング(アマゾンメカニカルターク)を使ってデータ収集開始。例えば、下記の様な画面を見せて、「この記事を読んでどんな気持ちになりますか?」と質問します。ハエの記事はなかなか感情を持ちにくいかもしれませんが、それはわざとです。

NYT02

ニューヨークタイムズのProject Feelsのトレーニングに用いられる記事の例。

例えば、「飼い主を探している犬が奇跡を起こした」という記事は、ほとんどの人に「愛情」「嬉しい」という感情を喚起させることが予想できますが、感情喚起が難しそうな記事カテゴリーのものを、アンケートに入れてトレーニングデータにする必要があります。

機械学習のモデルを作る時は、データ収集フェーズが一番時間がかかり、大変なことが多いのですが、Project Feelsでもアクティブラーニング(※)という手法を使っています。記事サンプルを無作為に選び、バッチにしてモデルの精度をその都度見ていき、精度がこれ以上は上がらない、というところにくるまでサンプルデータを変えていったということです。

3. データを綺麗にします。メカニカルターク(アマゾンが提供しているクラウドソースサービス。ワーカーに色々なタスクを投げることができるもの)のすべての人が真面目に答えているかどうか色々な手法で検証し、汚いデータは処理して解析しやすい形にまとめます。

4. モデルを構築します。あえて解説はしませんが、「線形モデル」「ツリーベースのアンサンブルモデル」そして「ディープラーニング」の3つで試したとのことです。

5. 結果を出します。両極端な感情を喚起させる記事などがあることも分かったそうです。例えば、「AIをどのように規制するか」というような記事は「面白い」と「つまらない」がずば抜けて多かったということで、AIに関する記事を書くことが多い私にもこれは興味深い発見でした。感情カテゴリーとしては、一番予測値が高かったのが「悲しい」次に「怖い」「嫌い」「愛情」で、75%以上の精度だったとのこと。一番難しいのが「興味深い」だったということです。

※アクティブラーニング:教師データを準備するのにコストがかかる場合に使われる手法。このケースでは、感情予測が簡単な記事ばかりをラベル付けをしても学習の精度は上がらないため、感情予測が難しい記事とは何なのかをその都度理解しながら、あえてそのような記事をアルゴリズムが次のラウンドで選び、学習していく。どのデータから学習するべきかをアルゴリズムが選定し、それにラベル付けをしていくため効率よく学習することができる。

今回のProject Feelsで作った感情検知モデルが実際に編集サイドで使われることはなかったということですが、この話を聞いてジャーナリズム業界で、ここまで機械学習が浸透しているのかということは大きな発見でした。

記事の反応はシェア数やクリック数などで見ていることが多いと思いますが、広告の観点から考えると、イメージや感情を理解した広告プラットフォームには面白みがあります。動画と違って、文字中心の記事だからこそ、反応が読めないことも多い。実際、今までこのような読者の感情と結びつける取り組みはされてこなかったはずです。

逆に言えば、例えば「怖い」感情を喚起させる記事には、どんな広告が相性が良いのかを考えるのも、マーケターとAIの新しい共同作業の領域になる可能性があります。共同作業の結果、より意味のあるコンバージョンにつながれば、それこそ新しいビジネスになるでしょう。

記事の表現をAIで「中立」に書き換えるWebサイト

Knowhere02

機械学習で読者の感情を予測するだけではなく、色々な思想が含まれている記事の表現方法自体を、機械学習で中立にして報道するニュースサイトも登場しました。私の知り合いが機械学習エンジニアとして勤めていた小さなスタートアップで、「Knowhere News」というサイトです。

実際に私も、アメリカの政治ニュースはKnowhereを見ることが多いです。

分断したアメリカと言われますが、メディアもリベラルと保守、中間と色々な立場があり、同じニュースでもヘッドラインの表現方法が違います。自分の思想に合う媒体だけを見る人も多いと思いますが、そのアメリカ分断の流れの中、AIを使って「バイアス表現をなくす」メディアが生まれたのが2018年というのが、いかにも時流を表した事柄かなと感じます。

Knowhereはニュースをキュレーションしてきて、それぞれのニュースを右翼、公平、左翼、またはポジティブ、公平、とネガティブ3つに分類して表示します。

Knowhere

ニュースの表現をAIが中立表現に書き換える「Knowhere News」の動作を説明するコンテンツ。

そこから、公平になるようにコンテンツをAIで最短60秒で書き直して、最終的には編集者がチェックをして公開しているということです(このあたりの振る舞いは、各国のメディア文化によって議論を呼ぶところではあります)。

例えば、極端な例で言えば、CNNでは「トランプはキム・ジョンウンの面会の申し出に踊らされている」と報道し、Voxでは同じニュースを「トランプの取引において北朝鮮との面会は最高のテストになる」と書いたところを、KnowhereのAIでは「トランプ大統領が北朝鮮のリーダーとの歴史的面会に合意した」と書き直す、というイメージです。

どこまで極めればバイアスがゼロと言えるのかは議論の余地があり、そもそもどれくらいの読者が「公平な」記事を求めているのかもわかりません。ただ、機械学習がジャーナリズム業界でこのような使われ方をしていることは興味深いことです。

(文・石角友愛)


石角友愛/Tomoe Ishizumi:2010年にハーバード経営大学院でMBAを取得したのち、シリコンバレーのグーグル本社で多数のAIプロジェクトをリードし、AIを活用した職業マッチングサイトのJobArriveを起業。2016年に同社を売却し、流通系AIベンチャーを経て2017年にPalo Alto Insightを起業。

ソーシャルメディアでも最新のビジネス情報をいち早く配信中