グーグルの対話型AIチャットBard、契約社員も動員してテスト中も…「検証時間が足りず見当で評価」

サンダー・ピチャイ

ChatGPTに対抗して自社のAIチャットボットBardの開発を急ぐグーグルだが……。

REUTERS/Brandon Wade/File Photo

グーグル(Google)は多くの契約社員を抱えているが、その一部には、同社のAI搭載チャットボット「Bard」が生成する回答の質を評価する業務を割り当てられている。ただ、その契約社員たちからは、回答の正確性を評価するのに十分な時間が与えられていないとの声が上がっている。

グーグルは今年3月、Bardを限定ベータ版としてリリースした。Bardは先に公開されたOpenAIのChatGPTと同じく、質問やタスクを入力すると人間が書いたような回答を返すチャットボットだ。

現在、Bardの品質改善を支援しているのは、アッペン(Appen)という企業を通してグーグルの業務を請け負う契約社員だ。彼らは自身が担当する業務がBard関連のものであるとは明確に知らされていないが、この新たな業務が社内で検討され始めたのは2月7日であり、これはグーグルがBardについて初めて発表した時期と符合する。

Insiderが確認した社内文書には、評価者に宛てて、理論上の「AIチャットボット」が生成する回答の質を評価するようにとの指示が含まれている。

「評価者(raters)」と呼ばれるこれら契約社員は通常、グーグルの検索アルゴリズムや検索結果に表示される広告の関連性を評価したり、有害なウェブサイトが検索結果に表示されないようマークしたりしている。

だが匿名を条件にInsiderの取材に応じた4人の評価者によれば、1月以降、評価者の業務の大半がAI回答の評価にシフトしたという。彼らはチャットボットの回答の評価業務について、十分な時間を与えられていないなかで回答内容を評価して報酬をもらうため、だいたいの見当で評価する時もあると不満を漏らした。

グーグルは今年2月にBardの発表を行ったが、その際にBardが不正確な回答をしたことが発覚し、批判を受けた。グーグルは、Bardは今後改善されていくとしたうえで、検索に代わるものと位置づけられるべきものではないと言っている。

このリリースに向けた準備段階として、グーグルは2月にフルタイム従業員に対しても2~4時間を費やしてBardのテスト作業を実施するよう求めた。これはBardに質問をし、正確性その他に関する同社の基準を満たさない回答をマークする作業だ。作業者はあらゆるトピックにまたがる質問への回答を書き直すことができ、Bardはそれらの回答から学習するというものだ。

時間が足りない

Popular

あわせて読みたい

BUSINESS INSIDER JAPAN PRESS RELEASE - 取材の依頼などはこちらから送付して下さい

広告のお問い合わせ・媒体資料のお申し込み