画像生成AI(StableDiffusion)が生成した画像。こうした写実的な画像が言葉を入力するだけで数分〜数秒で出力される。
作成:Business Insider Japan
こんにちは。パロアルトインサイトCEO・AIビジネスデザイナーの石角友愛です。
今回は、世間で注目されているMidjourneyやDALLE2(DALL-E2、ダリツー)などの「画像生成AI」のビジネス応用と注意点についてまとめたいと思います。
まず初めに、画像生成AIの紹介をします。
これまでの「AI」は、人間の模倣はできてもクリエイティブな部分までは再現できないと言われてきました。しかし、近年ではアートやデザイン、映像、音楽、文章といったクリエイティブの領域にもAI活用が広がっています。その最たる例が、今回のテーマの「画像生成AI」なのです。
AIならではの特徴として、人間の持つ固定観念のようなものを越えて、これまでに見られなかった面白い作品が生み出される点が魅力となり、話題を呼んでいます。
実際、現在TwitterなどのSNSでも「#AIアート」などのハッシュタグで、多くのAIアート作品が公開されています。
多彩な作風の作品を生成できることも特徴です。
例えば、指定する言葉(指示文)を少し変えるだけで、カメラで撮影したようなリアルな画像から絵画タッチの作品に変わったり、かと思えばデジタルアート調のものを生成できたりと、さまざまな変更を瞬時に反映できる点も面白さや利便性を感じさせる要素となっています。
画像生成AIの先駆けとなったDALL-E2とは?
DALL-E2のベータ版開始を知らせる公式ブログ。
出典:OpenAI
DALL-E2は、AI研究を進めるアメリカの組織OpenAIによって、2022年4月に発表された画像生成AIです。画家のサルバドール・ダリや、ピクサーの長編アニメ映画『ウォーリー』(WALL-E)のキャラクターが名前の由来となっています。
例えば、文章で「音楽を聴いているカエルの足のひよこ、デジタルアート」といった注文(英語でプロンプトと言います)を入力し、指示するだけでそのイメージに合ったAIアートが生成されます。
OpenAIは2020年7月に文章生成AIサービス「GPT-3」を公開したことでも有名で、現在その「GPT-3」は多くの企業・研究機関で利用されています。DALL-E2も同様に、将来的に多くの企業や個人が使用できることを目指していると言われています。
“A baby chick with frog legs listening to music, digital art” 「音楽を聴いているカエルの足のひよこ:デジタルアート」
引用: https://www.instagram.com/openaidalle/
DALL-E2の特徴として、訓練データの画像に「何が写っているか」のラベル付けが不要で、「どんなカテゴリーに属する画像か」という情報だけがあれば十分に学習できる点が挙げられます。
CLIP(Contrastive Language-Image Pre-training)はOpenAIが開発した画像認識AIで、2021年1月に発表されました。CLIPの学習方法は「弱教師あり学習」と呼ばれます。この方法で、膨大なコストがかかるラベル付け工程(その画像にどんな要素が含まれているかを人間が入力する工程)が不要になり、より効率的に学習することができるのです。
実は、CLIPがリリースされたことがきっかけで、AIコミュニティで一気に画像生成AIの開発が広がったと言われています。
CLIPにより、テキスト入力でAIモデルから高品質の画像を作成する機能が人気となり、その後、他のAIモデルの助けを借りて画像を出力することができるようなアプローチが生まれました。その後、画像生成AIコミュニティは、さまざまなモデルや技術を使用して画像を作成するPythonコードを公開し、熱狂的な探求の時代に乗り出したのです。
画像生成AIはDALL-E2の発表を皮切りに、GoogleからはImagenやParti(研究目的であり一般公開はされていません)、Microsoftからは枠外への画像の拡張や動画生成を実行できるNUWA Infinity、そして、Midjourney社からはMidjourneyといった類似アプリケーションがどんどん発表されています。
特に、Midjourneyは、7月から8月にかけて、「神絵を描けるAI」などと呼ばれて日本でも話題を呼びました。
「社員数10人」のMidjourney社
Midjourney社は、膨大なデータとAIが学習するために必要なインフラを持っている大企業とは違い、小規模な会社です。10人のフルタイムスタッフとアドバイザーで構成され、自己資金で運営されています。
創業者のデイビッド・ホルツ氏は、「投資家もいない。資金的な動機もない。ただ、自分たちが情熱を傾けられることに取り組み、楽しむためにここにいるようなものです」と述べています。ホルツ氏は、Midjourneyを設立するために自身が2008年に立ち上げたLeap MotionというIoTデバイス開発の会社を2021年に退社し、現在はMidjourneyの事業に注力しています。
インタビュー記事によれば、Midjourneyはすでに黒字化に成功していることが分かっています。大企業が激しく競争している画像生成AIの分野において、Midjourneyのような小規模なチームがいち早く商業化に成功したことは、ビジネスモデルの流動性の高さや、市場ニーズの多さを表しているとも言えます。
オープンソースの画像生成AI「Stable Diffusion」への注目
画像生成AIはこのように次々にアプリケーションが生まれています。2022年8月には、ロンドンとロスアルトスに拠点を置くスタートアップ企業Stability AIが、DALL-E 2 に似たシステム 「Stable Diffusion」を発表し話題になりました。
Stable DiffusionはDALL-E2と比べると、生成される画像に対しての規制が緩く、例えば公人が写っている画像を使うことに対して制限をあまりかけていないと言われています。しかし、初心者にとっての使いやすさなどから多くのユーザーに支持されており、「Stable DiffusionとMidjourneyで同じプロンプトで画像生成をしてみた」というブログ記事も出ています。プロンプトは同じでもAIが異なると生成される画像も大きく異なることが分かります。
画像生成AIでつくった画像。上のプロンプト(指示文、呪文とも呼ばれる)をStableDiffusion、Midjourneyにそれぞれ入力すると、このような違いがある。ただし、同じ指示文でも結果は毎回同じにはならない。
プロンプトを変えて、魔法使いを描かせた様子。まったく同じプロンプトを使えば、自分で試すこともできる。
Midjourneyのインサイトから見える「画像生成AIのビジネス応用」
現在のMidjourneyのユーザー層から、どのような目的で画像生成AIが使われているかが見えてきます。
例えば、30%のユーザーがプロフェッショナルなユーザーで、特にグラフィックアーティストがコンセプト開発の一環として使っているとのことです。
オリジナルのアイデアやコンセプトのバリエーションを画像生成AIを使って作り、クライアントにさまざまな種類を提示することで、クライアントの満足度向上や、「イメージしていたものと違う」といった認識の誤差を避けるのに役立っているのです。
また、20%のユーザーはアートセラピーを目的としてMidjourneyを使っています。
例えば、すでに亡くなってしまった愛犬の写真を生成する過程で、自分の感情と向き合うことができると言います。また、単純にアートを作る過程で癒されると感じるユーザーも多く、インスタグラムでも「深夜のアートセラピーをMidjourneyで」というポストがあるほどです。
https://www.instagram.com/p/CgL8rDZuXEs/
Midjorney以外の画像生成AIについても、ビジネス現場での応用の議論が進んでいます。例えば、建築デザインの工程で家の外観の写真を撮影して、バリエーションを生成してもらい、顧客がイメージする完成図を設計士に伝える、などの使い方も考えられます。
また、ガーデニングや庭のデザインなどの工程でも、どこにどの木や花を植えれば、どんな庭が出来上がるか完成図がイメージしにくいという課題があります。これも、画像生成AIを使えば、オリジナルのガーデンの画像から完成図のイメージ画像が出力できるようになると言います。
「AIがアーティストの仕事を奪う」の解釈
Midjourneyで生成された画像。
作成:Business Insider Japan
よく、画像生成AIの質が高いことで、アーティストやグラフィックデザイナーの仕事が奪われるという声も聞きます。が、実は、画像生成AIの登場で、アーティストがより優れた存在になるとも考えられています。「これらのツールを使うアーティストは、これらのツールを使う普通の人よりも常に優れています」と前述のホルツ氏は述べています。
これはDALL-E2やMidjourneyを使った私自身の経験からも腑に落ちる意見です。
なぜなら、画像生成AIを使いこなしてイメージ通りの画像を生成するには、アートの知識や豊富な単語能力、生成してほしいイメージを言語化し、プロンプトという形にしてAIに伝える能力(プロンプトエンジニアリングとも呼ばれます)など、実は多岐にわたる専門知識が必要になるからです。
また、一度生成された画像に対して修正プロンプトをかけるときも、どの角度でどのように修正をすべきか、という知見はホビーユースのユーザーと、プロのアーティストでは全く異なります。
画像生成AIが、アーティストをさらに強化するツールだとホルツ氏が言うのはそのためです。
しかし、画像生成AIが商業化するにつれ、さまざまなリスクや懸念点も議論されつつあります。
例えば画像生成AIといえば、「著作権は誰のものか」という大きな問題があります。
この点については、日本ディープラーニング協会の有識者委員で、AIと法律の問題に詳しい柿沼太一弁護士が、「Midjourney、Stable Diffusion、mimicなどの画像自動生成AIと著作権」というコラムで、詳しい現状認識を公開しています。興味がある方は一読いただくと良いでしょう。
画像生成AIのリスク1. フェイク画像、悪用と倫理の問題
著名人などの偽の写真を生成できてしまう悪用と倫理の問題は、数年前にディープフェイクで注目された懸念と同様の懸念がある。
Reuters
DALL-E2やMidjourneyをはじめとする画像生成AIは、有名人や政治家、実在する人物の写実的画像や、暴力的・性的・政治的な画像を生成できないようにも(完璧ではないですが)ブロックされています。常に自動的・人的に監視できるシステムを構築することで、問題のある画像が生成されていないかチェックする環境も整えているといいます。
Midjourney社は40名のモニタリング専用のスタッフを用意しているということですが、今後は悪用コンテンツの数が増える場合に備え、自動検知・処理をするAIを導入する方向に向かうことが考えられます。
前述のグーグルによる画像生成AI “Parti” は「責任あるAI」の追求を理由に一般公開をしていません。論文中にも「責任あるAI」や「公平性と偏り」という言葉がある通り、グーグルはこの点を非常に重視しています。
大手の画像生成AIにはディープフェイク、学習データの偏りによるさまざまなバイアスリスクなどを考慮し、「高リスクでセンシティブな領域での使用を意図したものではありません。また、人物の画像生成に使用することを意図したものではありません」と明確に論文で述べ、一般公開をしていない現状もあります。
画像生成AIのリスク2. インフラ問題と課金モデルの不安定さ
Reuters
もう一つ、規模の拡大におけるインフラコストとユーザー側への課金の不安定さもリスクとして挙げられるでしょう。
例えば、Midjourneyが将来拡張した時のことについてホルツ氏は、
「もし、我々の技術を使おうとする人が1000万人いたら、コンピューターが足りなくなります。AIを使うための無料のサーバーは、世界に100万台もないのです。この技術が実際に使いたい人全員に行き渡る前に、世界のコンピューターがなくなってしまうと思います」
と述べています。
現在Midjourneyは数十万人が利用しており、そのためには1万台のサーバーが必要だと前述のインタビューは書いています。ビジネスを拡大するためには、ユーザー数やプロンプト数(作画要望の数)に追いつく形でインフラを整備しなければならないという課題が浮き彫りになっています。
結果的に、ユーザー側への更なる課金または広告表示など、それ以外のビジネスを生み出さなければいけなくなるかもしれません。
このように、過去一年ほどで一気に開花した画像生成AIアプリケーションですが、その背景にはそれを可能にするアルゴリズムの公開や、大規模言語モデルの存在があります。
また、商業化に向けて、ルールの整備などをはじめとして、さまざまな課題を解決する必要があることが分かります。
(文・石角友愛)