筆者が「Midjourney」に描かせた絵。
作成:清水亮
Twitterなどで「絵を描くAI」としてこの数週間で急激に注目を集めている「Midjourney(ミッドジャーニー)」。AI研究者の筆者・清水亮氏が、最新のAI開発事情の解説を交えながら同ツールを使っていく短期集中連載の中編。
Midjourneyは何でも描ける……と思いきや、実は苦手なものもある。指示文(プロンプト)から、その理由を掘り下げてみよう。
※前編は「神絵を描くAI「 #Midjourney 」はどうやって生まれたか…その可能性と限界、そして課題」で公開中。
Midjourney(ミッドジャーニー)とは:デビッド・ホルツ氏が開発した、絵を描かせる画像生成AIサービス。コミュニケーションツール・Discord上で英語で指示することで、見たこともない幻想的な絵を生成できることから、「神絵を描くAI」として話題になっている。
「Midjourney」に具体的な指示はできるか?
では、Midjourneyに具体的な指示を与えてみよう。画像生成AIは、巨大になればなるほど具体的な指示に忠実になる。
例えばこんな感じだ。
「宮崎駿作品に登場するヒロインのような実在の女性で、右手にキーボード、左手にVRゴーグルを持っている女優の写真(A photograph of an actress who is a real woman like the heroine who appears in Hayao Miyazaki's work, holding a keyboard in her right hand and VR goggles in her left hand)」
するとMidjourneyはこういう画像を返してきた。
作成:清水亮
惜しい。服装と髪型はなんとなく宮崎アニメっぽいが、肝心の「キーボード」が出てこない。キーボードとVRゴーグルをもった女性というのがイメージしにくかったのかもしれない。
それぞれのバリエーションも生成させてみた。
作成:清水亮
作成:清水亮
何度かの試行錯誤を繰り返して、ようやく、キーボードらしきものが出てきた。指示がまだ曖昧すぎるのかもしれない。では、これではどうだろう。
「宮崎駿作品に登場するヒロインのような女性で、右手に101キーボード、左手にVRゴーグルを持っているeスポーツアスリートの写真(A photograph of an e-sports athlete who is a woman like the heroine who appears in Hayao Miyazaki's work, holding a 101 keyboard in her right hand and VR goggles in her left hand)」
作成:清水亮
もう少しリアリティが増してきた。しかし、「101キーボード」(101個のキーが配列されたキーボード。いわゆる10キー付きキーボード)はなかなか出てこない。
具体的なメーカー名を入れたらどうか。
「宮崎駿作品に登場するヒロインのような女性で、右手にLogicool製101キーボード、左手にVRゴーグルを持っているeスポーツアスリートの写真
(A photograph of an esports athlete who looks like a heroine in Hayao Miyazaki's work, holding a Logitech 101 keyboard in her right hand and VR goggles in her left hand)」
作成:清水亮
やはりeスポーツと、キーボードと、VRゴーグルを「右手と左手に持つ」というのがどうしてもイメージできないらしい。ではいっそVRゴーグルを諦めてみる。
「宮崎駿作品に登場するヒロインのような女性で、右手にLogicool製101キーボードを持つ、金髪のeスポーツアスリートの写真(A photograph of a blonde esports athlete who looks like a heroine in Hayao Miyazaki's work, holding a Logitech 101 keyboard in her right hand)」
作成:清水亮
どうしてもキーボードは持ってくれないのか……。それでも、試行錯誤の末、こんな感じの画像を生成することができた。
作成:清水亮
作成:清水亮
Midjourney以外は?ロシアの画像生成AIを使ってみる
また最近、ロシアの研究チームによって開発されたKandinsky12Bは、120億(12B)パラメータを持つ巨大な画像作成AIで、これにも、短期集中企画の第1回と同じ、「The writer of business insider Japan」(Business Insider Japanのライター)というお題を与えてみた。
すると以下のような画像を生成して返してきた。
作成:清水亮
一言で言って、日本(Japan)という言葉に引っ張られすぎだろう。これは当然、内部でロシア語に変換してから生成されるのでこうなってしまうのはある程度仕方ないが……。
それでは、先ほどMidjourneyに指示したのと同じように、「宮崎駿作品に登場するヒロインのような女性で、右手にLogicool製101キーボードを持つ、金髪のeスポーツアスリートの写真」を指示してみる。
結果、Kandinsky12Bが出力してきた画像は以下のようになる。
作成:清水亮
このように、全く同じ指示を出しても、でき上がる画像はAIによってかなり異なる。
それどころか、同じAIに全く同じ指示を出しても返ってくる結果は異なる。たとえば先ほどのMidjourneyに全く同じ指示を与えると前回とは異なる結果が返ってきた。
作成:清水亮
ただ、なぜか「eスポーツアスリート」のイメージが青系の服ばかりのようだ。
スポンサーをつけてみよう。某飲料水メーカーをスポンサーにするとこうなった。どのメーカーか想像がつくだろうか?
作成:清水亮
「ピクサー」風の絵にするよう指示してみると……
さて、これまでは実写を目指していたが、アニメーションにしたらどうなるだろうか。Pixar風にしろと指示するとこんな画像になった。
ピクサー風に、という指示をするとこんな絵に。
作成:清水亮
日本のアニメ風を指定すると、こんな感じになった。
「日本のアニメ風に」という指示を入れると、こういうタッチに変わる。
作成:清水亮
「日本のアニメ」では難しいのかもしれない。もっと具体的に、「エヴァンゲリオンの1シーンだ」と指示すると、こうなった。
作成:清水亮
もっとストレートな表現にしてみよう。「アスカがeスポーツ選手になった」という指示に変えてみた。これは、指示文としては以下のようになる。
「In an image of a scene from Evangelion, Asuka became a blonde e-sportsman holds a Logitech 101 keyboard in her right hand.」
In an image of a scene from Evangelion, Asuka became a blonde e-sportsman holds a Logitech 101 keyboard in her right hand.
作成:清水亮
それでは、細田守監督の作品はどうだろうか。細田守作品のヒロインが、という感じの指示にしてみた。
In an image of a scene from Mamoru Hosoda's Summer Wars, Natsuki became e-sportsman holds a Logitech 101 keyboard in her right hand.
作成:清水亮
どうも、海外での作品やヒロインの知名度に影響されるらしい。海外で圧倒的な知名度を誇るのは宮崎駿の『千と千尋の神隠し』だ。
『千と千尋の神隠し』の登場人物、ハクをeスポーツ選手にしてみよう。
In an image of a scene from Hayao Miyazaki's Sprited Away, Haku became e-sportsman holds a Logitech 101 keyboard in her right hand.
作成:清水亮
なんとなく、うまくできているように見える。
「カオナシ(顔なし)」はどうだろうか。
「In an image of a scene from Hayao Miyazaki's Spirited Away, No-Face became e-sportsman holds a Logitech 101 keyboard in her right hand.」Spirited Awayとは、『千と千尋の神隠し』の英題だ。
作成:清水亮
カオナシについては微妙な結果だが、右下の絵は何か本質に近づいている気がする。実在の人物名を取り入れてみるとどうなるか。
実在の人物を登場させてみる
実在の人物はどうだろうか。ドナルド・トランプをeスポーツ選手にして『千と千尋の神隠し』に出してみよう。
In an image of a scene from Hayao Miyazaki's Sprited Away, No-Face became e-sportsman holds a Logitech 101 keyboard in her right hand.
作成:清水亮
右上などは特に特徴を掴んでいるように見える。また、左下のタッチは結構好きだ。
試しに『千と千尋』というタイトル指定を削ったら、また違った画像が生成された。
In an image of a scene from Hayao Miyazaki's anime, Donald Trump became e-sportsman holds a Logitech 101 keyboard in her right hand..
作成:清水亮
マーベルシネマティックユニバースにトランプが登場したらどうなるだろうか。
A photo image of a scene from Marvel cinematic universe, Donald Trump became e-sportsman holds a Logitech 101 keyboard in her right hand.
作成:清水亮
アイアンマンに出てきそうだ。ただ、もうeスポーツかどうかなど関係がなくなってきてもいる。
「架空の人物への振る舞い」が興味深い
それでは今回の最後。
架空の人物に関して、その振る舞いをどのように認識するだろうか。たとえば、人気小説「ハリー・ポッター」のヒロイン、ハーマイオニーがチアリーダーになったとしたら……。
「Hermione as a cheerleader」
作成:清水亮
これが、「ハーマイオニーのコスチュームを着たチアリーダー」にすると、なんとこう変わる。
「Cheerleaders cosplaying Hermione」
作成:清水亮
この変化は深い。
ハーマイオニーは魔法が使えるので、自然に飛べる。しかし、ハーマイオニーのコスプレをしたチアリーダーはジャンプしなければ飛ぶことができない —— と解釈していると思われる。
(近日掲載の短期集中企画・後編に続きます)
(文・清水亮)
清水亮:1976年長岡生まれ。幼少期にプログラミングに目覚め、高校生からテクニカルライターとして活動、全国誌に連載を持つ。米大手IT企業で上級エンジニア経験を経て1998年に黎明期の株式会社ドワンゴに参画。以後、モバイルゲーム開発者として複数のヒット作を手がける。2003年に独立して以降19年間に渡り、5社のIT企業の創立と経営に関わる。2018年より東京大学で客員研究員として人工知能を研究。主な著書に『よくわかる人工知能』など