画像生成AIと自分を掘る

この記事の挿絵は全てStable Diffusion XL 1.0で生成しました。

実用と無用

DALL·E 2, Midjourney, Stable Diffusionと立て続けに画像生成AIが一般に公開されてから一年と少し。ChatGPTのようなテキスト系や、動画、音声、3D、マルチモーダルと、生成AIの対象分野は広がり続け、その実用も幅広く模索されています。

画像の生成に於いては、写実的な表現力がどんどん高まり、いわゆるアニメ絵的なイラストへの利用も物議を醸しながら進展しています。ControlNetなどの制御技術が登場するたびに、その実用性は高まり、私自身も色々な応用を模索し続けています。

そうした実用面の開拓の一方、初めてStable Diffusionをローカルで動かし始めた頃から、ただただ自分のためだけに続けている生成があります。恐らくそのほとんど全てを自分だけが楽しむ無用の生成物が、すでに20万枚近く溜まっています。

表現の狭間

Stable Diffusionがローカルで動かせるようになって以降、その仕組を理解しようと解説や文献を漁りました。最初は無邪気に単語を入れ結果にいちいち感心していたのが、徐々に掴めてくると実用を探り始めます。

ゲームへの利用を考えると、どれだけ現在のゲーム的な表現が可能なのか、あるいは仮定した企画を満たす描写は可能なのか、かなり幅広い範囲を生成してみることになります。私の場合PythonのスクリプトでStable Diffusionを使っていますが、ランダムにキーワードを組み合わせたり、微妙に条件を変化させるといった処理を自動化して試しました。

溢れ返る

画像生成AIを試したことのある方は、大量の意図しない出力の山から僅かな成功を拾う工程をご存知かもしれません。文字という限られた表現の指示で、遥かに変数の多い視覚表現を導出する以上、そこには多種多様な失敗が伴います。人体の崩れた描写や物理的な矛盾だけでなく、構図、姿勢、色形、質感に至るまで、あらゆる齟齬が生じます。意図に完全に沿う出力など、数百枚生成してもありえません。

今の生成AIでは、大量に生成された中から「これならまあ合格かな」というベター止まりを探す作業が不可欠です。そうした運頼みの非効率を改善するのが制御系の技術ですが、Stable Diffusionの一般公開時にはまだほとんど存在しませんでした。

毎日大量に、ランダム性を高めて生成した数百枚の画像を眺め、実用的な表現が可能なのか探る作業はなかなか苦痛です。しかし私はすぐに、この一見不毛に近い作業が楽しくて止められなくなりました。それは、意図に沿わないどころか、全く意図せぬ、しかし自分のどこかに淡く刺さる何かが次々現れたからでした。

自分を掘る時

生成AIによって出力された、インクで描かれたような猫の画像。

美術館や図書館や本屋を朝から晩まで巡り続けていた頃。あるいはWebにどっぷり浸かり、世界の途方もない広さと机の狭さにかき混ぜられていた頃。高校の中盤から大学に入る手前ぐらいまでの短期間でしょうか。あの頃のような、俺に深く届く無限が詰まった何かがここにあるぞ、という感覚を久々に味わいました。

表現の模索など実用目的の生成を続けながら、同時にその脇に落ちたおかしな出力や、まったくただ自分の素敵に通じる表現探しも、合わせて日課となりました。大量のプロンプトを並べて出かけ、各数枚ずつ生成させ、夜には帰宅してそれを眺める。明らかに不要な出力を削除していっても、画像は日々膨大に増え続けます。

楽しい苦行

Stable Diffusionは他の画像生成AIと異なり、自分のパソコンでも自由に動かせる形で公開されました。他のプロダクトは有償のサービスとして、1枚あたり幾らというコストがかかります。Stable Diffusionなら、電気代という見えにくいコストがあるにせよ、より安価に、しかも止められることなく生成を繰り返せます。こうして今に至るまで、実用を模索しながら無用を探り続けています。

従来から美術品を楽しむこと、自分に刺さる作品を探すことは出来ました。Webの大きな役割として、誰かに誰かの刺さるを届けることにあるのも確かでしょう。しかし生成AIを通して自分を掘る作業は、より能動的で、より狭く、より無限です。自分が何を好きな者なのか、表現の再導出という道具で、同じスキームを使ってひたすら歩けるのです。

無用の輪郭

この記事に添えている画像は、全てそうした無用の一部です。もう少し紹介しましょう。

根付・その他彫刻

Stable Diffusionは彫り物がとても得意です。根付などはver1.4の頃からかなり表現力高く、XLになってからは更に強まっています。私は生成されたに過ぎないピクセルの塊が材と面を見せてくれるのが大好きなようです。

猫は大好きですが、写真の猫よりも、猫の造形が好きです。特に焼き物。他には猫の訳の分からなさと勢い感じる筆致感も好むようです。猫は圧倒的に学習量が多く尽きません。

ロココ

美術史上のロココ様式でなく、華美で虚飾的で金煌で薔薇色なエセロココ風味。

墨・インク

重たく散らばった感触。もっと削りたい。

未知の生物

その他

圧倒的に強大な何かを見上げるようなもの、散らばり、金等々。

個々の汎化

生成AIがひたすら発展を続けた場合、今は少数の個人のこうした無用の生産が、全ての人に訪れるかもしれません。

未だ貧弱な生成AIたち

今現在の生成AIは、これだけ強力でいながら貧弱です。画像生成AIの場合、多くは最終表現の集積であるため、そこに透徹した視点はありません。描く対象の実体や概念を学習しているのではなく、単にキーワードと結びついた表現を再利用可能なだけです。

たとえば「コーヒー」を妥当に描くことはできても、「融けた鉛と砕いた羽毛の混ざったコーヒー」は妥当に描けません。学習元のデータセットにそうした表現は直接含まれず、「融けた」「鉛」「砕いた」「羽毛」「混ざった」「コーヒー」の重ね合わせから導き出すことしかできないからです。描けない部分は、描ける範囲で埋めるしかなく、そこには永遠の不確実性が残ります。

ChatGPTのような文章生成AIもまだまだ貧弱です。コンテキストの小ささもハルシネーションももちろん問題ですが、あれほど凄まじい能力を示しながら、計算のような局所での欠落があったり、日本語固有の処理が苦手だったりします。

確定している到来

こうした貧弱さを抱えつつ、それでも人類はこの技術を手放すことも、向上を止めることもできないでしょう。もちろん規制は行われるでしょうし、より広い視点でのアライメントも進むでしょう。しかしこの途方もない生み出す力そのものを、諦めるのは不可能です。人類の史上、圧倒的技術を捨てされたことはなく、具体的な滅亡の危機でも見えない限り封じることはできないでしょう。

向上が続けば続くほど、全ては安価に気安く当たり前になっていきます。生成結果に触れるのが日常化し、いずれ何らかの生成が関与した結果だけに触れるのも日常化するでしょう。生成された画像はすでに広告などを通じて目にしているかもしれませんし、記事やメール等で生成された文章も知らずに読んでいるかもしれません。

この方向は映像にも音楽にも3Dにもゲームにも、そしていずれは五感のあらゆる分野に広がるでしょう。楽しむことの向こう側に生成が伴わない方が希少化していき、誰しもが生成結果に埋め尽くされ、自分を掘ることを求められる日が来るのです。

選別にも当然AIが標準的に使われ、今のように有象無象から探し当てるような煩わしさはなくなっていくでしょう。しかし極めて膨大な表現を学習し、無限の傑作を生成するようなシステムから、自分を描く楽しみの審判が突きつけられるのは変わりません。それは全てがオンデマンド化していく今ですら比べ物にならないほど、個人を分断し、好みを局所化していくでしょう。

今無用に生成を続けるのは、そんな未来に備えた練習にほんの少しだけなるかもしれません。自分の生成した大量の画像を眺めていると、私に還ってきたような落ち着きと、そこを広げたい欲求が都度湧いてきます。

無用の生成

Stable DiffusionのXLが公開されたことで、自由な画像生成の楽しさが増えました。5年前程度のグラフィックカードを持っていれば、追加学習など無しにかなりの品質の画像が生成できます。

生成AIはその実用性の高さから期待され、日々大きな変化と衝突が起きています。そうした方面こそ本筋であり、それが未来を作り左右するのは間違いありません。しかし、仕事でもSNS用でもなく、ただ自分を眺める新しい道具として無用に生産し続けるのも楽しいものです。

この記事の挿絵は全てStable Diffusion XL …