生成AIレンダリングの現在地とゲームの期限

by kogu
2023年12月14日

これは「生成AI Advent Calendar 2023」参加記事であり、また昨年書いた「3DCGの終焉とAI生成レンダリングという未来」の続きです。

2022年7月末以降生成AIの大きな変化は続いていますが、視覚表現の生成AIレンダリングという可能性にどんな変化があったのか確認します。後半ではゲームへの生成AIの利用の大雑把な状況と、最後にまたSF的なゲームの未来についても考えます。

今回は記事全体をCC0にはできませんが、昨年同様脈絡なく挿れた挿絵はすべてStable Diffusion XL（+Kohya’s Deep Shrink）で生成しています。著作性ある加工も行っていないため、パブリックドメインと考え、引用元の記載がある画像を除き記事内の画像はすべてCC0とします。

生成AIレンダリングから見た1年

昨年は「膨大な事前準備のコストが不可欠な3DCGは、表現の生成というアプローチのAIに置き換わるのではないか？」という未来について考えました。あれから1年、予想外の出来事だらけでしたが、この予想そのものは大きく揺らぎませんでした。

生成AIレンダラを目標に掲げる主体は存在しないため、そうした動きは多くの変化を集めた私の印象に過ぎません。それでも前回実現に不可欠として挙げた、高速性・緻密性・制御性・一貫性・連続性など、生成AIによる汎用レンダリングに向けて着実に発展しているようです。

1年で起きた変化を生成AIレンダラ実現の観点から振り返ってみましょう。

画像生成モデルやサービス

個別の技術要素ではありませんが、動向を見る上でモデルやサービスのリリースは重要です。商用サービスが増える一方、”オープン”なモデルを土台に世界中から多様な発展が生まれ、刺激し合いながら進む流れが顕著になってきました。

生成AIが汎用のレンダラとして成立するには、ベースとなる画像や動画のモデルに高い性能が不可欠です。ここでは画像生成の主要なモデルやサービスの大きな動きを確認しましょう。

Stable Diffusion XL / Stability AI

6月、Stability AIは予てから告知していたStable Diffusion XL（SDXL）のプレビュー版0.9を公開しました。自社サービスのDream Studioでは事前にテスト公開していたものを、更に研究や検証用として限定的なライセンスで公開したものです。その後従来と同じライセンスで正式に1.0が公開され、傘下の画像編集サービスClipdropでもSDXLでの生成に対応しています。

SDXLはSD2の後継として、写実表現の圧倒的な向上、文字（英数字）の描写、比較的シンプルなプロンプト、解像度の向上など色々な改善が盛り込まれています。SD2では1.5以前からの移行があまり進みませんでしたが、大きな向上や極端なNSFW排除などが見直されたこともあり、年末現在オープンな画像生成における標準となりつつあります。

SD2の後継としてのSDXLの位置づけには、当初やや迷いを感じました。SD3ではないことやMidjourneyを意識したような作例などから、結果的にSD2の後継と決まったように見えます。Stability AIがその後Membershipsを検討するなどした点からも、オープンな提供とビジネスの両立の難しさを痛感します。

SD1.x～SD2で生まれた様々な周辺技術やツールの多くがSDXLに対応し、また新たな技術が投じられる土台として機能し始めています。Stability AIの幅広いタスクを見ると来年新たなモデル公開が可能か不明ですが、出力品質の大幅な向上が果たされたSDXLが、しばらくの間オープンな開発の基盤となることは間違いないでしょう。

生成AIレンダリングに繋がるような実験的な試みは、ある程度自由な土台があって世界中から成果が集まります。そうした基盤を提供してくれる点でStability AIやStable Diffusionの存在は重要であり、後述するMembershipsなどの成功を祈っています。

Japanese Stable Diffusion XL

Stablity AIは11月、日本語プロンプトが使えるだけでなく、日本特有の文化や表現に対応した「Japanese Stable Diffusion XL（JSDXL）」も公開しました。日本支社を持つStability AIならではの動きですが、単なる日本市場向けという以上の存在価値を持つと考えています。残念ながら私はJSDXLをあまり使いこなせていませんが、その意義は非常に大きく、生成AIによる汎用レンダリングにも重要な示唆を含みます。

漠然と「街の写真」とか「食事」とか指定した場合、これまでの画像生成AIでは特に指定しない限り、どことなく欧米風の表現が出力されてきました。これは意図した差別でもなんでもなく、データセットがそう偏っているためです。

画像生成AIの表現は学習元となる画像と注釈からなるデータセットに依存します。データセットに欧米からのものが多ければ、それだけ名詞に対する漠然な要求に返される結果は偏ります。「city」という注釈が付いた画像が欧米のものしかなければ、当然結果もそれらを元にした欧米風のものになります。

これは私がAIで「普通のおじさん」を生成したフェイク新聞の作り方。そこから考える「普通」への疑いで挙げた、おじさんを作る理由と同じ構造の問題です。また画像生成だけでなく文章も音声もすべてに共通した、データセットの偏りによる格差と喪失でもあります。

生成AIレンダラーとして見た場合、こうした偏りは大きな欠点です。画像生成の性能比較に高品質な出力だけを並べても見えてきませんが、無数の描けない対象を抱えたままでは、汎用となり得ないでしょう。地域性の継承阻害なども相まっていずれ大きな問題になると思います。

そうした点で日本ローカルな対応を行ったJSDXLは、たとえまだ拙くとも、とても需要な試みです。他にもロシアのKandinskyや中国のモデルなどはある程度ローカル対応力を持っている可能性がありますが、データセットの基本部分に偏りがあるのはまだまだ続くでしょう。

国の規模によっては、自国が生成AIでほとんど正確に扱えないといった可能性もあり、ビッグテックはいずれ対応してくるでしょうが、オープンな偏りの少ないデータセットの登場も待たれます。

Firefly / Adobe

画像生成系の商用サービスとして最も大きかったビジネス上の動きは、やはりAdobeの参入でしょう。

Fireflyブランドで展開するAdobeの生成AIサービスは、単純な画像生成だけでなく豊富なアプリケーション資産を活かしたUXの統合が非常に強力です。データセットに自社のストックサービスから選別したものを使い、権利処理の安全性をアピールしているのも特徴。エンタープライズ契約には訴訟リスクについても全額の補償を発表しています。

プロフェッショナルに広く普及しているAdobeのツールは、直接既存のクリエイターに繋がる窓口です。クリエイターにとってほとんどの生成AIは能動的に触れる対象なのに、Fireflyはいつもの仕事用ツールの、いつものメニューの隣に並べることができます。しかもそれは、いつものワークフローに自然に組み込める形で。

さらにデータセットを権利処理済みの自社ストックサービスから得ることで、クリエイターの心理的懸念を避けているのも強力です。ちなみにこうした対応は、やはりストックサービスであるGetty Imagesも発表しています。生成AIの学習には十分に高品質なデータが必要であり、ストックサービスは生成AIの発展と普及で最も損害を被る業種のひとつでありながら、一方では生成AIのプレイヤーとなる可能性も秘めています。

そのようなデータセット向きの資産と、膨大な既存のユーザーベースによるAdobeの台頭で、懸念しているのがプロフェッショナル市場の寡占です。特に権利処理の戦略的なイメージが実際の法規を超えて広まり、「Adobeでなければ不安」という状況になってしまうのは残念です。私も使っていて、つい全てAdobeに任せたくなる誘惑にかられるからこそ、あり得る寡占が怖いです。

業績が予想より低かったとのニュースが流れていますが、生成AI全般のハイプに巻き込まれた投資家の落胆は、この先数年の寡占の可能性を否定できるものではありません。既存のスイートに生成AIを導入していく戦略は短期的に利益を押し上げるようなものではなく、気がつけば不可欠な状況が不安です。

生成AIレンダリングという点で見れば、Adobeは動画や印刷物などの生成にも意欲的で、また後述の制御手法などの研究も行っています。極端な偏りで変化が停滞するようなことなく、特に既存アプリケーションとの融合の点で刺激的な存在だと嬉しいです。

DALL·E3 / OpenAI

昨年7月後半に一般公開されて衝撃的だったのはDALL·E2でした。その後立て続けにMidjourneyとStable Diffusionが使えるようになり、画質で劣ってしかも有償のDALL·E2への関心は減っていきました。

10月になって突然、OpenAIと提携するMicrosoftのBingに、DALL·E3らしき画像生成機能が追加されました。他の画像生成AIに比べプロンプトへの忠実性がかなり高い点が特徴で、従来難しかった指示と表現の安定した関係が画期的でした。

DALL·E3はその後、ChatGPTやOpenAIのAPIにも正式に登場し、すでにChatGPTでは気軽に生成できる状況です。BingやChatGPTというカジュアルなインターフェースを備えたことで、今一番誰もが触れやすい高品質な画像生成AIとなっています。

生成AIレンダラーとして見た場合、やはりそのプロンプトの生成と忠実度が興味深いです。特にChatGPTでGTP-4を通して使う場合、要求をLLMが適切なプロンプトに変換することで、ユーザーは自然な表現で希望を伝えることが出来るのは重要です。

昨年ゲームの空想的な実装方法で触れたように、言葉での要求には表現力の乖離の限界があります。得たい視覚表現に対して次元が異なるため、視覚的具体性が乏しい。それは現時点の画像生成でも同様で、だからこそ後述のControlNetなどが待ち望まれていました。

しかしDALL·E3の高いプロンプト再現性は、言葉による指示がまだまだ改善可能だということを示しています。ランダム性が高く何度もやり直す前提の画像生成が、実用的な汎用レンダラ足り得るのに、言葉という大まかな指示へのより忠実な出力は重要な要素でしょう。

私は特定の構図が欲しい場合や、英語のプロンプトを考えるのが面倒な場合に、ChatGPT経由でDALL·E3に試しに描かせ、そのプロンプトをSDXLで使うといったこともしています。DALL·E3が高く評価されたことで、同様のプロンプト忠実度が次の世代の画像生成に積極的に取り入れられると素晴らしいです。

Midjourney

生成画像の品質では昨年からずっと他を引き離していたMidjourney。今年も着々と改善を続け、V5では更に写実性を高めています。来週リリース予定のV6でも、高画質化・高解像度化と共に写実性を更に進化させ、アプリやWeb版の提供も予定されています。また他の企業同様動画生成の研究も進められているようです。

AIやゲーム開発を手掛けるSpellbrushと組んだにじジャーニーという、アニメ系のイラストに特化したサービスも公開しています。こちらはアプリ版もすでに存在しており、そこからMidjourneyの標準的な生成も可能ですが、本家とは住み分けるようです。

今年の前半かなり存在感の大きかったMidjourneyですが、暮れに近づくに従って大きな話題にならなくなったと感じています。新しいバージョンが出ていないこともありますが、他のサービスやモデルとの極端な性能差が減ったことと、画像生成のみの品質が持つインパクトが薄れてきていることなどがありそうです。アニメーションや動画、超高速生成など技術的に波及の大きい機能がV6に盛り込まれるか期待しています。

未だ生成される画像の総合的な品質ではトップにあり、コンセプト出しなどの用途では欧米でのシェアも非常に高いMidjourney。汎用レンダラに求められる品質は更に高いものであり、Midjourneyの牽引は重要です。

14日本日GoogleからImagen 2が発表されるなど、画像生成の競争は激しさを増しながら品質の向上を繰り返しています。次の1年でどのような表現が可能になるのか、それがまたどんな未来を想像させてくれるのか非常に楽しみです。

一方で権利の問題は非常に大きな懸念として残り続けていて、規制の動向や判例の成立が見えるまでは、今のままみなしフェアユースとして進むでしょう。国内法では享受ない学習自体は認められていますが、判例がありません。特定の著作者を狙い撃ちした学習が享受でないなら、今よりひどい衝突が起きそうです。

規制の動向やクローズ・オープンのせめぎあいや、きっと何度も来るであろうアップデートを楽しみに、来年も状況を追いかけようと思います。

制御手法の拡大

画像生成AIが広く公開された当初、テキストによる指示で幅広い概念が描けることに世界中が驚きました。「photo of a cat」と指示すれば1匹の猫の写真が生成され、「photo of a cat, and a dog」とすれば猫と犬が。言葉による指示という仕組みは、圧倒的な手軽さで複雑な視覚表現の生成を可能にしました。

一方でこの仕組みは、意図や目的に合わせた生成の難しさに直結します。言葉は非常に大雑把にしか視覚表現の制御が行えず、しかも画像生成の仕組みは、言葉を包括的に深く理解するわけではありません。

構図やポーズ、配置、質感などの表現を言葉のみで指示するのは困難です。これは画像生成の根本的な欠点であり、レンダラとしても不可欠な制御性の不足です。昨年12月時点でそうした制御性を与える研究も色々ありましたが、用途が限定されたり使い勝手が悪かったり、決定的なものは無いままでした。

ControlNetの登場

そこへ2月に登場したのが「ControlNet」です。ControlNetはlllyasvielことLvmin Zhang氏らによる画期的な研究で、コンピュータービジョンの国際的な学会ICCVでは2023年のベスト論文に選ばれています。

Adding Conditional Control to Text-to-Image Diffusion Models（オープンアクセスの論文PDFより）

ControlNetはStable Diffusionに直感的な制御性を与えます。これにより従来プロンプトで苦心していた構図やポーズなどの制御が、画像によって指定可能になりました。上の引用図にあるように、線画に沿った任意のスタイルの鹿を生成したり、色々な人物を同じポーズで描いたりと、画像生成の用途を一気に広げる革新的なものです。

ControlNetはモデルに合わせた専用の学習が制御方法ごとに必要です。新しいStable Diffusionのバージョンが登場すると過去のものはそのままでは使えません。人気が今ひとつだったSD2ではなかなか対応したControlNetが公開されず、種類も乏しい状態でした。しかしSDXLでは一気に移行が進み、1.5にあった制御方法の種類もかなりカバーされています。こうした迅速さはSDのオープンな体制が

生成AIによるレンダリングではより高度な制御が求められますが、ControlNetはその始まりとして画期的であり、生成AIによる視覚表現技術の歴史を振り返っても初期の業績として重要でしょう。

3Dとのハイブリッド生成

レンダラとしての生成AIは、まず制御手法によって2Dや3Dとのハイブリッドで進むと考えています。特に3DCGの技術は制御との相性が良いため、いずれ広く普及するでしょう。

そのごく初期の例としてMartin Nebelong氏のデモを引用します。

More experiments of this workflow: Generating quick 3d models using Lumas Genie 3D. A text prompt generates 4 models in 10 seconds.

Then, using Lumas webviewer, I feed a screencapture of the model into Krea ai which details the model based on another prompt.

Finally, Magnific… pic.twitter.com/WQmTZFSrQJ
— Martin Nebelong (@MartinNebelong) December 12, 2023

https://twitter.com/MartinNebelong/status/1734535397999325339

Nebelong氏はPS5のDreams Universeを使った作品で著名なクリエイターで、現在NeRFや3D Gaussian Splattingなどで有名なLuma AIと新しいサービスなどのテストに取り組んでいるようです。

この動画では、Lume AIの実験的な3D生成サービスGenieから出力した3Dモデルを、リアルタイム生成のKreaのリアルタイム生成に制御情報として与え、プロンプトで指示して画像を生成。最後にそれをMagnific AIで単なる高精細化というより高ディティール化を行ったものです。3Dモデルの情報はおそらくControlNetを用いて画像生成に渡されています。

BlenderやMaya、Cinem 4Dなどの3DCG DCCツールにこうした機能が搭載された場合、非常に簡易的なモデルで、少なくとも静止画の作成が完了する可能性があります。もちろん、細かな制御が生成任せであるとか、具体的な意図が描けていないとか、この時点だけを切って捨てることは簡単でしょう。しかしここには、詳細なモデリングや従来のレンダラによる演算というステップを介さない、凄まじい効率の可能性が現れています。しかもこれはまだ始まったばかりで、3DCGで言えばやっと基本的なシェーディングが考案されたような時点です。

ボックスによる制御

更に極端な3Dによる制御の例もご紹介します。

LooseControlはまだ論文しか公開されていない研究であり、Webのデモも停止中のため実態は確認できていないものです。しかし実現すれば、これまでのControlNetより更に3Dハイブリッド生成AIレンダリングの進展として大きな可能性を持っています。

Researchers presented LooseControl, a model that can change AI-generated images by using 3D boxes. You can set up the boxes, and the tool will generate an image based on their positions and sizes.

Try the demo: https://t.co/z8AHQHfS1t #AI #GenerativeAI #controlnet #technews pic.twitter.com/zbVF5pfali
— 80 LEVEL (@80Level) December 11, 2023

https://twitter.com/80Level/status/1734200763990110234

先程の例では生成したい画像に合わせた3Dオブジェクトを用意し、それを制御に用いていました。しかしこちらの研究では求める表現近い具体的な形状ではなく、単なるボックスを使って、描く対象の位置やサイズ、向きを制御しています。

従来のControlNetでは構図や対象の配置などを制御するのに、輪郭線や奥行き、ポーズなどを指定していました。そのためリンゴを描きたければ最低限丸い線を描く必要があり、単なる丸を描いて「ここに猫を」といった生成は安定して行うのが難しい状況でした。

ところがこの研究では3Dのボックスを使い、その奥行情報を渡すことで、対象の配置を可能にしています。この応用範囲は凄まじく広いです。3DCGツールやゲームエンジンに組み込んで、ボックスさえ操作できれば構図や配置が可能になります。ボックスなのでモデリングも不要で、3D側の負荷は非常に小さい。誰にでも扱える分かりやすさもあります。

たとえば自社商品の写真を学習させたLoRAを用意し、この制御をインターフェースとして提供する。リアルタイムに生成される結果を確認しながら構図や配置を決める。確定したら高精細化して完了。重要なのはこれが理想の仕組みかどうかでなく、これで済んでしまう需要が豊富にある可能性です。論文通りの実効性が得られるかはデモがないため判断できませんが、実現すればそれだけのインパクトがあります。

この研究にはサウジアラビアのKAUSTやイギリスのUCLとともに、Adobe Researchが参加しています。の名が見えます。十分な実用性が確認されれば、いずれFireflyに搭載されるのかもしれません。

制御の技術もは1年で予想より大きく進展しました。LooseControlのようにControlNetの発展版が来るのか、あるいは全く新しい制御がくるのかもしれません。

後述の高速化のように制御に大きな影響を与える要因もあります。プロンプトにはより忠実に、またよりマルチな制御が可能になっていくと、それらを統合するアプリケーションも生まれそうです。

レンダラ基準では3Dとのハイブリッドな制御が重要で、DepthやNormalなど平面ベースでない情報をどう渡すかが気になっています。

動画やアニメーションの生成

一貫性や連続性に関わる、動画やアニメーションの生成が盛り上がった一年でもありました。

RunwayはStable Diffusion1.xの開発にも関わったメンバーの企業であり、動画の生成では実質トップを走るサービスです。動画に画像のスタイルを転送するGen-1、文字や画像から動画を作成するGen-2などを提供し、その他にも多様なAIを使った編集ツールも備えています。

その対抗馬となっているサービスがPika LabsのPikaです。Runway同様文字や画像からの動画生成を提供し、最近大きな調達も達成しています。画像を動かす方式はPikaがRunwayに先駆け公表すると、急にRunwayがGen-2で対応するなど鎬を削っています。

両者はどちらも非公開のモデルを使った自社サービスを提供しており、Runwayはクレジット式、Pikaはまだビジネスとして詳細が不明ですが、おそらくRunwayに近いものになるのではないでしょうか。他にも動画生成は幾つもサービスが登場しており、また編集ツールを持つAdobeも当然提供を考えているでしょう。

そうした商用サービスが動く中、11月にStability AIからStable Video Diffusion（SVD）が公開されました。これはRunwayやPikaの画像から動画を生成するサービス相当で、セットアップも容易で比較的性能の低い環境でも動くものです。Stable Video Diffusionによるローカルでの動画生成に作例や手順を載せていますが、かなり簡単にローカルでの動画生成が可能です。テキストによる画像生成処理と連結してしまえば、テキストから動画の生成も一括して行なえます。

SVDは研究目的限定のライセンスで公開されています。後述のMembershipsが決定すれば、その他のプロダクト同様商用利用可能な形で公開される可能性があり期待しています。

AnimateDiffも大きな話題になりました。既存のSD系モデルをベースに動作し、1フレームごとのプロンプトや中割の指定が可能など、独自の発展をしています。アニメ用途が多いようですが、カメラ入力のリアルタイム変換や、SVDとの組み合わせなど多様な使い方もされています。

また年末になってAnimateAnyone・MagicAnimateなど、人物の画像をポーズデータに合わせて動かす研究やコードが公開されるなど、その他の特化した研究も盛んです。

スタンフォード大学やGoogleの研究チームが発表したW.A.L.Tのように、研究論文やデモだけが公開されているものまで含めると、かなりの数の動画生成研究開発が進んでいます。

動画やアニメーションの生成は、一貫して整合性ある視覚表現を破綻なく動かすという、生成AIによるリアルタイムのレンダリングに不可欠な要素を含んでいます。今は数十フレームで破綻するような生成が、より長くより正確に、より動きの制御が可能になっていくでしょう。カメラの動きや人物などの動きが制御できれば圧倒的に使いやすくなります。

また画像生成同様ぱっと見きれいな映像の寄せ集めになりがちな出力を、広い範囲で制御するような技術が出てくるかもしれません。こうした発展が重なれば、来年こそ商業作品並のショートムービーが出てくるかもしれません。

3Dオブジェクトの生成

3Dオブジェクトの生成は昨年から小さな動きが散発していました。また大手の研究として以前から存在していましたが、今年は商用サービスにおける発展が大きかったです。

代表的なサービスはCSMのサービスでしょう。最初は不正な結果も多かったですが、徐々に生成品質を向上させています。最新のバージョンでは形状の推定も大幅に改善され、極端な色のテクスチャの出力も抑えられました。

他にも色々なサービスがありますが、勢いがあるのはMeshyでしょうか。3Dモデルへのテクスチャの生成といったユニークな機能もあり、大きな資金も獲得しています。また制御のところで紹介したLumaAIのGenieなど、新しい商用サービスも続々登場するでしょう。

こうした商用サービスの他に、今日14日になってStability AIからStable Zero123が発表されました。3D生成のこのモデルは、最近の他の公開同様研究限定ライセンスです。

Stable Zero123は既存のZero123という研究の流れにあるもので、生成処理にはthreestudioという、これも既存のフレームワークを利用します。必要なVRAMが24GBと大きくなかなか手が出ませんが、ローカルで3D生成が自由にできるのは素晴らしく、是非試したいです。

3Dオブジェクトを直接生成してくれるサービスやモデルとは別に、動画生成も関係が深い分野です。動画生成で挙げたSVDとGoogleのW.A.L.Tは、ともに用途のひとつとして対象のターンテーブル動画を紹介しています。動画が描けるということは、その対象の多角度から見た姿を表現できることでもあります。多角度推定にも用いられるのは当然で、そうして描いた像は3D生成の入力として使えます。

ラディアンスフィールド系の技術も大きな変化がありました。NeRFが突き進むかと思いきや、3D Gaussian Splattingの登場で今やそれ一色です。3D Gaussian Splattingでは軽量化やアニメーション、編集技術などの研究も盛んです。こうしたフィールドベースの3D表現が、画像生成の画素並みに自由に扱えるようになれば、それこそが生成AIレンダリングのボクセルになる可能性もあるでしょう。

3Dのメッシュやテクスチャの生成は、短期的にはゲームなど既存のモデリングの代替利用が中心でしょう。しかしこれ自体が生成AIレンダリングの一貫性や制御性、連続性に寄与する可能性もあると考えています。

たとえば空間的に整合の取れた表現を行うために、3D生成が事前処理として行われ、それが制御情報として画素生成に渡される、といった流れです。他にもオブジェクト単位でガイドとして使ったり、異なる次元の情報を生成し制御に用いる方法は色々考えられます。

画像生成の高速化

画像の生成速度はある程度の向上の後、停滞していました。年の暮れが迫って、チューニングレベルの小さな改善は色々あっても、60fpsどころか30fpsも難しい印象でした。ところが11月になって突如LCM（Latent Consistency Models）が発表され、すぐに続いてSDXL Turboが現れました。

両者ともにStable Diffusionでの生成を劇的に高速化するもので、制限はあれどリアルタイムに近い生成速度を可能にします。こうした成果を応用したStreamDiffusionという研究では、512px角ですがすでに100fpsを達成しています。

StreamDiffusion、ほぼ100fpsで画像生成出来るようになりました！！
sd-turbo, 512×512, batch size 1, txt2imgだと10msで1枚画像が生成出来ます！

多分これが一番速いと思います pic.twitter.com/4qleR2isW1
— あき先生 / Aki (@cumulo_autumn) December 6, 2023

そもそも去年の時点でStablity AIのEmad氏は「蒸留によって30fps達成できる」と公言していました。有耶無耶になってしまったこの発言、真相は不明ですが、SDXL Turboは一応この延長線上にあるのではないでしょうか。

速度の向上はレンダリングに欠かせないもので、30fpsはひとつのマイルストーンです。解像度も向上し、たとえばアップスケーリング込みでフルHD30fpsに到達すれば、大きな達成でしょう。

リアルタイムかどうかは別に、速度はアプリケーションのあり方も変えます。従来プロンプトや制御情報を入力し、生成を待って結果を確認する前提だったユーザーインターフェースは、リアルタイムに指示を投げ続ける直感的操作のものへと変わっていくでしょう。制御情報はペイント風に与えたり、3Dオブジェクトをマニピュレーターで動かしたり。プロンプトは音声対話でLLMを通すようになるかもしれません。

速度があるラインを超えた際に訪れる、劇的な広範囲の変化が待ち遠しいです。

ビジネスと持続可能性

Stable Diffusionの開発元Stabilty AI社のCEOであるEmad Mostaque氏が、X上で「Stability AI Memberships」として、提供するモデルの商用利用を有料化する案を公開しました。

Stability AI Memberships

Recent weeks have shown how alignment of business models is important in AI.

We are bringing in Stability Memberships to help solve this alignment.

We are doing ok as a business and ramping nicely.

However, we want to move to a more aligned…
— Emad acc/acc (@EMostaque) November 28, 2023

現時点でStability AIはClipdropやDreamStudioという有償サービスを展開していますが、高い収益を上げているかは分かりません。またAmazonとの提携やコンサルティングなどの動きはあれど、やはり規模は不明です。Stable DiffusionだけでなくLLMや動画、3D生成などの開発にも投資し続けながら、それをビジネス的な制限なしに公開するのは負担が大きすぎるでしょう。

火付け役であり今もオープンなモデルの主要を占めるSitability AIが、持続可能なビジネスを展開できるかどうかは生成AIの変化に大きな影響を与えます。Membershipsは収益が一定額を超えた場合に有料となる、ゲームエンジン風のライセンスを検討しているようですが、是非バランスの良い設計で継続してほしいです。

ビッグテックが新たなサービスを開始すると、それまでAPIなどで組み立ててきた小規模なビジネスが一瞬で崩壊したり、既存の職業が丸ごと成立しなくなるような状況が繰り返されています。莫大な投資が必要なAIの研究がビッグテックの寡占で滞留しないためにも、オープンな公開をしてくれる主体はとてもありがたい存在です。

MetaやIBM、東京に拠点を構えて話題になったSakana AIなど多数が参加し、”オープンイノベーション”を掲げるThe AI Allianceが発足するといった話題もあります。従来のオープンソースとは異なるオープンなあり方が模索されながら、競争と安全性が確保されていくことを期待したいです。

まとめ

現在の3DCGを置き換える生成AIによるレンダリングの実現に不可欠な、高速性・緻密性・制御性・一貫性・連続性などの1年の変化を確認しました。より速くより細かく、求める対象を狙った通りに描いたり動かしたり。こうした要求に沿った多くの変化は来年も続くでしょう。

現在の3DCGにおけるモデリングやレンダリングを完全に代替すると考えれば、当分先のことかもしれません。しかしハイブリッドな方法や既存の一部代替として導入されることで、来年1年の間でも、あらゆるシーンで生成AIを用いた視覚表現の活用は進むでしょう。

さらにGoogle Pixel 8 Proのようなエッジデバイスでの生成処理が普及すると、よりコンパクトで目的特化のモデルが登場したり、CUDAにしばられない実行環境が台頭したりするかもしれません。

まだまだ生成AIレンダリングは夢の話ですが、毎年ダイナミックに変化していく大きなトレンドの指標として、来年も追いかけようと思います。

ゲームへの利用

生成AIによるレンダリングここまでにして、今年はもうひとつ、ゲームの未来についても取り上げます。

CGとゲームはどちらも私にとって身近で考えやすい題材であり、それらと生成AIをつなぐ仕事にも携わっています。両者は密接に絡み合う分野であり、AIによる激変は当然ゲームにも迫っています。

制作段階には徐々に導入が進み、より中核の工程での利用が加速していくでしょう。実行時の生成AIの活用はまだまだ実験段階ですが、スマートフォンなど手元の端末での推論が普及していくなど、外部の要因も受け徐々に浸透していくでしょう。

そしてその先、ゲームそのものが生成される未来もいずれ来るでしょう。その頃には生成AIによるレンダリングなども相まって、ゲームはゲームと呼べなくなっているかもしれません。

そんなゲームとAIの近い将来や遠い未来を考えてみます。

制作への導入

今の生成AIの多くは演算負荷や要求するハードウェア性能が非常に大きく、ハイエンドのゲーミングPC向けであっても、ゲームに組み込んで動かすのはまだ難しい状況です。制作段階ではそうした問題をある程度無視できるため、まずはここから導入が進んでいます。

企画や構想

制作といっても多くの工程がありますが、すでに広く活用されているのは企画段階でしょう。

LLM（大規模言語モデル）相手のブレインストーミングなど、アイデア出しや整理は仕事でChatGPTを使っている方なら何らか試しているでしょう。画像生成を使って早い段階のビジュアルを検討したり共有したりもDALLE3の登場で更に身近になっています。

ちなみに私はお手伝いしている株式会社Witchpotで、そうした用途の調査やツール作りに携わっています。目下開発中なのは『Glimnote』というゲームや物語などの世界や設定を組み立てるツールです。

こうした段階での利用はその成果が直接製品に含まれず、ゲームを見ても分かりません。公言する企業が少なかったとしても、隠れた事例はすでにかなりあるでしょう。ChatGPTというフレンドリーなツールが登場して以降、企画や構想まで含めた全工程で、全メンバーのチャットAI利用を完全排除できているプロダクトはあるでしょうか。

アセットの生成

ゲームにはアセットと通称されるプログラムやパラメーター以外の多様なデータが含まれます。ゲーム内で登場するテキストや、画像、アニメーション、3Dモデル、音声、動画など、大量のデータがなければ近年のゲームは成立しにくくなっています。

こうしたアセットの生成は画像生成AIが登場した時点から模索されており、たとえばテクスチャという3Dオブジェクトの表面を定義する画像は、すでに実用レベルで生成が可能です。

ゲームエンジンとして有名なUnityは「Muse」という生成AIを用いた開発補助サービスを開始しており、その中にはテクスチャや2D画像の生成機能も含まれています。以下の動画ではUnityエディタ上でMuseを使って直接テクスチャを生成し、その場で3Dオブジェクトに適用している様子が紹介されています。

Unity Muse でゲームレベルのプロトタイプを 20 分で作成する – YouTube

アセットの生成は品質や権利の懸念からまだまだ普及していません。またゲームの販売プラットフォームとして最もシェアの大きいSteamは、生成AIの出力を含むゲームの登録を禁止しています。Steamが使えなければPCゲームで巨大な販路を失うことになります。

Unity MuseやAdobe Fireflyは学習データのオプトインによって権利上の懸念を排除していますが、全面的なアセットの生成は、特に国内や欧米のスタジオで難しい状況です。中国のモバイルゲームなどでは活発な利用がされているようですが、権利上の懸念を払拭できる事例ではありません。

プログラミング

今、プログラミングにAIの支援を一切受けていないケースはどんどん減っているでしょう。Microsoft参加のGitHubのCopilot、OpenAIのChatGPTやそのAPIを使ったCursorなどのツールまで入れれば、この1年でAIの補助を受けないプログラミングの方が珍しくなっているでしょう。テクスチャの生成で紹介した「Unity Muse」もメインはプログラミング等を補助するチャットAIです。

レベルファイブの事例

そうしたゲーム開発の生成AI利用状況の中、政府のAI時代の知的財産権検討会（第４回）に、妖怪ウォッチやレイトン教授などのシリーズで有名な株式会社レベルファイブが提出した資料は衝撃的でした。

AI時代の知的財産権検討会（第４回）議事次第

レベルファイブではアイデアの検討や確認段階だけでなく、画像のアップスケーリングや、プロモーション用の素材の生成にまで用いているそうです。ゲームアセットそのものを生成している事例は含まれていませんでしたが、有名な企業のこうした情報はこれまでほとんど出回らなかったため、非常に興味深いです。

ビジュアルから設定まで、案出しに広く活用しているのも特徴的で、ゲーム開発での生成AIの利用は、やはりその辺りから本格的に動き出しそうです。

ゲームプレイへの導入

ゲームのプレイ中に動作する、つまりランタイムに導入された生成AIは、知る限り本格的な事例はさそうです。OpenAIのAPIやリアルタイム画像生成を用いた小規模なゲームはありますが、実験やデモの延長程度のものばかりに見えます。

たとえばスクウェア・エニックス社は有名な『ポートピア連続殺人事件』をベースに、自然言語処理（NLP）を組み込んだ『SQUARE ENIX AI Tech Preview: THE PORTOPIA SERIAL MURDER CASE』を公開しました。

残念なことにこのテックプレビューは酷評されています。Steamでの評価も”非常に不評”という珍しい状態です。それはテックプレビューの問題というより、プレビュー対象の誤解によるものです。

ChatGPT登場後の世界でプレイヤーたちが求めたのは、制約の少ない自由な指示や応答でした。ところがこのポートピア連続殺人事件は、コマンド入力式の補助としてNLPを組み込んだもので、結局正しいコマンドを知らなければ使いものになりません。始めからコマンドを当てると割り切れば得られた納得も、自由さを期待した分だけ裏切られた印象を与えてしまいました。

ChatGPTのようなLLMベースの仕組みをゲームに組み込むのは、演算の負荷とコスト、デバイスの性能、そして安全性といった問題が山積しています。それは画像生成でも同様で、サーバーで動かすコストをペイできる料金設定も難しい。NPCと自由な会話を楽しめるゲームの登場は、エッジで強力な推論が当たり前になり、サーバーでもより低コストで対応できるようになる次世代以降になりそうです。

ゲームそのものの生成

今は到底その域に達していませんが、いずれ画像や音声を生成するのと同様に、ゲームそのものを生成できる日も来るでしょう。

恐らく最初期は、よくある既存のゲームスタイルをなぞったもので、どこかで見たことのあるつまらないものでしょう。でも幾つかのハードルを超えた辺りで、突然劇的に遊べるゲームが生成されるようになると考えています。

ゲームを作る側としても遊ぶ側としても、悲しいのか嬉しいのか分からない未来ですが、来ないと言える根拠が思い浮かびません。生成AIのように適用範囲が広すぎる技術を、世界中で共同して封印できるとは思えず、誰かが使い続けるならば、それは想像つかない所まで達するしかないでしょう。

「ゾンビが出るのんびりしたサバイバル」と頼んで生成されたゲームで遊ぶのが、今ゲームに向かうのと同じ熱量でできるとは思えません。それならそれで、売れないことによる圧力によって、ゲームそのものの形が変わっていくのでしょう。

「ゲーム」はいつまでゲームなのか

最後に「ゲーム」そのものが消えていく可能性について。

ゲームの定義は無数にありますが、ここでは最大限広く「娯楽のための用意された能動的報酬機構」としてみます。楽しみを第一の目的とし、用意したルールや道具や装置などを用い、基本的にはプレイヤーが関与し、それによって何らかのフィードバックを受け取る、というものです。

今ゲームと呼ぶものに相当する何かが、極めて低コストに、自由に生成できるようになったとして、その頃には今ある生成AIも遥かに発展しているでしょう。たとえばChatGPTのような知的な応答を行うエージェントがひとりひとりに寄り添っていて、音声で対話し、生成AIによるレンダリングを通して、事前準備の無い表現を提示してくれる。

冒険をしたければ、強弱あって興奮するシナリオが生成され、自分の好みに合わせた視覚聴覚の表現が組み立てられ、生成されたゲーム性と適切な範囲の報酬とが返される。それとも、そうしたゲーム的なゲームではなく、ちょっとした会話も、移動中の映像も、寝起きのまどろみにも、日常のすべてに「娯楽のための用意された能動的報酬機構」が仕込まれるかもしれない。

求めに応じて、あるいは求めすらしなくても、自分に最適なあらゆる娯楽を提供される。楽しむ自分の様子は全て把握され、次の提供の入力になる。はっきりと線引のあるゲームではなく、全てが自分のために用意されたちょうどいい娯楽で構成される生活。

線引のある特別な体験を求める場合でも、今あるゲームとは全く違うでしょう。リアルタイムに反応し、リアルタイムに変わる。事前設計は無く、開発者の意図もない。ユーザーの求めに適合する娯楽として、適正範囲の能動性を促し、適正範囲の報酬を返す。ゲームの最大限の定義は満たすけれど、ゲームとは呼びたくないなにか。

ゲームは石ころと地面の時代から、娯楽として能動性と報酬を得ることは変わらずに、ひたすら表現力と扱う概念を増やしてきました。勝ち負けに、論理が加わり、数字が加わり、金が加わる。戦争が都市計画が恋愛が自己実現が名誉が労働が加わり、リアルタイムとコミュニケーションが加わり。ではこの先ゲームには何が増えるかといえば、遊び手個人が加わり、おもてなしが加わる。

今あるゲームを十分に遊んだ世代は、そんな未来でも今のゲームと同等のものを求めるかもしれません。でも生まれた時からゲーム然としたゲームに触れず、優しく賢いエージェントにもてなされ続けた世代が、構えて挑む窮屈なゲームに敢えて挑むでしょうか。アンティーク趣味以外では考えにくく、それすらも頼めばその場で生成してもらえるでしょう。

もしもそうした、誰もがゲーム的な何かにいつでも触れられる時代が来てしまえば、ゲームをゲームと呼ぶことはなく、それはかつて存在した娯楽の古い呼称になっているかもしれません。

もちろんこの空想通りの未来になるとは思えませんが、部分的に実現する可能性は十分あるでしょう。プレイがリアルタイムなのではなく、開発がリアルタイムのゲーム。今のゲームが取り込んでいない体験や概念や社会性を取り込んだゲーム。

今ゲームと呼ぶものはずっと姿を変えてきた結果であって、200年前の人間に今のFPSを見せればゲームと呼んでくれないかもしれません。そうした変わっていく「ゲーム」を、今のゲームを知る私たちがいつまでそう呼べるのか、生成AIはその期限を急速に早めています。

おわりに

CGもゲームも私の身近な話題であり、AIによる変化のインパクトを考えるちょうど良い材料として選んでいます。しかしCGやゲームでこうした変化が実現したこれらに見える変化は一端であり、実際には社会のあらゆる部分に変化が到達します。

人間が意図を込め、表現を積み重ねてきたあらゆる作品が、AIの出力に置き換わる可能性が見えてきている。それは確かに脅かされていると言えるし、何らかの大きすぎる変化は避けようがなさそうです。映画もドラマも音楽も漫画も小説もプログラミングも設計も、もうずっとこの先揺さぶられる続けるのだとしたら、その変化そのものを楽しむしか乗り切る方法はなさそうだと思います。

生成AIレンダリングの現在地とゲームの期限