誰でもイラストレーターになれる時代？

8月末あたりにStable Diffusionが一般公開されてからというもの、ちょくちょく画像生成モデルに触れる生活をしています。
Stable Diffusionはリアルな写真のようなものの生成に強い気がしますが、自分の興味は専ら二次元イラストの生成にあります。Waifu DiffusionやERNIE-ViLGといった、二次元イラストに特化したモデルも出たりしていましたが、品質が個人的にはいまいちだったので、9月に入ってしばらくしてからは少し画像生成モデルから離れていたりもしました。

ところが、10月3日。NovelAIが画像生成機能の提供を開始し、生成されるイラストの品質の高さに多くの人が衝撃を受けました。自分もそのうちの一人で、リリース初日から課金して遊んだりしてました。

new-file.hatenablog.com

あまりに衝撃だったので、思わず上の記事を書いていたくらい。
Stable Diffusionなどを触っていたときには、顔の生成が上手くできるようになるにはもうしばらくかかるのかなあとか思っていたのに、一ヶ月もしないうちに克服どころか斜め上のパワーアップを遂げて帰ってきてしまいました。（もちろんまだまだ改善点はありますけどね！）

NovelAI Diffusionに関しては、学習データセットにDanbooru由来のデータを使っていて良くないとか色々議論はありましたが、もう聞き飽きた話だと思うのでここではあえてそういうところには目を瞑って話をしようと思います。

NovelAI Diffusionの技術は、素直に凄いです。上のように負のニュースばかりインターネット上では流れていたので、褒めたいと思います。
こんなに急速に人間が描いたイラストと見間違えるような品質の画像を機械学習モデルが生成できる時代になるとは、本当に驚きです。

Diffusion ModelとかLatent Diffusion Modelについてはあまり詳しくはないのですが、思っていたよりも早く未来がやってきたという感じがします。

イラストが描けない人間でも、NovelAI Diffusionのようなサービスの力を借りることで簡単に脳内のイメージをアウトプットできるようになりました。
しかも、512x512くらいのサイズの画像であれば5秒もかからずに出力できてしまいます。この速度でイラストを描くのは人間には物理的に不可能ですし、まさに産業革命といったところでしょうか。

また、つい数日前にAnything v3.0というモデルが公開されました。NovelAIのモデルをファインチューニングしたものらしいのですが、こちらも非常に品質の高いイラストを生成することができます。

ただ、NovelAI DiffusionやAnythingが凄いとはいえ当然まだ課題もたくさんあります。

これらの画像生成モデルが出力するイラストは非常に「それっぽい」のですが、やはり細部が気になります。高い確率で手などが破綻していたり、しばしば腕が3本になったりなど。文字の生成も苦手です（上の例では偶然"01"がうまく出力できていますが）。

文字の生成が苦手なのはStable Diffusion系列のモデルが潜在空間に情報を圧縮しているから、という説があるようですが、手の破綻なども同じ理屈になるんでしょうか。

画像生成モデルは画像のみから全ての概念を学習していますから、人間のイラストレーターのように3次元のデータとして人体構造を理解しているわけではありません。画像生成モデルにこのようなメタ的な知識を与えることができればもっと現実に則った画像生成が可能になると思いますが、今のところはこの点は人間のイラストレーターの方が何倍も優れていると言えるでしょう。

なんにせよ、以上のような理由から個人的には誰でもイラストレーターになれるような時代はまだ数年こないのかなと思っています。なにより、「AI絵師」は自分の「絵柄」を持てませんからね。これは寂しいことです。（作風を持つことは今でも不可能ではないかもしれませんが……）

こういう思いもあって、自分としてはむしろ最近自らの手でイラストを描いている人への尊敬が深まっています。

非人間産のイラストの需要

少し話は変わり。

NovelAI Diffusionがリリースされて以来、「これいいな～」と思った生成物を稀にインターネット上で公開したりしてみています。

初めはAIBooruという画像生成モデルにより生成された画像のみを扱うDanbooruのフォークサイトに投げていました。（※本家Danbooruと同様にR-18も普通にあるので注意）

aibooru.online

画像生成モデルの生成物は人間が手で描いたものとは別カテゴリのものだろうと思っているのでこういう風にゾーニングができると嬉しいのですが、10月末にpixivが公式にAI生成作品のラベル付けとフィルタリング機能を実装してくれたので、それ以来pixivを利用しています。

特に宣伝したりすることもなくひっそりと生成したイラストを共有していたのですが、驚くことに（ありがたいことに？）11月14日の今日、フォロワーが200人を超えました。

昔は文字書きをしていたのでそのときのフォロワーが元々数十人いると思うのですが、それでもイラストの共有を始めてから100人以上フォロワーが増えたことになります。

これはかなり意外でした。そもそも、AI生成作品を投稿する人でもフォローする層がいるということが個人的に驚きです。まあ、これでこそインターネット上に公開している意味があるということなんですが。

こういうことがあり、別に人間のイラストレーターが描いたイラストでなくとも需要は存在するんだと思ったりしました。

ただ実際、画像生成モデルが生成したイラストと人間が描いたイラストが本格的に見分けがつかなくなってきたらこれらを区別する必要も無くなると思いますし、今後どうなっていくのかが気になります。

余談

最近img2imgとinpaintingの使い方が分かってきて、txt2imgの運ゲー以外でもイラスト生成ができるようになってきました。ネットに公開しているものは結構細部の修正に気を遣っていたりします。

ただ、それでも結局上手くいかないことのほうが多いですね。良い感じの雰囲気だしこのイラストは完成させたいなあと思うやつも割とあるのですが……。

これは多分絵が描ける人でも結局レイヤーが分かれてないので修正に困るやつなんだろうなと思います。

画像生成モデルの進化に期待しつつも、そもそも現時点でもNovelAI DiffusionやAnythingよりも高品質な画像生成が期待できるモデルがあります。そのうちの一つが、Googleにより発表されているImagenです。

Imagen自体まだ限られた用途でしか公開されておらず、内部の詳細な仕様も不明なのですが、このモデルはLatent Diffusion Modelsを用いた手法と根本的にアーキテクチャが異なるらしく、文字の生成などもこなすことができるとされています。

ImagenとDALL-E2の比較

（画像1枚目）DALL-E2では、画像中に文字列を描くようにテキストで指示すると、文字列を少し間違えて描画することが多かったが、Imagenでは大幅に改善

（画像2枚目）DALL-E2では、色を指定された複数の物体を描くときに色が逆になることが多かったが、そこも改善されている pic.twitter.com/6o3bcrBrvJ
— 小猫遊りょう（たかにゃし・りょう） (@jaguring1) 2022年5月25日

Excited to announce Imagen Video, our new text-conditioned video diffusion model that generates 1280x768 24fps HD videos! #ImagenVideo https://t.co/JWj3L7MpBU
Work w/ @wchan212 @Chitwan_Saharia @jaywhang_ @RuiqiGao @agritsenko @dpkingma @poolio @mo_norouzi @fleet_dj @TimSalimans pic.twitter.com/eN81LqZW7I
— Jonathan Ho (@hojonathanho) 2022年10月5日