セーブポイント

特にジャンルの決まってない雑記です。

最近の画像生成技術について思うこと

※この記事はnoteに公開していたものを引っ越ししたものです。(公開停止になっちゃったので……)

技術的な話というより、ポエムです。まあnoteだし
最近の画像生成モデルを色々触ってみたりした感想とか。

※自分は非イラストレーターでかつ科学技術推進派なので、そういう感じのバイアスが含まれます。予めご了承ください。

誰でもイラストレーターになれる時代?

8月末あたりにStable Diffusionが一般公開されてからというもの、ちょくちょく画像生成モデルに触れる生活をしています。
Stable Diffusionはリアルな写真のようなものの生成に強い気がしますが、自分の興味は専ら二次元イラストの生成にあります。Waifu DiffusionやERNIE-ViLGといった、二次元イラストに特化したモデルも出たりしていましたが、品質が個人的にはいまいちだったので、9月に入ってしばらくしてからは少し画像生成モデルから離れていたりもしました。

ところが、10月3日。NovelAIが画像生成機能の提供を開始し、生成されるイラストの品質の高さに多くの人が衝撃を受けました。自分もそのうちの一人で、リリース初日から課金して遊んだりしてました。

new-file.hatenablog.com

あまりに衝撃だったので、思わず上の記事を書いていたくらい。
Stable Diffusionなどを触っていたときには、顔の生成が上手くできるようになるにはもうしばらくかかるのかなあとか思っていたのに、一ヶ月もしないうちに克服どころか斜め上のパワーアップを遂げて帰ってきてしまいました。(もちろんまだまだ改善点はありますけどね!)

NovelAI Diffusionに関しては、学習データセットDanbooru由来のデータを使っていて良くないとか色々議論はありましたが、もう聞き飽きた話だと思うのでここではあえてそういうところには目を瞑って話をしようと思います。

NovelAI Diffusionの技術は、素直に凄いです。上のように負のニュースばかりインターネット上では流れていたので、褒めたいと思います。
こんなに急速に人間が描いたイラストと見間違えるような品質の画像を機械学習モデルが生成できる時代になるとは、本当に驚きです。

Diffusion ModelとかLatent Diffusion Modelについてはあまり詳しくはないのですが、思っていたよりも早く未来がやってきたという感じがします。

イラストが描けない人間でも、NovelAI Diffusionのようなサービスの力を借りることで簡単に脳内のイメージをアウトプットできるようになりました。
しかも、512x512くらいのサイズの画像であれば5秒もかからずに出力できてしまいます。この速度でイラストを描くのは人間には物理的に不可能ですし、まさに産業革命といったところでしょうか。

また、つい数日前にAnything v3.0というモデルが公開されました。NovelAIのモデルをファインチューニングしたものらしいのですが、こちらも非常に品質の高いイラストを生成することができます。

Anything v3.0で生成した初音ミク

ただ、NovelAI DiffusionやAnythingが凄いとはいえ当然まだ課題もたくさんあります。

これらの画像生成モデルが出力するイラストは非常に「それっぽい」のですが、やはり細部が気になります。高い確率で手などが破綻していたり、しばしば腕が3本になったりなど。文字の生成も苦手です(上の例では偶然"01"がうまく出力できていますが)。

文字の生成が苦手なのはStable Diffusion系列のモデルが潜在空間に情報を圧縮しているから、という説があるようですが、手の破綻なども同じ理屈になるんでしょうか。

画像生成モデルは画像のみから全ての概念を学習していますから、人間のイラストレーターのように3次元のデータとして人体構造を理解しているわけではありません。画像生成モデルにこのようなメタ的な知識を与えることができればもっと現実に則った画像生成が可能になると思いますが、今のところはこの点は人間のイラストレーターの方が何倍も優れていると言えるでしょう。

なんにせよ、以上のような理由から個人的には誰でもイラストレーターになれるような時代はまだ数年こないのかなと思っています。なにより、「AI絵師」は自分の「絵柄」を持てませんからね。これは寂しいことです。(作風を持つことは今でも不可能ではないかもしれませんが……)

こういう思いもあって、自分としてはむしろ最近自らの手でイラストを描いている人への尊敬が深まっています。

非人間産のイラストの需要

少し話は変わり。

NovelAI Diffusionがリリースされて以来、「これいいな~」と思った生成物を稀にインターネット上で公開したりしてみています。

初めはAIBooruという画像生成モデルにより生成された画像のみを扱うDanbooruのフォークサイトに投げていました。(※本家Danbooruと同様にR-18も普通にあるので注意)

aibooru.online

画像生成モデルの生成物は人間が手で描いたものとは別カテゴリのものだろうと思っているのでこういう風にゾーニングができると嬉しいのですが、10月末にpixivが公式にAI生成作品のラベル付けとフィルタリング機能を実装してくれたので、それ以来pixivを利用しています。

特に宣伝したりすることもなくひっそりと生成したイラストを共有していたのですが、驚くことに(ありがたいことに?)11月14日の今日、フォロワーが200人を超えました。

昔は文字書きをしていたのでそのときのフォロワーが元々数十人いると思うのですが、それでもイラストの共有を始めてから100人以上フォロワーが増えたことになります。

これはかなり意外でした。そもそも、AI生成作品を投稿する人でもフォローする層がいるということが個人的に驚きです。まあ、これでこそインターネット上に公開している意味があるということなんですが。

こういうことがあり、別に人間のイラストレーターが描いたイラストでなくとも需要は存在するんだと思ったりしました。

ただ実際、画像生成モデルが生成したイラストと人間が描いたイラストが本格的に見分けがつかなくなってきたらこれらを区別する必要も無くなると思いますし、今後どうなっていくのかが気になります。

余談

最近img2imgとinpaintingの使い方が分かってきて、txt2imgの運ゲー以外でもイラスト生成ができるようになってきました。ネットに公開しているものは結構細部の修正に気を遣っていたりします。

ただ、それでも結局上手くいかないことのほうが多いですね。良い感じの雰囲気だしこのイラストは完成させたいなあと思うやつも割とあるのですが……。

未公開没テイク集

これは多分絵が描ける人でも結局レイヤーが分かれてないので修正に困るやつなんだろうなと思います。

画像生成モデルの進化に期待しつつも、そもそも現時点でもNovelAI DiffusionやAnythingよりも高品質な画像生成が期待できるモデルがあります。そのうちの一つが、Googleにより発表されているImagenです。

Imagen自体まだ限られた用途でしか公開されておらず、内部の詳細な仕様も不明なのですが、このモデルはLatent Diffusion Modelsを用いた手法と根本的にアーキテクチャが異なるらしく、文字の生成などもこなすことができるとされています。

こういったモデルが一般公開されると、また世界が変わるのではと想像してしまいます。

以上余談でした。