スターフルーツと画像生成AI

 ブログに記していないが、スクリプトの開発、公開は続けている。

最近では神経衰弱のような絵合わせゲーム「ペアカード(飲み物)」を公開した。

これもJavascriptの練習を目的とした単純なプログラムであるが、飲み物の画像を付け、ベトナム語の単語を表示するようにすることで遊びながら単語を覚えるというコンセプトにした。

当初はベトナム語のみであったが、日本語を学習している人にも役に立つように日本語表示も追加した。

カードの画像は昨年からのテーマである画像生成AIを用いている。

ベトナム語変換スクリプトの画像では最近DALL-E3を用いて生成した画像もあるが、ペアカードでは裏面のみDALL-E3で表面の飲み物画像は全てNijiJourneyによって生成している。

画像とテキストを入れ替えれば他の単語の学習にもなるので、次は果物編を作ろうと思い、ベトナムらしい果物5つと世界的に食べられている果物5つを選んで生成を開始した。

いちご、リンゴ、マンゴー、ドリアン、この辺りはなんの問題もなく生成される。

2番めに苦労したのはパパイヤ、カットしていないを指定してもカットされた画像ばかり生成されてしまう。たしかにGoogleでパパイヤを検索して画像を見るとカットした画像ばかりが表示されるので、こうした画像を学習データにしていたらカットした画像ばかり生成されるだろう。

それでも何度か繰り返しているうちにカットしてない画像も生成されたので、それで良しとした。

1番苦労したのはなんといってもスターフルーツだった。

NijiJourneyではこんな女の子の画像が生成されてしまうし


Mid Journey(v5.2)ではこの様にカットした画像が生成されてしまう

DALL-E3ではこんな星型の謎植物が生成されてしまう

これ、1回、2回ではなくて、それぞれに10回以上生成を試みてもまともな画像は生成されなかった。
唯一スターフルーツっぽいのはMid Journeyの V6[ALPHA]であった。
質感的に微妙ではあったが、他と比べれば明らかにマシなので、これで手を打つことにした。
ーーーーー2024/01/07追記 この画像はスターフルーツに見えないので結局ほとんど手描きした画像に変更した。どの様に描き換えたかはペアカード第2弾 果物編で確認

まとめ

昨今、画像生成AIを用いた画像をよく見かけるようになった。公開される画像は大概大きな問題はない画像であるが、実際に自分で生成してみると必ずしも期待通りの画像が生成されるわけではない。
何度も繰り返して変な画像を捨てて残った画像を公開する事になる

今回のスターフルーツのように、期待した画像がほぼ生成されないという事もある。
画像生成AIで学習されるデータの多さは当然ながら世界的に一般的なものが多く、リンゴ、ぶどうといった果物は簡単に生成できる。
スターフルーツのように特定の地域でのみ食べられている果物はあまり学習されておらず、まともな出力が期待できない。
以前、ベトナム語文法変換スクリプト用の画像でフォー(phở)を食べる女性を描かせようとしたが、何度出力してもフォーには見えなかった。麺類ではあったが、まるでラーメンのような具材とドンブリで使い物にならなかった。
その結果、画像に使う例文の方を変更して生成しやすい画像に切り替えるという対応を行っていたのである。
現状では生成AIで生成できる画像には大きな制限があり、地域が限定されるものは不自然になりやすい。

「アオザイを着た女性」をNijiJourneyで出力する

一見まともに見えるかもしれないが、アオザイ(アオヤイ)(áo dài)の特徴を理解していればどれもアオザイっぽく無いと気がつくだろう。
本来のアオザイは脇のスリットから脇腹がほんのわずか見えるようになっている。これらの絵はそういったアオザイの特徴が失われているのである。

 これらを見てもわかるようにぱっと見は問題なさそうでもよく見れば不自然な画像が生成されてしまうので、自然さが必要な場面では地域を限定したテーマの画像を生成するのは難しい。
 この1年間で画像生成AIは劇的に進化を続けているので、こうした問題も徐々に解決されていくとは思うけども、今の現状はまだこういう状況であり、不自然さとの戦いはまだまだ続きそうである。

コメント

このブログの人気の投稿

Googleスプレッドシートの正規表現置換で改行文字

Googleスプレッドシートのimportxml関数をhtmlに使う

『ベトナム語』多言語対応学習アプリDropsを一年以上続けてみた