Google gemini に「アップロードした画像の人物を使って新しい画像を生成する」という機能がある事は、よく知られていると思います。
細かく言うとgeminiが自分で生成しているのではなく、geminiからNano Bananaが呼び出されて生成されています。
登場してから半年くらいの機能なので、一般的には「新機能」かもしれませんが、AIの世界で半年前は「結構前の事」です。
もはや新機能ではなく、「AIを使う人にとっては普通の機能」ですよね。
ところで、この機能ですが、アップロードする画像は1枚に限定されていません。
アップロード画面では複数指定ができます。
通常一度に複数の画像(モデルにもよりますが最大3~5枚程度)をプロンプトに入力することが可能です。
ここで2つの人物画像をアップロードして、1枚の画像の中で会話しているような画像を生成することを指示したとします。
1枚に一人の人物が描かれた画像を二人分、つまり2枚の画像を用意することで、geminiはNano Bananaに指令し複数の要素を素早く1枚の画像に統合します。
そして「2人が会話している」という関係性を理解し、視線や体の向きを調整しようとします。
こうして、コンビが会話している画像が生成されます。