Twitter などのソーシャル メディアでこれらを見逃した人はほとんどいないでしょう。バイクに乗ったかわいい動物から悪夢のようなものまで、さまざまな不条理な画像が掲載されています。その後ろにテキストから画像へのモデル化、つまり、短い説明から画像を作成するニューラル ネットワークです。
場合によっては、写真と見分けがつかないほどうまく機能することもあります。おそらく例外として、猫は通常バイクに乗れないのでしょう。この記事では、その背後にあるもの、正確にどのように機能するのか、そしてどのようなツールが利用できるのかについて説明します。
ビデオ ゲームの人工知能が現在の AI の誇大宣伝とほとんど関係がない理由については、ゲームの AI に関する特集をご覧ください。
私たちはゲームの愚かな AI について文句を言いたがりますが、その背後にはシステムがあることがよくあります。
テキストから画像へ - それは何ですか?
これまでのアプローチ面の作成、顔などの非常に特定の領域に対してのみ多大な労力をかけて作業しました。今とても人気のあるもの拡散 モデル一方で、それらは完全にオールラウンダーであり、理解しやすいものでもあります。
リンゴの写真があると想像してください。これで、非常にわずかにノイズが多くなります。これは、各ピクセルの色の値を少し混ぜることを意味します。人間にとって、リンゴが以前どのようであったかを見るのは簡単です。まさにそれをニューラル ネットワークに教えることができます。
写真を撮ったり、ちょっとしたりしてみましょう壊れた
そして、このノイズを正確に除去するようにネットワークをトレーニングします。このネットワークを子供向けゲーム「Blind Cow」のように想像する必要があります。
インターネットに騒々しいイメージを与え、それが吐き出すものを見てからこう言う熱い
または呼ばれた
、言い換えれば、何が真実で何が真実ではないかということです。ネットワークは少しずつ、何をしなければならないかを学習します。たとえば、赤いリンゴ (またはドラゴン フルーツ) の白いピクセルは、おそらくそこには属していません。
ただし、すべてを一度に行うわけではありません。ネットワークで取得されるノイズの多い画像の場合は、常にほんの少しのノイズを除去します。そしてもちろん、これをリンゴに対して行うだけでなく、あらゆる種類の画像やあらゆる種類のノイズ レベルに対して行います。ほんの少しの雪から、もはや何も見えなくなる完全な吹雪までです。
このようなネットワークがまったく新しい画像を生成するには、ノイズのみ、つまりランダムな値のみで構成される画像にネットワークを適用するだけです。次に、ネットワークはノイズを少しずつ除去し、それによって新しい画像を構築します。
小島秀夫オーフデムトースト
最初はあまり気づきませんが、偶然だけでネットワークは最終的には考える
たとえば、トーストのスライスに小島秀夫が載っていると思ったときのような、構造を認識します。そして、これはまさにネットワークがノイズのみを除去することを学習した場所、つまり認識していると考えているものを保持しようとしているところです。千歩を超えると、意味のある何かが得られるでしょう。
さまざまなアプローチはすべて、まさにそれを行います。新しい画像を作成したい場合、ランダムなノイズ画像をネットに投げるだけで、意味のある画像が得られるまで、ノイズと思われるものはすべて徐々に除去されます。
ネットワークが完全に暗闇にあると感じないように、テキストによる説明も与えられるため、作業が少し簡単になります。キュー中りんご
その後、シェル上のピクセルがほぼ赤であることに少し早く気づきます。
実際、これらのネットワークは、数十億の例を使用して、画像のノイズを少し減らすためにテキストを使用する方法のみを学習します。これを最初はランダムなノイズに頻繁に適用すると、ある時点でそこから有用なものが生まれます。理論的には。たいてい。
本質的に、すべてのよく知られたモデルは何も変わりませんが、もちろん、一部のクリプトマイナーさえも古く見えるほどの改良と計算能力が追加されています。ネットワークを迅速に再トレーニングできる600,000ドル費用がかかります。
AI ツール: テキストから画像を自分で生成できるツール
現時点で最良のアプローチの 1 つは Google によって提供されています画像洗礼を受けたモデルは、競合他社とは対照的に、レタリングを(ほとんど)正しく表示できます。
これは、モデルが文字が実際にどのように機能するかをまったく学習していないという点で印象的です。トレーニング中にのみ認識されたのは、たとえば...Z とラベル付けされた XY
ラベルが付けられると、特定の形状が画像に表示されます。
ただし、Google が全体に数十億 (!) のラベル付き画像を供給し、入力テキストを理解する部分のトレーニングだけでもおそらく 2 桁の百万ドルの費用がかかったということは言及しておく必要があります。算数だけ。モデル自体は (比較的) シンプルですが、残念ながら無料で入手できません。
非常に鮮明な画像を自分で生成したいが、数十ギガバイトのメモリを備えたグラフィックス カードが満載のサーバー ファームや独自の発電所を持っておらず、プログラミングの知識もない場合は、アクセス可能ないくつかのツールを使用できます。代替案:
FROM-E 2
FROM-E 2ブラウザから誰でもアクセスでき、使いやすいですが、数枚以上の画像を生成したい場合は料金を支払う必要があります。
旅の途中
旅の途中は無料で利用できる最初のモデルの 1 つであり、デザイン シーンで特に人気があります。全体はDiscordボット経由で簡単に操作できますが、ここでもいくつかの無料画像の後に使用料がかかります。
人間の助けを借りて、ミッドジャーニーは現在、それを作成することさえできています。芸術賞片付けるために。これについては記事で詳しく知ることができますAIがアートコンテストで1位を奪う – 本物のアーティストは激怒
。
安定した拡散
安定した拡散誰でもアクセスでき、コードはインターネット上で完全に公開されており、少しの知識があればすぐに実行できます。問題点: 大量の VRAM を搭載した最新のグラフィック カードが必要です。しかし、現在では多くの企業が提供していますウェブサイトオンラインでも使えます。
ダルイーミニ
ダルエ ミニ他のモデルのように拡散を通じて技術的に機能するわけではありませんが、自由にアクセスできます。使用されたデータとユーザー入力のフィルタリングは著しく少なく、これはポップ カルチャーに対する理解の大幅な向上に反映されています。ストレンジャー・シングスシリーズのデモゴルゴンなど友達
これまでのところ、一緒に演奏することは DALL·E Mini でのみ正確に機能します。
他にも多くのモデルがあり、それぞれに長所と短所があります。ただし、それらをすべてリストすると、この短いリストの範囲を超えてしまいます。
次は何でしょうか?
Twitter だけでなく、真夏の熟れすぎた果物かごに飛び込むショウジョウバエのように、研究分野のいたるところで拡散が発生しています。退屈な写真を超えて久しい。
原理は常に同じです。段階的に、純粋なノイズからノイズ成分を徐々に除去するようにニューラル ネットワークが学習されます。十分なデータがある限り、これをビデオ、音楽、3D モデルのいずれで行うかは最終的には問題ではありません。
まず第一に、次の当然のステップは、画像を動画に変換することです。グーグルたとえそれがまだ少しピクセル化していて短かったとしても、ずっと前にそれをしました。しかし、数年後には、ティル・シュヴァイガーやウーヴェ・ボルのような映画を作るにはおそらくこれで十分になるだろう。
もう 1 つの方向は、テキスト入力を通じて 3D モデルを作成することです。私たちの世界がどのように見え、機能するかについての知識は、明らかにテキストから画像へのモデルにすでに含まれています。 Google は、すでにトレーニング済みのモデルからこの知識を正確に抽出することに成功し、単なる退屈な画像ではなく、全体的な画像を提供します。3Dモデルテクスチャを使って作成できます。これは、特にビデオ ゲーム業界のプロトタイプにとっては、非常に素晴らしいものになる可能性があります。
確かに、月に猫がいる写真は素敵ですが、自分の猫が月にいたら、もっと素敵になるでしょう。これはまさに初歩的な方法で機能するものです。指定されたいくつかの画像から説明を構築し、それをテキスト入力で使用できます (まさに月にいる私の猫です!
)。
最終的には、全体が不気味な人にも使用できますディープフェイク使用。また、1 つの画像を撮影して背景を変更したり、大まかな風景をペイントして、モデルを美しい油絵に変えることもできるようになりました。
写真を編集する必要があるが、Photoshop をいじりたくないですか?この方向に進む人もいる新しいアプローチ研究結果: これらの方法を使用すると、別の説明を入力するだけで、どんな画像でもすぐに編集できるようになります。このようにして、馬に乗った女の子の写真が、指示に従って恐竜のライダーになるのです。もちろん、このようなアプローチはあらゆる種類の悪ふざけにも使用できます。ディープフェイク使用されます。
もっと無害な使い方もあります。休暇中の写真では、いつも暗い表情をしすぎていませんか?心配しないでください。AI がそれも提供してくれるようになりました解決策Photoshopの知識がなくても。あなたがしなければならないのは、同じ笑顔の写真が欲しいと入力することだけです:
私たちはまだ始まったばかりです
テキストからの画像生成が驚くほどうまく機能するようになりました。次のステップは、新しいアプリケーション、そして何よりも画像生成のさらなる制御に向けたものです。
結局のところ、将来のエルダースクロールズにいることを夢見ない人はいないでしょうか?猫人間
テキストフィールドに入力するのではなく、キャラクターが実際にどのように見えるかを正確かつ正確に制御できるようにするためです。
少なくとも Photoshop やゲームなどのプログラムでは、実際に完成品ですべてを使用できるようになるまで、そう長くはかからないはずです。たとえば、Microsoft はすでにそれを使用しています。あらゆる種類のグラフィックを作成できるデザイナー ツールベータ版でリリースされました。
最後に、AI のトピックに関する現在のポッドキャストをお勧めします。このポッドキャストでは、ChatGPT のようなチャット ボットについても詳しく説明しています。
へのリンクポッドキャストのコンテンツ
AIツールの出現についてどう思いますか?新しい可能性があるということで前向きに捉えていますか、それとも著作権や偽物などの問題からむしろ否定的に捉えていますか?気軽にコメントに書いてください!