DALL·E 2 generator obrazu z tekstu – rewolucyjny wynalazek


05/20/2022

Wpisz to co chcesz zobaczyć. Nawet najbardziej dziwne zestawienie. Program DALL·E 2 posiadając szeroki zasób wiedzy wygeneruje połączenie wpisanych słów i stworzy nowy obraz

 

Pierwsza wersja DALL·E do generowania obrazów z tekstu

Firma OpenAI zajmująca się badaniami nad sztuczną inteligencją stworzyła program „Dall-E” – połączenie nazw Salvador Dali i Wall-E . To oprogramowanie było w stanie stworzyć całkowicie unikalny obraz. Posiada szeroką gamę pojęć dających się wyrazić w języku naturalnym. Potrafi tworzyć antropomorficzne wersje zwierząt i obiektów, łączyć niepowiązane pojęcia w wiarygodny sposób, renderować tekst i stosować transformacje do istniejących obrazów.

DALL·E jest modelem języka transformatora. Otrzymuje zarówno tekst, jak i obraz jako pojedynczy strumień danych zawierający do 1280 tokenów. Jest szkolony z maksymalnym prawdopodobieństwem wygenerowania wszystkich tokenów jeden po drugim.

Ta procedura szkoleniowa umożliwia DALL·E generowanie obrazu od podstaw. Także regenerację dowolnego prostokątnego obszaru istniejącego obrazu, który rozciąga się do prawego dolnego rogu, w sposób zgodny z monitem tekstowym.

Badania przy DALL·E

DALL·E był w stanie tworzyć wiarygodne obrazy dla wielkiej różnorodności zdań, które badają kompozycyjną strukturę języka. Generowane obrazy wymagały dopracowania, ale poziom dokładności oraz możliwości twórczych AI już przy pierwszej wersji był imponujący. Dall- E był badany i analizowany pod kątem:

  • Rysowanie wielu obiektów. Dalle-E generuje wiele propozycji obrazów po wpisaniu takich fraz jak „zielony, pięciokątny zegar. zielony zegar w kształcie pięciokąta”.
Dall-E 2
  • Wizualizacja perspektywy i trójwymiarowości. DALL·E umożliwia również kontrolę nad punktem widzenia sceny i stylem 3D, w którym renderowana była scena. Na przykład zdjęcie popiersia Homera” z możliwością wygenerowania jej z różnych stron.
Dall-E 2
  • Wizualizacja struktury wewnętrznej i zewnętrznej. DALL·E renderuje strukture wewnętrzną za pomocą widoków przekrojowych np. ,,przekrój orzecha włoskiego” oraz struktury zewnętrznej za pomocą makrofotografii np. ,,zdjęcie makro koralowca mózgowego”.
Dall-E 2
  • Wnioskowanie szczegółów kontekstowych. W przeciwieństwie do silnika renderującego 3D, którego dane wejściowe muszą być określone jednoznacznie i z pełnymi szczegółami, DALL·E nie zawsze, ale stosunkowo często jest w stanie „wypełnić puste miejsca”, gdy podpis sugeruje, że obraz musi zawierać pewien szczegół, który nie jest wyraźnie określony. Na przykład podpis „obraz przedstawiający kapibarę siedzącą na polu o wschodzie słońca”. W zależności od orientacji kapibary może być konieczne narysowanie cienia, chociaż ten szczegół nie jest wymieniony wprost. DALL·E był testowany w trzech przypadkach: zmiana stylu, otoczenia, a także czasu.
Dall-E
  • Łączenie niepowiązanych pojęć. Charakter języka pozwala na zestawienie pojęć opisujących zarówno rzeczy rzeczywiste, jak również wyimaginowane. Na przykład ,,ślimak z harfy. ślimak o fakturze harfy” lub ,,fotel w kształcie awokado. fotel imitujący awokado”.
Dall-E
  • Wiedza geograficzna. Program wykorzystuje fakty geograficzne, a także punkty orientacyjne.
Dall-E
  • Wiedza doczesna. Program posiada też baze danych na temat pojęć zmieniających się w czasie, którą potrafi wykorzystać.
Dall-E

Nowa wersja Dall-E

Chociaż sposób generowania obrazów w Dall-E był imponujący, obrazy były często rozmazane, nie w pełni dokładne, jak również tworzenie ich zajmowało trochę czasu. Wszelkie aspekty były badane, następnie analizowane pod kątem ulepszeń w kolejnej wersji Dall-E 2.

Dall-E 2

fot. Różnice tworzenia obrazu w Dall-E oraz Dall-E 2

 
 

DALL·E 2- rewolucyjny wynalazek

 Firma OpenAI dokonała ogromnych ulepszeń w oprogramowaniu, tworząc Dall-E 2 – potężną nową iterację, która działa na znacznie wyższym poziomie.

Wraz z kilkoma innymi nowymi funkcjami, kluczową różnicą w Dall-E 2 jest ogromna poprawa:

  • rozdzielczości obrazu,
  • mniejsze opóźnienia (czas tworzenia obrazu),
  • bardziej inteligentny algorytm tworzenia obrazów.

Oprogramowanie nie tworzy tylko obrazu w jednym stylu, pozwala na dodanie różnych technik artystycznych do swojego żądania. Wprowadza style rysunku, malarstwa olejnego, modelu z plasteliny, dzianiny z wełny, narysowanego na ścianie jaskini, a także styl plakatu filmowego z lat 60.

Dall-E 2 fot. Dall-E 2 pozwala na generowanie obrazów w różnych technikach

Nowe funkcje AI

Oprócz zdolności tej technologii do tworzenia obrazów tylko na podstawie podpowiedzi słownych, Dall-E 2 ma dwie inne sprytne techniki:

  • malowanie – można użyć istniejący obraz i edytować w nim nowe funkcje lub zmienić jego części. Jeśli masz obraz salonu, możesz dodać nowy dywanik, psa na kanapie, a także zmienić obraz na ścianie. Cokolwiek przyjdzie do głowy,

Dall-E 2 fot. Można dodać szczegół do już istniejącej grafiki

  • wariacje – po dodaniu własnego zdjęcia, ilustracji lub innego rodzaju obrazu, Dall-E 2 stworzy setki własnych wersji. Można także użyć tego narzędzia, aby połączyć dwa obrazy w jedną wyjątkową mieszankę.

Dall-E 2 fot. Można wygenerować zupełnie nowe grafiki na podstawie istniejącej

Ograniczenia DALL·E 2

Chociaż nie ma wątpliwości, jak imponująca jest ta technologia, nie jest ona pozbawiona ograniczeń. Może się zdarzyć błędnie zinterpretowany opis obrazu. Niektóre słowa mają wiele znaczeń jak na przykład zebra czy czarna dziura. W takich momentach należy zastanowić się nad odpowiednim dobraniem słów kluczowych aby sztuczna inteligencja wygenerowała obrazy zgodne z koncepcją stworzoną w głowie. Zdarza się też, by system mieszał zmienne, typu zamiast wyświetlić obraz czerwonego sześcianu na niebieskim sześcianie, robi odwrotnie. Znajdywane błędy są na bieżąco wynajdywane, następnie zostaną naprawiane w przyszłych aktualizacjach.

Walka ze stereotypami i ludzkim wkładem

Jeśli chodzi o technologię związaną z tworzeniem obrazów przez sztuczną inteligencję, wydaje się oczywiste, że można nią manipulować na wiele sposobów: propaganda, fałszywe wiadomości i zmanipulowane obrazy.

Aby obejść ten problem, zespół OpenAI stojący za Dall-E wdrożył politykę bezpieczeństwa dla wszystkich obrazów na platformie, która działa w trzech etapach.

  • pierwszy etap – odfiltrowanie danych zawierających poważne naruszenie. Obejmuje obrazy, jakie zespół uznałby za nieodpowiednie, na przykład przemoc.
  • drugi etap -filtr, który wyszukuje bardziej subtelne punkty, trudne do wykrycia. Mogą to być treści polityczne, jak również propaganda.
  • trzeci etap – w obecnej formie, każdy obraz wyprodukowany przez Dall-E jest sprawdzany przez człowieka, ale nie jest to opłacalny etap w dłuższej perspektywie, gdy produkt się rozrośnie.

Pomimo stosowania tej polityki, zespół jest wyraźnie świadomy przyszłego rozwoju tego produktu. Wymienili zagrożenia i ograniczenia Dall-E 2, wyszczególniając liczbę problemów, z którymi mogą się zmierzyć. Nie są to jednak nowe problemy i Google zajmuje się tym od lat.

Przyszłość programu

Dall-E 2 jest testowany pod kątem tego jak ludzie będą korzystać z platformy. Oprogramowanie nie ma ustalonej daty udostępnienia go szerszej publiczności.

Produkt będzie udostępniany powoli, grupa OpenAI chce monitorować jego rozwój, opracowując procedury bezpieczeństwa, a także przygotowując go dla prawdopodobnie milionów ludzi, którzy będą z niego korzystać.

źródło: OpenAi

Przeczytaj też o sztucznej inteligencji dzięki, która dba i chroni pszczoły

Zobacz też:


Największe Targi Automatyki Przemysłowej i Robotyki w Polsce!
Czy roboty przewyższają koszty zatrudnienia?
Dlaczego pasta lutownicza często sprawia problemy techniczne?
Grupa RENEX na stoisku Yamaha podczas targów MOTEK 2024
Sztuczne oko zrewolucjonizuje widzenie robotów
Stwórz przedsiębiorstwo przyszłości z naszym audytem technologicznym – wywiad z MultiProjekt Automatyka
Chwytak do automatycznego zbierania jabłek
Dofinansowanie na robotyzację i cyfryzację przedsiębiorstw