DALL·E 2 generator obrazu z tekstu – rewolucyjny wynalazek

05/20/2022
Wpisz to co chcesz zobaczyć. Nawet najbardziej dziwne zestawienie. Program DALL·E 2 posiadając szeroki zasób wiedzy wygeneruje połączenie wpisanych słów i stworzy nowy obraz
Pierwsza wersja DALL·E do generowania obrazów z tekstu
Firma OpenAI zajmująca się badaniami nad sztuczną inteligencją stworzyła program „Dall-E” – połączenie nazw Salvador Dali i Wall-E . To oprogramowanie było w stanie stworzyć całkowicie unikalny obraz. Posiada szeroką gamę pojęć dających się wyrazić w języku naturalnym. Potrafi tworzyć antropomorficzne wersje zwierząt i obiektów, łączyć niepowiązane pojęcia w wiarygodny sposób, renderować tekst i stosować transformacje do istniejących obrazów.
DALL·E jest modelem języka transformatora. Otrzymuje zarówno tekst, jak i obraz jako pojedynczy strumień danych zawierający do 1280 tokenów. Jest szkolony z maksymalnym prawdopodobieństwem wygenerowania wszystkich tokenów jeden po drugim.
Ta procedura szkoleniowa umożliwia DALL·E generowanie obrazu od podstaw. Także regenerację dowolnego prostokątnego obszaru istniejącego obrazu, który rozciąga się do prawego dolnego rogu, w sposób zgodny z monitem tekstowym.
Badania przy DALL·E
DALL·E był w stanie tworzyć wiarygodne obrazy dla wielkiej różnorodności zdań, które badają kompozycyjną strukturę języka. Generowane obrazy wymagały dopracowania, ale poziom dokładności oraz możliwości twórczych AI już przy pierwszej wersji był imponujący. Dall- E był badany i analizowany pod kątem:
| ![]() |
| ![]() |
| ![]() |
| ![]() |
| ![]() |
| ![]() |
| ![]() |
Nowa wersja Dall-E
fot. Różnice tworzenia obrazu w Dall-E oraz Dall-E 2
DALL·E 2- rewolucyjny wynalazek
Firma OpenAI dokonała ogromnych ulepszeń w oprogramowaniu, tworząc Dall-E 2 – potężną nową iterację, która działa na znacznie wyższym poziomie.
Wraz z kilkoma innymi nowymi funkcjami, kluczową różnicą w Dall-E 2 jest ogromna poprawa:
- rozdzielczości obrazu,
- mniejsze opóźnienia (czas tworzenia obrazu),
- bardziej inteligentny algorytm tworzenia obrazów.
Oprogramowanie nie tworzy tylko obrazu w jednym stylu, pozwala na dodanie różnych technik artystycznych do swojego żądania. Wprowadza style rysunku, malarstwa olejnego, modelu z plasteliny, dzianiny z wełny, narysowanego na ścianie jaskini, a także styl plakatu filmowego z lat 60.
fot. Dall-E 2 pozwala na generowanie obrazów w różnych technikach
Nowe funkcje AI
Oprócz zdolności tej technologii do tworzenia obrazów tylko na podstawie podpowiedzi słownych, Dall-E 2 ma dwie inne sprytne techniki:
- malowanie – można użyć istniejący obraz i edytować w nim nowe funkcje lub zmienić jego części. Jeśli masz obraz salonu, możesz dodać nowy dywanik, psa na kanapie, a także zmienić obraz na ścianie. Cokolwiek przyjdzie do głowy,
fot. Można dodać szczegół do już istniejącej grafiki
- wariacje – po dodaniu własnego zdjęcia, ilustracji lub innego rodzaju obrazu, Dall-E 2 stworzy setki własnych wersji. Można także użyć tego narzędzia, aby połączyć dwa obrazy w jedną wyjątkową mieszankę.
fot. Można wygenerować zupełnie nowe grafiki na podstawie istniejącej
Ograniczenia DALL·E 2
Chociaż nie ma wątpliwości, jak imponująca jest ta technologia, nie jest ona pozbawiona ograniczeń. Może się zdarzyć błędnie zinterpretowany opis obrazu. Niektóre słowa mają wiele znaczeń jak na przykład zebra czy czarna dziura. W takich momentach należy zastanowić się nad odpowiednim dobraniem słów kluczowych aby sztuczna inteligencja wygenerowała obrazy zgodne z koncepcją stworzoną w głowie. Zdarza się też, by system mieszał zmienne, typu zamiast wyświetlić obraz czerwonego sześcianu na niebieskim sześcianie, robi odwrotnie. Znajdywane błędy są na bieżąco wynajdywane, następnie zostaną naprawiane w przyszłych aktualizacjach.
Walka ze stereotypami i ludzkim wkładem
Jeśli chodzi o technologię związaną z tworzeniem obrazów przez sztuczną inteligencję, wydaje się oczywiste, że można nią manipulować na wiele sposobów: propaganda, fałszywe wiadomości i zmanipulowane obrazy.
Aby obejść ten problem, zespół OpenAI stojący za Dall-E wdrożył politykę bezpieczeństwa dla wszystkich obrazów na platformie, która działa w trzech etapach.
- pierwszy etap – odfiltrowanie danych zawierających poważne naruszenie. Obejmuje obrazy, jakie zespół uznałby za nieodpowiednie, na przykład przemoc.
- drugi etap -filtr, który wyszukuje bardziej subtelne punkty, trudne do wykrycia. Mogą to być treści polityczne, jak również propaganda.
- trzeci etap – w obecnej formie, każdy obraz wyprodukowany przez Dall-E jest sprawdzany przez człowieka, ale nie jest to opłacalny etap w dłuższej perspektywie, gdy produkt się rozrośnie.
Pomimo stosowania tej polityki, zespół jest wyraźnie świadomy przyszłego rozwoju tego produktu. Wymienili zagrożenia i ograniczenia Dall-E 2, wyszczególniając liczbę problemów, z którymi mogą się zmierzyć. Nie są to jednak nowe problemy i Google zajmuje się tym od lat.
Przyszłość programu
Dall-E 2 jest testowany pod kątem tego jak ludzie będą korzystać z platformy. Oprogramowanie nie ma ustalonej daty udostępnienia go szerszej publiczności.
Produkt będzie udostępniany powoli, grupa OpenAI chce monitorować jego rozwój, opracowując procedury bezpieczeństwa, a także przygotowując go dla prawdopodobnie milionów ludzi, którzy będą z niego korzystać.
źródło: OpenAi
Przeczytaj też o sztucznej inteligencji dzięki, która dba i chroni pszczoły
Zobacz też:







