Jak można wykorzystać generowanie obrazów AI za pomocą DALL·E 2 w marketingu cyfrowym?
Opublikowany: 2022-10-17„Wow, wziąłeś to? Chwileczkę – to zrobił profesjonalny fotograf…?”
Taka była reakcja Jake'a, naszego lekarza, kiedy pokazałem mu poniższy obraz: fotorealistyczny obraz wygenerowany przez OpenAI DALL·E 2, utworzony w ciągu kilku sekund, przy użyciu monitu, który wprowadziłem do „zdjęcia makro motyla na słoneczniku” .
Jest to zdjęcie, które wygląda tak realistycznie i uchwyciło ostrość i kolor motyla na pierwszym planie oraz nieostrość słonecznika w tle. W rzeczywistości tak bardzo, że trudno byłoby znaleźć wiele osób, które potrafią znaleźć jakiekolwiek oczywiste znaki ogonowe, artefakty lub poczucie błędu, które mogą być powszechne w obrazach generowanych przez sztuczną inteligencję.
To był moment, w którym zdałem sobie sprawę, że weszliśmy w punkt, w którym zaawansowane systemy AI mogą rozumieć i tworzyć fotorealistyczne obrazy, które w wielu przypadkach są nie do odróżnienia od prawdziwego życia. Ma to interesujące implikacje dla każdego, kto pracuje w branży kreatywnej i cyfrowej, a także w każdej roli, która obejmuje pozyskiwanie lub manipulację obrazem.
W tym artykule zgłębiam kilka praktycznych zastosowań DALL·E 2 OpenAI w kreatywnym i cyfrowym świecie marketingu oraz jak niedawno zaktualizowane narzędzia edycyjne DALL·E 2 mogą być wykorzystane do wspierania pracy twórczej.
Co to jest DALL·E 2?
DALL·E 2 OpenAI to generator obrazów oparty na sztucznej inteligencji, który pobiera prosty monit tekstowy i generuje obrazy w oparciu o zrozumienie tego monitu przez sztuczną inteligencję. W ciągu kilku sekund otrzymasz wygenerowane cztery wariacje obrazów, które możesz następnie pobrać, udostępnić lub zapisać jako ulubione na swoim koncie OpenAI.
DALL·E 2 jest teraz dostępny dla wszystkich. Otrzymujesz 15 darmowych kredytów miesięcznie, przy czym wymagany jest 1 kredyt na generację, a każde 115 kredytów kosztuje 15 USD. Możesz generować obrazy od zera lub przesyłać własne zdjęcia do manipulacji, pod warunkiem, że są one zgodne z Polityką treści DALL·E 2 oraz, zgodnie z warunkami użytkowania, „możesz używać Pokoleń do dowolnego celu prawnego, w tym do użytku komercyjnego”.
To sprawia, że przypisanie autorstwa jest interesującym tematem i ile należy przypisać osobie dostarczającej podpowiedzi, źródłu obrazu podczas edytowania obrazu lub DALL·E 2. Wszystkie obrazy, których użyłem w tym poście na blogu, na przykład ja albo wygenerowany za pomocą DALL·E 2 lub wygenerowany zmodyfikowany obraz biblioteki, ale czułbym się trochę oszustem, gdybym przypisał sobie te generacje lub modyfikacje.
Obrazy mogą być generowane na podstawie:
- Temat: możesz generować obrazy wszystkiego, co chcesz; krajobrazy, zwierzęta, przedmioty, abstrakcyjne koncepcje, o ile są zgodne z polityką treści, która na przykład zakazuje generowania zdjęć znanych osób, aby uniknąć rozprzestrzeniania się deepfake.
- Medium: od szkiców ołówkowych i obrazów olejnych po grafikę pikselową i ilustracje cyfrowe, DALL·E 2 może generować obrazy reprezentujące każdy rodzaj medium.
- Ustawienia środowiskowe: dodaj do szybkich czynników środowiskowych, takich jak „zachód słońca” lub „mgła”, aby nadać swoim zdjęciom odrobinę atmosfery.
- Lokalizacja: jeśli chcesz umieścić swoje zdjęcia w określonej lokalizacji, podaj w komunikacie nazwę miasta lub kraju i powinieneś uzyskać punkty orientacyjne, style budynków itp. powiązane z tym miejscem.
- Styl artystyczny: DALL·E 2 może generować obrazy w stylu różnych artystów. Po prostu dodaj „w stylu [artysta]” do swoich podpowiedzi.
- Ustawienia aparatu: szczególnie przydatne w przypadku stylów fotograficznych, możesz dodać ustawienia aparatu do swoich żądań, aby nadać zdjęciom wiele różnych ujęć i jakości. Przykłady obejmują „Ujęcie makro 35 mm”, „długa ekspozycja” lub „obiektyw typu rybie oko”.
Po prostu użyj naturalnego języka, aby połączyć dowolne z powyższych, aby opisać, czego chcesz, na przykład „Homer Simpson w paryskiej kawiarni w stylu Picassa”, a w ciągu kilku sekund otrzymasz kilka pokoleń.
Łatwo zagubić się w króliczej norce możliwości podczas odkrywania możliwości DALL·E 2, ale istnieje również wiele praktycznych zastosowań tego narzędzia, zwłaszcza w projektowaniu i marketingu, które zostaną omówione w dalszej części tego artykułu.
Jak działa DALL·E 2?
Nie będę udawał, że całkowicie rozumiem, a nawet spróbuję wyjaśnić dokładnie, jak działa generowanie obrazów DALL·E 2 AI – jest wiele artykułów, które to robią. Ale mogę powiedzieć, że to znacznie więcej niż inteligentny algorytm wykorzystujący złożony zestaw logiki. To uczenie maszynowe. Sztuczna inteligencja, która z biegiem czasu została wytrenowana na podstawie miliardów obrazów źródłowych i języka naturalnego oraz relacji między nimi.
Jego sercem jest model dyfuzji, który zaczyna się od losowego szumu i jest iteracyjnie dopracowywany w wielu cyklach, aż pojawi się coś, co przypomina rozumienie przez sztuczną inteligencję żądanego monitu.
Samo narzędzie DALL·E 2 jest proste w użyciu. Po zalogowaniu wita Cię proste pole wprowadzania, w którym możesz rozpocząć generowanie obrazów na podstawie monitu tekstowego lub możesz przesłać własny obraz do edycji.
Dostępnych jest wiele narzędzi do edycji obrazu zarówno dla wygenerowanych, jak i przesłanych obrazów, które omówimy w dalszej części tego artykułu.
Używanie DALL·E 2 do pozyskiwania obrazów
Jednym z najbardziej oczywistych zastosowań generowania obrazów w oparciu o sztuczną inteligencję jest pozyskiwanie zdjęć lub innych stylów graficznych do wykorzystania w postach na blogach, prezentacjach, witrynach internetowych, reklamach i różnych innych mediach. Biblioteki zdjęć stockowych, takie jak ShutterStock, iStockPhotos lub Unsplash są często popularnym wyborem, jeśli chodzi o pozyskiwanie obrazów, ale prawdopodobnie będziemy coraz częściej zwracać się do DALL·E 2 w celu uzyskania szybszej i tańszej alternatywy, a także tworzenia obrazów, które są naprawdę wyjątkowe i nie istnieją nigdzie indziej w Internecie.
DALL·E 2 może być szczególnie przydatny podczas pozyskiwania zdjęć o bardzo konkretnym temacie, takich jak „Golden Retriever siedział na plaży z widokiem na zachód słońca” lub „Zdjęcie lisa skaczącego przez dzwonki w lesie ze słońcem świecące przez drzewa”. Pozyskiwanie podobnych obrazów z różnych bibliotek zdjęć stockowych prawdopodobnie zajęłoby więcej czasu, a w wielu przypadkach temat jest mało prawdopodobny.
To, co naprawdę zadziwia w fotograficznym stylu generowania obrazów, to fakt, że DALL·E 2 może dokładnie odtwarzać wszystkie rodzaje ustawień środowiskowych. Od blasku światła słonecznego i dokładnego rzucania cieni, po ostrość zbliżających się obiektów i stopniowe rozmycie bardziej odległych elementów. Możesz również dołączyć monity dla różnych konfiguracji opartych na kamerze, takich jak „Makro 35 mm”, „Rybie oko” lub „Rozbłysk obiektywu”.
Podczas generowania obrazów o jakości fotograficznej zaobserwowałem bardziej realistyczne generacje z bardziej powszechnych tematów. Na przykład jest o wiele więcej zdjęć psów na plażach niż lisów skaczących w dzwonkach, więc sztuczna inteligencja ma więcej treści, z których może czerpać odniesienia.
Jednym z kluczowych ograniczeń, na które warto zwrócić uwagę, jest to, że wszystkie generowane obrazy są ograniczone do 1024 x 1024 pikseli, więc w najbliższym czasie nie będziemy generować zdjęć na billboardy…
Rozszerzanie wymiarów obrazu
Jednym z najczęstszych zastosowań, jakie widzę dla DALL·E 2 w świecie kreatywnym i marketingowym, jest ulepszanie i edytowanie istniejących obrazów, a nie pełne generowanie nowych obrazów. Jako programista stron internetowych często spotykam się z wyzwaniami, w których znajduje się świetny, przyzwoity obraz, ale proporcje i wymiary powodują słabe plony, gdy obraz jest przesyłany, ponieważ kontener obrazu ma inny stosunek do obrazu.
Oto przykład. Piękny, podstawowy obraz psa wychylającego się z okna samochodu, który został przeznaczony do użycia w wyróżnionym bohaterze, ale standardowe proporcje krajobrazu zdjęcia źródłowego nie pasowały do superszerokich proporcji 21: 9 wyróżnionego bohatera transparent.
Przesyłając obraz do DALL·E 2 i używając narzędzia „Generation Frame”, możemy rozszerzyć obraz, pozwalając sztucznej inteligencji wypełnić luki. Korzystając z Generation Frame, zawsze będziesz chciał zachować część oryginalnego obrazu w ramce, aby zapewnić sztucznej inteligencji więcej informacji do pracy.
Tekst zachęty jest tutaj również ważny i zwykle będziesz chciał opisać to, co chcesz w ramce generowania, a nie cały obraz. W tym podpowiedzi użyłem po prostu „wzgórza i niebo” i pozwoliłem DALL·E 2 zrobić resztę.
Dla każdego pokolenia DALL·E 2 oferuje cztery warianty do wyboru. Powyższy obraz, który czułem, był najbardziej wiarygodny; z dobrym przedłużeniem drogi, garstką wygenerowanych drzew, kilkoma ciekawymi chmurami bez nałożenia dramatycznego i strumieniem (o który nie prosiłem, ale dobrym dodatkiem) biegnącym za drzewami.
Edycja artefaktów
Edycję problematycznych części obrazu można również przeprowadzić szybko i sprawnie za pomocą DALL·E 2. Poniższy przykład dotyczy niedawnej prośby o zastąpienie rozpraszającego odbicia w okularach ochronnych kierownika budowy.
Używając narzędzia Gumka do edycji odbicia części obrazu pokazanego w lewym górnym rogu, wraz z podaniem monitu „Kobieta w okularach ochronnych patrząca na iPada”, DALL·E 2 wygenerował resztę, aż do krawędzi i podświetlenia okularów, cieniowania i dokładnego dopasowania kolorów.
Dodawanie treści do istniejącego obrazu
Podobnie dodawanie elementów do obrazu może być równie łatwe, jak ich usuwanie. Oto przykład zdjęcia osoby spoglądającej na dolinę. Czy nie byłoby miło, gdyby obok nich był ich najlepszy przyjaciel? Nie ma problemu, po prostu usuń z obrazu przestrzeń wielkości psa za pomocą narzędzia Gumka i podaj odpowiedni monit; W poniższym przykładzie wykorzystano „złoty pies myśliwski siedzący obok kobiety patrzącej w dal”
Generowanie wizualnie podobnych obrazów
Może znalazłeś naprawdę dobry obraz pod względem kompozycji i tematyki, ale z jakiegoś powodu to po prostu nie działa. Bez wprowadzania jakichkolwiek zmian lub zmian w tekście monitu można użyć funkcji „Generuj wariacje”, aby utworzyć obrazy podobne stylistycznie i kompozycyjnie.
W poniższym przykładzie oświetlenie, cieniowanie, kąty kamery są bardzo podobne i ten sam typ psa jest odtwarzany, wraz z kobietą w kurtce patrzącą na wzgórza z przecinającą je drogą, ale elementy mają wszystko zmieniony; wzgórza i droga są nowe, a kobieta i pies są różne.
Tworzenie tablic nastroju
Na wczesnych etapach kreatywnego projektu Tablice Nastrojów są często używane do określania stylu wizualnego, tonu i kreatywnego kierunku poprzez pozyskiwanie mieszanki istniejących zrzutów ekranu, tekstu i obrazów. Ponieważ możesz podpowiedzieć DALL·E 2 o dowolny styl wizualny, od rysunków ołówkiem i malowania po grafikę pikselową i rendery 3D, generatywna sztuczna inteligencja może stanowić dobry punkt wyjścia do ustalenia tonu wizualnego lub kierunku.
Wspieranie rozwoju marki
Wprowadzając nową markę, często sprawdza się, jak nowe projekty będą wyglądać na różnych artykułach stacjonarnych, lub wizualizuje się projekty stron internetowych na miejscu na różnych urządzeniach. DALL·E 2 może być w stanie wesprzeć generowanie unikalnego tła, które wiąże się z działalnością klienta.
Na przykład generowanie obrazu wizytówek na polu dzikich kwiatów dla marki zorientowanej na ekologię lub wyśmiewanie laptopa z nowoczesnym domem w tle dla firmy z branży budowy domów.
Czerpanie inspiracji
Myślę, że wciąż daleko nam do wygenerowania gotowych do druku lub w pełni zaprojektowanych wizualizacji do kreatywnego wdrażania, ale jednym z obszarów, w którym DALL·E 2 może być przydatny do wsparcia procesu projektowania, jest zapewnienie szybkiej inspiracji, aby pobudzić kreatywne soki .
Na przykład wygenerowałem poniższy tekst, próbując wygenerować logo dla nowego piwa o tematyce steampunkowej, używając podpowiedzi „projekt logo dla steampunkowego piwa”. Podczas gdy DALL·E 2 świetnie rozumie podpowiedzi tekstowe, generowanie tekstu jest jednym z obszarów, w którym DALL·E 2 ma problemy. We wszystkich wyprodukowanych odmianach tekst jest albo odpowiedni, albo bezsensowny. Mimo to uważam, że wciąż istnieje możliwość czerpania inspiracji z tego typu pokoleń, niezależnie od tego, czy chodzi o kolory, kompozycję czy elementy użyte w wyprodukowanych obrazach.
Tworzenie szorstkich układów
Innym obszarem, w którym DALL·E 2 może być w stanie pomóc, jest pozyskiwanie wstępnych układów i kompozycji, które można wykorzystać jako pomysł lub punkt wyjścia do tworzenia reklam i projektów stron internetowych. Poniższe przykłady projektu strony internetowej i reklamy broszury zostały oparte na podpowiedziach „Projekt [strony internetowej] [broszura] dla firmy zajmującej się zrównoważoną energią”
Dzięki uczeniu maszynowemu i zrozumieniu miliardów obrazów źródłowych, DALL·E 2 w naturalny sposób będzie zawierać standardowe konwencje, jeśli chodzi o układy. W przykładzie projektu witryny główna nawigacja jest wyświetlana u góry dla wszystkich odmian, logo marki zwykle znajdowało się w lewym górnym rogu i prawie zawsze znajdowała się duża jednostka bohatera i duży nagłówek poniżej nagłówka, a następnie akapity tekstu poniżej. Podobnie zielony był powszechnym motywem kolorystycznym w tych odmianach, ponieważ naturalnie ma silny związek ze słowem „zrównoważony rozwój”.
Tekst jest szczególnie nieczytelny, a wiele obrazów w układach jest niejasnych, ale z punktu widzenia kompozycji myślę, że jest tu wystarczający potencjał, aby DALL·E 2 odegrał rolę pomocniczą w poszukiwaniu inspiracji do układów.
Wniosek
DALL·E 2 OpenAI i postęp, jaki teraz obserwujemy dzięki modelom generowania obrazów opartym na sztucznej inteligencji, takim jak Imagen firmy Google (jeszcze nie do użytku publicznego) są bez wątpienia imponujące i widzę, że ich rola w marketingu cyfrowym i przestrzeni twórczej jest znacznie bardziej wspierający, a nie bezpośrednie zagrożenie dla ról kreatywnych i marketingowych. Jak widzieliśmy w niektórych z powyższych przykładów, istnieją pewne oczywiste ograniczenia, zwłaszcza dotyczące rozmiaru wyjściowego i generowania tekstu. Nawet w przypadku większości obrazów opartych na fotografiach użytych w artykule większość ludzi prawdopodobnie byłaby w stanie stwierdzić, że większość z nich nie jest prawdziwymi zdjęciami, ale z czasem będzie to coraz trudniej zauważyć.
Nadal jesteśmy na wczesnym etapie generowania obrazów w oparciu o sztuczną inteligencję, ale widzę wiele przydatnych zastosowań dla sektora kreatywnego i marketingowego, od generowania inspiracji i pomysłów, po pozyskiwanie obrazów i zaawansowaną edycję obrazów. Wkrótce interfejsy API dla tych narzędzi staną się dostępne i osadzone w popularnych narzędziach do projektowania, takich jak PhotoShop lub Figma. To fascynująca dziedzina i będę śledzić jej postępy w nadchodzących miesiącach i latach.