DALL·E 2 的 AI 圖像生成如何用於數字營銷?
已發表: 2022-10-17“哇,你拍到了嗎? 等一下——那是專業攝影師拍的……?”
這是我們的醫學博士 Jake 的反應,當我向他展示下面的圖像時:OpenAI 的 DALL·E 2 生成的逼真圖像,在幾秒鐘內創建,使用我輸入的提示“向日葵上蝴蝶的微距照片” .
這是一張看起來如此真實的照片,它捕捉到了前景中蝴蝶的銳度和顏色以及背景中向日葵的柔和焦點。 事實上,如此之多,以至於你很難找到很多人可以找到任何明顯的尾巴標誌、人工製品或錯誤感,這在 AI 生成的圖像中很常見。
那一刻我意識到我們已經進入了高級人工智能係統可以理解和創建在許多情況下與現實生活無法區分的逼真圖像的階段。 這對於在創意和數字行業工作的任何人,或者實際上涉及圖像採購或圖像處理的任何角色都有有趣的影響。
在本文中,我探討了在創意和數字營銷領域使用 OpenAI 的 DALL·E 2 的一些實際應用,以及如何使用 DALL·E 2 最近升級的編輯工具來支持創意工作。

什麼是DALL·E 2?
OpenAI 的 DALL·E 2 是一款基於 AI 的圖像生成器,它採用簡單的基於文本的提示,並根據 AI 對該提示的理解生成圖像。 在幾秒鐘內,您將獲得四個生成的圖像變體,然後可以在您的 OpenAI 帳戶中下載、共享或保存為收藏夾。
DALL·E 2 現在可供所有人使用。 您每月可獲得 15 個免費積分,每代需要 1 個積分,每 115 個積分需要 15 美元。 您可以從頭開始生成圖像或上傳您自己的照片以進行操作,前提是它們遵循 DALL·E 2 內容政策,並且根據使用條款,您“可以將 Generations 用於任何合法目的,包括用於商業用途。”
這使得歸因成為一個有趣的主題,並且應該對提供提示的人、編輯圖像時的圖像源或 DALL·E 給予多少信任 2. 例如,我在這篇博文中使用的所有圖像,我要么使用 DALL·E 2 生成或生成修改後的庫存庫圖像,但如果我將這些生成或修改歸因於我自己,我會覺得有些欺詐。
可以根據以下內容生成圖像:
- 主題:您可以生成任何您想要的圖像; 風景、動物、物體、抽象概念,只要它們遵循內容政策,例如禁止生成名人圖像以避免深度偽造的擴散。
- 媒介:從鉛筆素描和油畫到像素藝術和數字插圖,DALL·E 2 可以生成代表任何媒介的圖像。
- 環境設置:在提示符中加入“日落”或“霧”等環境因素,為畫面增添幾分氣氛。
- 位置:如果您需要將圖像放置在特定位置,請給出一個城市或國家的提示,您應該獲得與該地點相關的地標、建築風格等。
- 藝術風格: DALL·E 2 可以生成不同藝術家風格的圖像。 只需在提示中添加“以 [藝術家] 的風格”即可。
- 相機設置:對攝影風格特別有用,您可以將相機設置添加到您的請求中,為照片提供各種不同的鏡頭和質量。 示例包括“微距 35 毫米鏡頭”、“長時間曝光”或“魚眼鏡頭”。
只需使用自然語言結合以上任何內容來幫助描述您想要的內容,例如“Homer Simpson in a Parisian cafe in a Picasso”,幾秒鐘之內您就會獲得幾代人。
DALL·E 2 是如何工作的?
我不會假裝我完全理解,甚至會嘗試解釋 DALL·E 2 AI 圖像生成是如何工作的——有很多文章可以做到這一點。 但我能說的是,它不僅僅是使用一組複雜邏輯的智能算法。 是機器學習。 隨著時間的推移,從數十億個源圖像和自然語言以及兩者之間的關係中訓練出來的人工智能。
它的核心是一個擴散模型,它從隨機噪聲開始,並在多個週期內迭代完善,直到出現類似於 AI 對所請求提示的理解的東西。
DALL·E 2 工具本身使用簡單。 登錄後,您會看到一個簡單的輸入字段,您可以在其中根據文本提示開始生成圖像,也可以上傳自己的圖像進行編輯。
許多圖像編輯工具可用於生成和上傳的圖像,我們將在本文後面進行探討。
使用 DALL·E 2 進行圖像採購
基於 AI 的圖像生成最明顯的用途之一是獲取照片或其他圖像樣式以用於博客文章、演示文稿、網站、廣告和各種其他媒體。 在圖像採購方面,ShutterStock、iStockPhotos 或 Unsplash 等庫存照片庫通常是流行的選擇,但我們可能會看到人們越來越多地轉向 DALL·E 2 之類的工具,以尋求更快、成本更低的替代方案,以及創建真正獨特的圖像,在網上其他任何地方都不存在。
DALL·E 2 在獲取具有非常特定主題的圖像時特別有用,例如“金毛獵犬坐在沙灘上,望向日落”或“狐狸在陽光下穿過林地中的風信子的照片透過樹木閃耀”。 從各種庫存照片庫中獲取類似圖像可能需要更長的時間,而且在許多情況下,主題不太可能存在。

我發現圖像生成的攝影風格真正令人驚訝的是,DALL·E 2 可以準確地複制各種環境設置。 從刺眼的陽光和精確的陰影投射到近處物體的銳度和更遠距離元素的逐漸模糊。 您還可以包括各種基於相機的設置的提示,例如“35 毫米微距”、“魚眼”或“鏡頭光暈”。
在生成照片質量的圖像時,我從更常見的主題中觀察到了更真實的生成。 例如,海灘上的狗的照片比在風鈴草中跳躍的狐狸要多得多,因此 AI 可以從中獲取更多參考資料。
值得指出的一個關鍵限制是所有生成的圖像都限制在 1024 x 1024 像素,所以我們不會很快為廣告牌生成照片……
擴展圖像尺寸
我在創意和營銷領域看到的 DALL·E 2 更常見的用途之一是增強和編輯現有圖像,而不是完全生成新圖像。 作為一名 Web 開發人員,我經常會遇到一些挑戰,即找到一張不錯的圖像,但由於圖像容器與圖像的比例不同,因此在上傳圖像時,比例和尺寸會導致裁剪效果不佳。
這是一個例子。 一張可愛的狗從車窗探出的庫存圖片,該圖片被指定用於特色英雄單位,但源照片的標準橫向比例與特色英雄的超寬 21:9 比例並不能很好地配合橫幅。
通過將圖像上傳到 DALL·E 2 並使用“生成框架”工具,我們可以通過讓 AI 填補空白來擴展圖像。 使用生成框架時,您總是希望在框架內保留部分原始圖像,以便為 AI 提供更多工作信息。
提示文本在這裡也很重要,通常您希望在生成框架中描述您想要的內容,而不是整個圖像。 對於這個提示,我只使用了“hills and sky”,讓 DALL·E 2 完成其餘的工作。

對於每一代,DALL·E 2 都會為您提供四種變體供您選擇。 上圖我覺得是最可信的; 有一個很好的道路延伸,幾棵生成的樹,一些有趣的雲而不是戲劇性的疊加,還有一條小溪(我沒有要求,但一個很好的補充)在樹後面流淌。
編輯人工製品
使用 DALL·E 2 也可以快速有效地對圖像的問題部分進行編輯。下面的示例是我們最近提出的要求,我們必須更換施工經理安全眼鏡中分散注意力的反射。

使用橡皮擦工具編輯掉左上角圖像的反射部分,同時提供提示“戴安全眼鏡的女人正在看 iPad”,DALL·E 2 生成其餘部分,一直到邊緣並突出顯示眼鏡、底紋和準確的顏色匹配。

向現有圖像添加內容
同樣,向圖像中添加元素就像刪除它們一樣容易。 這是一個人從山谷中向外看的照片示例。 如果他們最好的朋友在他們身邊不是很好嗎? 沒問題,只需使用橡皮擦工具從圖像中擦除一個狗大小的空間並給出適當的提示; 下面的例子中使用了“坐在女人旁邊看著遠方的金毛獵犬”

生成視覺上相似的圖像
也許你在構圖和主題方面找到了一個非常好的圖像,但無論出於何種原因,它都不能很好地發揮作用。 無需對提示文本進行任何編輯或更改,您就可以使用“生成變體”功能來創建風格和組成相似的圖像。
在下面的示例中,照明、陰影、攝像機角度都非常相似,並且重新生成了相同類型的狗,以及一個穿著夾克的女人望向山丘,道路穿過山丘,但元素都有改變了; 山路新,女人狗不一樣。

創建情緒板
在創意項目的早期階段,情緒板通常用於通過混合現有的屏幕截圖、文本和圖像來設置視覺風格、基調和創意方向。 由於您可以提示 DALL·E 2 使用任何類型的視覺風格,從鉛筆劃和繪畫到像素藝術和 3D 渲染,生成式 AI 可以提供一個很好的起點來設置視覺色調或方向。


支持品牌推廣
在推出新品牌時,通常會模擬新設計在不同固定物品上的外觀,或在不同設備上原位可視化網站設計。 DALL·E 2 或許能夠支持生成與客戶業務相關的獨特背景。
例如,在野花田野中為生態品牌生成名片圖像,或為房屋建築行業的企業模擬筆記本電腦,背景為現代房屋。

獲得靈感
我認為我們距離為創意推廣生成可打印或完全設計的視覺效果還有很長的路要走,但 DALL·E 2 可用於支持設計過程的一個領域是提供一些快速靈感來讓創意源源不斷.
例如,我生成了以下內容,以嘗試使用提示“蒸汽朋克啤酒的徽標設計”為新的蒸汽朋克主題啤酒生成徽標。 雖然 DALL·E 2 擅長理解文本提示,但文本生成是 DALL·E 2 苦苦掙扎的一個領域。 在所有產生的變體中,文本要么是合格的,要么是荒謬的。 儘管如此,我認為仍然有可能從這些世代中汲取靈感,無論是色彩、構圖還是所製作圖像中使用的元素。

製作粗略的佈局
DALL·E 2 可能支持的另一個領域是採購粗略的佈局和構圖,它們可以用作廣告和網站設計之類的想法或起點。 以下網站設計和宣傳冊廣告示例基於提示“可持續能源公司的 [網站] [宣傳冊] 設計”
借助機器學習和對數十億源圖像的理解,DALL·E 2 在佈局方面自然會採用標準約定。 對於網站設計示例,所有變體的主導航都顯示在頂部,品牌徽標通常位於左上角,並且幾乎總是在標題下方有一個大英雄單元和大標題,然後是下面的文本段落。 同樣,綠色是這些變化的常見顏色主題,因為它自然與“可持續性”這個詞有很強的聯繫。
文字特別難以辨認,佈局中的許多圖像也很模糊,但從構圖的角度來看,我認為 DALL·E 2 有足夠的潛力在尋找佈局靈感時扮演配角。


結論
OpenAI 的 DALL·E 2 以及我們現在看到的基於 AI 的圖像生成模型(例如 Google 的 Imagen(尚未供公眾消費))的進步無疑令人印象深刻,我認為它們在數字營銷和創意領域中的作用更多的是支持,而不是對基於創意和營銷的角色的直接威脅。 正如我們在上面的一些示例中看到的那樣,存在一些明顯的限制,尤其是在輸出大小和文本生成方面。 即使文章中使用了大多數基於攝影的圖像,大多數人也可能能夠分辨出大多數不是真實照片,但隨著時間的推移,這將變得越來越難以發現。
我們仍處於基於 AI 圖像生成的早期階段,但我看到了創意和營銷領域的許多有用應用,從產生靈感和想法,到圖像採購和高級圖像編輯。 不久之後,這些工具的 API 將可用並嵌入到流行的設計工具中,例如 PhotoShop 或 Figma。 這是一個引人入勝的領域,我將在接下來的幾個月和幾年里關注它的進展。