Dall-E 3 vs Midjourney: uma comparação de imagens de IA lado a lado
Publicados: 2023-10-26O Dall-E 3 da OpenAI está em cena há cerca de um mês, e entusiastas criativos de todos os lugares estão mergulhando em vários casos de uso. O potencial parece ilimitado, desde a criação de imagens de IA até a produção de curtas-metragens.
Experiência de 10 minutos para ver quão rápido eu poderia gerar um filme com IA.
-Oliver McCann (@OliverZMcCann) 14 de outubro de 2023
Pedi ao #ChatGPT uma história e depois gerar imagens com #DALLE3
Passei as imagens pelo #runwayml e adicionei um pouco de música.
Esta foi a história que o GPT4 inventou:
Ecos do Passado:
Introdução: Em um bar de jazz,… pic.twitter.com/6hlPknBYY7
Agora você deve estar se perguntando: o Dall-E 3 realmente vale a pena? É melhor que Midjourney?
Se você usa o Midjourney para suas necessidades de imagem de IA, pode estar se perguntando se uma mudança é necessária.
Nesta postagem do blog, mergulharemos em uma comparação aprofundada, onde colocamos o Dall-E 3 contra o Midjourney usando 16 prompts distintos para entender os pontos fortes e fracos de cada plataforma.
O que são DALL-E 3 e Midjourney?

DALL-E 3 é o mais novo gerador de arte de IA da OpenAI.
Ele está integrado ao ChatGPT, tornando-o fácil de usar, e está disponível no ChatGPT Plus por US$ 20 por mês. Ainda em beta, ele agita vários campos para obter imagens precisas.
Confira o guia detalhado sobre como usar o Dall-E 3.

Por outro lado, temos Midjourney, um bot dentro do Discord.
É conhecido por seus estilos ricos e emoções nas imagens. Por US $ 10 por mês, você pode começar com o plano básico, mas esteja pronto para ajustar suas solicitações às vezes.
Assim, DALL-E 3 oferece arte detalhada por meio de uma plataforma dedicada, enquanto Midjourney, dentro do Discord, aposta na criatividade e na emoção. Ambos têm suas próprias vantagens. Tudo se resume ao que você está procurando.
Dall-E 3 vs Midjourney: uma matriz de comparação
Dall-E 3 | Meio da jornada | |
---|---|---|
Fácil de usar | Muito fácil | Médio |
Custo | $ 20 por mês | Começa em $ 10 por mês |
Qualidade da imagem | Mais nuances e detalhes | Bom |
Estilo de imagem | Suporta todos os estilos de arte | Suporta todos os estilos de arte |
Tamanho da imagem | Quadrado, alto e largo | Suporta tamanhos personalizados |
Criatividade | Compreende a intenção do usuário | Ajuste os níveis de criatividade |
Velocidade de geração de imagem | Um pouco mais lento | Alguns segundos |
Direitos autorais de imagens de IA | Os usuários são proprietários das imagens que criaram | Os usuários são proprietários das imagens que criaram |
Realismo | Menos realista, mas com mais detalhes | Mais realista |
Costumização | Opções de personalização limitadas | Mais opções de personalização |
Dall-E 3 vs Midjourney: o confronto final
Olhar uma tabela de comparação pode lhe dar uma breve ideia, mas você só entenderá os pontos fortes e fracos de cada gerador de arte de IA fazendo uma comparação lado a lado.
Nesta seção, escolhemos a dedo algumas das melhores imagens e tipos de arte. Usaremos o mesmo prompt em Dall-E 3 e Midjourney para cada tipo para comparar os resultados.
Nota: Todas as imagens à esquerda são criadas em DALL-E 3 e à direita são criadas em Midjourney.
Paisagens
Dica: Campos de trigo dourados sob um céu tempestuoso, com um espantalho solitário usando um lenço vermelho brilhante

A imagem do Dall-E 3 tem um estilo detalhado e ilustrativo com um tom dourado quente, mostrando uma figura semelhante a um espantalho. Em contraste, a imagem de Midjourney tem um toque mais fotográfico, focando numa figura encapuzada numa tempestade iminente, pintada em tons sépia. Errou completamente o espantalho.
Conceitos abstratos
Prompt: Representação visual do som do riso usando explosões vibrantes de cores e padrões giratórios

A imagem do Dall-E 3 tem muitas cores misturadas, parecendo que estão girando, com muitos azuis, dando uma sensação de sonho. A foto de Midjourney mostra uma senhora rindo com padrões coloridos ao seu redor, fazendo com que a risada pareça viva e real. Ambos são legais em demonstrar a alegria do riso.
Embora Midjourney tenha feito um ótimo trabalho, a imagem não parece arte abstrata. Dall-E 3 entendeu a intenção do prompt e gerou um visual abstrato.
Configurações históricas
Dica: Um gladiador se preparando para a batalha em um Coliseu Romano, ajustando seu capacete e segurando seu escudo

À esquerda, o Dall-E 3 mostra um gladiador com um capacete detalhado e ornamentado diante do Coliseu. O ambiente é mais sereno e a luz do sol ilumina seu equipamento.
À direita, a imagem Midjourney apresenta um gladiador mais robusto em um momento íntimo. Este guerreiro parece perdido em pensamentos, talvez refletindo sobre a batalha que terá pela frente. Sua armadura está mais desgastada pela batalha e a cena parece mais sombria e intensa. Ele segura firmemente seu escudo ornamentado, mostrando sua determinação.
Ambas as imagens parecem reais. O Dall-E 3 incluiu quase tudo que pedimos no prompt, mas Midjourney perdeu o capacete e o coliseu. Dall-E 3 também errou a parte de ‘ ajustar o capacete ’.
Cenas futuristas
Prompt: Músicos de rua cibernéticos tocando instrumentos luminosos em um beco iluminado por neon de uma metrópole

A imagem à esquerda de Dall-E 3 mostra um beco longo e calmo com músicos parecidos com alienígenas e letreiros de néon brilhantes. Também garantiu detalhes perfeitos do plano de fundo. A imagem certa de Midjourney parece mais movimentada, com uma mistura de humanos e robôs e um beco mais amplo e vibrante cheio de reflexos de luzes neon. Embora ambas as fotos mostrem músicos futuristas em becos iluminados por neon, Dall-E's parece mais estar em outro planeta, e Midjourney's tem uma mistura de vibrações atuais e futuras.
Retratos
Dica: Uma senhora idosa com cabelos prateados presos em um coque, usando óculos vintage e bordando um padrão colorido

Essas duas imagens capturam lindamente uma senhora idosa trabalhando em seu bordado. A imagem do Dall-E 3 à esquerda mostra uma mulher com impressionantes óculos vintage e cabelo prateado preso em um coque. Ela está trabalhando em um padrão vibrante. O ambiente é requintado, com iluminação suave destacando suas características. A imagem certa de Midjourney parece mais sincera, onde a senhora usa óculos de aro preto mais casuais e veste uma blusa colorida.
Ambas as imagens enfatizam a arte do bordado, mas o Dall-E 3 aposta na elegância enquanto o Midjourney parece aconchegante e autêntico.
Arte de pixel
Prompt: Um mago lançando um feitiço, com partículas mágicas e um livro de feitiços flutuante, contra um fundo pixelado de floresta encantada

À esquerda, Dall-E 3 oferece uma imagem pixelizada de um fundo de floresta com o mago coberto de azul profundo com um chapéu alto, replicando uma vibração de videogame da velha escola. Você pode ver as partículas mágicas girando ao redor dele e o livro de feitiços flutuante, que está totalmente aberto, exibindo suas páginas brilhantes.
Agora, à direita, Midjourney pinta um quadro mais realista. O mago é retratado como um homem jovem e de aparência intensa, profundamente absorto no ato de lançar um feitiço. As partículas mágicas são vividamente visíveis, cercando o livro de feitiços brilhante em forma de orbe que ele segura. Embora o fundo da floresta seja evidente, ele não está pixelado como o prompt pedia.
Embora ambas as imagens representem brilhantemente um mago lançando um feitiço, apenas Dall-E 3 acertou em cheio no detalhe ‘pixelado’.
Arte surrealista
Dica: Uma borboleta enorme lendo um livro para um círculo de pequenos elefantes atentos em uma ilha flutuante

Ambas as imagens são criadas usando o mesmo prompt, mas pintam cenas muito diferentes. A imagem de Dall-E 3 é vibrante e divertida, mostrando uma borboleta com cabeça de elefante lendo um livro para pequenos elefantes em uma terra flutuante.

Por outro lado, a imagem de Midjourney tem uma sensação de selva encantada com uma ilha gigante de elefantes e muitos pequenos elefantes fazendo atividades diferentes. Mas, a versão de Midjourney perde o elemento central da “borboleta enorme”.
Projeto plano
Dica: um cartão postal minimalista mostrando a essência de Tóquio por meio de silhuetas icônicas como a Torre de Tóquio, um sushi roll e um ramo de flor de cerejeira

Ambas as imagens capturam a essência de Tóquio usando a Torre de Tóquio, sushi e flores de cerejeira. A versão de Dall-E 3 é vibrante, mostrando uma paisagem urbana detalhada e sushi roll contra um fundo claro, e as flores de cerejeira são exuberantes.
Em contraste, Midjourney tem uma abordagem calma e minimalista com paleta pastel, estruturas simplificadas e menos flores de cerejeira.
Embora ambas as criações incluam os elementos solicitados, Dall-E 3 adiciona recursos extras como rio e ponte. Em termos de qualidade, a imagem da Dall-E é mais rica em detalhes, enquanto a da Midjourney prioriza a simplicidade e o espaço aberto.
Renderizações 3D
Dica: Um detalhado pingente de dragão de jade renderizado em 3D com olhos de rubi, suspenso em uma delicada corrente de prata contra um fundo de veludo

O pingente de Dall-E (à esquerda) combina muito com o visual ‘jade’ com sua cor verde e tem olhos vermelho rubi, mas a corrente de prata parece mais grossa do que o esperado. O cenário parece veludo.
O pingente de Midjourney (à direita) não se parece muito com jade e tem um toque mais metálico, mas seus olhos de rubi são proeminentes. A cadeia aqui é mais detalhada e o fundo é totalmente escuro. Em comparação com o prompt, a imagem de Dall-E se alinha melhor com os detalhes de ‘jade’ e ‘pano de fundo de veludo’, enquanto Midjourney acerta o aspecto de ‘corrente de prata’.
Ilustração digital
Prompt: Uma ilustração digital de um gato travesso tentando tirar um peixe de um aquário enquanto um papagaio próximo grita um aviso

Ambas as fotos mostram um gato tentando pegar um peixe de um aquário com um papagaio por perto. A imagem de Dall-E 3 à esquerda mostra um gato listrado cinza tocando calmamente a água, e o papagaio está apenas observando.
Na foto de Midjourney à direita, o gato parece surpreso e não há nenhum papagaio. A imagem de Dall-E tem mais detalhes e textura, fazendo com que pareça mais polida. A imagem de Midjourney parece apressada e tem um cenário mais escuro com elementos ausentes.
Pintura a óleo
Dica: Um marinheiro solene perdido em pensamentos, segurando uma bússola antiga, com o mar tumultuado e nuvens de tempestade ao fundo

A imagem da esquerda, feita por Dall-E 3, mostra um marinheiro mais velho parecendo pensativo com um mar tempestuoso atrás dele. O da direita, de Midjourney, mostra um marinheiro mais jovem olhando para um mar mais calmo. Ambas as fotos correspondem ao prompt, mas a de Dall-E parece mais próxima por causa do cenário mais tempestuoso. A qualidade da imagem é boa em ambos, mas transmitem sensações diferentes: um tem vontade de relembrar aventuras passadas e o outro tem vontade de se preparar para uma nova.
Diorama
Dica: uma cena de carnaval em miniatura, com uma roda gigante em funcionamento, pequenos visitantes saboreando algodão doce e um palhaço fazendo malabarismos com orbes brilhantes em estilo diorama

Ambas as imagens mostram cenas de carnaval em miniatura com rodas gigantes. A imagem à esquerda de Dall-E 3 mostra visitantes com algodão doce e um palhaço fazendo malabarismos com orbes brilhantes, combinando bem com o prompt. A imagem certa de Midjourney tem um toque noturno e designs mais complexos, mas não mostra os visitantes com algodão doce ou o palhaço malabarista. Embora ambas as imagens tenham boa qualidade, a imagem de Dall-E se alinha mais às especificidades do prompt, enquanto a de Midjourney oferece uma visão única, mas os pequenos visitantes não são tão claros.
Arquitetura
Dica: uma biblioteca extravagante em uma casa na árvore com escadas em espiral, lanternas suspensas e varandas cheias de livros

A imagem da esquerda de Dall-E 3 é mais fantasiosa, com muitos detalhes, lanternas e uma casa na árvore maior. A imagem certa de Midjourney parece mais próxima da vida real, com menos salas e lanternas. Ambas as imagens capturam a ideia de uma “biblioteca na casa da árvore”, com escadas em espiral e varandas de livros. Ambos seguem bem o prompt.
No entanto, a imagem de Dall-E tem uma sensação mais sonhadora com seu brilho esverdeado, enquanto a de Midjourney parece ambientada à noite e é mais aconchegante.
Ambas as imagens são de alta qualidade, mas a escolha entre elas é se você prefere um visual mais mágico ou realista.
Design de interiores
Dica: Um quarto boêmio com cama de rede, tapeçarias nas paredes, espelho em mosaico e plantas penduradas no teto

Ambas as imagens capturam uma sensação boêmia de quarto. A imagem de Dall-E (à esquerda) é colorida com padrões e tem assento em forma de rede, tapeçarias transparentes e muitas plantas penduradas, mas falta um espelho em mosaico.
A imagem de Midjourney (à direita) é mais clara e espaçosa, com plantas e tapeçaria de renda, mas sua cama não tem formato de rede e não há espelho de mosaico visível.
Embora ambas as imagens tenham elementos boho e plantas suspensas, nenhuma delas corresponde totalmente à sugestão, principalmente no que diz respeito ao espelho em mosaico e à descrição exata da cama de rede.
Solicitações de alto contexto
Dica: uma oficina de ferreiro durante a Renascença, com ferramentas detalhadas, forja brilhante, peças de armaduras complexas e um artesão trabalhando

O esquerdo de Dall-E tem um ferreiro, ferramentas bem organizadas e armadura destacada. O caminho certo da Midjourney tem várias pessoas, ferramentas espalhadas e uma atmosfera animada. Embora ambos representem a oficina, a imagem de Dall-E concentra-se em um único artesão e suas ferramentas, e a de Midjourney parece mais um dia agitado com vários trabalhadores.
Solicitações de baixo contexto
Dica: Uma dança ao luar

Ambas as imagens mostram uma “dança ao luar”. A imagem da esquerda de Dall-E tem um tom de azul vibrante com silhuetas de dançarinos contra uma grande lua, enquanto a de Midjourney, à direita, oferece uma visão mais próxima e detalhada dos dançarinos com um brilho lunar mais sutil. Dall-E foca no ambiente e nos contrastes, e Midjourney destaca as emoções dos dançarinos. Ambos capturam o tema da dança ao luar, mas em estilos diferentes.
O empecilho: Midjourney vs Dall-E 3
Depois de avaliar 16 imagens geradas por IA do Dall-E 3 e Midjourney, fica evidente que o Dall-E 3 é excelente na captura de detalhes intrincados. Esta plataforma também supera o Midjourney na interpretação da intenção dos prompts para gerar imagens relevantes. Por outro lado, Midjourney tem vantagem na criação de visuais que parecem reais. Embora o Dall-E 3 busque a perfeição, às vezes ele pode produzir imagens menos naturais.
Para empresas que buscam detalhes em seus visuais de IA, o Dall-E 3 pode ser a escolha mais adequada. Você poderá acessá-lo via ChatGPT Plus e também no Photosonic, o melhor gerador de imagens de IA, muito em breve. A OpenAI planeja lançar a API Dall-E 3 em breve, tornando-a um recurso integrado no Photosonic.
Perguntas frequentes
1. O Midjourney é melhor que o DALL-E 3?
Na verdade, não se trata de um ser totalmente “melhor” que o outro. Eles têm estilos e capacidades diferentes. O DALL-E 3 está integrado ao ChatGPT Plus e faz parte do pacote que você obtém com o GPT-4. Midjourney, por outro lado, pode oferecer variações em suas representações. É mais sobre sua preferência pessoal e o estilo que você procura.
2. O DALL-E 3 é gratuito?
Não, o DALL-E 3 não é gratuito. Vem com ChatGPT Plus, que custa US$ 20/mês. Esta assinatura também concede acesso ao GPT-4.
3. Qual é mais barato, DALL-E 3 ou Midjourney?
Olhando estritamente para os números, Midjourney começa com um preço mais barato de US$ 10/mês. DALL-E 3 vem com ChatGPT Plus, que custa US$ 20/mês. Portanto, se o orçamento for um fator chave, o Midjourney pode ser sua opção mais econômica.