Practico

DALL-E, MidJourney. Решения для визуализации
на основе ИИ

В этом статье мы рассмотрим решения по типу DALL-E и Midjourney. Это приложения на основе ИИ для генерации изображений на основе текстовых запросов. Эти и другие подобные инструменты на основе ИИ позволяют бизнесам создавать визуальный контент (будь то просто картинки, рекламные креативы, презентации, дизайн юзер-интерфейса и др) гораздо быстрее и дешевле.
Оба решения получают текстовый запрос и генерируют серию изображений, независимо от того, насколько странным будет ваш запрос (хотя и здесь важно работать над промпт-инжинирингом). DALL-E 3 – это самый простой инструмент для начала работы с генерацией изображений, а Midjourney предлагает крайне мощные функции.

Как работают эти решения

И DALL-E 3, и Midjourney были обучены на огромных массивах данных пар «текст-изображение», что позволило им очень довольно четко понимать такие понятия, как стакан, стакан из кактуса, и драматичное освещение. Для создания изображений оба решения используют так называемые диффузионные модели.
Диффузионные модели это современные инструменты машинного обучения, которые чаще всего используются для генерации изображений.
То есть когда диффузионные модели создают изображения, они начинают с чего-то вроде чистого листа, но только под чистым листом имеется ввиду рандомный набор шумов . Или это как если бы вы начали рисовать с белого листа, на котором случайным образом уже лежат бледные краски. Затем, на основе вашего запроса (промпта), модель шаг за шагом превращает этот шум в конкретное изображение.

Каждый раз, когда вы даеете модели один и тот же запрос, результаты могут немного отличаться. Это происходит потому что изначальное размытие всегда разное, и даже небольшие изменения в изначальном изображении (которое зашумляется и становится холстом для модели) могут привести к заметным различиям в конечной картинке.Можно представить это как игру с облаками: Это все равно что посмотреть на пасмурное небо, найти облако, потом вглядеться и увидеть, что оно похоже на собаку, а затем щелкать пальцами, делая его все более и более похожим на собаку. (А если посмотреть на небо на следующий день и увидеть другое облако, которое тоже напоминает собаку, то в вашем воображении на основе другого неба и другого облака будет формироваться и другая собака. Но все еще собака Несмотря на общую технику диффузии, DALL-E и Midjourney дают совершенно разные результаты. Влияют такие факторы, как то, как модель интерпретирует ваш промпт, взвешивание параметров, обучающие данные и даже философия компании.

Приведём пример: мы использовали одинаково простой промпт без уточнения деталей и без докруток для обеих моделей:
Обе модели в своей работе (не только в примере) впечатляют по-своему, и понимание их сильных сторон и нюансов поможет вам эффективно использовать эти мощные инструменты в зависимости от запроса:

Как пользоваться и устанавливать Midjourney

Чтобы воспользоваться Midjorney достаточно перейти на сайт по ссылке
Промпт в Midjourney можно писать на любом языке, но лучше всего нейросеть понимает английский. Ниже 4 примера генерации по запросу и 4 генерации этого же запроса, но на английском языке (английский справа) “енот-пират, стиль студии гибли, милое, яркие цвета, черная обводка, море на фоне”
Midjourney лучше всего понимает запросы, построенные по формату ключевых слов, разделенных запятой. Не “нарисуй странное трёхмерное изображение робота разогревающего еду в микроволновке”, а “робот разогревает еду в микроволновке, странное, 3D-стиль”. Для простоты представляйте, что пишете запрос в гугл картинки или другой сервис по поиску изображений. Лучше всего понимаются запросы со структурой по типу [общее описание сюжета],[слова, уточняющие стилистику],[слова, уточняющие детали].

По умолчанию Midjourney генерирует квадратные изображения. Чтобы сгенерировать изображения в другом соотношении сторон, в конце запроса (в том же текстовом поле) необходимо написать --ar [x:y], где x и y это пропорции сторон по горизонтали и вертикали соответственно. Классические соотношения сторон: 3:2, 2;3, 16:9 и так далее
При желании можно модифицировать свой запрос другими командами:

Использовать изображение в качестве референса: пришлите желаемое изображение в чат отдельным сообщением. Нажмите на изображение в чате, затем кликните правой кнопкой мыши и нажмите copy link . В следующем сообщении начните свой промпт с ссылки на изначальное изображение, вставив её из буфера обмена. Новые изображения будут стремиться к схожей композиции и цветам оригинала

Не генерировать те или иные вещи (негативный промпт): если закончить свой запрос командой --no [запрос любой длины], то Midjourney не будет генерировать то, что написано в рамках этой команды. Например, если попросить сгенерировать поле цветов и написать “--no red”, то в полученном результате не будет красного цвета

Сгенерировать изображения с персонажем: пришлите изображение с желаемым персонажем в чат отдельным сообщением. Нажмите на изображение в чате, затем кликните правой кнопкой мыши и нажмите copy link . В следующем сообщении напишите в какой-либо из частей промпта --cref [ссылка из буфера обмена]. Новые изображения будут стремиться использовать общий внешний вид и аксессуары персонажа из изначального изображения

Сгенерировать изображения в похожем стиле: алгоритм очень похож на предыдущий пример, но с другой командой. Пришлите изображение с желаемым стилем в чат отдельным сообщением. Нажмите на изображение в чате, затем кликните правой кнопкой мыши и нажмите copy link . В следующем сообщении напишите в какой-либо из частей промпта --sref [ссылка из буфера обмена],. Новые изображения будут стремиться использовать стилистику из изначального изображения

Смешать две картинки: начните промпт не с /imagine prompt:, а с /blend:
а дальше приложите в открывшейся форме от 2 до 4 изображений. Midjourney сгенерирует изображения, которые сочетают в себе качества и текстуры всех приложенных изображений

Как пользоваться
и устанавливать DALL-E

Для использования DALL-E 3 в России, все таки еще нужно использовать другой IP адрес. Доступ к модели возможен через платформу OpenAI (если у вас есть платная подписка на ChatGPT 4) и через Bing.

Вариант 1: Для использования DALL-E 3 через ChatGPT (при наличии платной подписки) достаточно лишь в боковом меню выбрать необходимую вкладку
Вариант 2: через Bing. Microsoft предоставляет возможность бесплатно исполь-зовать DALL-E 3 вне ChatGPT. Для этого нужно перейти по ссылке и создать аккаунт Microsoft. После этого вам будет доступно поле для ввода запроса
и возможность генерировать 100 изображений (количество доступных генераций на момент написания текста)
DALL-E обладает тремя ключевыми возможностями:

Преобразование текста в изображение. DALL-E может создавать картинки на основе текстовых описаний. Вы просто указываете, что хотите "нарисовать", и нейросеть генерирует.

Генерация изображений на основе других изображений. DALL-E может использовать существующие изображения в качестве "исходного материала", создавая вариации, изменяя или дополняя их в соответствии с вашим запросом. Для использования изображений в качестве референсов прикладывайте их к текстовому описанию промпта и добавляйте в описание “используй приложенное изображение в качестве референса”

Редактирование изображений. DALL-E позволяет добавлять или удалять объекты и довольно гибко их настраивать. Это не работает идеально, но технология, безусловно, будет улучшаться в будущем. Редактировать можно только изображения, сгенерированные в самом DALL-E. Для этого нажмите на сгенерированное изображение и в новом окне нажмите на иконку с кисточкой. Затем выделите с помощью этого инструмента ту зону, которую вы желаете изменить и напишите в текстовом окне то, что вы хотите изменить в выделенной зоне