Нейросети развиваются очень быстро. Кажется, ещё вчера все смеялись над неуклюжими попытками нейросетей нарисовать хоть что-то приличное, и легко узнавали их работу по наличию пары десятков пальцев на руках. За последний год нейросети значительно улучшили качество своей работы, обросли новыми версиями и возможностями. В этом тексте расскажем о лучших нейросетях для работы с фото и видео и о том, что в них улучшилось на конец 2023 года.
![](https://cdn.fotosklad.ru/unsafe/d585845e621e46aea92745b54846a127/image.jpg)
Midjourney v6 — лучшая нейросеть для генерации картинок
Нейросеть для генерации изображений Midjourney в конце 2023 года обновилась до шестой версии и стала ещё лучше понимать людей. Теперь ей не нужны подсказки со словами «photorealistic, ultrarealistic, 4K, 8K». Более того, он могут даже помешать. Нейросеть и без них создаёт очень реалистичные изображения. В предыдущей, пятой версии, у Midjourney всё ещё были проблемы с тем, чтобы соотнести название предмета в описании с его цветом. Например, если попросить её нарисовать красную книгу и белую чашку, она может сделать все предметы одного цвета или поменять цвета местами. В шестой версии с этим гораздо лучше.
![](https://cdn.fotosklad.ru/unsafe/5fd2d95f2a1643f2abbd7d406e088a3f/image.jpg)
В большинстве случаев картинки от свежей версии Midjourney выглядят более естественно, и похожи на фотографии, а не на красивые (но нарисованные) картины. Вот так выглядит результат генерации по запросу «landscape, an autumn in the lake during dusk, tranquility» в версии 5.2 (сверху) и версии 6 (снизу):
![](https://cdn.fotosklad.ru/unsafe/d10ca496b85f4158a2631cca4e0fdef3/image.jpg)
И стоит отметить, что после обновления Midjourney научилась неплохо работать с текстом и размещать на картинках те надписи, о которых её просят. Срабатывает это не всегда, но из нескольких вариантов можно выбрать один с правильной и читаемой надписью.
![](https://cdn.fotosklad.ru/unsafe/7e490746a6ff4b6b96c5070469be47eb/image.jpg)
Stable Diffusion XL — заметное улучшение бесплатной нейросети
Бесплатная нейросеть Stable Diffusion тоже обновилась в 2023 году, выпустив свежую модель Stable Diffusion XL. Буквы XL в названии намекают то ли на то, что нейросеть способна генерировать картинки большего размера, то ли на то, что для её установки и запуска понадобится больше места на диске и памяти на видеокарте.
По качеству эта нейросеть всё ещё уступает платным Midjourney или DALL-E, но зато она бесплатна и её можно запустить прямо на своём компьютере. По качеству генерируемых изображений Stable Diffusion XL можно сравнить с Midjourney четвёртой версии.
Чтобы запустить Stable Diffusion XL, можно воспользоваться программой Foocus v.2, скачать которую можно с гитхаба. В архиве уже присутствует модель Stable Diffusion XL, оболочка для работы и все необходимые для запуска пакеты — нужно только распаковать архив и запустить.
![](https://cdn.fotosklad.ru/unsafe/358eb7b8a9984c1cab054a98dc281196/image.jpg)
Для работы нейросети потребуется современная видеокарта — например, GeForce RTX 4060Ti 8Gb. Нам удалось запустить Foocus на тестовом компьютере с GTX1050Ti, но полноценно работать на нём было невозможно: генерация картинки размером 1152х896 пикселей занимала больше 15 минут — и это в сверхбыстром режиме.
![](https://cdn.fotosklad.ru/unsafe/749e439b450441d19b8336b3974719b2/image.jpg)
Те, кто ещё не успел обновить видеокарту, могут попробовать Stable Diffusion XL онлайн. Нейросеть доступна на clipdrop.co либо на stablediffusionweb.com. На clipdrop.co можно попробовать ещё одну новинку от stability.ai — модель SDXL TURBO. Это версия Stable Diffusion XL, которая генерирует изображения за одну итерацию, прямо в реальном времени: пользователь вводит описание, а нейросеть меняет и дорабатывает изображение с каждым новым словом. Вот как это выглядит:
DALL-E: свежая версия и бесплатный доступ
С нейросетью DALL-E в 2023 году произошло два значимых события. Во-первых, вышла свежая, третья версия нейросети. Во-вторых, благодаря компании Microsoft больше не нужно ждать в очереди и возиться с регистрацией, чтобы воспользоваться нейросетью: актуальная DALL-E доступна бесплатно на сервисе Microsoft Bing (а в некоторых странах и прямо из ОС Windows).
![](https://cdn.fotosklad.ru/unsafe/ade80da4b5ab4cabb7c71f97628c0d16/image.jpg)
В месяц пользователю выдаётся 15 жетонов ускорения, на генерацию картинок по одному запросу тратится один жетон (при этом нейросеть рисует сразу четыре варианта картинки). Когда жетоны заканчиваются, работу с нейросеть можно продолжать — просто на создание картинок будет уходить не 10-15 секунд, а несколько минут.
![](https://cdn.fotosklad.ru/unsafe/d8a63755b6b74c69b614eb6b27736e3a/image.jpg)
Ещё один вариант работы с DALL-E — с помощью мобильного приложения Bing, в котором работают сразу несколько нейросетей. В приложении работает виртуальный помощник Microsoft Copilot, а общение с ним происходит в чате. Для общения и анализа запросов применяется текстовая нейросеть GPT-4, а для генерации картинок — DALL-E 3.
![](https://cdn.fotosklad.ru/unsafe/a14d666532674abba05f22e175bd8dc3/image.jpg)
При этом общение с нейросетями организовано очень удобно: чтобы что-то поменять в картинке, не нужно составлять длинный подробный запрос и создавать картинку с нуля. Достаточно попросить нейросеть что-то поменять или дополнить.
![](https://cdn.fotosklad.ru/unsafe/50246db3a6c74a00ba29998b1d1463e9/image.jpg)
Adobe Firefly — нейросеть, используемая в Photoshop
Компания Adobe в 2023 году порадовала фотографов и ретушёров, встроив нейросеть прямо в редактор Adobe Photoshop. Как и другие нейросети для работы с изображениями, она может создавать картинки по текстовому описанию — но это, скажем сразу, её не самая сильная сторона. Картинки получаются неплохими, но по уровню реалистичности они не дотягивают до Midjourney или DALL-E, да и с анатомией при рисовании людей бывают проблемы.
![](https://cdn.fotosklad.ru/unsafe/50db1ffcaa4d42d996f7a3cdc98e46f6/image.jpg)
Ну а сильная сторона нейросети Adobe — это инструменты Generative Fill/Генеративная заливка и Generative Expand/Генеративное расширение, которые сильно ускоряют и облегчат ретушь фотографий. С их помощью можно стереть людей с пейзажного фото, превратить гамбургер в чизбургер, добавив на фото сгенерированный нейросетью сыр, сменить одежду на человеке или сделать из горизонтального фото вертикальное — но не обрезав его, а «восстановив» с помощью нейросети то, что осталось за кадром.
![](https://cdn.fotosklad.ru/unsafe/7d75fe1cef9c4468a93325403b9b372e/image.jpg)
Runway Gen-2: нейросеть для создания видео по текстовому запросу
Нейросеть Runway Gen-2 умеет создавать не только неподвижные картинки, но и четырёхсекундные видеофрагменты. Их можно использовать самостоятельно (как движущийся контент для соцсетей, который привлекает больше внимания, чем неподвижная картинка), а можно попробовать себя в качестве режиссёра: написать сценарий происходящего, сгенерировать десяток фрагментов и смонтировать их в один ролик. Сделать это можно прямо на сайте Runway — там есть простой видеоредактор для монтажа.
К сожалению, качество генерации пока оставляет желать лучшего. При просмотре нейросетевых роликов создаётся впечатление, что нейросеть генерирует более-менее приличный (на уровне Stable Diffusion v 1.5) первый кадр, а затем просто пытается как-то расшевелить картинку, не особо понимая, как это должно выглядеть.
Например, вот так выглядят четыре попытки сгенерировать Санта-Клауса, собранные в один ролик:
Runway Gen-2: нейросеть для создания видео по текстовому запросу
Нейросеть Runway Gen-2 умеет создавать не только неподвижные картинки, но и четырёхсекундные видеофрагменты. Их можно использовать самостоятельно (как движущийся контент для соцсетей, который привлекает больше внимания, чем неподвижная картинка), а можно попробовать себя в качестве режиссёра: написать сценарий происходящего, сгенерировать десяток фрагментов и смонтировать их в один ролик. Сделать это можно прямо на сайте Runway — там есть простой видеоредактор для монтажа.
К сожалению, качество генерации пока оставляет желать лучшего. При просмотре нейросетевых роликов создаётся впечатление, что нейросеть генерирует более-менее приличный (на уровне Stable Diffusion v 1.5) первый кадр, а затем просто пытается как-то расшевелить картинку, не особо понимая, как это должно выглядеть.
Например, вот так выглядят четыре попытки сгенерировать Санта-Клауса, собранные в один ролик:
Несмотря на заметные проблемы, нейросеть Runway Gen-2 продолжает развиваться. А с учётом того, как быстро нынче умнеют и развиваются нейросети, есть шанс, что через год она сможет создавать уже нормальные видео.
Обратите внимание, что первые моменты каждого фрагмента выглядят прилично — а затем олени теряют головы и начинается хаос / Видео: Алиса Смирнова, Фотосклад.Эксперт
Несмотря на заметные проблемы, нейросеть Runway Gen-2 продолжает развиваться. А с учётом того, как быстро нынче умнеют и развиваются нейросети, есть шанс, что через год она сможет создавать уже нормальные видео.
1 комментарий
06 мая 2024
https://neyrosetchat.ru/ в копилку
0
0
Ответить