Kandinsky 2.1: как российская нейросеть генерирует изображения

РБК Тренды рассказывают, что умеет Kandinski 2.1 — российская нейросеть для генерации изображений

Содержание:

  • Что такое нейросеть Kandinsky 2.1
  • Возможности нейросети Kandinsky 2.1
  • Как пользоваться нейросетью Kandinsky 2.1

Kandinsky 2.1: как российская нейросеть генерирует изображения

Стартовая страница программы.

Что такое нейросеть Kandinsky 2.1

Kandinsky 2.1 — это третье обновление нейросети Kandinsky для генерации изображений, представленное в апреле 2023 года. Проект разработала команда исследователей Sber AI при поддержке ученых из Института искусственного интеллекта AIRI. С помощью Kandinsky 2.1 можно создавать визуал для блога или соцсетей, решать конкретные бизнес-задачи, связанные с дизайном, рекламой и маркетингом.

Все самые удивительные примеры, когда искусственный интеллект создает высококачественное фотореалистичное изображение по текстовому запросу, выполнены диффузионными моделями нейросетей. Kandinsky 2.1 — первая и единственная диффузионная модель, созданная в России, которая понимает сотню языков [1]. Она работает аналогично нейросетям Midjourney, Stable Diffusion и DALL-E 2. Диффузионные модели — подкатегория глубоких генеративных моделей, которые сначала размывают изображение, а потом пытаются его восстановить, генерируя тем самым данные, аналогичные тем, на которых они обучаются [2].

Kandinsky 2.1: как российская нейросеть генерирует изображения

Примеры работ Midjourney, Stable Diffusion и DALL-E 2 по текстовому запросу.

Если сравнивать Kandinsky 2.1 со своим предшественником — Kandinsky 2.0, то здесь существенно увеличено количество параметров (с 2 млрд до 3,3 млрд). Кроме того, эту модель дополнительно обучили на 170 млн пар «текст — изображение». По словам разработчиков, теперь модель создает еще более реалистичные и детализированные изображения, в которых качественно переданы различные тени, отражения и текстуры [3].

Всего за четыре дня после запуска сервиса Kandinsky 2.1 привлек 1 млн уникальных пользователей. Это превосходит показатели нашумевшей нейросети ChatGPT от OpenAI, которой потребовалось на это пять дней. За первые двое суток пользователи сгенерировали свыше 1,3 млн изображений. Самые популярные запросы первых дней — кот, любовь и космос. Также пользователи часто загружают шедевры живописи, чтобы создать их вариации [4].

Что умеет нейросеть Kandinsky 2.1

У Kandinsky 2.1 есть четыре режима работы:

Генерация по тексту

Например, вы можете написать «Средиземное море», выбрать стилистику «anime» и получить готовое изображение в заданной теме и стилистике.

Kandinsky 2.1: как российская нейросеть генерирует изображения

Результат по текстовому запросу «Средиземное море» и стилистике «anime».

Смешивание картинок

Вы можете загрузить две картинки и посмотреть, какой микс вам сделает Kandinsky 2.1. РБК Тренды попробовали объединить мемы «умиляющийся кот» и «упоротый лис».

Kandinsky 2.1: как российская нейросеть генерирует изображения

Kandinsky 2.1: как российская нейросеть генерирует изображения

Смешивание картинки и текста

Вы добавляете картинку и пишете слова, которые подскажут нейросети, что с ней делать. РБК Тренды попросили сервис смешать фотографию американского музыканта Принца с текстом «икона».

Kandinsky 2.1: как российская нейросеть генерирует изображения

Kandinsky 2.1: как российская нейросеть генерирует изображения

Вариации картинки

Этот инструмент позволяет сделать уникальную вариацию на базе исходного изображения. РБК Тренды загрузили картину Казимира Малевича «Голова крестьянина».

Kandinsky 2.1: как российская нейросеть генерирует изображения

Kandinsky 2.1: как российская нейросеть генерирует изображения

Как пользоваться нейросетью Kandinsky 2.1

Воспользоваться нейросетью Kandinsky 2.1 можно на нескольких платформах:

  • на облачной платформе Сбера ML Space;
  • в Telegram-боте;
  • на сайте fusionbrain.ai;
  • на сайте rudalle.ru;
  • в мобильном приложении «Салют» и на умных устройствах Sber по запросу «Включи художника».

Рекомендации по составлению текстового запроса в Kandinski 2.1:

  • назовите объект. Сопроводите его качественным прилагательным, определяющим его цвет, размер, настроение, текстуру и т.п. Желательно использовать не более трех прилагательных. Укажите, где объект должен находиться в пространстве: на небе, на дороге;
  • если хотите объединить какие-то объекты, напишите их через дефис: «кот-птица»;
  • добавьте дополнительные элементы (лучше что-то конкретное) или эффекты (свет, блестки, блюр);
  • напишите, в каком стиле хотите получить изображение.

Плюсы и минусы нейросети Kandinsky 2.1

Плюсы:

  • не требуется регистрация;
  • полностью бесплатна;
  • хорошо работает с запросами на русском языке;
  • простой интерфейс;
  • создает картинки в более 20 разных стилях: от киберпанка до хохломы;

Минусы:

  • генерирует изображения в разрешении 768 × 768 пикселей, изменить настройки нельзя;
  • случаются проблемы с изображением людей: может «съехать» лицо, если оно изображено в профиль; может появиться третья нога, если в исходном фото сложная поза (скрестив ноги); могут плохо прорисоваться кисти рук (слишком длинные пальцы);
  • иногда возникают ошибки на сайтах и в телеграм-боте.
Понравилась статья? Поделиться с друзьями:
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: