Stability AI запускает Stable Diffusion XL 1.0 для быстрого создания 1-мегапиксельных изображений

Поделиться
с друзьями:

Stability AI выпустила Stable Diffusion XL 1.0 (SDXL 1.0) - удобный инструмент для преобразования текста в изображение с улучшенным качеством и удобным интерфейсом. Его 3,5 миллиарда параметров позволяют создавать изображения с разными соотношениями сторон, в том числе с разрешением 1 мегапиксель. Модель разработана для оптимизации процесса преобразования текста в изображение и включает функции тонкой настройки, такие как ControlNet, основанные на исследованиях Стэнфордского университета. SDXL 1.0 оптимизирован для использования на видеокартах с объемом видеопамяти 8 ГБ и эффективно работает в недорогих облачных системах.

Программа предлагает возможность более точной настройки и создания пользовательских моделей LoRA или контрольных точек с меньшим объемом данных. Модели LoRA — это небольшие обученные модели для Stable Diffusion, которые вносят дополнительные изменения в генерацию изображений и используются вместе со стандартными моделями («checkpoint files» формата «ckpt» или «safetensors»). Обычно они в 10-100 раз меньше, чем уже привычные модели «checkpoint files». Это делает их очень привлекательными для людей, имеющих обширную коллекцию моделей. LoRA расшифровывается как Low-Rank Adaptation, и подразумевает под собой - математический метод уменьшения количества обучаемых параметров.

В ближайшем будущем можно ожидать обновлений, а SDXL 1.0 способен генерировать сложные концепции, такие как сложные детали или сложные пространственные композиции. Этот инструмент представлен с открытым исходным кодом на GitHub, что способствует прозрачности и сотрудничеству внутри сообщества.

Одной из особенностей SDXL 1.0 является его конкурентоспособность по сравнению с другими основными претендентами, такими как Midjourney и сервис Adobe Firefly. Новая модель акцентирует внимание на улучшенных процессах обработки изображений, что приводит к более ярким цветам, отличному освещению и повышенной контрастности. Также добавлена функция тонкой настройки, которая упрощает создание индивидуальных изображений.

Как использовать Stable Diffusion для создания изображений?

При создании SDXL 1.0 был использован простой подход к обучению, используя обширную базу параметров, что позволило использовать его в различных инструментах и функциях. Генеральный директор Stability AI, Эмад Мостак, отметил, что SDXL 1.0 был разработан для оптимизации процесса преобразования текста в изображение, при этом было использовано ControlNet от Стэнфордского университета, что добавило дополнительные возможности точной настройки и компоновки.

Одной из отличительных особенностей модели SDXL 1.0 является ее пользовательский дизайн. В отличие от необходимости использования длинных подсказок для достижения желаемых результатов, эта модель позволяет пользователям давать сложные подсказки, состоящие из нескольких частей, с меньшим количеством слов, чем ранее. В настоящее время эта новаторская модель доступна на нескольких платформах, включая сервисы Amazon Bedrock и Amazon SageMaker Jumpstart.

Как начать пользоваться SDXL 1.0?

SDXL 1.0 доступен на Clipdrop. Перейдите по этой ссылке.

Веса SDXL 1.0 и связанного исходного кода опубликованы на странице Stability AI GitHub.

Для SDXL 1.0 есть API на платформе Stability AI.

SDXL 1.0 доступен на AWS Sagemaker и AWS Bedrock.

Stable Foundation Discord открыт для тестирования моделей SDXL.

DreamStudio также имеет SDXL 1.0 для создания изображений.

Лучшие результаты SDXL 1.0 для сложных концепций и стилей

SDXL создает высококачественные изображения в различных художественных стилях и является лучшей доступной моделью для фотореализма. Она может создавать четкие и ясные образы без каких-либо ограничений со стороны модели, что дает полную свободу выбора стиля. SDXL 1.0 особенно хорошо настроена для насыщенных и точных цветов, с лучшей контрастностью, освещением и тенями, чем предыдущая модель, и все это в разрешении 1024x1024.

Кроме того, SDXL может создавать концепции, которые обычно сложно визуализировать с помощью моделей изображений, таких как руки и текст, или пространственные композиции (например, женщина на заднем плане, преследующая собаку на переднем плане).

SDXL обладает более интеллектуальным подходом и использует более простой язык

SDXL может создавать сложные, детализированные и эстетически привлекательные изображения всего лишь несколькими словами. Пользователям больше не нужно использовать термины-определители, такие как «шедевр», чтобы получить изображения высокого качества. Кроме того, SDXL способен понять различие между понятиями, например, "Красная площадь" (известное место) и "красный квадрат" (форма).

SDXL 1.0 - самая большая и сложная модель с открытым исходным кодом

SDXL 1.0 представляет собой одну из наиболее параметрически сложных моделей изображений с открытым доступом. Она основана на новой инновационной архитектуре, которая включает базовую модель с 3,5 миллиардами параметров и модель уточнения с 6,6 миллиардами параметров.

Полная модель содержит конвейер, который состоит из комбинации экспертов для скрытой диффузии процесса: на первом этапе базовая модель генерирует (зашумленные) скрытые данные, которые затем обрабатываются уточняющей моделью, специализированной для удаления шумов на последующих этапах. Стоит отметить, что базовую модель также можно использовать отдельно как автономный модуль.

SDXL 1.0 обладает такой архитектурой, которая позволяет создавать надежные изображения без ущерба для скорости и без использования излишних вычислительных ресурсов. Эта архитектура состоит из двух этапов. При этом SDXL 1.0 должен эффективно работать на графических процессорах для потребителей с 8 ГБ видеопамяти или на облачных серверах с легким доступом.

Тонкая настройка модели SDXL 1.0 и расширенный контроль

Благодаря SDXL 1.0 настройка модели на пользовательские данные стала проще, чем раньше. Создание пользовательских LoRA или контрольных точек теперь требует меньше обработки данных. Команда Stability AI разрабатывает новое поколение элементов управления структурой, стилем и композицией для конкретных задач с помощью T2I / ControlNet, специализирующихся на SDXL. Эти функции находятся в стадии бета-тестирования, но следите за обновлениями в отношении точной настройки.

stable diffusion, нейросеть, изображения, фраза, подсказка, промпт, аватар

Комментарии: