Статьи 

Paper

Нейросети в AMV (часть 2)

Среда, 21 Июнь 2023

As neural networks are being popular, you might want to be interested in applying them into your videos in order to create some unique scenes that make viewers question the term called originality. So this article will guide you to think what you can further do with neural networks (technologies are shown from easiest to hardest). 

1. RunwayML

Overview

RunwayML is a service that lets you do various image/video processings fast and easy. It does not have advanced controls, but it is very easy to work with this.

Requirements & Installation

All you need is to register to the service and it gives you some credits as a sign up bonus, so you can play with the software.

Experimentation

#1: Gen-1

Allows you to copy one style of the video to another video.

#2: Gen-2

Allows you to create a video from textual input. The result is quite unstable.

#3: Remove Background (Automasking)

Allows you to remove background from shots. Works quite well for garbage matting, Does not work well with dark, unclean shots. Requires Google Chrome.




Also, you can do inpainting, frame interpolation, image expanding, etc. for different types of experiments.

2. AnimeGAN


Transforms video into anime style. You can select different types of styles: Hayao Style, Shinkai style, Disney Style, etc.

All you need is download the repository (https://github.com/TachibanaYoshino/AnimeGANv3, click Code->Download Zip), go to AnimeGANv3, execute AnimeGANv3.exe and use it to transform video into anime.

3. Stable Diffusion

Requirements

First of all, let's start with compatibility. As you know, artificial intelligence consumes a lot of power and needs high end technology (specifically high end GPUs), which unfortunately not everyone can afford. So, in order to offer compatibility for everyone, we will start with Google Colab.
Google Colab - the area containing high end GPUs which you can run code for free. The only drawback is that the server might be unstable and shuts down after some time.
In order to use this technology, all you need to have an account within Google services.

Secondly, a bit about Stable Diffusion. It is open source image creation library with using textual prompts. The result is not often good as another alternative - Midjourney, but hey, it is completely free. On top of that it is possible to tweak the various parts of an image making your prompts way more consistent. It is possible to install it into your computer, but we will proceed to using this technology with Google Colab.

Stable diffusion starts with noise and begins generating an image using text prompt conditioning (the information extracted from a language model that tells the U-Net how to modify the image). At each step, practically the model adds detail and the noise is removed. During the various steps in latent space what was once noise becomes more and more like an image. After that, the decoder transforms what was noise into an image in the pixel space. [source]

Thirdly, there is a library called Gradio. It allows you to visualize console applications into web application and share it.

Now as we know the a bit about the theoretical part, we will move into practical part.

Installation

Take a look at this project: https://github.com/TheLastBen/fast-stable-diffusion
It is Stable Diffusion with Web UI using Google Colab which uses Gradio library to share the link.
So, in other words, go login into your account and go here: https://colab.research.google.com/github/TheLastBen/fast-stable-diffusion/blob/main/fast_stable_diffusion_AUTOMATIC1111.ipynb
After loading, run all the commands from top to bottom (you can press Runtime -> Run All for convenience)
After Google finishes running all the commands, you will be presented with a link to a gradio session that goes to this Web UI.


Experimentation

Basic Stable Diffusion allows you to create image from textual prompts. For example, if you write "Anime, boy with glasses in a black costume in the sky", it will try to create image suitable for this description.

Negative prompt is the textual prompt that you do not want to see in the image. For example, if you write "Anime, boy with glasses in a black costume in the sky" in the prompt field, and if you write 'clouds' in the negative prompt field, then you won't see clouds in the generated image.

For Stable Diffusion, many different models have been prepared, specializing in certain styles. Many different models can be downloaded at https://civitai.com/. After downloading, place them in <folder with stable-diffusion-webui>/models/Stable-diffusion and restart the program. Then you can select this model at the top left. In the same place on the site civitai.com for each model you can find examples of images and texts from which they were obtained. There are many models who can generate anime. For example:
https://civitai.com/models/7240/meinamix
https://civitai.com/models/6755/cetus-mix
https://civitai.com/models/30240/toonyou
https://civitai.com/models/11866/meinapastel
etc.

Expert mode (by Turbo, generated using Dark Sushi Mix: https://civitai.com/models/24779/dark-sushi-mix-mix):

For extension and models specialized for anime, refer here: https://civitai.com/

Example prompts from civitai: https://civitai.com/images/1099572?modelVersionId=93208&prioritizedUserIds=494339&period=AllTime&sort=Most+Reactions&limit=20

img2img

Img2Img is a cutting-edge technique that generates new images from an input image and a corresponding text prompt.

The output image retains the original color and composition of the input image.

It’s important to note that the input image does not need to be intricate or visually appealing.

The main focus should be on the color and composition, as these elements will be carried over to the final output.

Source and more information can be found here: https://www.greataiprompts.com/guide/how-to-use-img2img-in-stable-diffusion/?expand_article=1


Inpainting

With inpainting, you can change any part of the image to your preference. Just brush the needed part to change ( or to keep), And describe the alterations that needs to be here.

 


Sketching


With sketching, you can draw rough idea of what should look like the image and ControlNet converts into actual image.

 



Resizing


You can denoise & resize do other image processing from Extras Tab.

You can also play with ControlNet which allows far more control for the output, but you will need to install it locally or buy Google Colab paid subscription.

For local installation of Stable diffusion, follow steps here: https://github.com/AUTOMATIC1111/stable-diffusion-webui

ControlNet

ControlNet - allows you to change part of the image allowing coherence between images. For the installation refer here: https://github.com/Mikubill/sd-webui-controlnet

Examples: https://pikabu.ru/story/preobrazovanie_tantsa_realnogo_cheloveka_v_animatsiyu_s_ispolzovaniem_stable_diffusion_i_multicontrolnet_10135049

Guide: https://journal.tinkoff.ru/controlnet/

Deforum

Deforum is an extension for ControlNet which allows you to animate given image. For the installation refer here: https://github.com/deforum-art/sd-webui-deforum

Example:

Addendum

There is a library called Audiocraft that generates music based on MusicGen. You can try describing music to your tastes and get the output for your prompt.

Repo: https://github.com/facebookresearch/audiocraft

Colab: https://github.com/camenduru/MusicGen-colab

 

 

 

 

 

----------------------------------------------------------

Поскольку нейронные сети становятся популярными, вы можете захотеть использовать их в своих видео, чтобы создавать уникальные сцены, которые заставят зрителей усомниться в термине "оригинальность". Итак, эта статья поможет вам подумать, что вы можете сделать с нейронными сетями (технологии показаны от самых простых к самым сложным).

 

1. RunwayML


Описание

RunwayML — это сервис, который позволяет быстро и легко выполнять различные обработки изображений/видео. У него нет расширенного управления, но с этим очень легко работать.

Требования и требования Установка

Все, что вам нужно, это зарегистрироваться в сервисе, и он даст вам несколько кредитов в качестве бонуса за регистрацию, чтобы вы могли играть с программным обеспечением.

Эксперимент

#1: Gen-1

Позволяет копировать один стиль видео в другое видео.

#2: Gen-2

Позволяет создавать видео из текстового ввода. Результат весьма нестабилен.

#3. Удаление фона (автомаскирование)

Позволяет удалить фон со снимков. Достаточно хорошо работает для матирования мусора, плохо работает с темными, грязными снимками. Требуется Google Chrome.

Кроме того, вы можете выполнять отрисовку, интерполяцию кадров, расширение изображения и т. д. для различных типов экспериментов.

2. AnimeGAN


Превращает видео в аниме-стиль. Вы можете выбрать различные типы стилей: стиль Хаяо, стиль Синкай, стиль Диснея и т. д.

Все, что вам нужно, это загрузить репозиторий (https://github.com/TachibanaYoshino/AnimeGANv3, нажать «Код» -> «Загрузить Zip»), перейти к AnimeGANv3, запустить AnimeGANv3.exe и использовать его для преобразования видео в аниме.

 

3. Stable Diffusion

Требования

Прежде всего, начнем с совместимости. Как вы знаете, искусственный интеллект потребляет много энергии и требует высоких технологий (в частности, высокопроизводительных графических процессоров), которые, к сожалению, не каждый может себе позволить. Итак, чтобы обеспечить совместимость для всех, мы начнем с Google Colab.
Google Colab — область, содержащая высококачественные графические процессоры, на которых вы можете бесплатно запускать код. Единственным недостатком является то, что сервер может работать нестабильно и отключаться через некоторое время.
Чтобы использовать эту технологию, вам достаточно иметь учетную запись в службах Google.

Во-вторых, немного о Stable Diffusion. Это библиотека для создания изображений с открытым исходным кодом с использованием текстовых подсказок. Результат не так хорош, как другая альтернатива — Midjourney, но она совершенно бесплатна. Кроме того, можно настроить различные части изображения, чтобы сделать ваши подсказки более последовательными. Ее можно установить на свой компьютер, но мы перейдем к использованию этой технологии с Google Colab.

Стабильная диффузия начинается с шума и начинает генерировать изображение с использованием текстовых подсказок (информация, извлеченная из языковой модели, которая сообщает U-Net, как изменить изображение). Практически на каждом этапе модель добавляет детали, а шум удаляется. При различных шагах в скрытом пространстве то, что когда-то было шумом, становится все более и более похожим на изображение. После этого декодер преобразует то, что было шумом, в изображение в пространстве пикселей. [источник]

В-третьих, есть библиотека под названием Gradio. Он позволяет визуализировать консольные приложения в веб-приложения и можно поделиться ими.

Теперь, когда мы немного разобрались с теоретической частью, мы перейдем к практической части.

Установка

Взгляните на этот проект: https://github.com/TheLastBen/fast-stable-diffusion
Это Stable Diffusion с веб-интерфейсом с использованием Google Colab, который использует библиотеку Gradio для обмена ссылкой.
Другими словами, войдите в свою учетную запись и перейдите сюда: https://colab.research.google.com/github/TheLastBen/fast-stable-diffusion/blob/main/fast_stable_diffusion_AUTOMATIC1111.ipynb
После загрузки запускаем все команды сверху вниз (для удобства можно нажать Runtime -> Run All)
После того, как Google завершит выполнение всех команд, вам будет представлена ссылка на сеанс градиента, который переходит в этот веб-интерфейс.


Эксперимент

Базовый Stable Diffusion позволяет создавать изображения из текстовых подсказок. Например, если вы напишете "Аниме, мальчик в очках в черном костюме в небе", он попытается создать изображение, подходящее для этого описания.


Отрицательная подсказка — это текстовая подсказка, которую вы не хотите видеть на изображении. Например, если написать «Аниме, мальчик в очках в черном костюме в небе»; в поле подсказки, а если вы напишете «облака» в поле отрицательной подсказки, то вы не увидите облаков на сгенерированном изображении.

Для Stable Diffusion было подготовлено много различных моделей, специализируещихся на каких-то стилях. Много разных моделей можно скачать на сайте https://civitai.com/. После скачивания поместите их в папку <папка с stable-diffusion-webui>/models/Stable-diffusion и перезапустите программу. Далее вы сможете выбрать эту модель вверху слева. Там же на сайте civitai.com для каждой модели можно найти примеры изображений и текстов, из которых они были получены. Там много моделей умеющих генерировать аниме. Например:
https://civitai.com/models/7240/meinamix
https://civitai.com/models/6755/cetus-mix
https://civitai.com/models/30240/toonyou
https://civitai.com/models/11866/meinapastel

и.т.д.

Режим Эксперта (от Turbo, сгенерирован через Dark Sushi Mix: https://civitai.com/models/24779/dark-sushi-mix-mix):

img2img 

Img2Img — это передовой метод, который создает новые изображения из входного изображения и соответствующей текстовой подсказки.

Выходное изображение сохраняет исходный цвет и композицию входного изображения.

Важно отметить, что входное изображение не обязательно должно быть сложным или визуально привлекательным.

Основное внимание следует уделить цвету и композиции, поскольку эти элементы будут перенесены в конечный результат.
Источник и дополнительную информацию можно найти здесь: https://www.greataiprompts.com/guide/how-to-use-img2img-in-stable-diffusion/?expand_article=1

Окрашивание

С помощью inpaint вы можете изменить любую часть изображения по своему усмотрению. Просто почистите ту часть, которую нужно изменить (или оставить), и опишите изменения, которые должны быть здесь. 


Эскиз

С помощью набросков вы можете нарисовать примерное представление о том, как должно выглядеть изображение, и ControlNet преобразует его в фактическое изображение.

 



Изменение размера

Вы можете шумоподавить & изменить размер, выполнить другую обработку изображения на вкладке «Дополнительно».

Вы также можете поиграть с ControlNet, который дает гораздо больше контроля над выводом, но вам нужно будет установить его локально или купить платную подписку Google Colab.

Для локальной установки Stable Diffusion выполните шаги здесь: https://github.com/AUTOMATIC1111/stable-diffusion-webui.

ControlNet

ControlNet — позволяет изменять часть изображения, обеспечивая согласованность между изображениями. Для установки обратитесь сюда: https://github.com/Mikubill/sd-webui-controlnet

Примеры: https://pikabu.ru/story/preobrazovanie_tantsa_realnogo_cheloveka_v_animatsiyu_s_ispolzovaniem_stable_diffusion_i_multicontrolnet_10135049

Гайд: https://journal.tinkoff.ru/controlnet/

Deforum

Deforum — это расширение для ControlNet, которое позволяет вам анимировать заданное изображение. Для установки обратитесь сюда: https://github.com/deforum-art/sd-webui-deforum

Пример:


Приложение

Существует библиотека Audiocraft, которая генерирует музыку на основе MusicGen. Вы можете попробовать описать музыку на свой вкус и получить результат который соответствует вашему описанию.

Repo: https://github.com/facebookresearch/audiocraft

Colab: https://github.com/camenduru/MusicGen-colab


Прочитана: 1400 раз
Распечатать

Комментарии (0)
Вы не авторизованы! Комментарии могут оставлять только зарегистрированные и авторизованные пользователи!

 Случайная цитата