[ b / news / + ]
Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 520 176 215
Stable Diffusion технотред #18 /tech/ Аноним 11/12/24 Срд 11:08:11 974163 1
training methods.png 979Кб, 3510x2910
3510x2910
diffusion proce[...].png 358Кб, 2546x1822
2546x1822
lr.png 271Кб, 1853x624
1853x624
performance cha[...].png 545Кб, 2440x934
2440x934
flux arch.jpg 526Кб, 3258x3242
3258x3242
sd3 mmdit arch.png 260Кб, 2004x1372
2004x1372
ИТТ делимся советами, лайфхаками, наблюдениями, результатами обучения, обсуждаем внутреннее устройство диффузионных моделей, собираем датасеты, решаем проблемы и экспериментируем Тред общенаправленныей, тренировка дедов, лупоглазых и фуррей приветствуются

Предыдущий тред: >>758561 (OP)

➤ Софт для обучения

https://github.com/kohya-ss/sd-scripts
Набор скриптов для тренировки, используется под капотом в большей части готовых GUI и прочих скриптах.
Для удобства запуска можно использовать дополнительные скрипты в целях передачи параметров, например: https://rentry.org/simple_kohya_ss

https://github.com/bghira/SimpleTuner
Линукс онли, бэк отличается от сд-скриптс

https://github.com/Nerogar/OneTrainer
Фич меньше, чем в сд-скриптс, бэк тоже свой

➤ GUI-обёртки для sd-scripts

https://github.com/bmaltais/kohya_ss
https://github.com/derrian-distro/LoRA_Easy_Training_Scripts

➤ Обучение SDXL

https://2ch-ai.gitgud.site/wiki/tech/sdxl/

➤ Flux

https://2ch-ai.gitgud.site/wiki/nai/models/flux/

➤ Гайды по обучению

Существующую модель можно обучить симулировать определенный стиль или рисовать конкретного персонажа.

LoRA – "Low Rank Adaptation" – подойдет для любых задач. Отличается малыми требованиями к VRAM (6 Гб+) и быстрым обучением. https://github.com/cloneofsimo/lora - изначальная имплементация алгоритма, пришедшая из мира архитектуры transformers, тренирует лишь attention слои, гайды по тренировкам:
https://rentry.co/waavd - гайд по подготовке датасета и обучению LoRA для неофитов
https://rentry.org/2chAI_hard_LoRA_guide - ещё один гайд по использованию и обучению LoRA
https://rentry.org/59xed3 - более углубленный гайд по лорам, содержит много инфы для уже разбирающихся (англ.)

LyCORIS (Lora beYond Conventional methods, Other Rank adaptation Implementations for Stable diffusion) - проект по созданию алгоритмов для обучения дополнительных частей модели. Ранее имел название LoCon и предлагал лишь тренировку дополнительных conv слоёв. В настоящий момент включает в себя алгоритмы LoCon, LoHa, LoKr, DyLoRA, IA3, а так же на последних dev ветках возможность тренировки всех (или не всех, в зависимости от конфига) частей сети на выбранном ранге:
https://github.com/KohakuBlueleaf/LyCORIS

Подробнее про алгоритмы в вики https://2ch-ai.gitgud.site/wiki/tech/lycoris/

Dreambooth – для SD 1.5 обучение доступно начиная с 16 GB VRAM. Ни одна из потребительских карт не осилит тренировку будки для SDXL. Выдаёт отличные результаты. Генерирует полноразмерные модели:
https://rentry.co/lycoris-and-lora-from-dreambooth (англ.)
https://github.com/nitrosocke/dreambooth-training-guide (англ.)
https://rentry.org/lora-is-not-a-finetune (англ.)

Текстуальная инверсия (Textual inversion), или же просто Embedding, может подойти, если сеть уже умеет рисовать что-то похожее, этот способ тренирует лишь текстовый энкодер модели, не затрагивая UNet:
https://rentry.org/textard (англ.)

➤ Тренировка YOLO-моделей для ADetailer:
YOLO-модели (You Only Look Once) могут быть обучены для поиска определённых объектов на изображении. В паре с ADetailer они могут быть использованы для автоматического инпеинта по найденной области.

Подробнее в вики: https://2ch-ai.gitgud.site/wiki/tech/yolo/

Не забываем про золотое правило GIGO ("Garbage in, garbage out"): какой датасет, такой и результат.

➤ Гугл колабы

﹡Текстуальная инверсия: https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/sd_textual_inversion_training.ipynb
﹡Dreambooth: https://colab.research.google.com/github/TheLastBen/fast-stable-diffusion/blob/main/fast-DreamBooth.ipynb
﹡LoRA https://colab.research.google.com/github/hollowstrawberry/kohya-colab/blob/main/Lora_Trainer.ipynb

➤ Полезное

Расширение для фикса CLIP модели, изменения её точности в один клик и более продвинутых вещей, по типу замены клипа на кастомный: https://github.com/arenasys/stable-diffusion-webui-model-toolkit
Гайд по блок мерджингу: https://rentry.org/BlockMergeExplained (англ.)
Гайд по ControlNet: https://stable-diffusion-art.com/controlnet (англ.)

Подборка мокрописек для датасетов от анона: https://rentry.org/te3oh
Группы тегов для бур: https://danbooru.donmai.us/wiki_pages/tag_groups (англ.)
NLP тэггер для кэпшенов T5: https://github.com/2dameneko/ide-cap-chan (gui), https://huggingface.co/Minthy/ToriiGate-v0.3 (модель), https://huggingface.co/2dameneko/ToriiGate-v0.3-nf4/tree/main (квант для врамлетов)

Оптимайзеры: https://2ch-ai.gitgud.site/wiki/tech/optimizers/
Визуализация работы разных оптимайзеров: https://github.com/kozistr/pytorch_optimizer/blob/main/docs/visualization.md

Гайды по апскейлу от анонов:
https://rentry.org/SD_upscale
https://rentry.org/sd__upscale
https://rentry.org/2ch_nai_guide#апскейл
https://rentry.org/UpscaleByControl

Старая коллекция лор от анонов: https://rentry.org/2chAI_LoRA

Гайды, эмбеды, хайпернетворки, лоры с форча:
https://rentry.org/sdg-link
https://rentry.org/hdgfaq
https://rentry.org/hdglorarepo
https://gitgud.io/badhands/makesomefuckingporn
https://rentry.org/ponyxl_loras_n_stuff - пони лоры
https://rentry.org/illustrious_loras_n_stuff - люстролоры

➤ Legacy ссылки на устаревшие технологии и гайды с дополнительной информацией

https://2ch-ai.gitgud.site/wiki/tech/legacy/

➤ Прошлые треды

https://2ch-ai.gitgud.site/wiki/tech/old_threads/

Шапка: https://2ch-ai.gitgud.site/wiki/tech/tech-shapka/
Аноним 11/12/24 Срд 14:16:31 974339 2
Вкот
У меня ощущение от каждого трая лоры как от вскрытия подарка каждый раз кто сейм
Аноним 11/12/24 Срд 21:13:30 974834 3
>>974038 →
> Я не уточняю, но вообще можно уточнять. Но локон норм и так.
Уточнил короче
> Че за приколы, не влезут, ток что проверил, в 1024 с букетами до 768 еле влезает один, с двумя уже на рам протик.
Сам проверил, действительно переоценил что то, вспомнил просто 11300 чтоли потребление с 2 и спизданул навскидку. 2 влезают точно, прямо сейчас проверил, а больше обычно для мелкого говна и не юзаю энивей, хоть врам и позволяет, но толку нет
> Вообще речь шла у меня в посте про 64 дименшен такто, там один батча то еле влезает, что уж говорить о двух трех.
Ну а нахер тебе такой огромный для одной еот? Хорошего человека должно быть много чтоли?
> У меня лр на юнет какраз 10 щас
Ебанись
> Вармап не юзаю, его как бы заменяет продижистепс параметр, который ищет оптимум лернинг и фризит его
Вот этот продиджистепс вообще какая то шутка. Единственный случай когда продиджи всё зажарит, это когда ты рестарт на лре сделаешь, он такое точно не любит и плавные шедулеры для него мастхев, а так он обычно если ему лр не хватает, от падения шедулера сам начинает его вверх дёргать, шедулер не до нуля обычно, а до 0.01-0.005 хорошо работает
> Не, один чел не сможет так сделать, цивит бы в помойку быстро превратился. Тут дору взяли потому что не хуй с горы сделал а нвидиеподсосы.
AYS тогда почему не сделали? Я помню там кто то, кто первую дору выложил и писал им чтобы добавили
> Это скорее алгоритм ДЛЯ ликориса. И ничеси очередной, почти полноценный файнтюн без нужды дрочить фул модель, лафа для врамлетов и гораздо меньше временных затрат.
Ты уверен? Оно тренилось когда я пробовал намного дольше, единственный плюс, что врам типо засейвит, а толку ноль, во времена поней даже оно нихуя от обычных не отличались, единственный верный способ был зажарить нахуй модель в говно, чтобы по датасету пошёл перегар, тогда генерализация пойдёт на остальную часть, ценой пиздеца по датасету, даже глора не спасала, вот всё перепробовал, прямо помню это чётко с аутизмом этим ебучим
> Ну глора это вот алгоритм репараметризации. Ты можешь эту глору вместо с дорой юзать, у них вообще разные задачи и наверно они дополнят друг друга. Кстати надо попробовать, интересно че будет, в сдскриптс вроде есть.
Я в курсе, что дора поверх других алго работает, с аутизмом ничего не помогло, опять же
> Забей место под ADOPT, другой сверхточный адам форк https://github.com/iShohei220/adopt
Да этих новых оптимайзеров как говна за баней, с каждого теперь охуевать чтоли? Вон иди попробуй фишмонгер, он ещё хлеще продиджи там по визуализации был в одном трункорде https://github.com/Clybius/Personalized-Optimizers и я на нём делал пару лор, они действительно заебись перформят, но у тебя небось не влезет в память, там 2 батч уже лучше 16гб и дольше продиджи в 2 раза, будто флюкс тренишь
Вон ещё охуевай, мемори эффишиент и фаст, потому что адам, с фичами https://github.com/lodestone-rock/torchastic
Аноним 11/12/24 Срд 21:25:17 974856 4
Как тред то ожил, сколько написали. Теперь читать вас и отвечать.
Аноним 12/12/24 Чтв 06:18:32 975217 5
>>974834
>Ну а нахер тебе такой огромный для одной еот? Хорошего человека должно быть много чтоли?
Ну параметризация больше моментная в работе, потенциальная точность выше, выше мощности адаптации модели и её способности захватывать более сложные паттерны в данных. Это особенно хорошо видно когда тренишь отдельные слои как в случае с билорой, выставил 1024 если ты 4090 боярин 128 и оно прям дышит сразу и в разы проще наваливает. Если оно работает с отдельными многомерными слоями то почему не работает с полными параметрами? Всегда можно отресайзить потом по финалу.
>Ебанись
А что, не запрещено - значит разрешено. Тем более работает и решает задачи.
>Вот этот продиджистепс вообще какая то шутка
Не, не шутка. Т.к. шедулера тут нет, то продижи надо пинком отрубать чтобы вызвать т.н. escape velocity и чтобы он перестал уменьшать свою полезность бесконечно, можешь тут почитать принцип https://arxiv.org/pdf/2409.20325
>шедулеры шедулер
Так речь про бесшедулерный...
>AYS тогда почему не сделали?
AYS это шедулер для семплеров же, буквально просто функция одной строчкой от лабы нвидии. Куда ее добавлять собрался?
>Ты уверен?
Ну да. Дора это такой читкод на фулпараметрик без полноценного фулпараметрика.
>Оно тренилось когда я пробовал намного дольше, единственный плюс, что врам типо засейвит, а толку ноль, во времена поней даже оно нихуя от обычных не отличались, единственный верный способ был зажарить нахуй модель в говно, чтобы по датасету пошёл перегар, тогда генерализация пойдёт на остальную часть, ценой пиздеца по датасету, даже глора не спасала, вот всё перепробовал, прямо помню это чётко с аутизмом этим ебучим
Чет я мысль твою потерял, переформулируй
>способ был зажарить нахуй модель в говно, чтобы по датасету пошёл перегар, тогда генерализация пойдёт на остальную часть
Не ну зажарить иногда бывает полезно, потом просто лорку можно поменьше весом применять и тольковыигрывать. Не с дорой конечно, т.к. там шаг влево шаг вправо от базового веса уже ощутимая потеря данных идет.
>с аутизмом ничего не помогло, опять же
Ну ты вот пишешь то не работает, то не работает, я ж вообще понятия не имею как ты тестируешь, тренируешь, какой юзкейс у этого всего. Может ты там 3000 степов на эпоху страдаешь вообще по 60 часов лору тренишь и с хоть малейшим смазом на гене отбраковываешь и начинаешь заново, а гены пускаешь на какомнибудь Dormand–Prince в миллиард шагов. У меня лично есть несколько рабочих вариантов как даже самый всратый тренинг заставить терпимо работать. Принцип тренинга же в чем вообще заключается? В том чтобы он давал результат безотносительно того как ты этот результат достигаешь. В чем проблема недотренов и перетренов? В недостатке или избытке данных и последующем денойзе этих данных. По факту дифузные модели уже с первых шагов понимают и знают калцепт который ты им кормишь, единственный вопрос в достаточности и точности данных, которые сеть получает во время тренировки дальше чтобы тюнить свои вектора, и разными способами можно заставить сетку считать, что достаточность данных для инферирования в результат на месте.
>Да этих новых оптимайзеров как говна за баней, с каждого теперь охуевать чтоли?
Да понятно что любой лох может оптимайзер сделать, но тут университет токио все дела, оптимизер без нужды тюнить параметры тренировки и с хорошей скоростью и точностью базированный на адаме.
>Вон иди попробуй фишмонгер
Давай попробую, че там как его настраивать?
>и я на нём делал пару лор, они действительно заебись перформят
Покажи + настроечки
>Вон ещё охуевай, мемори эффишиент и фаст, потому что адам
Круто, но это просто мемори эфишент мод со знижением байтов на параметр. ADOPT про другое.
Аноним 12/12/24 Чтв 10:31:16 975335 6
>>975217
> Всегда можно отресайзить потом по финалу.
Неа, не всегда, некоторые алгоритмы до сих пор не ресайзятся с сд-скриптс, полагаться можно только на лору и локон в этом плане и плане мерджей. Костыли правда я видел, для глоры той же были скрипты где то на форчонге
> Не, не шутка. Т.к. шедулера тут нет, то продижи надо пинком отрубать чтобы вызвать т.н. escape velocity и чтобы он перестал уменьшать свою полезность бесконечно, можешь тут почитать принцип https://arxiv.org/pdf/2409.20325
Ну ёпта там всё в матане, короче продиджи в стоке шедулфри через жопу работает и если эстимейшен не выключить на определённом шаге будет пиздец с нетворком?
> Так речь про бесшедулерный...
Реально не пойму в чём прикол убирать шедулер, он всегда в диапазоне двух порядков от лр нормально работает, или вообще до нуля, ладно там лр искать заёбно, но шедулер то, плюс ещё придётся ебаться с параметрами поновой искать, судя по тому что в основной репе пишут, один гемор
> AYS это шедулер для семплеров же, буквально просто функция одной строчкой от лабы нвидии. Куда ее добавлять собрался?
В генератор на сайте, куда же ещё, тоже ведь от нвидии
> Ну да. Дора это такой читкод на фулпараметрик без полноценного фулпараметрика.
Вот этот читкод сейчас полностью облажался при тренировке гойвэя впреда, с энкодером сдохло просто и пережарилось, юнет онли нан. На сам попробуй, если хочешь https://files.catbox.moe/8bpnnx.toml без доры нормально, там тольк минснр ёбнутая указана по фану проверить, с ней работает без доры и на адаме и на продиджи
> Чет я мысль твою потерял, переформулируй
Я пытался генерализовать максимально одного маняме хуйдоджника известного в узких кругах с аутизм чекпоинтом, фангдонга, он в основном к*ичек рисует, тестил на конкретном промпте, который был отдалён от того что он рисует, там была какая то кошкодевка с блюарка с огромными бидонами в купальнике, что очень отдалённо, ни один алгоритм из доступных полгода назад не выдал стиль на этом промпте, только одна лора, которую я взял с цивита работала на этом и почти всех остальных промптах, она по факту была ужарена, но я хотел повторить это, ведь ничего не работало, глянул в мету, там тренилось на похуй стоком с адамом прямиком с аутизма на малом датасете, ну сделал так же и получилось с первого раза по перформансу схоже с той, что была на циве, и та и другая по датасету выдают ужас, если кэпшен 1в1 копировать, но генерализация у них охуенная
> Ну ты вот пишешь то не работает, то не работает, я ж вообще понятия не имею как ты тестируешь, тренируешь, какой юзкейс у этого всего. Может ты там 3000 степов на эпоху страдаешь вообще по 60 часов лору тренишь и с хоть малейшим смазом на гене отбраковываешь и начинаешь заново, а гены пускаешь на какомнибудь Dormand–Prince в миллиард шагов
Ну вроде выше расписал понятно что я пытался сделать
> По факту дифузные модели уже с первых шагов понимают и знают калцепт который ты им кормишь, единственный вопрос в достаточности и точности данных, которые сеть получает во время тренировки дальше чтобы тюнить свои вектора, и разными способами можно заставить сетку считать, что достаточность данных для инферирования в результат на месте.
Это всё здорово конечно, но есть огромные байасы у чекпоинтов, тот же пони или дериватив аутизм (который ещё хуже говноговнапростоблять) практически невозможно направить в определённое русло, считай в пэинтерли стили, без лютых танцев с бубном, yd, fkey или ciloranko на них выглядят и тренятся отвратительно, а, например, на люстре заебись
> Да понятно что любой лох может оптимайзер сделать, но тут университет токио все дела, оптимизер без нужды тюнить параметры тренировки и с хорошей скоростью и точностью базированный на адаме.
Когда уже там будет оптимайзер, который сам лучшую архитектуру и датасет подберёт, а после чекпоинт натренит по запросу за часок с нуля? Ну что, как он в деле в итоге?
> Давай попробую, че там как его настраивать?
Я в рекомендуемом дефолте его гонял вообще с адамовским лром, с ним особо быстро не покрутишь и хз как будет не на впредонубе, ну смотри сам короче, конфиг такой был https://files.catbox.moe/i2ed6m.toml прикостылил к изи-скриптсам сделав из него питон пэкэдж
Аноним 12/12/24 Чтв 12:17:40 975416 7
>>975335
>Неа, не всегда, некоторые алгоритмы до сих пор не ресайзятся с сд-скриптс, полагаться можно только на лору и локон в этом плане и плане мерджей. Костыли правда я видел, для глоры той же были скрипты где то на форчонге
Ну можно по старинке смерджить лору с моделью а потом экстракцию ликориса в нужный дименшен произвести.
>короче продиджи в стоке шедулфри через жопу работает и если эстимейшен не выключить на определённом шаге будет пиздец с нетворком?
Не совсем так. Если никак не контролировать lr юнета на продигах он просто вечно будет его увеличивать. Не то что бы это было плохо, но в теории он может проскочить свитспот (шедулер фри константные) и тренить не так эффективно при определенных условиях. Это можно доджить через кучу разных параметров впрочем. Параметром продижи степс ты просто указываешь продигам шаг после которого лр обязать стать константой для него.
>Реально не пойму в чём прикол убирать шедулер,
Бесшедулерный оптим очень гибкий и реагирует на loss/градиенты, классика жесто привязана к функции шедулера (косинус хуесинус вот ето все, как барен матанского мира решил так и будет). Бесшедулер быстро реагирует на лосс, каждый шаг, классика реагирует только каждую эпоху. Очевидный плюс в меньшем количестве тюнинга конфига. Не нужен вармап.
>плюс ещё придётся ебаться с параметрами поновой искать
Да там в d0 менять только, в зависимости от того насколько агрессивно и бысттро ты хочешь обучать.
>В генератор на сайте, куда же ещё, тоже ведь от нвидии
Не, дора прям разработка мозгов из нвидии, даже в блоге у себя писали, AYS это так чисто разнообразить количество шедулеров и решить конкретную задачу.
>На сам попробуй
Странные настройки у тебя, я бы половину повыкидывал сразу.
>с энкодером сдохло просто и пережарилось, юнет онли нан.
Датасет дашь какой тренил?
>гойвэя впреда
Ой я вперды не тренил никогда, там какие-то особые условия есть?
>Ну вроде выше расписал понятно что я пытался сделать
Дай датасет крч и ссылку на лору или гены на которые ты ориентируешься по квалити, плюс ссылку на проблемный чекпоинт
>Когда уже там будет оптимайзер, который сам лучшую архитектуру и датасет подберёт, а после чекпоинт натренит по запросу за часок с нуля?
Неиронично билору тренить на одной картинке проще всего по такому запросу лол
>Ну что, как он в деле в итоге?
Адопт чисто не гонял, только в комплекте с шедфри продиги, и он даже работает. Ну консистенцию увеличивает да, сразу с первой эпохи, не говнит.
Аноним 12/12/24 Чтв 14:21:15 975498 8
>>975335
>прикостылил к изи-скриптсам сделав из него питон пэкэдж
А дай гайд кстати
Аноним 13/12/24 Птн 03:27:05 976148 9
Гандон на кое захардкодил применение fused_backward_pass который пиздец как повышает скорость и снижает юз врама на адафактор онли, ну что за пидераст. А между прочим фьзд изкаропки держит продижи шедулед фри. Как же пичот сука.
Аноним 13/12/24 Птн 08:28:06 976309 10
>>975416
>дора прям разработка мозгов из нвидии, даже в блоге у себя писали
Дохуя мозгов видимо потребовалось чтобы магнитуды вынести в отдельный параметр.
Аноним 13/12/24 Птн 12:07:00 976399 11
>>976309
ну ты ж не вынес, значит одного мозга не достаточно
Аноним 14/12/24 Суб 04:59:50 977016 12
>>975416
> Ну можно по старинке смерджить лору с моделью а потом экстракцию ликориса в нужный дименшен произвести.
Не ну ты слышь, читы то не включай
> Не совсем так. Если никак не контролировать lr юнета на продигах он просто вечно будет его увеличивать. Не то что бы это было плохо, но в теории он может проскочить свитспот (шедулер фри константные) и тренить не так эффективно при определенных условиях. Это можно доджить через кучу разных параметров впрочем. Параметром продижи степс ты просто указываешь продигам шаг после которого лр обязать стать константой для него.
Ладно, понял короче
> Бесшедулерный оптим очень гибкий и реагирует на loss/градиенты, классика жесто привязана к функции шедулера (косинус хуесинус вот ето все, как барен матанского мира решил так и будет). Бесшедулер быстро реагирует на лосс, каждый шаг, классика реагирует только каждую эпоху. Очевидный плюс в меньшем количестве тюнинга конфига. Не нужен вармап
К классике вармап и нормальный шедулер с 1.5 не менялся, он тоже везде подходит, но в целом конечно понятно почему у меня хуита была с адамом и флюксом, я там не особо запариваясь просто оптимайзер поменял, но оставил тот же косин и лр даже не поднимал
> Да там в d0 менять только, в зависимости от того насколько агрессивно и бысттро ты хочешь обучать.
Сколько, 1e-4?
> Не, дора прям разработка мозгов из нвидии, даже в блоге у себя писали, AYS это так чисто разнообразить количество шедулеров и решить конкретную задачу.
Тоже через жопу с впредом кстати работает
> Странные настройки у тебя, я бы половину повыкидывал сразу.
Что там странного? Вообще ничего лишнего даже не стоит, чуть ли не сток. А конфиг с фишмонгером не странный а сраный, изискриптс просто калговна и там чтобы кастомный оптимайзер заюзать надо оверрайдом хуярить через экстра арг, в мету всё равно основной оптимайзер запишется, хоть он и не используется по факту
> Датасет дашь какой тренил?
Не сорян, конкретно этот не дам, я уверен там не от него зависит, любой подойдёт
> Ой я вперды не тренил никогда, там какие-то особые условия есть?
Ну теоритически только два флага включить, фактически вот доры в трейнинге и аусы в инференсе отваливаются, бета шедулеру ещё другие альфа и бета нужны, лр поменьше для тренировки лучше юзать, короче нюансов хватает, сигмы там ещё стоит крутить выше, даже кто то я видел скидывал ~35 значений для вставки в кумфи, предположительно используемых в наи
> Дай датасет крч и ссылку на лору или гены на которые ты ориентируешься по квалити, плюс ссылку на проблемный чекпоинт
На короче паком, там только две генерализуются нормально из всех, по гридам увидишь, https://litter.catbox.moe/2t6iys.7z стандартный, чекпоинт https://civitai.com/models/288584?modelVersionId=324524 датасет просто с буру сграбь, будет максимально приближённо к генерализуемым версиям
> Неиронично билору тренить на одной картинке проще всего по такому запросу лол
Вот несколько дней назад делал лору из одной картинки буквально, не стал изобретать велосипед и сделал с адамом и продиджи, справился лучше адам, более менее с такой лорой можно ещё нагенерить датасета, потом уже выёбываться

>>975498
Да вот просто https://packaging.python.org/en/latest/tutorials/packaging-projects/ в доки глянул
Аноним 16/12/24 Пнд 17:28:53 979385 13
workflow.png 2129Кб, 3938x1779
3938x1779
Сначала хотел спросить здесь, но решил сначала сам загуглить. Вопрос был про встроенные в комфи генераторы промтов. Вайлкарты меня заебали, особенно на флюксе который стал их очень хорошо реализует так что начинаю замечать повторы.

Оказалось есть Ollama с локальными текстовыми нейронками к которым можно подключиться через ноду в комфи. Быстро накалхозенный воркфлоу приложен.
Аноним 16/12/24 Пнд 19:24:33 979558 14
Тут тоже спрошу:

Есть ли возможность эту модель
https://huggingface.co/SmilingWolf/wd-eva02-large-tagger-v3
Запихнуть в wd-таггер для WebUI?

Почему-то в списке не появляется. Что-то не то делаю, но что именно - понять не могу. Я сильно тупой для всего этого программирования.

Или может какие-то другие расширения для вебуя появились?
Аноним 17/12/24 Втр 06:39:37 979978 15
Аноним 17/12/24 Втр 08:21:31 980006 16
Аноним 17/12/24 Втр 09:47:32 980034 17
image.png 36Кб, 1194x451
1194x451
image.png 29Кб, 829x356
829x356
На пике три прогона на одном и том же файле конфига, два одинаковых рана, второй ран чучуть отличается. Почему так нахуй? Если сравнивать чекпоинт с красного графика то он отличается по генам с зеленого (и нихуево так отличается, композ и прочее говно в целом то же но отличается как будто другой сид). Все настройки зафиксированы. Отчего данный факап мог случиться?
Аноним 17/12/24 Втр 09:59:00 980041 18
>>980034
Хм. Вероятно это кеш на диск или ошибки округления. +1 к страхам того что нейроговно обосралось с точностью.
Аноним 17/12/24 Втр 15:23:21 980231 19
>>979978
>Братан, все гораздо проще
Да скриптом то я и так могу. Ну, почти - если оно с зависимостями не обосрется по какой-то причине, тогда их чинить придется.

Мне именно для вебуя решение нужно было, чтоб и протэгать, и посмотреть, что таггером навалило, и сразу в другой вкладе начать редачить.

Нашел форк таггера, в котором поддержка всех моделей реализована. Хотя модель качать заново пришлось, старую он не увидел. Ну да пофиг, работает - и хорошо.

>>980006
Сохраню, на всякий случай, спасибо.
Аноним 17/12/24 Втр 15:27:26 980234 20
>>980231


> Нашел форк таггера, в котором поддержка всех моделей реализована. Хотя модель качать заново пришлось, старую он не увидел. Ну да пофиг, работает - и хорошо.
А ссылку?
Аноним 17/12/24 Втр 17:12:34 980347 21
Аноним 17/12/24 Втр 17:38:46 980367 22
Аноним 17/12/24 Втр 18:45:42 980402 23
>>980367
>еверидрим
ого ебать, живые полторашкошизы
почему валидатора нет нигде больше?
Аноним 18/12/24 Срд 10:57:59 981056 24
>>980367
Чет я заебался запускать этот валидейшен лосс, какие-то ошибки ебанутые в коде скрипта. Вроде все правильно делаю, а он не может оптимайзер загрузить из-за какого-то [doc] в скрипте трейна.

Вот есть допустим в целом для питорча https://github.com/davidtvs/pytorch-lr-finder , пытался оптимизнуть код под юнет хотя бы - хуй мне в ебало, максимум че достиг это начало тренинга и мисматч ошибки по тензорам хуензорам.
Аноним 18/12/24 Срд 11:21:33 981076 25
А кто-нибудь из моделеделов пробовал такую штуку проворачивать с руками:
1) собираем какой-нибудь датасет (пиздим с каггла или ещё откуда-то) с изображениями рук
2) изалекаем из него эмбеддинги, уменьшаем размерность эмбеддингов
3) кластеризуем уменьшенные эмбеддинги, присваиваем кластерам какие-нибудь рандомные хеши
4) идём уже датесет для обучения нашей SD модели, берём YOLO для детекции рук и те квадраты, что нам извлек YOLO мы классифицируем по полученным ранее кластерам (изалекаем эмбеддинги, тем же уменьшителем размерности проецируем, считаем косинусные расстояния)
5) и по результатам классификации мы в теги кладём хеш соответствующего кластера

По идее такой трюк должен существенно улучшить качество рук, но наверняка я не первый, кому она приходила в голову...
Аноним 18/12/24 Срд 15:03:51 981267 26
>>981056
>Чет я заебался запускать этот валидейшен лосс,
Так, наконецто запустил. Ну в принципе удобная штука да чтобы находить промежуток идеального лернинга для датасета. Жаль что прогоны только на ублюдских полторахо чекпоинтах.
Аноним 18/12/24 Срд 18:27:56 981556 27
>>981267
Нахуя он тебе всрался то вообще? Вот этот форк типо может https://github.com/67372a/LoRA_Easy_Training_Scripts но там он пиздец поломанный был в стоке когда тестил, и даже через жопу хл тренил, если включить энкодеры, то он тренил только мелкий, баг или что хз, но я ебал, даже оптимайзер в стоке не работал практически ни один нормально. Включи просто продиджи и несколько датасетов натрень, он тебе всё равно покажет лр нормальный средний для того чтобы ставить с адамом
Аноним 19/12/24 Чтв 00:00:04 981976 28
>>981556
>Нахуя он тебе всрался то вообще?
Чтобы ручками не подбирать.
>Вот этот форк типо может https://github.com/67372a/LoRA_Easy_Training_Scripts
Ебать он у меня стоит, а я не заметил.
>Включи просто продиджи и несколько датасетов натрень
А я че по твоему делаю? Учитывая что у продигов достаточно своеобразные настройки то в лернинг я попал примерно на 20 прогон последний раз.
> он тебе всё равно покажет лр нормальный средний
Нет, ты не понял концепции. У продижи/продижишедулерфри есть параметр d0, который по сути управляет силой обучения. Лернингрейт самих весов и енкодера у него фиксед и настраивается отдельно. Сам d0 продижи не побирает.
>для того чтобы ставить с адамом
Я не пользуюсь адамами.

Вообще, строго говоря, та хуйнюшка которая дрочит полтораху достаточно удобная, потому что делает все быстро со вторым батчем в 512, буквально моментально 10 дестовых эпох на 200 пикчевом датасете ебашит. С хл так быстро не будет ни разу.
Аноним 19/12/24 Чтв 05:28:50 982057 29
Лучший помощник для кодеров GitHub Copilot стал БЕСПЛАТНЫМ сегодня.

Пока открываете шампанское, пару слов о лимитах: 2000 дополнений кода и 50 сообщений к умнейшим нейронкам GPT-4o и Claude 3.5. Всё, что нужно — зайти в VSCode через аккаунт в GitHub.


Надеюсь хоть оно справится с моей задачей и портирует скрипт нормально
Аноним 19/12/24 Чтв 07:52:53 982089 30
>>982057
Скормил ему https://github.com/davidtvs/pytorch-lr-finder , на какойто из итераций фиксинга оно даже запустилось, но видимо развернуло мне веса в фп100500 и не влезоо ни в 32 рама ни в видяху при этом и ебнулось с ООМ. Последущие фиксы чтобы было все в фп16 к успеху пока не привели. Чисто на гпт там вообще нихуя не заработало есличе, так что копилот мощнее для кодинга определенно.
Аноним 19/12/24 Чтв 21:03:27 982843 31
>>981976
> Нет, ты не понял концепции. У продижи/продижишедулерфри есть параметр d0, который по сути управляет силой обучения. Лернингрейт самих весов и енкодера у него фиксед и настраивается отдельно. Сам d0 продижи не побирает.
Продиджи оригинальными авторами задумывался, чтобы не ебаться с этими д0 и лр впринципе, он ведь и разгоняется сам по себе, а ты ему придумал новый лр подбирать, обрубив шедулер
> Я не пользуюсь адамами.
А что так? Лр от продиджи как раз ему и подходит, ну процентов 15 накинь максимум и по идее тот же эффект окажется
Аноним 19/12/24 Чтв 21:38:48 982901 32
>>982843
>Продиджи оригинальными авторами задумывался, чтобы не ебаться с этими д0 и лр впринципе, он ведь и разгоняется сам по себе, а ты ему придумал новый лр подбирать, обрубив шедулер
Оптимизация времени обычная. Если ты знаешь оптимум d0 для своего датасета или любой параметр в любом другом бесшедулернике отвечающий за это то ты его указываешь и не ебешь себе мозг пока косинусное говно само себе там чето высчитает на лоу лр за 100500 часов. Это супер критично когда у тебя огромный датасет, а учитывая что дора+локр+скалар это буквально полноценный файнтюн со звездочкой позволяющий хоть 10к картинок датасет обучать, то это неебическое сохранение времени и баланс.
>А что так?
Жрет больше, чем бесшедулерник продижи, а 8бит лютая параша дли совсем нищеты Сложно доджить падение в локальный минимум. Еще и падает не в тот локальный минимум часто. Если датасет вариативный, то как-то хуево с признаками работает сопредельными и убивает вариети. Бесшедулерный адам вообще ебнутый - обучаешь хую, запоминает яички, ну это условно.
Аноним 19/12/24 Чтв 21:43:03 982910 33
>>982843
>Продиджи оригинальными авторами задумывался, чтобы не ебаться с этими д0
Кстати нет.
If the model is not training, try to keep track of d and if it remains too small, it might be worth increasing d0 to 1e-5 or even 1e-4. That being said, the optimizer was mostly insensitive to d0 in our other experiments.
Аноним 19/12/24 Чтв 22:48:32 982954 34
>>982901
> Оптимизация времени обычная
Но ты же 20 ранов сделал ебли, какая тут оптимизация времени то
> Если ты знаешь оптимум d0 для своего датасета или любой параметр в любом другом бесшедулернике отвечающий за это то ты его указываешь и не ебешь себе мозг пока косинусное говно само себе там чето высчитает на лоу лр за 100500 часов
Зачем лоу лр то? Если знаешь тот же лр с обычным адамом, то тоже самое что знать д0 с бесшедулерным. Поставь просто дефолтный 1е-4 на д0 с продиджи безшедулерным, раз уж на то пошло, или ты уже пробовал?
> Это супер критично когда у тебя огромный датасет
Когда у тебя огромный датасет, в эксперименты как то лезть не особо есть желание и хочется юзать то что точно работает нормально, ведь вот подобная
> дора+локр+скалар
Комба литералли обсирается с впредом, начиная с доры, которая нанами начинает сыпать
> 10к картинок
Вообще в лору влезет, от 100к хотя бы был бы смысл в полноценном файнтюне, но учитывая жор хля, либо сосать с мелким батчем на адаме, либо сосать с большим на адафакторе, про продиджи вообще можно забыть
> Жрет больше, чем бесшедулерник продижи
Да ну нахуй, что это за волшебная оптимизация там такая? Может и тюн даже влезет в 24, кто знает
>>982910
Это кстати буквально недавно добавили https://github.com/konstmish/prodigy/commit/9396e9f1ca817b1988466f46ed40e9f993aef241 на самом деле охуеть интерес к оптимайзеру проснулся, даже начали пры пуллить и ридми обновлять, ну окей, но что 1.5, что хл, до недавнего времени действительно был инсенсетив и трогать д0 смысла не было в стоковой версии
Аноним 20/12/24 Птн 00:15:08 983053 35
>>982954
>Но ты же 20 ранов сделал ебли, какая тут оптимизация времени то
Это меньше чем бы я потратил на другом оптимизере. Ты же понимаешь что если трен слишком медленный, или слишком быстрый, то в обоих случаях это на выходе будет замещение весов, ликинг, мутанты, сломанные веса или пережар?
>Зачем лоу лр то?
Потому что базовый лр 1е-4 это лоулр.
>Если знаешь тот же лр с обычным адамом, то тоже самое что знать д0 с бесшедулерным.
Ну так а смысл чето с адамом делать тогда? Тот же самый поиск свитспота, так еще и шедулер трахать.
>Поставь просто дефолтный 1е-4 на д0 с продиджи безшедулерным, раз уж на то пошло, или ты уже пробовал?
Да не работает так как надо. Оно может вообще не тренировать эффективно. С 1e-4 на моем датасете тренинг идет крайне медленно притом что я и лр юнета задираю чтоб побыстрее. Можно делать как ты предлагаешь и терпеть, но это не разумно и не нормально, проще свитспот для d0 найти и потом лр юнета оттюнить туда сюда - это гораздо проще.
>Когда у тебя огромный датасет, в эксперименты как то лезть не особо есть желание и хочется юзать то что точно работает нормально
Дело вкуса. Я предпочитаю точность и меньше тюнинга параметров.
>Комба литералли обсирается с впредом, начиная с доры, которая нанами начинает сыпать
Ты конечно извини, но это 99% вопрос скилишуя, я на твой пост >>977016 как-то подзабил в ответе и до сих пор не тестировал впред. Вот ты там спрашивал 1е-4 или нет, откуда мне знать, у меня вообще на одном датасете свитспот на 5e-4 находится, а ты какие-то мелкие лернинги берешь вообще непонятно для какого датасета и потом говоришь что ниче неработает.

Кароче, давай сразу попути отвечу
>Что там странного?
Давай начнем с того почему у тебя дименшены одинаковые. Ты тренируешь полное замещение? Смысл? У тебя какойто-то анимушный трен кастомный, судя по всему ты какуюто анимепизду тренишь, так смысл в замещении если тебе надо оставить веса кастомной модели? Хочешь получать датасетовые картинки? Датасет ты мне не показал по количеству сколько там, но судя по степам в 2500 и лернингу в 1 там может и 250 и 25 картинок быть. Опять же непонятно почему ты говоришь про обсер впреда в контексте доры локра и скалярного слоя, если у тебя изначально вообще другое.
Дальше почему min_snr_gamma = 99? Это требование вперда или ты просто от балды ебанул? У тебя градиенты супернеустойчивые и вероятно поэтому наны, но я не уверен.
Почему lr те именно 0.25, если у тебя стоит и так низкий лернинг? Тоже от балды поделил на 4 или есть какое-то обоснование данного мува? Ты тренируешь токен или фул описание?
Зачем вармап в режиме ратио на продиги, если у тебя шедулер контролирует невозможность вечного роста лр?
Почему лосстайп l2 если он неусточив к шуму, а ты тренируешь вперд который работает со скоростью шума, повышает нестабильность и слишком сильно ебет за большие ошибки, что все вместе дает анстейбл лосс?
Почему минимальный букет 256? Эта циферка очень ситуативна и понижает качество и генерализацию на сдхл. С 2048 на макс вообще в шок выпал потому что в этом ноль смысла вообще такто. Допустим у тебя в датасете куча картинок выше 2048 и ты хочешь обрабатывать широкий рендж резолюшенов, чтобы что? У тебя базовая анимушная модель на которой ты тренишь может в 2048 искаропки? По моему мнению гораздо эффективнее было бы тогда настроить нойзофсет, мультиреснойздискант и итерации чтобы детализация/шарп остались на месте, снизив букет до дефолтных 768/1024 и увеличив стабильность градиентов наоборот таким образом, поделив альфу на 2 таким образом у тебя сохранилась бы возможность генерировать хайрезы не прибегая к шизобукету в 2048 пукселей.
Почему репитов именно 10? У тебя супермелкий датасет? Тогда зачем 2500 шагов? Это же шиза.
Зачем кешировать латенты на диск если они багуют частенько?
Косинусный шедулер конфликтует с шедулером из оптимайзера теоретически.
Зачем указан конволюшн дименшен одновременно, если у тебя и так указаны 16x16 по дименшену и альфе? Ты уверен что это не бесполезный параметр в данном случае и локон не является алиасом обычной лоры? Ты перепроверил наличие и фунциклирование конв слоев в лоре после тренинга вообще?
Почему пресет фулл вообще? У тебя мелкий датасет же судя по всему, зачем тренить дримбутлайк фул?
>от 100к хотя бы был бы смысл в полноценном файнтюне, но учитывая жор хля, либо сосать с мелким батчем на адаме, либо сосать с большим на адафакторе, про продиджи вообще можно забыть
Но количество каринок в датасете не коррелирует с оптимайзером, у тебя ж все картинки в латент переводятся просто и потом по мере дрочения юзаются. Не понял проблемы кароч и именно такого вывода по оптимайзерам.
> Вообще в лору влезет
В обычнолору нет, там по струнке магнитуд дирекшена вся дата с 10к пикч выстроится и поломается, т.к. лора либо вносит изменения большой величины + большого направления, либо изменения малой величины + малого направления.
>Может и тюн даже влезет в 24
Может и влезет, у меня нет 24 карты.
>трогать д0 смысла не было в стоковой версии
Хз, на дефолте всегда трогал...
Аноним 20/12/24 Птн 00:20:04 983057 36
>>983053
>Дальше почему min_snr_gamma = 99
>там тольк минснр ёбнутая указана по фану проверить
А всё, отразил.
Аноним 20/12/24 Птн 02:17:07 983126 37
>>983053
> Это меньше чем бы я потратил на другом оптимизере. Ты же понимаешь что если трен слишком медленный, или слишком быстрый, то в обоих случаях это на выходе будет замещение весов, ликинг, мутанты, сломанные веса или пережар?
Хз к чему ты это, но замещение весов будет всегда, ведь ты их обновляешь тренируя лору, ну и в инференсе накладывая потом это поверх. Ликинг, мутанты и пережар идут почти всегда в комплекте, а вот непослушность энкодера может сильно выделяться
> Потому что базовый лр 1е-4 это лоулр.
Конкретно для чего? Для того чтобы поней стукнуть и они сместили свой ебучий стиль дефолтный, да, помню что на порядок пришлось поднимать, там уже всё вышеперечисленное комплектом как раз и шло, а ниже нихуя считай и не тренилось
> на одном датасете свитспот на 5e-4 находится
Вот я бы поглядел на этот датасет, результат, и с чего это тренится с таким огромным лр
> а ты какие-то мелкие лернинги берешь вообще непонятно для какого датасета и потом говоришь что ниче неработает
Этот лр подходит для 90% стилей с буру для аниме моделей, ну или хотя бы частично аниме моделей, люстре кстати в стоке продиджи до 4е-4 задирает, с ней можно в стоке и прибавить в пару раз, с нубом эпсилоном ставит те же 1е-4
> Давай начнем с того почему у тебя дименшены одинаковые
Линейный и конволюшен? Хз, ну этого достаточно чтобы одну хуйню по типу стиля или чара вместить, можно даже конволюшен отключить для чара, что ты предлагаешь сменить?
> Ты тренируешь полное замещение? Смысл?
По другому не работает, смотри лоры выше, они от разных тренирователей с форчка, сработало только полное замещение, причём считай со стоковыми параметрами
> У тебя какойто-то анимушный трен кастомный, судя по всему ты какуюто анимепизду тренишь, так смысл в замещении если тебе надо оставить веса кастомной модели?
Нет, там хуйдоджник анимушный, веса базовой модели нереально стереть лорой впринципе, можно лишь сильно задавить
> Датасет ты мне не показал по количеству сколько там, но судя по степам в 2500 и лернингу в 1 там может и 250 и 25 картинок быть
50 картинок показали себя лучше, там максимум около 75 можно найти консистентных и без повторов, литералли просто на буру зайди и вбей tianliang_duohe_fangdongye, скачай всё это говно граббером, вот тебе и фулл датасет, потом только повторы фильтрани
> Опять же непонятно почему ты говоришь про обсер впреда в контексте доры локра и скалярного слоя, если у тебя изначально вообще другое.
Это вообще отдельная тема, с дорой и впредом походу надо на порядок лр уменьшать минимум, мне лень разбираться, но так в наны падает сразу обычно если огромный лр поставить не подходящий абсолютно, 1е-5 и ниже проверять надо
> Дальше почему min_snr_gamma = 99? Это требование вперда или ты просто от балды ебанул?
Нет, с впредом лосс высчитывается по другому, но если включить минснр, то "по старому", вроде ключ скейла лосса делает тоже самое, но я просто сделал это через минснр, буквально выключив эффект от него таким значением
> Почему lr те именно 0.25, если у тебя стоит и так низкий лернинг? Тоже от балды поделил на 4 или есть какое-то обоснование данного мува? Ты тренируешь токен или фул описание?
Фулл выхлоп с вд теггера, в 4 раза меньше поставил чтобы энкодер не поджигать, в 3-4 раза меньше просто из прошлых экспериментов вывел значение. Опять же, а сколько ты предлагаешь туда ставить? Равный юнету результировал в непослушности с лорой, слишком мелкий в неработающем вовсе теге, если стилей несколько в лоре
> Зачем вармап в режиме ратио на продиги, если у тебя шедулер контролирует невозможность вечного роста лр?
Вообще хз зачем я вармап до сих пор ставлю с продиджи, когда у него свой, надо было хоть сейвгвард тогда влепить чтоли или вообще убрать. Ты уверен что он "вечно" растёт? Я гонял продиджи с флюксом на константе, он максимум там один бамп делал х2 иногда и всё, в то время как когда шедулер начинает стремительный спуск посередине, с лром примерно такая же картина случается из скачков
> Почему лосстайп l2 если он неусточив к шуму, а ты тренируешь вперд который работает со скоростью шума, повышает нестабильность и слишком сильно ебет за большие ошибки, что все вместе дает анстейбл лосс?
Там и выбора то не особо много. Huber или smooth l1 лучше типо будет? Ну хз, экспериментировать опять надо, дефолт хоть как то работает вроде нормально
> Почему минимальный букет 256? Эта циферка очень ситуативна и понижает качество и генерализацию на сдхл. С 2048 на макс вообще в шок выпал потому что в этом ноль смысла вообще такто. Допустим у тебя в датасете куча картинок выше 2048 и ты хочешь обрабатывать широкий рендж резолюшенов, чтобы что? У тебя базовая анимушная модель на которой ты тренишь может в 2048 искаропки?
Это не так работает. Цифры такие элементарно чтобы не ограничивать бакеты вообще, если картинка ультравайд, либо наоборот, она попадёт в соответствующий бакет тренировочного разрешения 1536х512 и наоборот, оно не ставит разрешение 2048 во время тренировки, а крутится вокрут 1024х1024 так или иначе, такие картинки кстати энивей большая редкость
> По моему мнению гораздо эффективнее было бы тогда настроить нойзофсет, мультиреснойздискант и итерации чтобы детализация/шарп остались на месте, снизив букет до дефолтных 768/1024 и увеличив стабильность градиентов наоборот таким образом, поделив альфу на 2 таким образом у тебя сохранилась бы возможность генерировать хайрезы не прибегая к шизобукету в 2048 пукселей.
Вообще хрень какая то полная, если честно. Нойз оффсет нельзя трогать даже палкой издалека, мультирез хоть и очень полезен с эпсилоном, в впреде его трогать увы нельзя и придётся отдать всё на откуп зтснр. Ты же просто предлагаешь ужать бакеты, чтобы получить хер пойми что из датасета по итогу, вообще без понятия как он будет ресайзится и скейлится от такого, а зная кохью, ему вообще никакие ресайзы лучше не давать делать
> Почему репитов именно 10? У тебя супермелкий датасет?
Да, этот был из 15 вроде картинок, я делал лору из одной ебучей картинки итеративно
Аноним 20/12/24 Птн 02:17:32 983127 38
>>983053
> Тогда зачем 2500 шагов?
С одной там на 500 уже прогар пошёл лютый, но с 15 уже 2500 зашло, тоже конечно прогар, но всё лишь бы сделать ещё больше для следующей итерации. А 2500 просто многочисленными эмпирическими тестами хл вывел что для стиля хороший свитспот, беря в расчёт остальные параметры того конфига, конкретно с тем датасетом этого много было, но там вери эджи кейс, так сказать, ну и концепты и чары тоже поменьше будут требовать, как и датасеты, в которых меньше 100 картинок например
> Зачем кешировать латенты на диск если они багуют частенько?
Очистить можно, если багнутся просто, почему нет впринципе
> Косинусный шедулер конфликтует с шедулером из оптимайзера теоретически
Там не до нуля косинус, а CAWR до 0.01 обычно, но ты же сам рассказываешь про стратегию "контры постоянно растущего лр", работает и довольно заебато
> Зачем указан конволюшн дименшен одновременно, если у тебя и так указаны 16x16 по дименшену и альфе?
? Чтобы добавить конволюшен слоёв
> Ты уверен что это не бесполезный параметр в данном случае и локон не является алиасом обычной лоры? Ты перепроверил наличие и фунциклирование конв слоев в лоре после тренинга вообще??
То что слои там есть это точно, ведь как минимум лора весит чуть больше, чем обычная лора с линейными слоями, должно работать, насколько эффективно хз как объективно оценить
> Но количество каринок в датасете не коррелирует с оптимайзером, у тебя ж все картинки в латент переводятся просто и потом по мере дрочения юзаются. Не понял проблемы кароч и именно такого вывода по оптимайзерам.
Никакой проблемы. Говорю просто что фулл файнтюн потребует много памяти, не каждый оптимайзер будет реально запустить, тем более с большим батчем
> В обычнолору нет, там по струнке магнитуд дирекшена вся дата с 10к пикч выстроится и поломается, т.к. лора либо вносит изменения большой величины + большого направления, либо изменения малой величины + малого направления.
Хз, я запихиваю тонны нейрокала, тегаю по разному разный нейрокал, что даёт возможность потом это контроллировать, и пока вроде нормально, конечно имеет общий паттерн нейрокаловости, но в этом и есть весь датасет, с фулл тюном не сравнивал конечно, да и туда норм батч хотя бы в 8 с адамом даже не впихнуть скорее всего. С нубом просто больше нехуй тренить считай, всё остальное с буру и так по идее в датасете было
> Может и влезет, у меня нет 24 карты.
Так что там по оптимизациям в итоге?
Аноним 20/12/24 Птн 04:22:33 983159 39
>>983126
>но замещение весов будет всегда, ведь ты их обновляешь тренируя лору
Так альфа контролирует насколько ты дефолтные веса тюнишь. Можно избежать практического замещения оттюнив основные веса и не применяя TE, например. В локре допустим вообще факторизация и не требуется указывать дименшены вообще, кроме фактора их сокращения чтобы сделать локр универсальным или наборот только под конкретную модель, то есть по факту с помощью локра ты тюнишь веса основной модели, а не примешиваешь тренинговые веса классической лоры. И посмотреть веса и слои в локре ты тоже не сможешь, потому что их не существует.
>Ликинг, мутанты и пережар идут почти всегда в комплекте
Это неправильно подобранный лернинг, о чем я и говорю.
>а вот непослушность энкодера может сильно выделяться
К вопросу о те, то он то в целом на концепт и не нужен, клипатеншен слои ты так и так тренишь и его хватает. Я бы даже сказал что тренировать ТЕ+веса на токен сразу это какой-то нубский мув, который по факту задействуется чтобы недотрененные веса через ТЕ добирать при генерации до норм состояния, такой ред флаг на то что лернинги неправильно подобраны.
>Конкретно для чего?
Для любого небольшого датасета.
>Вот я бы поглядел на этот датасет, результат, и с чего это тренится с таким огромным лр
Unet тестовый на одну бабу тренился на маленьком датасете. Принцип же в любом случае что чем ниже даты в датасете тем более агрессивно сетка должна хватать градиенты.
>Этот лр подходит для 90% стилей с буру для аниме моделей, ну или хотя бы частично аниме моделей, люстре кстати в стоке продиджи до 4е-4 задирает, с ней можно в стоке и прибавить в пару раз, с нубом эпсилоном ставит те же 1е-4
Но в реальности то эти лернинги не является golden так скажем. Я ж не говорю что их нельзя использовать и терпеть, я про то что идеальный лернинг который тебе в жопу говна не накинет и не потребует снижать/повышать вес применения готового продукта - это тонкая штука которую надо искать.
>Линейный и конволюшен?
Я имею в виду network_dim = 16 network_alpha = 16.0, конволюшены это другой вопрос.
>По другому не работает
Я бы поспорил и даже бы тестовый прогон сделал, но я сейчас другое треню.
>веса базовой модели нереально стереть лорой впринципе, можно лишь сильно задавить
Бля ну если так рассуждать то любой жоский файнтюн это вообще лора обмазанная поверх базовой модели, которая успешно экстрагируется. Я ж не про то.
>50 картинок показали себя лучше, там максимум около 75 можно найти консистентных и без повторов, литералли просто на буру зайди и вбей tianliang_duohe_fangdongye, скачай всё это говно граббером, вот тебе и фулл датасет, потом только повторы фильтран
Ну у тя ж есть готовый сет, скинь.
>Фулл выхлоп с вд теггера
А смысл если сам чекпоинт анимушный и хуйдожник анимушный? Думаешь сетка не разберется сама?
>в 4 раза меньше поставил чтобы энкодер не поджигать, в 3-4 раза меньше просто из прошлых экспериментов вывел значение
А че ты отдельно юнет и отдельно те не тренируешь несвязанно? Пережар происходит из-за несоответствующего схождения во время одновременной тренировки, а так это можно так костыльно обойти в целом.
>Опять же, а сколько ты предлагаешь туда ставить? Равный юнету результировал в непослушности с лорой, слишком мелкий в неработающем вовсе теге, если стилей несколько в лоре
Я бы вообще не тренировал те на стиль такто, максимум на один новый токен, не пересекающийся с основой.
>Там и выбора то не особо много. Huber или smooth l1 лучше типо будет?
Хубер будет лучше да.
>Это не так работает.
В смысле? Ты делаешь букеты по разным разрешениям с шагом 64 чтобы лишний раз не даунсейлить 2048 до 1024, чтобы изображения разных размеров букетировались друг с другом а не 256 с 2048 и не потерять детали разве нет?
Алсо у тя включено enable_bucket = true что добавляет паддинг с черными пукселями вместо скейла, я бы не скозал что это ок.
>Вообще хрень какая то полная, если честно. Нойз оффсет нельзя трогать даже палкой издалека
Я тебе рабочий вариант расписал. У меня датасет с текущей бабой состоит из мыльного говна с переебанными цветами и тонной шумов с размерами от 512 до 1024, вместе с условными --noise_offset=0.05 --multires_noise_discount=0.2 --multires_noise_iterations=7 ^ выходные гены ни в каком месте не имеют ни шумов, ни мыла ни чего бы то ни было вообще.
>Ты же просто предлагаешь ужать бакеты, чтобы получить хер пойми что из датасета по итогу, вообще без понятия как он будет ресайзится и скейлится от такого
Прекрасно будет скейлиться.

>>983127
>С одной там на 500 уже прогар пошёл лютый, но с 15 уже 2500 зашло
Бля ну как по мне это ну очень дохуя, 15 картинок и 2500 шагов. Я бы не терпел так.
>но ты же сам рассказываешь про стратегию "контры постоянно растущего лр", работает
Ну может быть, я просто предположил что может конфликтовать теоретически.
>Чтобы добавить конволюшен слоёв
Не, я конкретно юзкейс конв в твоем случае. В датасете много текстурок или локальных деталей что сетка не уловит без их помощи на адаме?
>о что слои там есть это точно, ведь как минимум лора весит чуть больше, чем обычная лора с линейными слоями
Они могут быть просто пустыми.
>насколько эффективно хз как объективно оценить
Слайсишь лору на две части - одна лора чисто конв слои, вторая часть это все остальное, тестируешь.
>я запихиваю тонны нейрокала
Вот у меня датасет есть готовый на 7000 пикч с достаточно обширным универсальным концептом, до того как дору выкатили я с обычнолорами так наебался с ним, ничего путного не выходило, урезал вплоть до 1000 - все равно отсос - либо натрениваешь в датасетовские картинки, либо лезет основная модель и насилует бедную лору, хоть медленно трень хоть быстро, то есть было проще дримбудкой целый чекпоинт тренить и потом дифренс вычитать в лору, а сейчас спокойно любой размер датасета всаживается практически в любой алгоритм и лора работает как и должна - быть дополнением для модели и работать аккуратно. Это 1 в 1 как ситуация с первыми нсфв лорами на сдхл типа https://civitai.com/models/144203/nsfw-pov-all-in-one-sdxl-realisticanimewd14-74mb-version-available , где нсфв калтент как бы работает, но эта работа ужасная и ограниченная, насколько я понял там чето около 100к пикч датасета.
>Так что там по оптимизациям в итоге?
В каком смысоле?
Аноним 20/12/24 Птн 04:39:57 983163 40
ComfyUItempkuya[...].png 1892Кб, 1024x1280
1024x1280
>>983159
>Вот я бы поглядел на этот датасет, результат, и с чего это тренится с таким огромным лр
>Unet тестовый на одну бабу тренился на маленьком датасете. Принцип же в любом случае что чем ниже даты в датасете тем более агрессивно сетка должна хватать градиенты.
Кароче вот эта тестовая лора на 5e4, 3 эпоха всего лишь с датасетом около 10 пикч, оригинал бабцы наверно не надо показывать, просто скажу что основные признаки сетка спокойно сожрала и они на вот это пикче все полном объеме и в принципе на 5е4 дальше можно тренить было, но мне 10 пикч тренить нахер не надо было.
Аноним 20/12/24 Птн 03:01:30 983164 41
ComfyUItempkuya[...].png 1902Кб, 1024x1280
1024x1280
ComfyUItempkuya[...].png 1842Кб, 1024x1280
1024x1280
>>983163
Ну и допом еще две пикчи.
Аноним 20/12/24 Птн 06:38:07 983175 42
>>983159
> В локре допустим вообще факторизация и не требуется указывать дименшены вообще, кроме фактора их сокращения чтобы сделать локр универсальным или наборот только под конкретную модель, то есть по факту с помощью локра ты тюнишь веса основной модели, а не примешиваешь тренинговые веса классической лоры. И посмотреть веса и слои в локре ты тоже не сможешь, потому что их не существует.
И что тогда в файле выходном остается? Я пробовал в локр с 1.5 давно, не помню какой фактор ставил, 1000000000000 чтоли, чтобы по размеру был как обычная лора короче в 100мб, там приходилось с лр заёбываться и ставить что то типо в 4 раза больше, чем с обычной, эффекта вау не было, просто другой способ сделать одно и тоже
> К вопросу о те, то он то в целом на концепт и не нужен, клипатеншен слои ты так и так тренишь и его хватает
Концепт как раз тренят обычно включая энкодер, ведь там есть слабые или неизвестные модели токены
> который по факту задействуется чтобы недотрененные веса через ТЕ добирать при генерации до норм состояния
Был даже какой то датасет, который с энкодером лучше намного работал
> Принцип же в любом случае что чем ниже даты в датасете тем более агрессивно сетка должна хватать градиенты.
Ты не перепутал? Чем меньше датасет, тем быстрее сетка оверфитнется и тем меньший лр лучше ставить, даже выше пример, 1пикча на 500 пиздец, 15 на 2500 не полный, но пиздец, 75 уже вроде ничего на 2500, даже можно было сильнее жарить
> Я имею в виду network_dim = 16 network_alpha = 16.0, конволюшены это другой вопрос.
А, ты имеешь ввиду почему у меня дим и альфа одинаковые? Чтобы не скалировать ничего, нахуя мне лишний дампенер, когда ничего не горит, а наоборот бы натренить посильнее
> Я бы поспорил и даже бы тестовый прогон сделал, но я сейчас другое треню.
Вот если бы я увидел ту кошкодевку в стиле фангдонга, натрененную твоим суперспособом, я бы реально поверил, а так до сих пор считаю все эти алгоритмы просто самовнушением и по большей части базовых вещей и стока хватит для 90% случаев Похуй, читай ниже насчёт конфига
> ну если так рассуждать то любой жоский файнтюн это вообще лора обмазанная поверх базовой модели
Не, это щитмикс называется, лол
> Ну у тя ж есть готовый сет, скинь.
У меня он всратый, нейрокал для паддинга до 120 был добавлен, с таким точно результата не выйдет желаемого по генерализации, да и не очень хочется это заливать куда то, по понятным причинам, сграбь просто с гелбуры, зарегайся, спизди апи ключ и введи в imgbrd grabber, настройки чтобы теги вместе спиздить поставь https://files.catbox.moe/e29fq5.png
> А смысл если сам чекпоинт анимушный и хуйдожник анимушный? Думаешь сетка не разберется сама?
Разберётся конечно, просто параметры с энкодера иногда помогают дотренить, но я и сам не особо люблю идею тренить одиночный стиль с энкодером, но так получается иногда лучше
> А че ты отдельно юнет и отдельно те не тренируешь несвязанно?
Потому что это лишний гемор, когда можно просто поменьше лра поставить
> Я бы вообще не тренировал те на стиль такто, максимум на один новый токен, не пересекающийся с основой.
На мультистиль без вариантов, надо тренить уникальные токены вызова
> Хубер будет лучше да
А ты его тестил с впредом? Может он вообще не работает или через жопу
> В смысле? Ты делаешь букеты по разным разрешениям с шагом 64 чтобы лишний раз не даунсейлить 2048 до 1024, чтобы изображения разных размеров букетировались друг с другом а не 256 с 2048 и не потерять детали разве нет?
Ты делаешь букеты, чтобы пикчи сами просто ресайзнулись до разрешений, смежных твоему выбранному разрешению. Это просто границы бакетинга, если базовое разрешение 1024, всё будет просто ресайзнуто в подходящие разрешения. Если ты укажешь 1280 верхнюю границу с 1024 тренировочным, а у тебя ультравайд 3:1 5400х1800 я на самом деле хз что будет, но она скорее всего ресайзнется в ещё более мелкую хуйню, что не есть гуд
> добавляет паддинг с черными пукселями вместо скейла
Всегда юзал букетинг и ни разу не заметил эффекта этого паддинга
> --noise_offset=0.05
А теперь 2-3-4-10 таких натрень и попробуй стакнуть, охуев от того что будет происходить, мультирез кстати даже маловат, 8/0.4 вполне
> ни шумов
Не усваивает ни одна, по крайней мере аниме, сетка film grain, хоть ты выебись, вае уничтожит ещё на этапе сжатия это всё, только в фш накидывать после
> 15 картинок и 2500 шагов. Я бы не терпел так.
Так они быстрые с батчем в 1 за 15 минут и без чекпоинтинга, потому что влезает, терпеть это когда пытаться нормально натренить и вдруг узнать, что с мелким датасетом было лучше и надо крутить что то, потому что мелкие датасеты насыщаются быстрее, это тупо база
> Не, я конкретно юзкейс конв в твоем случае. В датасете много текстурок или локальных деталей что сетка не уловит без их помощи на адаме?
Любому стилю не помешают, в любом сколько нибудь выделяющемся есть какие то особенности лайна как минимум, даже в однотипном анимекале, персу не критично естественно
> Слайсишь лору на две части - одна лора чисто конв слои, вторая часть это все остальное, тестируешь.
Воркфлоу есть для такого или чем делать?
> либо натрениваешь в датасетовские картинки, либо лезет основная модель и насилует бедную лору, хоть медленно трень хоть быстро, то есть было проще дримбудкой целый чекпоинт тренить и потом дифренс вычитать в лору, а сейчас спокойно любой размер датасета всаживается практически в любой алгоритм и лора работает как и должна - быть дополнением для модели и работать аккуратно
Ну окей, если не захочешь в итоге сам фангдонга собирать и тренить, то хотя бы скинь фулл конфиг, расчехлю пони и постараюсь в адекватное сравнение с предыдущими попытками генерализации того хуйдоджника на примере той кошкодевки, используя оригинальные работы без нейрокала
> В каком смысоле?
Что делал чтобы продиджи требовал меньше врам, чем адам?
> Кароче вот эта тестовая лора на 5e4, 3 эпоха всего лишь с датасетом около 10 пикч, оригинал бабцы наверно не надо показывать, просто скажу что основные признаки сетка спокойно сожрала и они на вот это пикче все полном объеме и в принципе на 5е4 дальше можно тренить было, но мне 10 пикч тренить нахер не надо было.
Ну это шагов за 500 небось, если не меньше в 2-3 раза с таким мелким датасетом, опять же, если бы было 100, задача бы усложнилась, в отрыве от других параметров кстати довольно бесполезно знать лр, может у тебя соотношение альфы там 1/128 или дропаут какой огромный, но раз утверждаешь что есть конфиг для генерализации даже огромного количества пикч, то я бы попробовал
Аноним 20/12/24 Птн 14:41:54 983483 43
image.png 10Кб, 1309x148
1309x148
>>981056
>Вот есть допустим в целом для питорча https://github.com/davidtvs/pytorch-lr-finder
Так, вроде заставил эту хуйню работать, с полторахой правда и оно не помещается в гпу, но работает
Аноним 20/12/24 Птн 16:35:52 983557 44
image.png 155Кб, 2323x823
2323x823
image.png 2Кб, 404x47
404x47
>>983483
Заставил работать в фп16, хуй знает как но оно работает. Непонятно правда как правильно настроить лол.
Аноним 20/12/24 Птн 16:37:47 983560 45
image.png 146Кб, 2470x888
2470x888
>>983557
Както оно странно работает, тот же прогон без изменения настроек, лосс улетел в жопу
Suggested learning rate: 1.20e-04
Аноним 20/12/24 Птн 16:40:27 983562 46
image.png 151Кб, 2409x881
2409x881
>>983560
Третий прогон
Suggested learning rate: 5.75e-02
Аноним 20/12/24 Птн 16:50:14 983578 47
image.png 156Кб, 2315x837
2315x837
>>983562
А всё, там рандом сид каждый раз был. Ввел фикс сид все стало повторяемым. Теперь вопрос как этой хуйней пользоваться нахуй. Кто хочет потестить?
Аноним 20/12/24 Птн 17:26:35 983612 48
>>983578
Не ну в принципе оно ебашит нормально. Если датасет увеличивается в 2 раза, то лернинг советуемый падает как и должно быть. На батче 2 нереально за 100 итераций вызвать нестабильность градиента.
Хоть какаято польза от полторашного чекпоинта, лол, считает моментально.
Аноним 20/12/24 Птн 17:29:07 983617 49
image.png 53Кб, 1329x865
1329x865
>>983612
Ради теста бахнул стартовой точкой для датасета в 100 картинок 2e-3, оно мне сразу выдало повышающийся лосс, то есть определенно ниже нужно. Работает блядж!
Аноним 20/12/24 Птн 17:35:30 983624 50
>>983617
Кароче я так понимаю основной принцип что нужно вызвать нестабильность для градиента, и примерно 10 эпох от количества картинок, то есть датасет в 100 картинок требует 1000 шагов постоянного повышения лернинга для чекинга градиентов. Щас проверим.
Аноним 20/12/24 Птн 21:41:29 983917 51
>>983175
>Ну это шагов за 500 небось, если не меньше в 2-3 раза с таким мелким датасетом, опять же, если бы было 100, задача бы усложнилась,
139 шагов
>может у тебя соотношение альфы там 1/128
16/8 вроде, или 8/4
>дропаут
Не пользуюсь, он не нужон на продигах
>И что тогда в файле выходном остается?
локальная адаптация весов с помощью свёрточных операций, они не имеют визуализации в виде отличных друг от друга AB слоёв, буквально адаптация весов и слоев модели, а не добавление натрененных слоев как с классикой
сам состав локра сложный, я так сразу не скажу не подглядывая
>не помню какой фактор ставил, 1000000000000 чтоли, чтобы по размеру был как обычная лора короче в 100мб
Э ну там несколько не так работает, вес зависит от параметра факторизации - чем он ниже, тем больше параметров в итоговой лоре и тем больше ее вес вплоть до фактора 1 размером с полную модель, а если указать -1 то это будет минимальная лора из возможных, точно не скажу но чето около нескольких мегабайт, если не сотен килобайт. В целом там в дименшен нетворка можно хоть триллиард поставить циферку, ее главное назначение чтобы она была больше 10к с копейками чтобы факторизовать веса, если меньше поставишь то там деление не произойдет просто и тренинг не запустится.
>Концепт как раз тренят обычно включая энкодер, ведь там есть слабые или неизвестные модели токены
>Был даже какой то датасет, который с энкодером лучше намного работал
Я треню концепт на 1 токен если нужно с те. А баба сверху например вообще без те, и там клипатеншен захватил последовательность символов в качестве токена из кепшена и его можно юзать. Собсно поэтому я дрочу на правильный тренинг весов, потому что при правильном тренинге те и не нужен.
>Ты не перепутал? Чем меньше датасет, тем быстрее сетка оверфитнется и тем меньший лр лучше ставить
Нет, я все правльно скозал. Чем меньше датасет тем меньше даты для запоминания, тем выше лернинг для градиентов.
> 1пикча на 500 пиздец, 15 на 2500 не полный, но пиздец, 75 уже вроде ничего на 2500, даже можно было сильнее жарить
У нас разные эти как их пайплайны работы, у меня вообще другой опыт с моими вариантами мокрописек.
> Чтобы не скалировать ничего, нахуя мне лишний дампенер, когда ничего не горит, а наоборот бы натренить посильнее
Ну я понял что тебе выдача и знания самой модели не особо важны.
>Не, это щитмикс называется, лол
Ну как ето, можно же спокойно разницу в лору из любого файнтюна вытащить.
>У меня он всратый
Чел мне так лень заново делать когда у тебя уже есть. Мне без разницы всратый или нет, я и так со всратками работаю постоянно.
>Потому что это лишний гемор
Всего то в два раза больше времени, зато потом все работает как часеки.
>На мультистиль без вариантов, надо тренить уникальные токены вызова
Опять же спокойно можно на стиль тренировать без те, это не какаято особая магия.
>А ты его тестил с впредом? Может он вообще не работает или через жопу
Не тестил, но хуюер сам по себе мягкий и совмещает л1 и л2 в зависимости от типа ошибки.
>Ты делаешь букеты, чтобы пикчи сами просто ресайзнулись до разрешений, смежных твоему выбранному разрешению. Это просто границы бакетинга, если базовое разрешение 1024, всё будет просто ресайзнуто в подходящие разрешения. Если ты укажешь 1280 верхнюю границу с 1024 тренировочным, а у тебя ультравайд 3:1 5400х1800 я на самом деле хз что будет, но она скорее всего ресайзнется в ещё более мелкую хуйню, что не есть гуд
Ну вопервых я бы скозал что гигабукеты для сдхл уменьшают скорость сходимости, вовторых я бы не скозал что мелкая хуйня это какая-то проблема вообще для нейросеток ибо латент хуе мое, многомерное пространство признаков, что скукожилось выкукожится. Мне понравилось тренить каскад одно время когда он чучуть хайповал, там можно на ультракале из шакалов обучать достойно было.
>Всегда юзал букетинг и ни разу не заметил эффекта этого паддинга
Медленные лернинги вероятно. Если аналогично с альфой грузить пикчи которые обрабатываются как черный цвет то на высоких лернингах оно схватит и будет срать ими. Хотя опять же может это конкретный кейс альфаканалов, но я на всякий случай не букеирую со скейлом.
>А теперь 2-3-4-10 таких натрень и попробуй стакнуть
Не стакаю лоры, они же замещают друг друга, если только это не архитектрный дистиллят и лора контента.
>Не усваивает ни одна
Глора спокойно любое говно схватит и умножит.
>Так они быстрые
Какая карта?
>Воркфлоу есть для такого или чем делать?
Слои можно списком посмотреть через анализатор в кое или аналогичный скрипт, далее можно скриптом слайсить вот этим например https://github.com/ThereforeGames/blora_for_kohya ток расписать трейты под себя.
>Что делал чтобы продиджи требовал меньше врам, чем адам?
Я ниче не делал, просто наебенил себе шедулерфри.
Аноним 21/12/24 Суб 00:10:47 984158 52
>>977016
>Вот несколько дней назад делал лору из одной картинки буквально
Как думаешь, есть смысл докидывать в датасет похожих картинок чтобы только греть оптимайзер на них? По сути просто побочные картинки в датасете, для которых будет нулевой или околонулевой лр.
Аноним 21/12/24 Суб 05:23:43 984407 53
>>983624
Ого, я оказывается неправильно понял документацию. Надо не на уебавшийся лосс смотреть, а генерировать нисходящий лосс в начале и брать примерно середину. Интересно, то же самое дает валидейшен в евердриме, ток дольше по времени. Завтра кароч перну в гитхаб этой хуйней может кому итт пригодится.

Алсо может вы придумаете че еще можно прикрутить. Я вместо МСЕлосса хубер прихуячил например.
Аноним 21/12/24 Суб 11:38:24 984538 54
Аноним 22/12/24 Вск 06:55:31 985686 55
image.png 3Кб, 1116x31
1116x31
Запустил тренинг бофт. Лучше бы блять не запускал.
Аноним 22/12/24 Вск 12:02:34 985826 56
image.png 5Кб, 1312x36
1312x36
Аноним 22/12/24 Вск 13:18:59 985853 57
тренишь бофт
@
понимаешь что в комфе нет поддержки

да блять
Аноним 22/12/24 Вск 14:35:24 985913 58
194.jpg 834Кб, 1728x2592
1728x2592
00095-74558.png 992Кб, 1024x1024
1024x1024
00103-74560544.png 1011Кб, 1024x1024
1024x1024
image.png 491Кб, 529x478
529x478
>>985853
блять ну зато в вебуе обосраном работает конечно ебать свинья лежит там где не ждешь

ну результ бофты кароч шикарный, даже на первой эпохе ебет, взял датасет для теста из 600 пикч Cindy Shine с легалов, не тегировал

из минусов: как и случае с локром какой-то параметр или его отустствие (допустим конволюшн блоков нет ни там ни там и их в целом нельзя вкл сделать) не позволяет генерить без мутантов в нестандартных размерах, хотя основная модель позволяет, вероятно возможно надо было тренить ток атеншн, а не прям веса тюнить под 768 разрешение
ну и считает вечность конечно

3 эпоха, 453 шага с батчем 4

1 пикча с датасета, остальные лоурес гены, 4 кроп литса с нсфв контентной пикчи с расширенной песдой
еще хуйцы с порнухи все схватило нормально так и всякие позычи и нюансики детальки
Аноним 22/12/24 Вск 14:45:03 985922 59
00002-1.png 1496Кб, 1024x1400
1024x1400
00107-74560544.png 1557Кб, 1024x1400
1024x1400
00108-74560544.png 1307Кб, 1024x1400
1024x1400
00109-74560544.png 1542Кб, 1024x1400
1024x1400
>>985913
> не позволяет генерить без мутантов в нестандартных размерах
То есть вот проблематика какая, первый три пикчи с разными настройками, с и без консистенси алайнерами, четвертая дефолт ген модели
Всё в 1024x1400
Если кто знает в чем прекол может быть подскажите
Аноним 22/12/24 Вск 15:26:44 985965 60
image.png 2393Кб, 1024x1400
1024x1400
image.png 2607Кб, 1024x1400
1024x1400
image.png 2556Кб, 1024x1400
1024x1400
image.png 2634Кб, 1024x1400
1024x1400
>>985922
Не ну теоретически может быть банальный оверфит, потому что все более менее работает на весе бофта в 0.5, но тогда похожесть литса модели теряется (хотя я на нее и не тренил но все равно хочеца применять лорку на весе 1 в любом случае)
Аноним 22/12/24 Вск 15:29:41 985968 61
00116-74560545.png 1596Кб, 1024x1400
1024x1400
00115-74560545.png 1580Кб, 1024x1400
1024x1400
00114-74560545.png 1549Кб, 1024x1400
1024x1400
>>985965
Щас бы еще понять в каком месте оверфтинулось и из-за какой настройки
Пикчи по эпохам 1 2 3, вес 0.5
Аноним 22/12/24 Вск 16:00:06 985980 62
>>985922
>Если кто знает в чем прекол может быть подскажите
>1024x1400
Занижай разрешение, очевидно же.
ИИ имеет свойство заполнять персом все пространство, если ты ему жестко не говоришь делать обратное (т.е. в промпте много пишешь про окружение, плюс разные "ландщафтные" тэги типа изображения используешь).
Плюс потеря когерентности, ибо разрешение таки уже предельное.
И тут ты еще своей лорой говоришь рисовать исключительно тянку.
Вот у модели крыша от совокупности проблем и едет.

На более низких разрешениях, типа 1280х768 должно получше быть, даже учитывая какие-то проблемы с лорой.
Аноним 22/12/24 Вск 16:12:47 985998 63
image.png 2457Кб, 1024x1400
1024x1400
>>985980
Нет, ты не понял.
Модель на которой я треню натренена так что внедатасетовые размеры спокойно жрет, что я показываю пикчей 4 тут >>985922
Помимо этого дистиллят дмд2 в качестве алайнера сам по себе задизайнен на хайрезы.
Как только я применяю натрененный бофт с весом 1 начинаются мутанты на разрешении выше 1024-1280. Но если снижать влияние лоры до 0.5 то все устаканивается.
Для сравнения та же проблема с фуловым весом локра на пикче, в целом все консистентное но есть небольшая вытяжка тела, но по итогу он более лутше отрабатывает фул вес лоры. Если снижать вес, то там вообще чикипуки все.
То есть налицо проблема в тренинге, вопрос в чем именно.
Различие между конфигами локра и бофты буквально незначительно уровня отсутствия скалярного слоя у бофт и лернингов, единственное что есть у обоих - декомпрессия весов с помощью доры. Вероятность что это дора подсирает?
Аноним 22/12/24 Вск 16:20:13 986012 64
>>985998
Так я про совокупность говорю.
На 4-м пике из поста тоже проблемы есть, просто из-за позы и заполнения кадра не такие заметные.
А ты своей лорой буквально приказываешь модели рисовать стоящую тянку на фоне стены и дивана. Да еще и на высоких разрешениях. Вот ее и вытягивает.
Когда занижаешь влияние лоры - модель рисует тянку с более корректной анатомией, так как старается отработать больше из своего датасета, а не из того, что ты натренировал. Отсюда и частичное исправление.

Другими словами, я бы не в архитектуру или настройки тренировки копал, а в то, что именно ты тренировал.
Ну или просто занизил разрешение, и посмотрел, как оно будет работать.
Если такие мутанты даже на минимальном 1024х768 будут - явно косяк в тренировочных параметрах. Если нет - значит, ты просто изнасиловал модель своим стремным сетом, и на тренировку плеваться не надо.
Аноним 22/12/24 Вск 16:22:11 986018 65
image.png 3173Кб, 1024x1400
1024x1400
image.png 2902Кб, 1024x1400
1024x1400
image.png 2723Кб, 1024x1400
1024x1400
image.png 2778Кб, 1024x1400
1024x1400
>>985980
Касательно твоих тезисов
>ИИ имеет свойство заполнять персом все пространство, если ты ему жестко не говоришь делать обратное (т.е. в промпте много пишешь про окружение, плюс разные "ландщафтные" тэги типа изображения используешь).
Я не расписываю ничего, буквально несколько токенов вызовов уровня гирл стендинг, можно вообще без вызовов генерить.

>Плюс потеря когерентности, ибо разрешение таки уже предельное.
Зависит от базовой модели и мокрописек. Если шринк включать там все выравнивается и работает, но шринк это костыль.

>И тут ты еще своей лорой говоришь рисовать исключительно тянку.
Так датасет из тянки в модели которая полностью из тянок, даже с пустым промтом будет тянка. Ладно, давай попробуем без упоминания тянок.
skyscraper photo with car 1024x1400
Локр фул вес, локр 0.5 вес, бофт фул вес, бофт 0.5 вес

>На более низких разрешениях, типа 1280х768 должно получше быть
Так я и говорю что базовые разрешения норм.
Аноним 22/12/24 Вск 16:32:03 986038 66
image.png 3603Кб, 1024x1600
1024x1600
image.png 3973Кб, 1024x1600
1024x1600
>>986012
>На 4-м пике из поста тоже проблемы есть
Нет, там нет никаких проблем. Вот тебе еще дефолт гены в еще более высоком разрешении.
>стоящую тянку на фоне стены и дивана. Да еще и на высоких разрешениях. Вот ее и вытягивает.
Можно то же самое сделать на дефолт модели и без каких-либо мутантов. В этом проблема.
>Ну или просто занизил разрешение, и посмотрел, как оно будет работать.
Ало, очевидно же что дефолт работает как надо.
>Другими словами, я бы не в архитектуру или настройки тренировки копал, а в то, что именно ты тренировал.
>Если нет - значит, ты просто изнасиловал модель своим стремным сетом, и на тренировку плеваться не надо.
Данных проблем не было на локоне и глоре.
Аноним 22/12/24 Вск 16:55:35 986053 67
>>986018
Кароче, гпт мне сказало

Проблемы с артефактами и дублированием объектов чаще связаны с:

Некорректным масштабированием параметров LoRA.
Недостаточной адаптацией LoRA к высоким разрешениям.


Попробую кароч бакеты для начала повысить у локра.
Аноним 23/12/24 Пнд 06:18:31 986766 68
>>986053
Если мое предположение верно то тренировка глоры и локона насколько я помню была с включенными аугментациями типа --random_crop, флипы и даже колор, если щас окажется что так и есть и рандом кроп решит проблему ебаных мутантов на локре и бофт то буду очень рад
Аноним 23/12/24 Пнд 06:31:47 986767 69
>>986766
Да, проверил лоры с любыми кроп аугами (даже чисто на литсо) все они генерят не в размер спокойно без мутантов. Даже локр я оказывается уже тренил в таком ключе а потом чето все ауги убрал. Ебаный насос.
Аноним 23/12/24 Пнд 11:06:23 986871 70
>>983917
> 139 шагов
Как оно вообще в теории то должно успечь нормально пропечься, учитывая равномерное распределение таймстепов в стоке?
> чем он ниже, тем больше параметров в итоговой лоре и тем больше ее вес вплоть до фактора 1 размером с полную модель
Да, вспомнил, фактор 4 и дим дохуя ставил, чтобы получить эквивалент обычной лоры, короче не впечатлило, больше ебли, результат тот же
> Я треню концепт на 1 токен если нужно с те
А, лол, ты вообще без тегов чтоли хуяришь, ну это был полный забей на пони, когда я тестил, даже юнет онли лучше в тегами выглядел
> потому что при правильном тренинге те и не нужен
На что то одно да, а дальше нужно уже и те и разделение тегами
> У нас разные эти как их пайплайны работы, у меня вообще другой опыт с моими вариантами мокрописек.
Видимо, у меня обычно просто лора лопается, если пикч мало и неадекватный лр выставлен, поэтому абсолютно противоположный экспириенс, может дедомодели от анимушных отличаются конечно
> Ну я понял что тебе выдача и знания самой модели не особо важны.
Неиронично, я ещё не встречал ни одну хл модель, которая бы после накладывания лоры поверх не выпрямлялась бы, буквально все работают просто лучше с лорой и это какая то общая проблема шероховатости файнтюна, да и затереть там "скином" на стиль нереально, опять же повторю, особенно если специально не устраивать прогар
> Чел мне так лень заново делать когда у тебя уже есть. Мне без разницы всратый или нет, я и так со всратками работаю постоянно.
Да не в этом дело, даже очищенную версию просто заливать куда то не особо хочется, поглядел бы что там, понял бы что имею ввиду, а на буре уже валяется и стянуть любой может напиши чтоли хоть фейкомыло какое, туда хоть скину лучше
> Опять же спокойно можно на стиль тренировать без те, это не какаято особая магия.
Разделять потом как разные стили?
> Не тестил, но хуюер сам по себе мягкий и совмещает л1 и л2 в зависимости от типа ошибки.
Это смуз л1 вроде так делает, а не сам хубер, да и с впредом там в целом уже как то по другому всё с лоссом изначально
> Ну вопервых я бы скозал что гигабукеты для сдхл уменьшают скорость сходимости
Любое увеличение разрешения её снизит
> Мне понравилось тренить каскад одно время когда он чучуть хайповал, там можно на ультракале из шакалов обучать достойно было
Жаль тюнов кстати так и не появилось нормальных, в целом база не самая плохая была бы, модальная, нашли бы как тренить и врамлетам, и если надо, гигачедам с H100
> Медленные лернинги вероятно. Если аналогично с альфой грузить пикчи которые обрабатываются как черный цвет то на высоких лернингах оно схватит и будет срать ими. Хотя опять же может это конкретный кейс альфаканалов, но я на всякий случай не букеирую со скейлом.
> Не стакаю лоры, они же замещают друг друга, если только это не архитектрный дистиллят и лора контента.
Короче я в целом понял, ты на огромном лр одну вжариваешь без тегов и всё? Как она там себя показывает с другими и тд уже второстепенно, поэтому может и были проблемы с дмд от такого
> Глора спокойно любое говно схватит и умножит.
В том архиве есть глора от не самого глупого тренировщика с форчка, не схватила и не умножила, выглядит как дора обычная. Есть ещё идеи про волшебный конфиг который поможет это сделать без тупо оверврайта весов напролом? Конфиг так и не скинул кстати, в котором уверен, что сработает
> Какая карта?
4090, батч 1 лора быстрее всего делается, потому что нету штрафа от чекпоинтинга и влезает в память
> Слои можно списком посмотреть через анализатор в кое или аналогичный скрипт, далее можно скриптом слайсить вот этим например
По конкретней, какой скрипт у кохьи ты называешь анализатором и что приблизительно вписываешь в конфиг слайсера?

>>984158
Если они прямо совсем одинаковые, то лучше на них тоже учить, потом проще будет датасет для некст итерации пополнять, если не совсем, то хз даже, наверное нет

>>984407
> Алсо может вы придумаете че еще можно прикрутить
Хл так и не поддерживается?

>>986018
>>985922
Из опыта на анимекале так всрато вытягиваются если тренишь в разрешении ниже 1024, им впринципе никогда жертвовать нельзя с хл, хз что конкретно ты там напердолил
Аноним 23/12/24 Пнд 11:25:13 986882 71
>>986871
>Из опыта на анимекале так всрато вытягиваются если тренишь в разрешении ниже 1024, им впринципе никогда жертвовать нельзя с хл, хз что конкретно ты там напердолил
Это точно не разрешение, потому что вообще не вылезаю за 768 пукселей и >>986766 >>986767
Аноним 23/12/24 Пнд 11:31:03 986886 72
>>986871
>Хл так и не поддерживается?
Можешь переделать спокойно под хд, там плюс минус тот же код за исключением зависимостей для полторахи, но мне в этом нужды ноль, потому что вопервых полтораха меньше весит, вовторых у нее базовое разрешение ниже для работы (хотя это и не важно вообще, тут слоп на графике же ток найти надо а не консистентное изображение), втретьих она быстрее считается, вчетвертых такто можно хоть 128x128 по разрешению выставить, впятых все перечисленное позволяет на 3060 гонять 50+ батчей за итерацию
Аноним 23/12/24 Пнд 12:01:13 986911 73
>>986882
> вообще не вылезаю за 768 пукселей
Тогда и в генерациях не вылезай за них, оно же тюнится под это разрешение
>>986886
И на хл оно тот же самый лр найдёт думаешь? Только не говори, что ты полтораху на серьёзе тренишь
Аноним 23/12/24 Пнд 12:28:40 986949 74
Этот тред нагоняет на меня тоску. Да и вся доска. Что то получается, радостный заходишь, смотришь на то ,что местные делают, и сразу какой то разочарование от собственного позора.
А ещё флюкс медленно работает, и по ощущениям, он на озу генерит, иначе минутные генерации мне вообще непонятны. Хотя это может быть из за того ,что это квантованная версия
Аноним 23/12/24 Пнд 12:29:31 986951 75
image.png 1326Кб, 709x948
709x948
Бабки
Аноним 23/12/24 Пнд 12:51:05 986972 76
>>986911
>Тогда и в генерациях не вылезай за них, оно же тюнится под это разрешение
Но это не так работает in vivo епт. Это если ты просто тюнишь веса под картиночки с нулем аргументов на каком-нибудь одном разрешении и упором в альфу на оптиме который падает в локальный минимум и там умирает. Можно вообще тюнить attn-mlp или attn и сохранять юзкейс модели изначальный. Или конкертные слои, как в случае билоры. У меня же юзкейс вообще другой, я где-то на какойто итерации тестинга проебал аугментационные аргументы, тупа random_crop не выставил, вероятно потому что решил перенсти латенты в кеш, а латенты с вкл кропом не работают, а он если че:

Когда включено (true):

Обрезает изображение случайным образом при его масштабировании. Полезно для нестандартных разрешений.

Изображение случайно обрезается до меньшего размера, а затем подгоняется под размер разрешения (resolution=768x768).
Это изменяет расположение объектов и может переместить объект от центра к краям изображения.
Используется для снижения переобучения на "центральных" объектах.
Включить (true) — когда нужно увеличить разнообразие расположения объектов. Например, чтобы лица или объекты могли находиться не только в центре, но и в углах. Для контекстуальных изображений.
Выключить (false) — если важно сохранить центрированное расположение объектов (например, при обучении модели для портретов или аватаров, где лицо всегда должно быть в центре).

Алсо тот же эффект без вытянутых пропорций и мутантов на хайрезах наблюдается если использовать автообрезку по ебалу, если трен на лицо.

>И на хл оно тот же самый лр найдёт думаешь?
А архитектура не важна, сам принцип алгоритма это постоянно увеличивающаяся кривая лернинга, который каждую итерацию считает лосс. Кривую обучения можно поделить на разогрев, слоп обучения, плато накопления признаков и взрыв градиентов/переобучения, задача алгоритма визуально показать в каком промежутке находится комфортный слоп обучения. Обучать в целом можно и на лернингах плато, но наиболее эффективно судя по паперам это именно промежуток слопа.

>Только не говори, что ты полтораху на серьёзе тренишь
Нет, я не шиз.

Кстати там ссану выпустили в весах умеющих в 2к + тренинг лор с гайдом https://github.com/NVlabs/Sana/blob/main/asset/docs/sana_lora_dreambooth.md https://github.com/NVlabs/Sana вот ее бы я потренил, в комфю и прочие уи еще не завезли поддержку кстати
Аноним 23/12/24 Пнд 13:59:40 987012 77
>>986871
>Как оно вообще в теории то должно успечь нормально пропечься, учитывая равномерное распределение таймстепов в стоке?
Жоско наказываешь за ошибки, задираешь лернинг юнета. Для еще более быстрой сходимости на тест можно использовать (IA)^3, который чуть ли не в 5 раз меньше требований к шагам имеет чем любой другой оптим. Алсо еще имеет значение сам оптим, адам на котором ты сидишь требует условно 1к шагов на эпоху, продиги требуют в половину меньше шагов для успешного обучения, есть еще более пизданутые по скорости схождения, но там в основном проблема с признаками и ошибка в определении локальных минимумов.
>больше ебли
Так наоборот меньше, дименшены и их отношение выставлять не надо, количество параметров управляется значением фактора.
>ты вообще без тегов чтоли хуяришь
Именно. У меня не миллионный датасет, я не треню ТЕ, устойчивые мультиконцепты это рандом в несовершенных архитектурах и поиск грааля и проще разные лоры тренить.
>ну это был полный забей на пони, когда я тестил, даже юнет онли лучше в тегами выглядел
Я паприколу киданул сложный калцепт нюши из смешариков (шарообразное нечто с глазами, сетка вообще не отдупляет че это) в пони и оно норм в целом по первым эпохам было.Так что не думаю что пони как-то разительно отличается от безтокенного обучения на базовых сдохлях. Я бы даже сказал что пони проще, т.к. сломаный текстовый енкодер позволяют втюнивать exaggerated дату, ну типа в обычносдхл сложно втюнить концепт гипербубсов размером с солнечную систему, на пони это как два пальца обоссать будет.
>а дальше нужно уже и те и разделение тегами
Я руководствуюсь тем что модель которая берется в качестве базы уже в курсе обо всех концептах датасета и модель сама все прекрасно понимает по входящим данным. То есть естетсвенно в какой-нибудь файнтюн на архитектуру смысла пихать порно нет, а в модель про порно нет смысла пихать архитектуру. VIT обрабатывает картиночку, TE уже и так полон концептов связанных с весами которые тюнятся, зачем чтото еще, если оно и так работает?
>у меня обычно просто лора лопается, если пикч мало и неадекватный лр выставлен, поэтому абсолютно противоположный экспириенс, может дедомодели от анимушных отличаются конечно
Мне кажется ты просто не юзаешь мокрые письки чтобы контролить генерализацию и конвергенцию получающейся модели на ранних этапах и ждешь у моря погоды дотренивая лору до состояния уголька, я в прошлом треде писал уже что модель уже буквально с первой эпохи обучена, но недостаток инфы не дает ей инферировать корректно, ты можешь ее пиздануть ломом и заставить выдавать корректное даже в полном недостатке признаков чтобы понять а туда ли ты обучаешь вообще. Да, это не даст тебе выложить лорочку на потеху другим пчеликам и без гайда на конкретное использование они пососут при использовании, но тебе нужен фактический тест, а не готовый продукт.
>Неиронично, я ещё не встречал ни одну хл модель, которая
Я про сохранение концептов базовой модели. Какой мне условный смысл тренить ебало еот чтобы модель делала мне ебало еот вместо контента который может модель? Никакого.
>напиши чтоли хоть фейкомыло какое, туда хоть скину лучше
khaus.mister@inbox.ru
>Разделять потом как разные стили?
Не юзать мультиконцепты стилей в одной лоре? Нейросети локальные пиздец тупые, мультиконцепты делают ток хуже, ликинги вот эти все.
>ты на огромном лр одну вжариваешь без тегов и всё?
Преимущественно да.
>Как она там себя показывает с другими и тд уже второстепенно
Ну тут смотря что с чем. Можно шизануться и одну лору на один слой аутпута натренить, а другую на соседний и бед не знать. Или тренить ток атеншены в одной лоре, а в другой ток прожекшены. Вариантов масса, но в целом да я больше 1 концептной лоры при генерации не юзаю. Ну или придумай мне юзкейс когда нужно юзать джве концептные лоры.
>поэтому может и были проблемы с дмд от такого
Не, там дмд агрился на TE, уже порешали вопросики.
>В том архиве есть глора от не самого глупого тренировщика с форчка, не схватила и не умножила, выглядит как дора обычная.
Я не смотрел состав, может там на атеншены тренились ток. В глоре целый парк адаптационных слоев, если ее фулово тренить она так все схватит что потом заебешься вилкой чистить.
>выглядит как дора обычная
Но дора это разложение весов, а не алгоритм адаптации.
>Есть ещё идеи про волшебный конфиг который поможет это сделать без тупо оверврайта весов напролом?
Атеншоны тренить?
>Конфиг так и не скинул кстати, в котором уверен, что сработает
Я ниче не скинул потому что у меня у самого нет идеального конфига, постоянно меняю всё.
>По конкретней, какой скрипт у кохьи ты называешь анализатором
Ну в kohyass есть отдельная вкладка верификации лоры, туда грузишь лору и он тебе послойно показывает состав. Отдельно должен быть скрипт.
>что приблизительно вписываешь в конфиг слайсера?
Ну если задача разделить конволюшены и все остальное, то для первого трейта будет

"1":
{
"whitelist": ["маска_конволюшенов_"],
"blacklist": []
}

а для второго

"2":
{
"whitelist": [],
"blacklist": ["маска_конволюшенов_"]
}

Во втором случае может потребоваться прописать в вайтлисте конкретно все маски нужных слоев за исключением конв, если тебе например фастфорвард слои не нужны.
Аноним 23/12/24 Пнд 14:00:56 987013 78
image.png 1395Кб, 647x855
647x855
Новичок, пробую подобное впервые. Поставил флюкс+ аматеур лора. Какой параметр я перекрутил, из за чего изображение такое?
Аноним 23/12/24 Пнд 14:14:17 987026 79
>>987013
выглядит просто как выкрученный на максимум вес, снизь весь лоры
Аноним 23/12/24 Пнд 14:25:35 987029 80
>>986949
>иначе минутные генерации мне вообще непонятны. Хотя это может быть из за того ,что это квантованная версия
Минута на флюхкале это еще быстро, риктифайд флоу лижет и сосет по оптимизации. У меня на 3060 в ггуфах полторы минуты ген, в то время как ммдит и ммдитх сд 3.5 50 и 20 сек соотвтественно.
Аноним 23/12/24 Пнд 14:37:09 987033 81
image.png 1473Кб, 672x891
672x891
>>987026
Снизил до 0.6
Не то.
Аноним 23/12/24 Пнд 14:38:30 987035 82
>>987029
> У меня на 3060 в ггуфах полторы минуты ген,
Какой квант? Воркфлоу можешь скинуть, я на своей 4070 проверю?
Аноним 23/12/24 Пнд 15:08:24 987061 83
>>987035
>Какой квант?
q4

>>987033
ну хз, шифт покрути, другой семплер поставь
Аноним 23/12/24 Пнд 16:31:24 987149 84
image.png 2Кб, 148x59
148x59
Флюкс ЖЁСТКО унижает мою видеокарту. Так она только в киберпанке грелась.
Аноним 23/12/24 Пнд 16:36:45 987153 85
>>987149
У меня во время техпроцесса легко в 80 градусов уходит.

Притом, генерация видео или моделей так карту не греет.
Аноним 23/12/24 Пнд 16:36:47 987154 86
>>987149

Это же хорошо. Вот у меня не греется тк флукс просто не влазит в гпу.
Аноним 23/12/24 Пнд 16:42:53 987159 87
image.png 11Кб, 422x284
422x284
>>987149
>>987153
чет у вас вендоры кал, у меня даже при обучении нет такой печки
Аноним 23/12/24 Пнд 16:46:11 987164 88
>>987159
Видяха ещё и в разгоне
Аноним 23/12/24 Пнд 18:25:51 987198 89
ComfyUItempkqyp[...].png 1753Кб, 1024x1400
1024x1400
ComfyUItempkqyp[...].png 1711Кб, 1024x1400
1024x1400
>>986767
>>986882
Все, это рандом кроп выключенный был виноват. Мотайте на усики что рандомкроп повышает обобщающую способность и позволяет сохранить возможность генерации хайрезов даже на меньшем размере тренировки, пикрел натренен на 768.
Аноним 24/12/24 Втр 08:07:17 987785 90
Потренил кароче бигасп2, ну и как будто он даже лучше для не курируемого датасета, очень хорошая стабильность и консистенция.
Лернинг по д0 стоял на 1е-4 для продижов и сета в 602 картинки, 10 эпох, на первой эпохе уже полный стиль спиздило, к пятой эпохе локальный минимал лосс и дальше уже как будто и смысла тренить нет, разве что увеличивается фиксация на конкретных превалирующих элементах датасета.

У него правда есть небольшая проблема в том что чекпоинт малость перетренирован и поэтому жарит сам по себе, особенно с убыстрялками, а реки автора вообще 2-3 по цфг. В целом это обходится мокрописьками типа шринка, но я не о том. Натренилтя значит локр, и он поправил на какой-то процент пережарку модели. Если еще на порядок опустить д0 вероятно будет еще мягче.
Аноним 24/12/24 Втр 08:20:39 987788 91
>>987785
Щас пробую на бигаспе потренить диагональный OFT, бофт мне зашел но скорость тренинга его меня просто разыбала - аналог 3000 шагов 6 часов ебал. А диагоналка ниче так, бодро. Не понял за что отвечает парам констрейнт, но выставил 16 как дименшен нетворк. Альфу тоже нипонятно то ли в 1 надо то ли выше, оставил как с бофт 1 пока что. Еще у диагоналки есть параметр рескейлед, но тож хуй знает че делает.
Аноним 24/12/24 Втр 08:38:45 987797 92
Алсо понишизы, какой там файнтюн будет лучше для реалистикотренинга?
Аноним 24/12/24 Втр 11:35:22 987885 93
image.png 28Кб, 439x349
439x349
image.png 6Кб, 1315x33
1315x33
>>987788
Синенький лосс диагофта, оранжевенький локр прошлый
Считается конечно быстрее чем бофт, но все равно ебнешься как долго
Аноним 24/12/24 Втр 11:52:48 987902 94
image.png 595Кб, 1958x802
1958x802
image.png 510Кб, 1996x798
1996x798
>>987885
Ну че я могу сказать, дигофт который кофт изза аргумента уже на первой эпохе ебет и спизидл весь стиль с фоток и фигуру и немного ебало модели.
После, до. Почему до жарит? Потому что бигасп жарит, ебаное говно в виде вебуя бесоебит и вообще алайнер срет тоже.
Аноним 24/12/24 Втр 11:54:18 987904 95
image.png 9Кб, 609x292
609x292
>>987902
Какое же вебуй говно еб твою мать.
Аноним 24/12/24 Втр 11:57:50 987909 96
image.png 1394Кб, 768x1024
768x1024
image.png 1305Кб, 768x1024
768x1024
image.png 1268Кб, 768x1024
768x1024
image.png 1242Кб, 768x1024
768x1024
>>987902
эпохи 2 3 4 5

Хуй пойми нахуя тренить выше первой эпохи получается, мб на хайрезе там ебало консистентнее будет я хз
Аноним 24/12/24 Втр 12:00:57 987910 97
image.png 1167Кб, 768x1024
768x1024
image.png 1183Кб, 768x1024
768x1024
image.png 1208Кб, 768x1024
768x1024
Аноним 24/12/24 Втр 12:07:06 987914 98
image.png 2477Кб, 1024x1024
1024x1024
image.png 2543Кб, 1024x1024
1024x1024
image.png 2727Кб, 1024x1024
1024x1024
>>987910
тест клозапа
8 эпоха, 1 эпоха, без диагофта
Ну я хуй знает кароч, да похожесть с эпохами бустится но как для стиля достаточно одной эпохи совершенно точно
Аноним 24/12/24 Втр 12:12:47 987917 99
image.png 2136Кб, 1024x1024
1024x1024
>>987914
Судя по графику тензорборды локальный минимум лосса был на 800 шаге, ближайшая эпоха это 755 т.е. 5, ну да в принципе похоже на модельку (напомню что на ебало я не тренировал, просто определяю где там лучшая точка схождения)
Аноним 24/12/24 Втр 12:21:11 987919 100
>>987917
Кароче бофт и дофт/кофт/хуефт ван лав, надо долбить комфидева чтобы добавил поддержку, вебуем пользоваться невозможно нахуй
Аноним 24/12/24 Втр 12:25:30 987922 101
>>987919
Хотя можно теоретически сконвертить офт в ликорис, надо попробовать
Аноним 24/12/24 Втр 12:27:54 987924 102
242.jpg 759Кб, 1728x2592
1728x2592
>>987917
>в принципе похоже
Занизил ожидания называется, схожесть почти эталонная. Но 5 эпоха.
Аноним 27/12/24 Птн 02:10:18 990489 103
image.png 119Кб, 1385x900
1385x900
image.png 17Кб, 1059x122
1059x122
>>974163 (OP)
Где есть информация о том в каком режиме надо мерджить эпохи? И как вообще может получится оверфит при обычном сложении весов? Я думал вся информация не уместившаяся в количество параметров сетки просто улетает.
Аноним 27/12/24 Птн 05:53:08 990556 104
>>990489

>Где есть информация о том в каком режиме надо мерджить эпохи?
Из всего списка хороший вариант разве что только трейндифренс, ну это лично по моему многолетнему опыту, но это больше для сложения чекпоинтов фуловых.

>И как вообще может получится оверфит при обычном сложении весов?
Хз, ни разу оверфита не получал. Но есть момент, что ты, если имеешь доступ к слоям, можешь удалить ненужные которые могут сильнее других влияет на ген, ну условно ff_net слои в инпут/аутпут блоках могут ужаривать лору итоговую если смешать допустим дистиллят дмд с обычнолорой.

>Я думал вся информация не уместившаяся в количество параметров сетки просто улетает.
Если вейтед сум или вычитание - улетает.

Алсо обычное сложение/вычитание сосет потому что не учитывает матанские связи внутри слоев. Наверно самый адекватный метод мерджа весов лор это сингулярное разложение. Но оно долго считается достаточно. Гугли Singular Value Decomposition (SVD).
Аноним 27/12/24 Птн 18:57:30 991043 105
>>987924
Проиграл с брухли.
Аноним 27/12/24 Птн 19:26:56 991071 106
>>987012
> Жоско наказываешь за ошибки, задираешь лернинг юнета
Получаешь нуба впред 1.0 весь в артефактах, лол, они на скоростях лор хуярили ведь 1е-4 и с батчем претрейна 1024
> Для еще более быстрой сходимости на тест можно использовать (IA)^3, который чуть ли не в 5 раз меньше требований к шагам имеет чем любой другой оптим
Но это не оптим, да и он тотал юзлесс гарбейдж вообще из тестов, даже на собственной модели с которой тренилось
> Алсо еще имеет значение сам оптим, адам на котором ты сидишь требует условно 1к шагов на эпоху, продиги требуют в половину меньше шагов для успешного обучения, есть еще более пизданутые по скорости схождения, но там в основном проблема с признаками и ошибка в определении локальных минимумов.
Да что ты на эти лоссы дрочишь так, они нихуя глобально с меньше чем 100к степов не покажут, в прошлом вроде треде показательный скрин был насколько похуй на него
> Так наоборот меньше, дименшены и их отношение выставлять не надо, количество параметров управляется значением фактора.
Там лр дефолтный не работал
> Именно. У меня не миллионный датасет, я не треню ТЕ, устойчивые мультиконцепты это рандом в несовершенных архитектурах и поиск грааля и проще разные лоры тренить.
С таким подходом и базовые модели бы не появились, лора для всего, ембрейс 1.5
> Я паприколу киданул сложный калцепт нюши из смешариков (шарообразное нечто с глазами, сетка вообще не отдупляет че это) в пони и оно норм в целом по первым эпохам было.Так что не думаю что пони как-то разительно отличается от безтокенного обучения на базовых сдохлях. Я бы даже сказал что пони проще, т.к. сломаный текстовый енкодер позволяют втюнивать exaggerated дату, ну типа в обычносдхл сложно втюнить концепт гипербубсов размером с солнечную систему, на пони это как два пальца обоссать будет.
Пони это как раз для фриков чекпоинт, он любит такое, я уже вроде говорил, что эстетичными стилями там вообще не пахнет
> Я руководствуюсь тем что модель которая берется в качестве базы уже в курсе обо всех концептах датасета и модель сама все прекрасно понимает по входящим данным. То есть естетсвенно в какой-нибудь файнтюн на архитектуру смысла пихать порно нет, а в модель про порно нет смысла пихать архитектуру. VIT обрабатывает картиночку, TE уже и так полон концептов связанных с весами которые тюнятся, зачем чтото еще, если оно и так работает?
Ни в одной аниме модели нету толком нейрокаловых стилей выпуканных грифтерами за год существовнаия наи, которые выглядят иногда довольно пиздато и уж точно отличаются от дефолтного хл лука очень сильно, чтобы их не делать по одной лоре энкодер придётся включить, чтобы хоть как то разделять. Пони тоже, если уж и обучать, то придётся с энкодером, потому что оттуда выпилены базовые маняме калцепты и добавлена куча gpo
> Мне кажется ты просто не юзаешь мокрые письки чтобы контролить генерализацию и конвергенцию получающейся модели на ранних этапах
Что например, альфу чтоли? Или вот эти махинации с тренируемыми частями? Я в целом не ебу какие части должны за что отвечать, если распишешь вкрацте конечно только
> пиздануть ломом и заставить выдавать корректное даже в полном недостатке признаков чтобы понять а туда ли ты обучаешь вообще
С 1 эпохи то это да, оно действительно видно должно быть, если датасет консистентный, по крайней мере на крупных лорах, но пиздить ломом врятли покажет что то полезное, помимо рандомных мутантов обычно, сложно переносимость стиля так оценивать
> Я про сохранение концептов базовой модели. Какой мне условный смысл тренить ебало еот чтобы модель делала мне ебало еот вместо контента который может модель?
А я опять напишу, их нереально оверрайднуть, это реально надо постараться и вжарить энкодер на 1е-2 в энкодер онли тренировке или типо того и не улететь при этом в нан, тогда действительно начнёт не слушаться, с примерно правильной лорой просто должно ебало поменяться, даже поза не смениться или стиль, ну если проводить аналогию на чара для манямекала
> Не юзать мультиконцепты стилей в одной лоре? Нейросети локальные пиздец тупые, мультиконцепты делают ток хуже, ликинги вот эти все.
Но хочется в одной всё иметь, потом через компел комбинить, в рефордже до сих пор нету, только кумфи нормально может управлять снижением весами
> придумай мне юзкейс когда нужно юзать джве концептные лоры
Концептные ноль кейсов, чар+стиль самый распространённый случай например, вот ещё какие то дмд появились теперь
> Я не смотрел состав, может там на атеншены тренились ток. В глоре целый парк адаптационных слоев, если ее фулово тренить она так все схватит что потом заебешься вилкой чистить.
Не, там не запариваясь с частями тренилось просто на алгоритмах
> Но дора это разложение весов, а не алгоритм адаптации.
Ладно, локон с дорой поверх
> Атеншоны тренить?
С дефолтным фулл пресетом типо не тренятся или смысл именно их онли?
> Я ниче не скинул потому что у меня у самого нет идеального конфига, постоянно меняю всё.
Короче датасет я тебе прислал, если в гриде из того зипа получится уравнять твою попытку с antifreeze-2 или autismbase_v8 то это считай успех
> ["маска_конволюшенов_"]
Где весь список то этого посмотреть? Вроде у кохака в ликорисе был, но в доках нихуя не могу найти

>>987198
Ну здорово конечно, но выглядит как костыль и теги подосрут, которые есть, а трит обрезался
>>986972
> Но это не так работает
Да нет, именно так, если не пердолиться со слоями и кропами
>>986972
> А архитектура не важна, сам принцип алгоритма это постоянно увеличивающаяся кривая лернинга, который каждую итерацию считает лосс. Кривую обучения можно поделить на разогрев, слоп обучения, плато накопления признаков и взрыв градиентов/переобучения, задача алгоритма визуально показать в каком промежутке находится комфортный слоп обучения. Обучать в целом можно и на лернингах плато, но наиболее эффективно судя по паперам это именно промежуток слопа
Как не важна, если даже с впредом будет другой лр, с хл тем более. Почему вообще с разными сидами разные лр выдаёт?
> Кстати там ссану выпустили в весах умеющих в 2к + тренинг лор с гайдом https://github.com/NVlabs/Sana/blob/main/asset/docs/sana_lora_dreambooth.md https://github.com/NVlabs/Sana вот ее бы я потренил, в комфю и прочие уи еще не завезли поддержку кстати
Хуита из тех примеров что я видел, 4к мыльных и уёбищный вае, даже тут вон https://raw.githubusercontent.com/NVlabs/Sana/refs/heads/main/asset/Sana.jpg оно может и быстрее дохуя, но толку как то маловато от этого
Аноним 27/12/24 Птн 20:19:34 991118 107
>>987029
> риктифайд флоу
Падажжи, они разве не обе уже ректифаед флоу модели? Ммдит это же просто архитектура, а флоу что то типо вперд таргета, не?
Аноним 27/12/24 Птн 22:44:47 991270 108
image.png 374Кб, 3272x1372
3272x1372
>>991071
>Получаешь нуба впред 1.0 весь в артефактах, лол, они на скоростях лор хуярили ведь 1е-4 и с батчем претрейна 1024
Ты не учитываешь что 1е-4 это для десятимилионного датасета который они собрали. Твой ретрен весов на большем лр ничего глобально не изменит.
>Но это не оптим
Опечатка
>да и он тотал юзлесс гарбейдж вообще из тестов
Что с тобой не так то, у тебя все гарбаж и юзлес получается
>Да что ты на эти лоссы дрочишь так, они нихуя глобально с меньше чем 100к степов не покажут
Потому что мне надо максимум за минимум времени
>в прошлом вроде треде показательный скрин был насколько похуй на него
Че за скрин
>Там лр дефолтный не работал
В смысле не работал
>С таким подходом и базовые модели бы не появились, лора для всего, ембрейс 1.5
Не очень объективно сравнивать триллиардные датасеты для базовых архитектурных моделей с нашими микродатасетами на концепт.
> я уже вроде говорил, что эстетичными стилями там вообще не пахнет
А причем тут это если я про безтокенный тюн весов.
>чтобы их не делать по одной лоре энкодер придётся включить, чтобы хоть как то разделять.
Кароче проблемы мультиконцептов
>Пони тоже, если уж и обучать, то придётся с энкодером, потому что оттуда выпилены базовые маняме калцепты и добавлена куча gpo
Там не выпилены, там енкодер поломался от задранного лр, сам астралите говорил, такто маняме можно на пони делать.
>Что например, альфу чтоли? Или вот эти махинации с тренируемыми частями?
Да много разного есть, можно постфактум лору оттюнить софтово, можно изначально тестовые прогоны на конкретные слои тюнить и смотреть результат.
>Я в целом не ебу какие части должны за что отвечать, если распишешь вкрацте конечно только
В одном из след постов покажу пару простых кейсов как чекать хорошо ты лору натрениваешь или нет.
>но пиздить ломом врятли покажет что то полезное, помимо рандомных мутантов обычно, сложно переносимость стиля так оценивать
У меня практически все лоры являются фактическим недотреном в дефолтном использовании на некурируемом датасете, что не мешает их перетрахивать постфактум и получать консистентный стиль который был в датасете.
>их нереально оверрайднуть, это реально надо постараться и вжарить энкодер на 1е-2 в энкодер онли тренировке или типо того и не улететь при этом в нан, тогда действительно начнёт не слушаться, с примерно правильной лорой просто должно ебало поменяться, даже поза не смениться или стиль
Спокойно можно оверрайднуть через дору и будет выдавать чисто датасетовые пикчи с полным игнором промта, достаточно на шедулед фри выставит 10 по лр юнету и 1 по текстенкодеру.
>Но хочется в одной всё иметь, потом через компел комбинить,
Ну я губу закатал например и ничего, нормально. Опять же для трушного эффекта разделения концептов есть безумное умение в виде трена одного калцепта на один слой выходной, а второго на другой, потом их соединяешь и получаешь мутанта который в целом задачу то выполняет но много лишних телодвижений, в том числе трен отдельного текстенкодера.
>в рефордже до сих пор нету, только кумфи нормально может управлять снижением весами
Как это нету? Там же есть мокрописька который позволяет те и юнет отдельно крутить разве нет?
>чар+стиль самый распространённый случай например
То есть условно ты берешь смешарика и хочешь его в стиле евангелиона генерить? Так можно сингулярным разложением две отдельные лоры соединить и будет тебе тот же эффект но без дрочки концептов в одной лоре.
>вот ещё какие то дмд появились теперь
Дмд дистиллят векторов базовой модели по таймстепам LCM, там совершенно плевать с какими лорами и моделями пользоваться им. Функция у него другая.
>С дефолтным фулл пресетом типо не тренятся или смысл именно их онли?
С фулом у тебя фул слои вообще все и тренятся, а если ты тренишь ток атеншен слои то остальное не участвует.
>Где весь список то этого посмотреть?
Гуй кохи запускаешь, в утилитис (вроде) лора верифай вкладка, если лора содержит читаемые слои то все модули тебе покажет. Если непонял где это, то щас попробую запустить кою, но я питон откатывал мб и не запустится щас.
>но выглядит как костыль и теги подосрут
Не, я ж треню на вписывание в модель, а не на перезапись, там хоть как крути будет теперь выдавать с оглядкой на все возможности оригинальной модели.
>Да нет, именно так, если не пердолиться со слоями и кропами
Если не пердолиться, то нахуй оно и нинужно.
>Как не важна, если даже с впредом будет другой лр, с хл тем более.
Потому что матан, представь что у тебя датасет из Nк картинок, это переводится в условное пространство вероятностей, где для этого пространства вероятностей существует эффективный лернинг рейт в промежутке от и до.
>Почему вообще с разными сидами разные лр выдаёт?
Имеешь в виду где тебе в командной строке пишется? Так оно не работает как надо, мне лень допиливать чтобы оно брало среднее значение слопа если и так по фигуре можно потыкаться.
>Хуита из тех примеров что я видел, 4к мыльных и уёбищный вае, даже тут вон https://raw.githubusercontent.com/NVlabs/Sana/refs/heads/main/asset/Sana.jpg
Пиздец ты токсик. Давай еще наедь на дефолт говногены сдхл с мутантами.
>оно может и быстрее дохуя, но толку как то маловато от этого
На ноль поделил, скорость это важнейшее такто в генерации, остальное можно допилить.
>>991118
> они разве не обе уже ректифаед флоу модели? Ммдит это же просто архитектура, а флоу что то типо вперд таргета, не?
Не, 3.5 не флоу, 3.5 мультимодал трансформерсы. Алсо изза того что 3.5 не флоукал оно может работать без т5 как сдохля, а флюх не может так.
Аноним 27/12/24 Птн 22:52:43 991288 109
>>991270
>Если непонял где это, то щас попробую запустить кою, но я питон откатывал мб и не запустится щас.
Да, хуй мне надо питон пердолить. Кароче в kohya_ss\kohya_gui лежит скрипт verify_lora_gui.py , вот он занимается показом модулей в лоре.
Аноним 27/12/24 Птн 23:42:22 991335 110
Аноним 28/12/24 Суб 02:39:28 991437 111
Аноним 28/12/24 Суб 03:33:39 991462 112
>>986972
> random_crop
Это что там у тебя за кейс для такой штуки? Для ухватывания совсем абстрактного стиля или шлифовки на грани анкондишнал, в остальных же случаях возникнут проблемы с соответствием промта и содержимого кропа.
> Полезно для нестандартных разрешений.
Ерунда вообще
XL вообще может пережить некоторую тренировку с разрешении пониже, но всеравно это будет сказываться потом.
> Кривую обучения можно поделить на разогрев, слоп обучения, плато накопления признаков и взрыв градиентов/переобучения
В общем случае - да, но в зависимости от того что уже знает модель и насколько отличается датасет от условного среднего по тем же кондишнам - эти автоалгоритмы могут вообще порваться.
> наиболее эффективно судя по паперам это именно промежуток слопа
Там действительно происходит наибольшее изменения и "усвоение", но сопровождается это множеством побочек, которые потом необходимо сглаживать, и есть еще нюансы.
>>987012
> Именно.
> я не треню ТЕ
Если такое с мелким датасетом и на что-то конкретное, а не особый твикер или стилизатор - пиздец. Капшны нужны не для того чтобы те тренить, если что.
> про сохранение концептов базовой модели
Вот как раз анкондишнал все распидарасит нахер и отклик на них поломается, исключения есть но это крайне специфичное.

Слишком долгая и душная у вас беседа, может все это оправдано и просто вырываю из контекста, тогда сорян. Но со стороны выглядит той еще дичью.

>>987198
Оно выглядит как потеря когеретности, на пикчах беда с пропорциями и фейлы даже в простых линиях.
>>990489
Если есть возможность - лучше сразу тренить нормально. Для мерджей лучше взвешанная сумма и cosineA, если пытаешься получить среднее между двумя. Можешь попробовать упороться и замержить льва с жопой носорога, а потом это закинуть на тренировку с пониженным лр и фиксированным оптимайзером, часто подобное срабатывает.
> как вообще может получится оверфит при обычном сложении весов?
Посмотри как устроены блоки в диффузии и вспомни что оно в фп16. С неудачными комбинациями значений на краях диапазона получишь поломку, да и чисто по результатам косинус лучше срабатывает.
>>990556
> хороший вариант разве что только трейндифренс
Это если хочешь добавить фичи одного (слабо) тренированного чекпоинта (зная его базу, которую будешь вычитать) к другому на примерно той же основе. В рамках мерджа разных эпох модели неприменимо.
> Наверно самый адекватный метод мерджа весов лор
Вмердживать в основные веса, проводить с ними манипуляции, а потом делать извлечение и соснуть из-за несовершенства алгоритмов, лучше вообще никогда лоры не мерджить.
> Singular Value Decomposition
Вот это интересно
>>991071
> 1е-4 и с батчем претрейна 1024
На самом деле для такого батча это не то чтобы плохо. Но в целом, это слишком много для тренировки чекпоинта, который уже знает то что они обучают, такой батч тоже больше оптимального для dit ибо после претрейна там лучший результат достигается при меньших батчах но с правильной группировкой пикч для них.
У них там в целом хватало проебов.
>>991270
> для десятимилионного датасета
Оно коррелирует с размером датасета чуть меньше чем никак.
> Потому что мне надо максимум за минимум времени
Зачем? Натренить лору в любом случае быстро и легко. Если хочешь в нормальное обучение - там быстро не получится, что полные веса, что всякие хитровыебанные твикеры и подобное.
> безтокенный тюн весов
Покажи пример результатов этого чуда и опиши что именно там тренишь.
Аноним 28/12/24 Суб 04:39:46 991470 113
>>991462
>Это что там у тебя за кейс для такой штуки?
Чтобы не привязывалось к 768.
>в остальных же случаях возникнут проблемы с соответствием промта и содержимого кропа.
Спорно, но не, вообще мимо. Ни разу не было на тестовых прогонах с кропом даже на первой эпохе, а вот без кропа лезет какая-то хуйня. Полные лоры с кропом работают как должны.
>Ерунда вообще
>XL вообще может пережить некоторую тренировку с разрешении пониже, но всеравно это будет сказываться потом.
Так кто ж спорит, ток это разрешение пониже поднасрет на разрешении повыше.
>Оно выглядит как потеря когеретности, на пикчах беда с пропорциями и фейлы даже в простых линиях.
Ой не выдумывай, особенно с потери когерентности кекнул. Оно выглядит как обычное селфи с дисторсией объектива, ты че натвис не гонял? Погоняй, там полдатасета это селфи с онлика где бабцы фотались голыми под экстремальными углами. А баба сама по себе длинная и худая по датасету. Я понимаю что надо приебаться и как-то оправдать "кропы нинужно", но лучше просто прими как факт что это норма и не ищи сусликов там где их нет. Могу еще погенить без токена селфи всякое, хз как еще показать в интернете что ктото не прав.
>но в зависимости от того что уже знает модель и насколько отличается датасет от условного среднего по тем же кондишнам
Так для этого и берем датасет без тегирования и базовую модель, которая по дефолту знает много общего. Но кондишены и не важны на самом деле, мы переводим картиночки в абстрактный манямирок признаков и наша задача выбрать лр который будет эффективно эти признаки хватать. Если ты о кондишенах заботишься, то тебе валидейшен лосс нужен, где промежуточные тренировки будут сравниваться сходимостью с частью датасета и выводить курву.
>Если такое с мелким датасетом и на что-то конкретное, а не особый твикер или стилизатор - пиздец.
Все нормально, те нинужны. Прими как факт.
>Вот как раз анкондишнал все распидарасит нахер и отклик на них поломается
Нет.
>Слишком долгая и душная у вас беседа, может все это оправдано и просто вырываю из контекста, тогда сорян. Но со стороны выглядит той еще дичью.
Ну и зачем ты тогда влетел в нашу беседу?
>Это если хочешь добавить фичи одного (слабо) тренированного чекпоинта (зная его базу, которую будешь вычитать) к другому на примерно той же основе. В рамках мерджа разных эпох модели неприменимо.
Трейндифренс сам по себе добавляет мягенько, что возможно потребует еще пару итераций трейндифренса, это тебе не ебка вейтедсумовая, которой похуй уполовинила и готово.
>Вмердживать в основные веса, проводить с ними манипуляции, а потом делать извлечение и соснуть из-за несовершенства алгоритмов, лучше вообще никогда лоры не мерджить.
Я вот не понимаю твоей радикальности, влетел и разбрасываешь "этанинужно" "этогавнокал" "ниработаит", как будто существует эталон какой-то. Уже и лоры нельзя мерджить тыскозал лол, хотя есть магнитуд пруне, который стабилизирует смешивание лор, особенно при разложении. Вот смысл твоего поста в принципе? Ты думаешь кто-то как-то поменяет свои действия от советов, о которых не просили или что? Зачилься кароч, ничто не истина - все дозволено.
>Вот это интересно
Учитывая что ты раздаешь советики и ультимативен в своих тезисах, но не в курсе про ротейшен/свд, всё ясно.
>Оно коррелирует с размером датасета чуть меньше чем никак.
Ну вот опять. Ок, чатжпт, есть ли корреляция: Да, размер датасета коррелирует с выбором learning rate (LR), но связь не является строго линейной.
>Зачем?
Юзкейс такой.
>Если хочешь в нормальное обучение - там быстро не получится, что полные веса, что всякие хитровыебанные твикеры и подобное.
Держи в курсе.
>Покажи пример результатов этого чуда и опиши что именно там тренишь.
Еот тренил без токенов чтобы делать нюдесы с гейпопиздой, показывать не буду тк по гену найдешь ее вк.

Если че за пассивную агрессивность извиняй, я хз как отвечать по другому на такого плана посты.
Аноним 28/12/24 Суб 05:40:30 991488 114
>>991470
tldr: Никому не рекомендую серьезно воспринимать высказывания этого вонаби умника.

> Ну и зачем ты тогда влетел в нашу беседу?
Думал что в треде не все потеряно и остались адекваты, а не одни поехи. Или даже надежда была что есть кто-то продвинутый да толковый кого не знаю и так.
> Я вот не понимаю твоей радикальности, влетел и разбрасываешь
Уберечь от ошибок и очередной пробежки по граблям, в первую очередь тех, кто зашел сюда за знаниями или с вопросами.

Хотел было подробно ответить, а там по каждому пункту бредни. Ну буквально везде не прав или глупейшие ошибки, оправдываемые неуместным бросанием терминов. Ухватил какие-то верха не понимая устройства и применимости своих суждений.
> я хз как отвечать по другому на такого плана посты
В дурку тебе пора, а не на посты отвечать. Натренил лоботомирующую лору на еот, посмотрел курсы для чайников и так преисполнился самоуверенностью. Хотя ультимативный дилетант, что делает ложные выводы на неверном обобщении своего скудного опыта.
Аноним 28/12/24 Суб 05:44:42 991491 115
>>991462
>Капшны нужны не для того чтобы те тренить, если что.
Вот интересная мысль, если посмотреть на новую txt2vid от гугла, то там явно ллмка промт разворачивает. Учитывая что она так хороша, там наверное жирнющий подробный капшн, на котором и учили саму модель.
Когда у диффузии есть больше инфы и меньше неопределенности, у нее остается больше ресурсов на то чтобы сконцентрироваться на более высоких абстракциях, получить лучшее качество, так как лосс не ебет по хуйне, которую модель физически не способна предсказать без gan-головы.

>>991488
>Хотел было подробно ответить, а там по каждому пункту бредни.
Мне расскажи, а то моей компетенции пока не хватает чтобы понять кто из вас неправ...
Аноним 28/12/24 Суб 07:08:08 991512 116
>>991488
>подорвался что его на хуй послали в вежливой форме с его манямнением основанным буквально ни на чем и ряяя нинужно
@
>сгорел и перешел на прямые оскорбления

Ты давай иди гугли че такое свд лучше, петух ебаный, а то так и будешь "делойти как я скозал а иначе врети неработает уииихрююю" в тред постить и жопу зашивать потом при первом же сопротивлении твоему ультимативному пиздежу.
Аноним 28/12/24 Суб 07:24:41 991516 117
>>991491

> а то моей компетенции пока не хватает чтобы понять кто из вас неправ...
Да, оч сложно понять конечно... Когда тебя начинают учить как делать что-то с явным посылом на владение Истиной при многообразии вариантов, то это редфлаг ебаной чсвшной преисполнившейся помойки. Не работает когда очевидно известен лучший вариант, а эта хуйлуша не только не знает лучшего варианта (в противном случае лучший вариант был бы предоставлен, а не соплями по монитору бы свою попуки про нинужность чего-либо размазывал), а еще и отрицает всё, с чем не сталкивалась.
Аноним 28/12/24 Суб 08:07:24 991525 118
>>991516
Ну не знаю, не знаю... а скажи-ка мне свое мнение по поводу существования локальных минимумов? Или вы оба долбаеба начнете доказывать что они существуют?
Аноним 28/12/24 Суб 08:10:12 991526 119
>>991525
Ты тоже далбаеб получается.
Аноним 28/12/24 Суб 08:15:27 991528 120
>>991526
Нет, к сожалению, тебе придется принести пруфы их существования. Но что-то мне подсказывает, что ты дашь заднюю сразу как только увидишь что каждый шаг оптимизатора почти ортогонален предыдущему, что как бы немного исключает движение в строну минимума. Геометрически.
Аноним 28/12/24 Суб 08:21:55 991529 121
>>991528
> Нет, к сожалению, тебе придется принести пруфы их существования.
Концепция локальных минимумов в нобелевке у создателей концепции нейросеток это база, чел...
Аноним 28/12/24 Суб 08:31:03 991536 122
>>991529
Опровергаемая парой простых экспериментов, чел...
Аноним 28/12/24 Суб 08:36:19 991538 123
>>991071
>Короче датасет я тебе прислал, если в гриде из того зипа получится уравнять твою попытку с antifreeze-2 или autismbase_v8 то это считай успех
А промт какой епт? Скортеги юзать не юзать? Какие настройки гена у картиночек были в примере?
еще ублюдский мердж в виде аутизма качать ну пиздец
Аноним 28/12/24 Суб 08:37:16 991539 124
>>991536
Пиши в спортлото нобелевский комитет, похоже они ошиблись и нобелевку надо было дать тебе.
Аноним 28/12/24 Суб 08:45:06 991542 125
>>991539
Да можешь и ты написать. Я тебе даже прямо показал на что можно посмотреть и куда копать. Мне не жалко.
А в науке и после нобелевок как бы дохуя нюансов и корректировок находили.
Аноним 28/12/24 Суб 08:50:32 991546 126
image.png 2210Кб, 2025x730
2025x730
image.png 1102Кб, 791x1090
791x1090
>>991071
>Короче датасет я тебе прислал
>все версии из архива скорее всего с таким датасетом и тренились,
>скорее всего
>датасет полностью другой стиль если сравнивать с то к чему стремишься
бля это прикол чтоли? то есть ты вообще не в курсе какой на самом деле датасет был? я конечно уже получил на первых эпохах копию именно датасетовской рисовки, но это же вообще разные вещи стилистически
Аноним 28/12/24 Суб 12:15:30 991633 127
аинанасы подскажите, для дримбута флюкса только базовая дев модель подходит или можно на кастомных тренить?
Аноним 28/12/24 Суб 12:39:19 991635 128
>>991633
А че есть какието нормальные тюны чтоли?
Аноним 28/12/24 Суб 12:44:38 991638 129
>>991635
хз
интересуюсь, чтобы зря время не тратить на хуйню
Аноним 28/12/24 Суб 17:06:37 991768 130
064291434545943.png 1451Кб, 1302x1122
1302x1122
ComfyUItemplpeu[...].png 1422Кб, 720x1280
720x1280
ComfyUItemplpeu[...].png 1418Кб, 720x1280
720x1280
ComfyUItemplpeu[...].png 1234Кб, 720x1280
720x1280
>>991538
>>991546
>>991071
Кароче понятия не имею какие настройки гена и какой промтинг, и вообще не шарю за онимекалы и че там надо писать, но вот тестовый прогон на понях и пара шотов которые мне нравятся.
Но вообще строго повторяясь датасетовые пикчи совершенно не то, что "антифриз", у них и желтушный фильтр везде и сорт оф рваная рисовка и аутлайны в тон, и глитчи всякие, И ебла характерные, и лимитед палитра, и блюра навалено. Кароче епты бля чето типа такого гена как пик 4.
Аноним 28/12/24 Суб 17:26:50 991785 131
image.png 1561Кб, 1380x989
1380x989
>>991768
>Кароче епты бля чето типа такого гена как пик 4.
Точнее вот так. Слева то что в датасете, справа ген.
Аноним 28/12/24 Суб 21:03:59 991927 132
>>991270
> Ты не учитываешь что 1е-4 это для десятимилионного датасета который они собрали. Твой ретрен весов на большем лр ничего глобально не изменит.
Мой то не изменит, я скорее к тому что такой лр с батчем для эстетик трена поверх файнтюна это бред какой то, вся работа по усваиванию уже была сделана люстрой
> Че за скрин
>>924760 →
> В смысле не работал
Ну в прямом, приходилось тестировать другие, чтобы тренилось
> Не очень объективно сравнивать триллиардные датасеты для базовых архитектурных моделей с нашими микродатасетами на концепт.
Уже вроде и про это писал, одну хуйню любую вжарить юнет онли не проблема, но если рассчитывать на лору побольше, или в модели чего то нет со стороны энкодера, то придется включить
> Кароче проблемы мультиконцептов
Ну забей, если не хочешь вылезать дальше вжаривания одной штуки в каждую лору, после адуха это комбинить конечно
> Там не выпилены, там енкодер поломался от задранного лр, сам астралите говорил, такто маняме можно на пони делать.
Да можно то можно, но wariza, dogeza, cheek pinching, bandaid on pussy, doko? Vtumor или 2hoes помимо Реймухи? И это только вершина айсберга
> Опять же для трушного эффекта разделения концептов есть безумное умение в виде трена одного калцепта на один слой выходной, а второго на другой, потом их соединяешь и получаешь мутанта который в целом задачу то выполняет но много лишних телодвижений
Звучит слишком хорошо, если бы так работало что тогда помешало бы просто делать базовые модели и запихивать по слоям классы с подклассами? На деле один-пару слоёв всегда оверрайдится отвечающих за стиль или концепт, остальные че то там чуть сдвигаются
> Как это нету? Там же есть мокрописька который позволяет те и юнет отдельно крутить разве нет?
<lora::unet=1:te=1>? Я не про это вот тут глянь https://github.com/BlenderNeko/ComfyUI_ADV_CLIP_emb?tab=readme-ov-file#down-weighting могу грид найти отлично демонстрирующий какая хуйня в стоке даже на кумфи, точнее не грид а примеры одного сида, я не стал разбираться как с кумфи пилить гриды просто
> То есть условно ты берешь смешарика и хочешь его в стиле евангелиона генерить? Так можно сингулярным разложением две отдельные лоры соединить и будет тебе тот же эффект но без дрочки концептов в одной лоре.
Ну типо, есть примеры такого сингулярного разложения где то? Сукалол проорал пока читал это название
> Гуй кохи запускаешь, в утилитис (вроде) лора верифай вкладка, если лора содержит читаемые слои то все модули тебе покажет. Если непонял где это, то щас попробую запустить кою, но я питон откатывал мб и не запустится щас.
Да нашёл уже, что тут конволюшены lora_unet_output_blocks_2_2_conv.lora_down.weight,(16-1280-3-3) это?
> Потому что матан, представь что у тебя датасет из Nк картинок, это переводится в условное пространство вероятностей, где для этого пространства вероятностей существует эффективный лернинг рейт в промежутке от и до
> Имеешь в виду где тебе в командной строке пишется? Так оно не работает как надо, мне лень допиливать чтобы оно брало среднее значение слопа если и так по фигуре можно потыкаться.
И всегда этот матан выдаёт разное оптимальное значение, судя по тому что ты тестил и выкладывал выше, ну так же не бывает
> Пиздец ты токсик. Давай еще наедь на дефолт говногены сдхл с мутантами.
Не стану, хл в стоке хоть и был пиздец каким мыльным и ненасыщенным гаммой, но уж мутантов там точно не было или артефактов, да и в долгосроке архитектура оказалась норм, а тут пикчи бувально как после х4 гана. Рано конечно пока говорить по превью, но сота аниме модель наив3 на хл выглядит лучше, чем их высер недотрененной пока в4 стилистически, неизвестно пока как тот франкеншейн в полной версии правда будет себя показывать, но превью выглядит где то между 1.5 и флюксом, лол, вае ведь от него тоже
> Не, 3.5 не флоу, 3.5 мультимодал трансформерсы. Алсо изза того что 3.5 не флоукал оно может работать без т5 как сдохля, а флюх не может так.
Да как не флоу то ёбаный рот блять https://huggingface.co/stabilityai/stable-diffusion-3.5-large/blob/main/scheduler/scheduler_config.json то что они не упомянули в превью не значит, что там он растворился волшебным образом, картинка в сд3 и 3.5 одинаковая та вообще с архитектурой. У сд3 репа не диффузер формата а говна, но если разобрать, там небось такой же конфиг будет

>>991462
> На самом деле для такого батча это не то чтобы плохо. Но в целом, это слишком много для тренировки чекпоинта, который уже знает то что они обучают, такой батч тоже больше оптимального для dit ибо после претрейна там лучший результат достигается при меньших батчах но с правильной группировкой пикч для них
Такой батч сам по себе плох, они не тренят с шума или весов 1.0, это шлифование файнтюна. Им или стратегию сменить в сторону лоры для люстры (чем оно в конце концов по сути и оказалось), но в полных весах ради впреда, либо тюнить с голой основы, учитывая что датасет с компьютом позволяли

>>991538
> А промт какой епт? Скортеги юзать не юзать? Какие настройки гена у картиночек были в примере?
Прямо в гриде и есть данные этого аутлеер примера для генерализации, перетащи в рефордж

>>991546
> бля это прикол чтоли? то есть ты вообще не в курсе какой на самом деле датасет был?
Я же писал, что глора и дора тренились вообще разными людьми с форча, не могу же я быть вкурсе про датасет каждого, но тренить с таким было бы самым разумным выбором из за высокой консистентности стиля и отсутствия нейрокала, больше прямо похожих просто нету, ну может ещё ватермарки почистить только

>>991768
>>991785
Хрень, на том моём гриде кстати только 1 и 4 "нормальные" остальные андердоги, прикол на 1гёрл получить, с этим любая из них справится, а конкретно тот аутлеер найденный генерализовать нормально, как на 1 и 4
Аноним 28/12/24 Суб 21:25:56 991943 133
>>991927
> Да нашёл уже, что тут конволюшены lora_unet_output_blocks_2_2_conv.lora_down.weight,(16-1280-3-3) это?
Я с хл никогда не рылся в слоях лоры, но оказывается там всего 4 конволюшен слоя тренится, в отличии от той же полторахи, там их точно было дохуя, интересно почему так

>>991768
Кстати не просто хрень, а тотал хрень, если выдаёт как на 2 и 3, но мб не шаришь и запромптил еще криво
Аноним 28/12/24 Суб 21:47:58 991953 134
>>991512
С горелой жопой говорить что кто-то порвался - нет более рофлового зрелища.
Ну давай разберем по частям все тобою написанное
>>991470
> Чтобы не привязывалось к 768.
Использование рандомкропа никак не поменяет разрешение тренировки, оно просто кропнет пикчу вцелевое разрешение и именно что модель привяжется к 768. С учетом того что это будет порождать проблемы несоответствия изображения и промта - оче плохая идея и годно для редких специфичных кейсов.
> Спорно, но не, вообще мимо.
Судя по запощенным пикчам - прямо в цель.
> Ни разу не было на тестовых прогонах с кропом
Кроп не меняет разрешение тренировки
> даже на первой эпохе
На первой эпохе эффект будет меньше всего заметен, чем дальше тем хуже.
> просто прими как факт что это норма
> РРРЕЕЕ ЯСКОЗАЛ!
Словил синдром утенка, получив первый успех в самом днищенском из всех возможных вариантов тренировки, и теперь ведет проповеди.
> Ой не выдумывай
Что тут выдумывать если у нее ребра подмышкой, трусы двоятся, на плече 2 ключицы и складки, левый плечевой сустав на первой пикче исчез, телефон кривой, мелкий огрызок бека на второй 3 раза прыгает, ебало вытянуто по высоте, плечевые кости со страшным загибом. Именно так проявляется потеря когерентности, ужасающая хтонь.
Ну ты погенери хороших, заебешься роллить.
> для этого и берем датасет без тегирования
Это здесь никаким боком и ни к чему хорошему кроме лоботомии и потере контроля не приведет.
> и базовую модель, которая по дефолту знает много общего
> знает много общего
Жопой прочел, речь не о наличии общих знаний, которые в базовой XL посредственны, а об отличии конкретного материала обучения от того что выдает модель по тем же кондишнам, и в целом способности их понимать. Дополнительно накладывается эффект от перегона промта в эмбединги клипа.
> кондишены и не важны на самом деле
Сколько раз повторил, но ни разу ни единого аргумента в пользу этого. А их и быть не может.
> кондишены и не важны на самом деле, мы переводим картиночки в абстрактный манямирок признаков и наша задача выбрать лр который будет эффективно эти признаки хватать
Это бессвязный бред. Все к чему приведет такая тренировка без кондишнов - к полной перестройке модели на выдачу всратых вариаций датасета и полной потери нормальной работоспособности. В качестве всратого костыля для лоуэфортного получения слопа, напоминающего еот - подойдет, но не более.
> Все нормально, те нинужны. Прими как факт.
Ну опять это
> ррееее нинужны моя первая еотолора натренилась без них и я верю
а ведь есть нормальные исследования влияния анкоднишнал семплов в ходе тренировки. Но ты сначала пруфы своих заявлений про ненужность притащи.
> Трейндифренс сам по себе добавляет мягенько
Он ничего не добавляет "мягонько", он буквально добавляет разницу. Если эта разница разных атрибутов то при правильном выборе базовой модели для вычитания будет эффект, похожий на дополнительную тренировку того что есть в модели из которой вычитается. Если там будет нечто общее или выбрать неверную модель для вычитания - будут только поломки и оверфит. Для недалеких - всеравно что применить лору дважды.
Ему нет применений для мерджа разных эпох модели, он приведет только к поломок. Зачем ты "вмешиваешься в беседу" если несешь такой бред?
> не понимаю твоей радикальности, влетел и разбрасываешь "этанинужно" "этогавнокал" "ниработаит", как будто существует эталон какой-то
Потому что это действительно так. Почти пару лет назад все это уже проходили, и при наличии понимания выглядит максимально кринжово, всеравно что советовать двигать тазом и рычать для склеивания еот. Для жирухи с синдромом дауна (примитивной лоботомирующей лоры) подойдет, но во всех нормальных случаях будет только фейл.
> ничто не истина - все дозволено
Действительно, результата можно достигнуть разными путями, потому и важно понимать что именно какой эффект дает. Но у васянов в принципе голова не соображает чтобы что-то понять, и отсутствует опыт и знания для каких-либо выводов. Поэтому, получив жалкое подобие успеха не из-за правильных действий, а потому что случай максимально примитивен и в нем можно что угодно товрить и как-то придти к концу, они фиксируются на ошибках и пытаются их тиражировать, выдавая за прорыв.
> Учитывая что ты раздаешь советики и ультимативен в своих тезисах, но не в курсе про ротейшен/свд, всё ясно.
Это буквально
> ррряяяя смотри я знаю термин, я его слышал в видосике, понял?! слышал про него и знаю, а значит все мои слов истина! я еще ты его не знаешь, яскозал яскозал!
максимальный кринж. Ты сам не понимаешь о чем говоришь, и при этом делаешь какие-то выводы за собеседника. Видимо, подсознательно ощущаешь что хлебушек и не вывезешь в нормальной дискуссии, потому пытаешься это свести к низкосортному срачу. Уровень сразу виден.
> Ок, чатжпт
Вот и твой источник познаний найден, кривая интерпретация языковой модели, которой изначально задаешь неверный вопрос, с заложенным ответом.
> Да, размер датасета коррелирует с выбором learning rate (LR)
Сетка пытается дать тебе сдержанный ответ, намекая о том что для разных датасетов и целей тренировки вся совокупность гиперпараметров должна быть подбрана. А вовсе не то, что лр как-то зависит от размера датасета, любой кто что-то смыслит в теме поймет насколько абсурдны твои выводы. Это то же самое что говорить о том, что в законе ома сопротивление зависит от приложенного напряжения. И ведь правильно задав вопрос, ллм вспомнит про температурную зависимость удельного сопротивления, свяжет это с током, тот с напряжением и даст ложный ответ. Хотя скорее всего не даст а приложит дополнительные комментарии с объяснениями, но глупцы их не поймут.
> Держи в курсе.
Настолько жопа разлетелась от того что с ним не согласились а просто спокойно обозначили возможные ошибки, что уже сам влезает не туда и пытаешься хоть что-то спиздануть.

tldr: шизик после долгих попыток натренил лору на еот, накрутил уверенности с бесплатной чмоней и теперь мнит себя мастером

>>991491
> там наверное жирнющий подробный капшн, на котором и учили саму модель
Разные реализации бывают. Там не совсем капшн, там стоит адаптер и широкий входной слой дита под эмбединги и их маску. В качестве них может быть что-то примитивное, вплоть до буквально токенов, или же что-то обработанное. Если модель опенсорсная - можно посмотреть ее структуру залезая в либы в репорте по ней, там хотябы общие схемы всегда ставят. Тебя конкретно подготовка кондишнов интересует, или то как модель их внутри блоков обрабатывает?
Как правило, короткие фразы из промта юзера преобразуются в что-то более крупное, но много лишнего на этом этапе не добавляется, все уже внутри саммой диффузии "выбирается".
> Когда у диффузии есть больше инфы и меньше неопределенности, у нее остается больше ресурсов на то чтобы сконцентрироваться на более высоких абстракциях
Все несколько сложнее. При обучении с одной стороны важна максимальная информативность кондишнов, чтобы там была упомянута каждая мелочь, так модель будет им обучаться. Но это приводит к тому что не усваиваются более общие и абстрактные вещи, например на простые промты без описания всего и вся будет ерунда. Поэтому, применяют техники аугументации, с отсечением частей кондишнов (вплоть до полгого удаления в небольшом проценте итераций в батче, это важно для корректной работы cfg). Можно делать это уповая на рандом, можно заранее запланировать с учетом датасета. Также, могут варьироваться маски или изредка полностью пропускаться некоторые участки обработки.
> так как лосс не ебет по хуйне
В том и проблема что он просто так не позволяет выделить что хуйня а что не хуйня. Есть методы разной оценки, маскировки и воздействия на него, но (в опенсорсе) для диффузии они на низком уровне.
> Мне расскажи
Будет тяжело читаться, потому что это настолько абсурдно что вызывает эмоциональный отклик. В какой-нибудь около ирл дискуссии, особенно в более менее знающем коллективе это чудо мгновенно бы слилось. Хотя такое невозможно, ибо еотолораделов с таким шизослопом никто и никогда всерьез не воспринимал, и к чему-то релевантному они доступа не имеют. Просто скучно вечером, вот и решил его раскидать, дело наблагодарное на самом деле ибо шизло не воспримет и дальше будет мношить свой бред.
Аноним 28/12/24 Суб 22:02:09 991958 135
Передайте таблеток против жизни вот этому горелодупому >>991953
Аноним 28/12/24 Суб 22:08:48 991965 136
>>991516
> начинают учить как делать что-то с явным посылом на владение Истиной при многообразии вариантов, то это редфлаг ебаной чсвшной преисполнившейся помойки
И теперь смотрим на шизослоп
> Ни разу не было на тестовых прогонах с кропом даже на первой эпохе, а вот без кропа лезет какая-то хуйня. Полные лоры с кропом работают как должны.
> кондишены и не важны на самом деле
> Все нормально, те нинужны. Прими как факт.
Какой френдлифаер.
>>991546
>>991785
Хорошая иллюстрация "правильных" методов тренировки, заставить модель генерировать срань из паттернов похожих на датасет с поломкой всего и вся.
>>991927
> или 2hoes помимо Реймухи?
И еще большинство втуберов. Зато ces by gpo прекрасно усвоился.
> Такой батч сам по себе плох, они не тренят с шума или весов 1.0, это шлифование файнтюна.
this, именно оно. Ну и там еще был ряд проблем: стратегия обучения те странная; вместо капшнов мешанина с упущенными тегами, также частично удалялись артисты, некоторые теги и неконсистентно вводилить свои; стратегия дропа слишком агрессивная; датасет нормально не фильтровался - готовился; ограниченный баккетинг и математические алгоритмы апскейла вместо нейронок (и то не везде, были лоурезы); следствие разрешения - из-за особенностей тренера там далеко не всегда был батч 1000 ибо количество могло не набраться, потому шаг мог вжариться на значительно меньшем количестве пикч без изменения лра. и сам к этому причастен, стыд
Да и много чего, но винить их не то чтобы стоит, ибо ранее такого толком никто не делал, каждый тянул на себя одеяло, сроки были очень сжатые а давление извне высоким. Получилось то что получилось, спасибо и за это.
Аноним 28/12/24 Суб 22:30:07 991988 137
image.png 288Кб, 512x470
512x470
>>991965
>Хорошая иллюстрация "правильных" методов тренировки, заставить модель генерировать срань из паттернов похожих на датасет с поломкой всего и вся.
>>991927
>Хрень, на том моём гриде кстати только 1 и 4 "нормальные" остальные андердоги, прикол на 1гёрл получить, с этим любая из них справится, а конкретно тот аутлеер найденный генерализовать нормально, как на 1 и 4
>>991943
>Кстати не просто хрень, а тотал хрень, если выдаёт как на 2 и 3, но мб не шаришь и запромптил еще криво

Ой да пошел ты на хуй, сначала кинул датасет, как пример кинул вообще пикчи с подкруткой стилизации хуй пойми какой не в датасет вообще, а теперь оказывается что тренировка - это не генерировать срань из датасета, а на самом деле надо чтобы какуюто левую поебень генерило, которая к датасету не имеет вообще отношения, блять ору, какие-то андердоги манeвровые полезли, хотя у пикч с примеров НОЛЬ ОТЛИЧИЙ между собой вообще, там буквально накинуть любой атeншер поверх скоров и то же самое вылезет, пyки про генерализацию которой тупа блять нахуй нет в примере изначальном. Какая блять генерализация? Генерализация пониконцепта который со скорами лезет и рисует лайтинг eдж и женерик свимсьюты на мокрой жопе анимебляди? Рили блять анимeшник всегда ебанутый, пойду дальше холодильники тренить, ни копейки времени на пиздеж с онемецефалами итт не потрачу больше.
Аноним 28/12/24 Суб 22:36:34 991994 138
>>991958
>>991988
Слив засчитан. Тренишь лоботомитов по своему образу и подобию - нахуй срыгспок.
Аноним 28/12/24 Суб 22:42:53 992004 139
Аноним 28/12/24 Суб 22:45:09 992009 140
>>991965
> И еще большинство втуберов
Я вообще упомянул, просто очень "смешным" словом
> Хорошая иллюстрация "правильных" методов тренировки, заставить модель генерировать срань из паттернов похожих на датасет с поломкой всего и вся.
Да в том то и дело что не получилось вообще, даже хуже дефолтных настроек выглядит но хз что он там ещё промптил, вся суть изначально была что я выдвинул инфу что натренить подобные аутлееры в пони невозможно любым другим способом, кроме как вжаркой лютой, для примера вот эту старую понихуйню просто взял
>>991988
Че бахнул то?
> как пример кинул вообще пикчи с подкруткой стилизации хуй пойми какой не в датасет вообще
Всмысле бля, вот тебе конкретный пример, естественно с метой, свежий даже не поленился на этой старой херне сделать https://litter.catbox.moe/1vrs1w.png
Две первые можно считать хоть какой то генерализацией на этом аутлеере, дальше дора и глора, которые хуёво перформят, но без поджарки хотя бы, по датасету или близко к дистрибьюции справляются
> это не генерировать срань из датасета, а на самом деле надо чтобы какуюто левую поебень генерило, которая к датасету не имеет вообще отношения
Тренировка стиля это генерировать остальные знания модели, накладывая срань датасета вместо скина
Аноним 28/12/24 Суб 23:17:24 992073 141
image.png 433Кб, 896x843
896x843
>>992009
>Че бахнул то?
С того что ебаный анимеинвалид замисматчил меня по полной.
>Всмысле бля, вот тебе конкретный пример, естественно с метой, свежий даже не поленился на этой старой херне сделать
>Две первые можно считать хоть какой то генерализацией на этом аутлеере, дальше дора и глора, которые хуёво перформят, но без поджарки хотя бы, по датасету или близко к дистрибьюции справляются
1. Пикчи одинаковые фактически, я вообще в душе не ебу где и в каком месте там отличия. Максимум если не знать, что это оказывается три разных лоры, выглядит как погрешность сида. И это я с позиции того что я хуйдожник с абразаваньем смотрю с огромной насмотренностью. Допустим может это у меня мозг сбоит и прошаренный отаку под сакэ видит в той хуйне отличия и сходство с датасетом, в таком случае я подстраховался и кинул другому хуйдожнику пикрел.
2. Аналогичная стилистически анимехуйня выводится в дефолтных понях и так, мне пришлось лернинги задирать чтобы перекрыть стили лезущие из скоров связанные с аниме чтобы они хоть как-то отличались от примерной стилизации примера твоего.
3. Ты во втором окне отрой датасет свой, я не знаю кем надо быть чтобы говорить что у пикч с примера есть что-то общее с датасетом вообще.
>Тренировка стиля это генерировать остальные знания модели, накладывая срань датасета вместо скина
Тогда я всё сделал правильно.
Аноним 28/12/24 Суб 23:33:41 992086 142
>>992073
> Пикчи одинаковые фактически, я вообще в душе не ебу где и в каком месте там отличия. Максимум если не знать, что это оказывается три разных лоры, выглядит как погрешность сида. И это я с позиции того что я хуйдожник с абразаваньем смотрю с огромной насмотренностью. Допустим может это у меня мозг сбоит и прошаренный отаку под сакэ видит в той хуйне отличия и сходство с датасетом, в таком случае я подстраховался и кинул другому хуйдожнику пикрел
Ну такое увидеть можно не будучи хуйдоджником, а будучи нейродебилом, когда заебёшься с понями далеко от дистрибьюции генерить и получать пролезающий дефолтный стиль и пойдёшь во все тяжкие, как я, тренить 20 разных версий разными подходами, сравнивая между собой результаты
> Аналогичная стилистически анимехуйня выводится в дефолтных понях и так, мне пришлось лернинги задирать чтобы перекрыть стили лезущие из скоров связанные с аниме чтобы они хоть как-то отличались от примерной стилизации примера твоего
Ну хорошо, убери скоры и сурс, не поможет https://litter.catbox.moe/gys1s6.png
> Ты во втором окне отрой датасет свой, я не знаю кем надо быть чтобы говорить что у пикч с примера есть что-то общее с датасетом вообще
Общий уклон цветогаммы в желто-коричневый оттенок, лайн вокруг чара, пропорции чара датасета в конце концов
> Тогда я всё сделал правильно.
Где? Здесь, например, вообще мимо >>991768 здесь уже более менее нормально >>991785 но если дашь всю инфу генерации то я попробую с этими 4 версиями, скорее всего с ними тоже на этом промпте будет всё в порядке
Аноним 29/12/24 Вск 00:11:12 992111 143
>>991953
>Тебя конкретно подготовка кондишнов интересует, или то как модель их внутри блоков обрабатывает?
Да я так, просто всем интересуюсь. Ты видел то ту модель? Тот пример со львом так то нихуево выглядит, как понимание модели смысла происходящего и согласованности.
>например на простые промты без описания всего и вся будет ерунда
И потому там промт разворачивается ллмкой, которая там 100% есть. Иначе да, ни один нормиюзер длинную шизопростыню писать никогда не будет, но если у тебя один формат капшнов, то ничего сложного свернуть их суммарайзом в одно-два предложения, а потом на этом файнтюнить ллм, она формат хорошо усвоит и никаких проебов качества не будет.
>(вплоть до полгого удаления в небольшом проценте итераций в батче, это важно для корректной работы cfg).
От этой хуйни надо тоже избавляться, так как качества самим весам это очевидно не прибавляет. Лишь костыль для работы другого костыля.
>Также, могут варьироваться маски или изредка полностью пропускаться некоторые участки обработки.
Это да, вотермарки хотя бы закрыть, это же вообще ничего не стоит... А так наверное можно придумать какую-нибудь эвристику, чтобы маскировать лосс областями там где он сильно высок. Curriculum learning типа. Вообще повесить gan следом, и брать не градиент с него, как обычно принято, а маску.

Кста, мне чатгпт недавно напиздела, когда я у нее спрашивал как работают таймстепы, типа на тысячном, если модель "идеально" предсказывает шум то якобы должно получиться исходное изображение после его вычитания. Я ей даже сначала поверил, уж слишком она и не только она уверенно пиздела. Но когда сам разобрался, конечно же оказалось полностью наоборот. Из зашумленного изображение исходное никак невозможно получить. Инфа теряется пропорционально добавленному шуму.
Аноним 29/12/24 Вск 05:32:29 992324 144
Diffusion Meets Flow Matching: Two Sides of the Same Coin

В начале декабря группа чуваков из Глубокого Разума, среди коих признанные аксакалы, как Hoogeboom, De Bortoli и Salimans опубликовала презанятнейший пост Diffusion Meets Flow Matching: Two Sides of the Same Coin (https://diffusionflow.github.io/).

Нынче стало модно учить диффузионки в Flow Matching постановке. Тренд, по всей видимости, был задан SD3 (https://stability.ai/news/stable-diffusion-3). И большинство нынешней SOTA в картиночной и видео генерации (из того, что известно) FLUX, MovieGen, HunyuanVideo.

И что это значит? Классическая парадигма - пережиток истории 🤔?

Ан нет.

В данном блогпосте авторы в деталях анализируют процесс сэмплирования и обучения в стандартной noise-prediction Variance Preserving (VE) диффузионной постановке и Flow matching, и показывают, что по сути обе сущности про одно и то же. Основная разница в коэффициентах при шуме/сигнале и использовании скорости в качестве выхода нейронной сети вместо шума/x0. И по ходу повествования эквивалентность двух парадигм авторы иллюстрируют с разных сторон.

Сам блогпост содержит красивые 🥰 иллюстративные визуализации с ползунками 😮.

Кроме того, авторы опровергают распространенное мнение, что Flow Matching дает непременно более прямые траектории, чем диффузия. Для узких распределений Flow Matching действительно дает более прямые траектории, чем типичный диффузионный процесс, но для широких распределений все может поменяться с точностью до наоборот. Впрочем, для наиболее типичного сценария text-2-image генерации или редактирования изображения, целевое распределение, по всей видимости, достаточно узкое.
Аноним 29/12/24 Вск 16:50:38 992712 145
Датасет на 3к картинок, батч 2, аккумуляция 3, рандомно выбирает файл из датасета и выдает OSError, на первой эпохе гдето в промежутке 10-30 шагов. В чем может быть проблема? Файлы не битые.
Error loading file
OSError: Caught OSError in DataLoader worker process 0.
Аноним 30/12/24 Пнд 00:27:35 993089 146
>>992712
Чекай файлы на наличие прозрачных бг
Аноним 30/12/24 Пнд 01:01:04 993119 147
Сколько VRAM надо для трена классического контролнета не островного lllite-говна под XL? Сам контролнет в diffusers сжирает 16 гигов, UNET на 24 гигах в ООМ падает, на две карты не переносится - граф рвётся. При этом без градиентов всё вместе всего 9 гигов жрёт. В issues челики с А100 жалуются на ООМы. Они там сколько конволюшенов туда напихали, что он так жрёт? Пиздец какой-то.
Аноним 30/12/24 Пнд 04:57:39 993307 148
>>992073
Ну что ты там, реально стух чтоли? Скинешь хоть что натренил в гридах посравнивать?
Аноним 30/12/24 Пнд 06:34:30 993321 149
>>993089
Там нету пнгшек, битмапы и жыпеги, причем триггерится на жипеги, говорит чтото типа OSError: image file is truncated (25 bytes not processed), хотя само изображение открывается для просмотра и прочее. Взял другой датасет на 5к изображений, уже пять часов нормально тренит.
Аноним 30/12/24 Пнд 07:54:07 993346 150
>>993307
> Ну что ты там, реально стух чтоли?
Да.

>Скинешь хоть что натренил в гридах посравнивать?
Удалил.
Аноним 30/12/24 Пнд 19:42:39 994097 151
> File "D:\kohya_ss-24.1.7\kohya_gui\common_gui.py", line 1263, in SaveConfigFile
> os.makedirs(os.path.dirname(folder_path))
> File "C:\Program Files\Python\lib\os.py", line 225, in makedirs
> mkdir(name, mode)
> FileNotFoundError: [WinError 3] Системе не удается найти указанный путь: ''
Чо за хуита выскакивает при попытке тренировки? Питон установлен.
Аноним 30/12/24 Пнд 19:58:38 994117 152
>>994097
Тебе же пишет что долбаёб коха не умеет рекурсивно папки создавать.
Аноним 30/12/24 Пнд 20:02:10 994124 153
>>994117
Так что делать то надо, чтобы ошибка ушла?
Аноним 31/12/24 Втр 08:56:11 994713 154
Есть ли кто-нибудь, кто готов поделиться случайным датасетом и конфигом под него, с которым получились хорошие результаты + примеры использования?
Можно даже под полтораху, интересен небольшой, нетривиальный датасет.
Аноним 31/12/24 Втр 16:51:42 995028 155
>>994713
нетривиальный какого плана
Аноним 01/01/25 Срд 08:01:54 995744 156
>>995028
Ну типа не ебало еот или стиль который не поймешь сразу применился или нет.

Еще вопрос. Как записать кусок промта или весь промт в файл-эмбеддинг?
Аноним 02/01/25 Чтв 08:25:17 996531 157
От какого параметра зависит т.с. превалируемость лоры над весом модели при ее полном применении?
Оптим продижи, по настройкам:
конв дим 16, конв альфа 1 (чтоб снизить влияние сверточков)
нетворк дим 16, альфа дим 1 (опять же чтобы половинить влияние лоры)
д0 1е4
Дропаут 0.1 чтобы не перетренивать на дате
Тренировка нормализационного слоя вкл
Дора вкл
Биас корекшен вкл
Лосс л2
Снр гамма 1
Приорлосс 1
Батч 2

Пока натренил 3 варианта с разным дкоеф и результаты странные.
При дкоеф 10 при полном применении лоры очевидные перетрен, но это и понятно, дефолт дкоефа 1. Если снижать вес лоры до 0.5 то более менее норм, при весе 0.2 результат прям топ.
Исходя из предыдущего пункта логически нужно ставить дкоеф 2 (0.2 от 10), итоговая лора при полном весе уже не совсем перетрен но есть деформации и управлять промтом также нереально. При 0.5 уже терпимо. При 0.2 опять же так же хорошо как с 0.2 при дкоеф 10.
Поставил дкоеф 0.5, результат при полном весе буквально картинки из датасета, при 0.5 хорошо, при 0.2 опять же пушка гонка качество и управление.

Сейчас тренится дкоеф 0.1 и чтото мне подсказывает что будет снова точно такая же ситуация когда фул вес дает картинки с датасета.

Почитал что если альфа на конве стоит на 1, то это значит линейное применение и при полном применении лора является ведущей по весам и замещает собой всё, звучит максимум нелогично, но в целом так и получается, перекинул лоры на другую модель и там на полном весе точно также датасет картинки лезут.

Так вот вопрос: че подкрутить и в какую сторону чтобы полновесная лора не замещала собой веса основной модели? Моя логика с понижением адаптации через дкоеф работает получается только чтобы перетрена не было, а замещение как было так и остается.

В инете говорят что надо ставить альфы в половину от дименшенов и только на особых алго надо их в 1 или меньше укатывать, типа гибкость больше, но это же в 8 раз больше параметров наоборот, нелогично нихуя. Что будет если поставить альфы в 0.1 кстати? Мне ощущается что сила замещения будет меньше, но так как результаты наоборотные, то будет видимо вообще застревание на дате из датасета еще большее.
Аноним 02/01/25 Чтв 23:38:07 997176 158
ComfyUItemptppe[...].png 1517Кб, 1024x1400
1024x1400
ComfyUItemptppe[...].png 1748Кб, 1024x1400
1024x1400
ComfyUItemptppe[...].png 2155Кб, 1024x1400
1024x1400
>>996531
Короче.
old woman face, cute, show breast

Пик 1 дефолт, пик 2 16 по дименшенам и 8 по альфам, пик 3 16 по дименшенам 1 по альфам
дкоеф на пик 2 и 3 0.1
вес применения 1, с таким весом на верси где альфа 8 больше мутантов и проебов, но зато полная копия датасетовских картиночек по кволити и содержанию (старых тянов вообще не было, одни молодухи и матюры) с полпинка, в версии пика 3 никаких проебов нет, но стилевая хуйня немного дальше и без расписывания промта датасетовское кволити не лезет особо

остается проверить 16x16, т.к. вероятно возможно мутации именно из-за халвинга матриц на внедатасетовых разрешениях получаются а так будет аналог 1x1 но без линейного применения на альфе с 1
Аноним 05/01/25 Вск 15:16:08 1000683 159
>>992111
> Ты видел то ту модель?
Ты про хуйнань или какую?
> как понимание модели смысла происходящего и согласованности.
Понимание смысла идет от правильной подготовки кондишнов и реакции на них, а согласованность уже исключительно сама диффузия.
> И потому там промт разворачивается ллмкой, которая там 100% есть.
Тут есть нюанс и не всегде сделано именно так. Например, часто модель используют не для прямого "разворачивания" а для некоторого семантического анализа и получения "смысловых" активаций, на которые уже удобно реагировать. Хороший пример с T5, классический энкодер-декодер, который можно натренить на любую t2t задачу и будет очень даже прилично, или обрезать жопу и получить с середины уже обработанные кондишны. Но возникает уже своя проблема - модель может плохо понимать теги, которткие вещи или что-то специфичное (ровно то что видим с диффузией, которая использует т5).
К этому можно добавить дополнительный костыль в виде разворачивающей ллм, о котором ты и написал. Как, например, хочет сделать Астралайт в новых понидифьюжн, или тот же далли3, к которому тексты поступают уже после обработки. Но вариант тоже специфичный, иногда просто тренировка энкодера может дать гораздо больше, чем попытки ужать для пропихивания через бутылочное горлышко.
> От этой хуйни надо тоже избавляться, так как качества самим весам это очевидно не прибавляет.
Сложный вопрос, тут во-первых, само определение cfg, во-вторых, оно дает свои преимущества и такая вот аугументация. Тут все на костылях построено, увы.
> вотермарки хотя бы закрыть, это же вообще ничего не стоит
На самом деле задача не самая простая, как минимум нужна будет модель, которая сможет точно формировать маску для них. Мало кто этим занимается, даже у корпов лезут подписи.
> можно придумать какую-нибудь эвристику, чтобы маскировать лосс областями там где он сильно высок
Хз насчет эвристики, но при тренировке ты его буквально видишь и именно прямой модификацией делается маскед-лосс. Можно действительно сделать процедурный алгоритм для сглаживания областей с большими величинами, или применения каких-либо обработок. Вот только что там выйдет на практике уже нужно смотреть.
> чатгпт недавно напиздела, когда я у нее спрашивал как работают таймстепы
Они регулярно серут и плохо понимают эту тему. Чуть лучше отвечает опус и сонет 3.5, но даже те могут в двух соседних свайпах себе же противоречить.
> Из зашумленного изображение исходное никак невозможно получить. Инфа теряется пропорционально добавленному шуму.
Именно. Отсюда кстати берет корни баг, заложенный в SD. Там зашумливание по дефолту не полное, из-за чего самые нижние гармоники (общая яркость) сохранялись, и наступает проблема средней яркости и плохой когерентности.
Аноним 05/01/25 Вск 19:10:08 1001096 160
При тренировке на стиль художника нужно чтобы только один персонаж был на картинке или можно несколько?
Аноним 06/01/25 Пнд 00:59:36 1001524 161
>>1001096
Чем более разнообразные картинки тем лучше. Один или несколько - без разницы, главное чтобы не везде одинаковые.
Аноним 06/01/25 Пнд 10:44:07 1001824 162
>>981076
Чтобы вопрос не висел в пустоте, отвечу на него спустя две недели.

Анон по сути придумал технологию мешграфомеров:
https://github.com/microsoft/MeshGraphormer

В комфи есть нода для неё, но я не смог запустить её из-за ада зависимостей.
Аноним 07/01/25 Втр 03:28:51 1002931 163
ssstwitter.com1[...].mp4 629Кб, 1280x720, 00:00:08
1280x720
>>1000683
>Ты про хуйнань или какую?
Гугл veo новая. Вот видрил с которого я охуел немного. Не верю что чистая диффузия в такое может, даже если ее через какой-нибудь gan тренили, он должен быть дохуя умным сам по себе. Либо каскадная модель, где первую ступень можно из умной ллмки получать. Не в виде текста или тех же эмбедингов, а во временно-согласованной структуре.
>Сложный вопрос, тут во-первых, само определение cfg, во-вторых, оно дает свои преимущества и такая вот аугументация. Тут все на костылях построено, увы.
А кто-нибудь пробовал безпромт для cfg в лору сливать, а родные веса не трогать? Или лора в негативе на генерации все сломает? Хотя негатив обычно все же не пустой, хуй знает как это будет работать.
>На самом деле задача не самая простая, как минимум нужна будет модель, которая сможет точно формировать маску для них. Мало кто этим занимается, даже у корпов лезут подписи.
А смысл точной маски? Точность все равно проебется после vae, достаточно бокса, его и разметить можно очень просто, и провалидировать можно чуть ли не весь датасет в одно рыло. Подписи обычно не очень большие, и если боксы нарезать в одну ленту html-страницы, то можно глазками очень быстро отбраковывать проебы.
>и именно прямой модификацией делается маскед-лосс
Я вообще читал что лучше не лезть в сам лосс а занулить градиент после лосса по той же маске. Ибо там якобы какие-то протечки в лоссе могут быть.
Аноним 07/01/25 Втр 03:54:19 1002952 164
>>1002931
> Не верю что чистая диффузия в такое может
А что в этом такого уникального? Наоборот, диффузия очень хорошо ухватывает некоторые закономерности, последовательности, особенности взаимодействия предметов и прочее. В отличии от каких-то моделей и движков, тут могут быть абсурдные артефакты, зато оно прекрасно воспроизведет всякую "физику", взаимодействия в ту самую согласованность. Оно не понимает ничего, просто воспроизводит концепт отражения в зеркале с синхронным движением объектов.
> безпромт для cfg в лору сливать, а родные веса не трогать?
Не совсем понял что ты хочешь сделать, распиши подробнее.
> А смысл точной маски?
Для минимизации влияния на остальные объекты, есть достаточно крупные ватермарки, и не сказать что оно прямо так проебывается.
> разметить можно очень просто, и провалидировать можно чуть ли не весь датасет в одно рыло
Попробуй заняться этим, есть и готовые тулзы, правда придется чуть попердолить. Есть и готовые модели, аниме ватермарк на обниморде. Только количество и разнообразие ватермарок такие что нормальной точности сложно получить.
> что лучше не лезть в сам лосс
Ты можешь вносить в него модификации как просто умножая на коэффициент, так и делать это с его отдельными областями. Ну а как вычленить градиенты от этой части уже после обарботки не зацепив все остальное - хз. Распиши подробнее.
Аноним 07/01/25 Втр 05:32:16 1003056 165
Скиньте самый актуальный скрипт по обучению моделей.
Аноним 07/01/25 Втр 06:52:25 1003149 166
>>1002952
>Не совсем понял что ты хочешь сделать, распиши подробнее.
Ну, очевидная мысль, что если образцы без подписей при тренировке не добавляют качества самой тренировке с подписями, и если от этого нельзя отказаться, то может быть стоит хотя бы в лору запекать пустые подписи, чтобы это не влияло на основные веса. Сразу же понятна проблема, что негатив в генерации обычно не пустой, а значит эта схема работает неправильно. (На генерацию негатива надо подключать эту самую лору).
Но если же эта теория не верна, и пустые подписи на самом деле идут в плюс и работают как регуляризация, то тут уже возникают вопросы, почему и насколько?
>Для минимизации влияния на остальные объекты, есть достаточно крупные ватермарки, и не сказать что оно прямо так проебывается.
Опять же, насколько велико это влияние? Можно закрыть нахуй маской рандомную половину картинки, например. Чет мне кажется модель сильно хуже учиться не будет, фоны на персонажах же так закрывают. Можно хитрее проверить, каким-нибудь шахматным паттерном или случайным шумом. Так что я думаю в ватермарку достаточно примерно боксом попасть и проблем не будет. Проблемы будут там где вотермарка проскочила в датасет, а если случайный кусок закрыли - похуй, будем считать что это регуляризация, лол.
>Ну а как вычленить градиенты от этой части уже после обарботки не зацепив все остальное - хз. Распиши подробнее.
Последний выходной нейрон, пиксель латента, по сути, просто если попадает под маску, то делаем ему градиент - 0. Это 100% метод который ничего не ломает. На коэффициент по идее тоже можно умножать, только надо пересчитать его кривую.
Хз, если занулять сам лосс, вроде бы то же самое, но я где-то читал что нет. Если лосс там внутри усредняется-нормируется, то вырезанный кусок влияет на расчет.
Аноним 07/01/25 Втр 11:27:43 1003295 167
>>1002952
> ватермарки
Достаточно взять любой DiT и навсегда забыть про подобное. В том же Флюксе даже если весь датасет в ватермарках, в генерациях они не появятся пока не запромптишь.
Аноним 07/01/25 Втр 12:47:35 1003419 168
>>1003295
Не пизди, флюкс их всасывает точно так же как и хл, единственное отличие, что он их воспроизводит идеально, в отличии от предыдущего говна с 4канальным вае и промпт от этого не спасает. Ты т5 чтоли вжаривал?
Аноним 07/01/25 Втр 15:48:59 1003604 169
>>1003056
https://github.com/kohya-ss/sd-scripts
Ветки в зависимости от нужд (sd3, dev и тд). Алсо там пчелик левый сподобился для шедулерфри продижи фуседбакпас запилить поддержку, вот этот форк https://github.com/michP247/sd-scripts/tree/8cee727a990a0c499ee5ff44c2a3e8625b756742

dreambooth training sd3.5medium @512x512 res w/ args --fused_backward_pass --optimizer_type="prodigyplus.ProdigyPlusScheduleFree" --optimizer_args prodigy_steps=2500:

base prodigy = 27.2 gb vram
prodigy-plus-schedule-free = 15.4 gb
prodigy-plus-schedule-free w/ FBP = 10.2 gb

Я на сдхл погонял тоже, норм уменьшает врамчик.
Аноним 07/01/25 Втр 19:57:09 1003899 170
>>1003419
Если ты капшены так же по даунски как и на XL делаешь, то естественно говно получается. Литералли любая vlm увидит ватермарку и напишет что на ней, а то что ты прописал в капшене при генерации без прямой просьбы не появится. Это всегда работает, оно просто не может не работать. Я тренил кучу лор на порнухе, там бывают ватермарки на четверть экрана, никогда не вылезали при генерации. Для этого ничего дополнительно не надо делать.
Аноним 07/01/25 Втр 20:31:25 1003925 171
>>1003899
Я мимошел в вашем диалоге не участвовал, но считаю что проблема ватермарок это проблема базовой модели и настроек агрессивности тренинга/гиперзапоминания на низковариативном составе датасета (когда у тебя все изображения не аугментируются вообще никак и скармливаются 1 к 1 где ватермарка будет всегда в одном месте). Я тоже по порностилистикам угараю и при этом вообще кепшены не юзаю и ватермарки тоже не лезут, например потому что изначальный файнтюн (бигасп 2, там годно закурировал датасет свой чел) и сама сдхл база по дефолту не надрочены на то чтобы ватермарки выблевывать. И напротив можно упомянуть про натвис где челу например было похуй на ватермарки и при гене условных селфи частенько онлифанс проскакивает в качестве марки.на самой базе.
Аноним 08/01/25 Срд 22:17:59 1004917 172
>>1003149
> если образцы без подписей при тренировке не добавляют качества самой тренировке с подписями
Ну как сказать, объективного вреда от этого нет, даже наоборот. Кроме анкондишнал генерации чего-то среднего по датасету, или части что наиболее отличается от среднего по модели, но грустить с того что с пустым промтом делает канничек только дурак будет.
> стоит хотя бы в лору запекать пустые подписи
Вот это не понял, что значит запекать в лору? Там просто в батче у некоторых специально или случайно выбранных пикч не будет подписей.
> насколько велико это влияние?
Настолько, насколько захватываешь лишнего. Если постоянно еще будешь закрывать одни и те же места картинки, с этой областью в дальнейшем будут проблемы.
> думаю в ватермарку достаточно примерно боксом попасть и проблем не будет
Попробуй, скажешь как получается. Пока что ни одного успешного (озвученного) кейса с подобным подходом нет.
> пиксель латента, по сути
Неа, там не совсем пиксель латента. А так всегда умножают на ноль конкретные пиксели лосса или все величины.
>>1003295
Ну удачи.
>>1003899
Оно может нормально научиться только на разнице. И как у тебя влмка их протегает, "ватермарка такого-то хуя"? Простейшие тексты проблем даже в 1.5 не вызывали, а так там всегда там или эмблема, или особый шрифт, или хитрая подпись. В удачном кейсе оно зацепит что "ватермарка в углу" это вот именно эта штука, а насколько протечет параллель с тренируемым стилем/персонажем - большой вопрос. Если недефолтные ватермарки везде то будут лезть со страшной силой.
> тренил кучу лор на порнухе, там бывают ватермарки на четверть экрана
Какая-то блядища и совершенно разные ватермарки с разных студий/ресурсов по вполне типичным паттернам, они даже сами по себе слишком нерегулярны чтобы их запомнило. Зато если захочешь какого-то художника тренишь - насладишься.
>>1003925
Все так, она просто слишком разные и дадут лишь косвенные проявления даже если не описывать.
Аноним 08/01/25 Срд 23:13:58 1005006 173
>>1004917
> удачном кейсе оно зацепит что "ватермарка в углу" это вот именно эта штука
У меня vlm в таком виде их всегда тегает.
> There are two watermarks visible: "by Tommy Bernstein" in the bottom left corner and "femjoy.com" in the bottom right corner.
> There is a watermark on the image that reads "u/PCake99".
Никогда не пропускает, никогда не видел на генерациях их. В том числе после полного пака пиков, где 50 раз ватермарка повторяется. Если текст ватермарки прописан, то куда она денется, любой DiT в текст умеет.
> с тренируемым стилем/персонажем
Если XL, то надо по схеме b-лоры делать, выкидывая остальные слои, туда в принципе ватермарки не могут протечь, я без проблем тренил на рандомном говне с артстешена, даже на постерах норм стили тренить.
Аноним 08/01/25 Срд 23:29:17 1005029 174
1579155259876.jpg 58Кб, 850x850
850x850
1584195575398.jpg 146Кб, 850x1063
850x1063
>>1005006
Ну это простая херня и текст, который будет разный в разных пикчах, за счет этого похуй если совсем не фейсроллить. Там же речь уже про вполне нормальную, полноценную и консистентную ватермарку, которая будет приписана артисту.
> Если текст ватермарки прописан
Но даже и текст может быть довольно непростым, как на пикрелах, и оно будет везде. У рингеко они в разных вариациях и постоянно над важными объектами, тут и флюкс пасует.

Кстати ватермарка с первой пикчи становится популярной в минимальных вариациях, и модель именно на нее легко обучается, ибо она на разных художниках, стилях, персонажах почти одинакова! Это позволяет в крупных датасетах обучать не удаляя, будто это просто отдельный концепт и элемент, даже негативить не придется потом.
Не перестаю с этого орать, массовая акция художников привела не к появлению единой штуки, которая бы сильно лезла везде, а наоборот к систематизации хорошо регуляризуемого объекта, который даже удалять не надо. В итоге, страдают только зрители и сами авторы с горящей жопой.
Аноним 09/01/25 Чтв 01:04:07 1005129 175
n4vv8kluorae1.jpeg 336Кб, 2048x1270
2048x1270
ребята. ну вот я закал себе лламу 3 на локалку, но как теперь её тьюнить что бы отключить политкоректность и всякую хуйню для безопастности/ограничения?

есть у кого уже модель без всей это залупы?
Аноним 09/01/25 Чтв 01:11:04 1005142 176
>>1005129
Промптить научись, клован. Берёшь букварь и учишься писать буквы.
Аноним 09/01/25 Чтв 01:14:00 1005147 177
>>1005142
всмысле, то есть ты хочешь сказать что можно обойтись приймущественное количеств ограничений если просто промты ставить праввельно?

Блять скинь гайдик какой нить насчёт всё этой хуйни. инфы пиздец как монго, непонятно с чего начинать
Аноним 09/01/25 Чтв 01:17:50 1005149 178
>>1005129
> закал себе лламу 3
> как теперь её тьюнить
Для начала обзаведись 80гиговой видеокартой и хотябы средним знанием пихона и конкретно торча. Когда выполнишь - часть вопросов отпадет сама собой и можно будет уже обсуждать.
>>1005147
Лламатред двумя блоками ниже. Но там тебе также ответят, прочти тамошнюю вики для начала.
Аноним 09/01/25 Чтв 02:37:44 1005196 179
1614890644415.jpg 79Кб, 653x960
653x960
1582868281952.png 331Кб, 1500x1001
1500x1001
>>1003899
> Литералли любая vlm
Нет, не любая, на заре флюкса с популярностью гойкапшена он плохо протегивал wlop'а, хотя там 90% на полебла текст его ника, так же с пикрилом полный провал был без ручного затирания, пролезает слишком часто
>>1005129
А вот и глейзокал подъехал, лол, не смущает что вся пикча в масле?
Аноним 09/01/25 Чтв 06:13:59 1005269 180
>>1005147
>Блять скинь гайдик
Перегружай ввод, смени акценты в тексте, отвлеки от запрещенного, дай свободу выбора, предварительно её жестко ограничив.
Аноним 09/01/25 Чтв 09:32:47 1005337 181
>>1005196
> с популярностью гойкапшена
Он только у анимешников почему-то популярен был потому что умел тегами срать. Сейчас выбор огромный чем капшены делать, джой хуйня.
Аноним 09/01/25 Чтв 13:17:45 1005531 182
>>974163 (OP)
Если 1 и 2 картинки я худо бедно понимаю, то 5 и 6 вообще кошмар. Какой уровень линала и компьютер саенс нужен туттут нужен то?
Аноним 09/01/25 Чтв 15:30:37 1005637 183
выпал на года 1.5 из темы нахуй.

Щас пишу рассказик, к рассказику, на его базе хочу запилить кинцо-мыльцо визуальную новелку с минимумом ходить

Хочу базированные текстурки, свои, музыку свою, персонажей своих, минимально имел опыт моделирования.

Отношение у меня ко всему этому, такое, что ИИ крутой костыль, при условии, что ты сам стараешься и делаешь свой мирок, который интересен тебе, прежде всего.

Без воровства, переработок и индусо-засеров 100 раз переделанным патерном на новый лад

В связи с этим хочу приспособить локальную пекарню на 4070ti:

- Лингвистическая модель для перевода, локальная или нет, похуй наверное

- Озвучка персонажей

- Моделирование текстур 3Д, персонажей и прочего

- музыка

Есть ли смысл вкатываться, или все еще кал? Ну и ИИ как само хобби, все же головой понимаю, что смысл вката все равно есть ибо набью руку а там уже, что нибудь, новое завезут, что уже мне подойдет.

Оч загружен и работой в ойтишечке и книжкой своей, и плагинодрочем в UE5.

так, что исходя их моеих хотелок, в какую сторону дрочить примерно? МОжно уровня только сказать имя актуалочки или что выстрелит или связки, остальное на ютубе сам задрочу
Аноним 09/01/25 Чтв 16:08:56 1005668 184
>>1005637
>- Моделирование текстур 3Д, персонажей и прочего
Моделлинг пока кал в том, что касается открытых моделей.
Можешь заценить по Треллису: https://huggingface.co/spaces/JeffreyXiang/TRELLIS

Это пока самый топ из того, что можно скачать на локальную машину и запустить.
Аноним 09/01/25 Чтв 16:09:49 1005669 185
>>1005637
>Лингвистическая модель для перевода, локальная или нет, похуй наверное
ЧатГПТ.
Гугловский Гемини, 50 бесплатных промптов на акк.
Claude лучше всего понимает и умеет в русский.
Всё из РФ недоступно. Плюс цензура, некоторые темы без нецензуренного входа с АПИшки обсуждать откажется (а некоторые и с апишкой).
Локальные сильно тупые.

>Озвучка персонажей
Посмотри профильные треды. Пока что все довольно сырое, и качество прямо пропорционально времени, которые ты на обработку потратишь. Вплоть до того, что самому озвучивать придется, и потом голос менять.

>Моделирование текстур 3Д, персонажей и прочего
Ничего годного в этой области нет. Только картинки.

>музыка
Вообще хз.

>Оч загружен и работой в ойтишечке и книжкой своей, и плагинодрочем в UE5.
Значит и не пытайся. Чтоб начать делать что-то хорошо - надо потратить дофига времени.
Аноним 09/01/25 Чтв 17:12:54 1005701 186
Аноним 10/01/25 Птн 21:34:48 1007020 187
Побуду амбассадором и периодически буду постить по обновам шедулер фри продигов мб кто не в курсе, т.к. это буквально на данный момент самая ёбовая ёба из существующих, позволяющая и фуловый чекпоинт тренить на лоурам без прибегания к адафактор калу, и лоры с пачкой автоматических мокрописек по принципу файр'н'форгет https://github.com/LoganBooker/prodigy-plus-schedule-free

Добавлено:
+ поддержка Gram из этого пула https://github.com/LoganBooker/prodigy-plus-schedule-free/pull/5 , дает наименьшую перплексити и наиболее быструю сходимость, еще пизже чем C-Optim которые также можно включить (но что-то одно)

+ в версии 1.83 добавлен манкипатч для работы fused_back_pass в kohya (собственно то изза чего адафактор является врам френдли оптимайзером для фул чекпоинт тренинга) из этого коммита https://github.com/LoganBooker/prodigy-plus-schedule-free/commit/93339d859eb7b1119a004edecf417f5318227af8 требующий комментирования строк 4118-4120 в train_util, в ишуях https://github.com/LoganBooker/prodigy-plus-schedule-free/issues/7 есть гайд по фиксу для работы фузеда с лорами в кое (требует оба аргумента фузеда и --fused_backward_pass в конфиге и "fused_back_pass=True" в оптимайзере), в версии 1.8.4 на основе этого ишуя теперь требуется только --fused_backward_pass
Аноним 10/01/25 Птн 21:49:05 1007033 188
>>1007020
Калом с уёбищным lr не пользуемся. На XL база обычный AdamW, на DiT - AdEMAMix. Уметь выставлять корректный lr - это чему быдло должно в первую очередь научится, перед тем как лезть в тренировку.
Аноним 10/01/25 Птн 22:01:36 1007049 189
image.png 2044Кб, 1120x1146
1120x1146
image.png 1519Кб, 1183x1132
1183x1132
image.png 1495Кб, 1153x1109
1153x1109
image.png 2026Кб, 1119x1103
1119x1103
>>1007033
>На XL база обычный AdamW, на DiT - AdEMAMix
>петух_и_микрофон.жпг
Тя там с двух сторон в жопу ебут - адам по растригину в локальный минимум падает (но до решения хоть доходит) и там сдыхает в оверфите, по росенброку неизвестно как долго потребуется нахождение полного решения. И это еще не 8бит, который вообще сосиот. Итог: устаревшее говно для хлебобулочных изделий, которые просидят за настройками гиперов дольше, чем тренировка будет идти.

С адемамикса вообще проиграл, тут комментарии излишни.
Аноним 10/01/25 Птн 22:08:13 1007053 190
>>1007049
> растригину
> росенброку
Ясно, ты шизик, даже не тренирующий ничего.
> устаревшее говно для хлебобулочных изделий
Тем не менее претрейн все только на нём делают, в то время как шизики не могу основы осилить.
> оверфите
С оверфита лор вообще проиграл.
Аноним 10/01/25 Птн 22:23:16 1007059 191
>>1007053
>ooooeee hryuu vrete!! ты шизик, даже не тренирующий ничего!
Не визжи.
>все только на нём делают
Отучаемся говорить за всех. Если ты делаешь претрейн на говне, то это не значит что все делают на говне.
>С оверфита лор вообще проиграл.
Ну то есть ты там на адаме сидишь недотрениваешь говно своё (потому что адами не вывозит) и тольковыиграешь от этого? Так держать, верной дорогой.
Аноним 10/01/25 Птн 23:03:28 1007101 192
1685829988018.png 120Кб, 1371x534
1371x534
1681964068141.png 569Кб, 1348x763
1348x763
>>1007059
> Отучаемся говорить за всех.
Выключай врёти, в transformers ровно два оптимизатора, потому что остальные не нужны. И уж тем более никто не использует пердольное говно от васянов.
> адами не вывозит
А ты можешь показать где твоё говно лучше AdamW? Я вот могу что не лучше, прямиком из их публикации. Точно так же могу обоссать тебя и показать как выглядит AdEMAMix с корректным lr.
Аноним 10/01/25 Птн 23:22:34 1007119 193
В настоящих нейросетках локальных минимумов не существует, напоминаю. Ландшафт функции потерь имеет вид лабиринта и даже близко маняграфикам не соответствует.
Локальные минимумы появляются только когда делается градиентный спуск НЕ СТОХАСТИЧЕСКИЙ по всему датасету (один шаг - считаем градиент по всему датасету и так каждый раз заново), но так вы ничему путному не научите большую нейросетку, даже если представить что у вас на это есть компьют. Более того со стохастикой ландшафт вообще перестает быть стационарным.
Аноним 10/01/25 Птн 23:42:29 1007142 194
>>1007020
> позволяющая и фуловый чекпоинт тренить на лоурам
Сильное заявление, кто-нибудь что-то с ним уже натренил, или это просто впечатление по теоретическому потреблению врам ценой замедления?
Особенно интересно как оно будет реагировать на всякие аугументации, манипуляции с лоссом и чуждые чекпоинту пикчи.
> fused_back_pass в kohya
Главный вопрос - он работает в мультигпу, или также как с адафактором/фьюзед группами отваливается нахуй? Если работает то даже запущу ради интереса.
>>1007033
> на DiT - AdEMAMix
По первым впечатлениям он хуже адамв (тем более на хл), разве что "добавить немного" не ломая ничего, а тренится довольно вяло. Но это ерунда, интересно увидеть конкретный успешный опыт его применения, штука то интересная. Алсо есть его производные в т.ч. с 8 битами.
>>1007049
> И это еще не 8бит, который вообще сосиот
Тут наоборот от 8битных в части случаев отказываются, а тут такое.
>>1007119
> только
А если по половине датасета - уже не появляются? А если по четверти? Так и до типичных батчей дойти можно, давай пруфы раз делаешь много заявлений.
Аноним 10/01/25 Птн 23:49:03 1007153 195
>>1007142
> тренится довольно вяло
Челики у кохи пишут что быстрее у них тренится. Да и я заметил на Флюксе оно заметно лучше, особенно на больших датасетах.
Аноним 11/01/25 Суб 01:11:32 1007224 196
>>1007142
>А если по половине датасета - уже не появляются? А если по четверти?
Для простейших примеров вот посмотри https://www.youtube.com/watch?v=dZuYwwyGc4Y&t=998s
На половине "датасета" уже ведет себя как стохастический градиентный спуск, а не не-стохастический.
Даже если взять батч 199 из датасета размером 200, градиентный спуск все равно переходит в стохастику https://www.youtube.com/watch?v=dZuYwwyGc4Y&t=1226s
На настоящих нейронках конечно цифры могут быть другими, но тенденция та же.
Аноним 12/01/25 Вск 23:12:49 1009267 197
насколько чревато переименовывание файлов лор?
заебали уже всякие test_pook_srenk_000000012.safetensors
Аноним 12/01/25 Вск 23:24:14 1009293 198
>>1009267
вроде всё ок. в вебуи при применении лоры используется некое внутреннее название, а не имя файла. но если что напишите, если я хуйню сотворил
Аноним 13/01/25 Пнд 04:43:44 1009585 199
>>974163 (OP)
В чем рисовались схемы на 1 и 5 пикчах? Это какой-то сервис или приложение? В гитбуке можно было вроде рисовать что-то похожее
Аноним 13/01/25 Пнд 05:52:06 1009603 200
>>1009293
>но если что напишите, если я хуйню сотворил
Да нет, всё верно. Сетка использует для идентификации модели/лоры её хэш, на него же смотрит цивитаи когда крепит к картинке лоры и модель.
Единственно, могут быть экзотические случаи протекания имени лоры с отсутствующим соответствием в промпт, если ты добавил его в Comfy ради того, чтобы он включил хэш лоры в метадату и её подцепил Civitai. Обычно промпт не загрязняется именем лоры даже в Comfy, похоже что нужны особые условия.
Аноним 13/01/25 Пнд 08:38:13 1009630 201
>>1009603
>>1009293
В вебуе два способа вызова лоры - с внутреннего идентификатора, и по имени. Переключаются в настройках.
Внутренний обычно выглядиткак раз как test_pook_srenk_000000012
Поэтому у себя я переключил на вызов с имени.
Но тут могут быть косяки с совместимостью при переносе на другую машину или в облако.
Аноним 13/01/25 Пнд 08:42:47 1009632 202
>>1009603
понял, спасибо
пойду всё переименоооооооооооовывать и упоряаааааааадачивать

>>1009630
если имя изменить - промт меняется?
Аноним 13/01/25 Пнд 09:19:58 1009656 203
>>1009632
>если имя изменить - промт меняется?
Если изменить имя и вызов по имени установить - да.
Аноним 14/01/25 Втр 02:36:13 1010436 204
💰 Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget

Вышел официальный код и чекпоинты для MicroDiffusion от Sony.

Советую прочитать статью, в ней авторы подробно рассказывают о том, как они обучили модель уровня SD1 (MicroDiT) за $1890, используя диффузионный трансформер с MoE и наборы реальных+синтетических данных на 37M.

Теперь любой желающий может обучить модель Stable Diffusion v1/v2-уровня с нуля всего за 2,5 дня, используя 8 графических процессоров H100 (стоимостью < $2000)

Здесь (https://github.com/SonyResearch/micro_diffusion/tree/main/configs) можно посмотреть конфигурацию обучения для каждого этапа.

▪Paper: https://arxiv.org/abs/2407.15811v1
▪Github: https://github.com/SonyResearch/micro_diffusion
▪HF: https://huggingface.co/VSehwag24/MicroDiT
▪Dataset: https://github.com/SonyResearch/micro_diffusion/blob/main/micro_diffusion/datasets/README.md
Аноним 14/01/25 Втр 02:51:09 1010442 205
>>1010436
Как всегда учитывают только стоимость трейнинг рана. Обычно в таких случаях в бутстрап/генерацию синтетики вбухивается куда больше суммарно.
Аноним 15/01/25 Срд 11:28:03 1011726 206
>>1010436
заебись, скоро опять можно будет толкнуть свою 3060 за 1000 долларов
Аноним 15/01/25 Срд 16:56:22 1011976 207
>>1010436
Там есть несколько нюансов. Первый - это батчсайз, сможешь ли ты сделать успешный претрейн с батчсайзом ниже 64 - загадка. Второй - датасет. С другой стороны это сильно лучше чем у понибляди, который за два месяца на таком же конфиге из 10хH100 натренил каких-то мутантов, при том что даже не с нуля тренил.
Аноним 15/01/25 Срд 17:04:58 1011983 208
>>1011976
> с батчсайзом ниже 64
Для тренировки с шума даже 64 мало. Но с чекпоинтингом и/или аккумуляцией 64 можно хоть на одной H100 сделать. Если тренить анимублядство с нуля - там действительно сложно с датасетом ибо он оче несбалансированный с точки зрения знаний ирл и чего-то общего.
Аноним 15/01/25 Срд 20:31:12 1012175 209
>>1011976
Аккумуляция градиентов вроде как от батч сайза таки ничем не отличается по результату, но гпт пишет может быть разница на сотнях-тысячах из-за ошибок округления. Как там на самом деле - хз.
Аноним 17/01/25 Птн 02:21:10 1013427 210
>>1012175
Ошибки округления дождатся стохастик раундингом же, и еще кучей мокрописек
Аноним 17/01/25 Птн 23:11:25 1014073 211
Какую функцию шума используют при оценке сэмплеров, чтобы понять, что картинка улучшается, а не превращается в соль с перцем?
Аноним 22/01/25 Срд 07:20:09 1020584 212
Новое что-то придумал, или хуйню?
Обучение лоры/модели под адетейлер. Зашумляем латент не полностью, а квадратом внутри, рамка остается нетронутой. На рамку накидываем маску лосса.
Правка кода минимальна.
Аноним 22/01/25 Срд 18:46:27 1021320 213
>>1020584
Ты придумал инпэйнт модели.
Аноним 22/01/25 Срд 21:08:34 1021550 214
>>1021320
Ну я примерно так и подумал. Но если это так просто, то почему их никто не тренит? Какие есть проблемы с ними? Кривой инпеинт пиздец заебал.
Аноним 22/01/25 Срд 23:46:03 1021904 215
>>1021550
>Но если это так просто, то почему их никто не тренит?
Потому что они делаются суммой дельты модели и SDXL с базовой инпэйнт моделью.
Вдобавок многие модели нормально инпэйнтят из коробки, и ничего изобретать не надо.
Аноним 26/01/25 Вск 00:18:29 1026190 216
изображение.png 230Кб, 773x414
773x414
изображение.png 28Кб, 155x93
155x93
>>1010436
Датасет огонь конечно.
Аноним 29/01/25 Срд 14:39:24 1031514 217
Анон, так случилось, что я нищеброд и не могу позволить себе нормальную видеокарту, поэтому продолжаю юзать колаб, но там запретили вебинтерфейсы и генерировать теперь приходится кодом.
Подскажи, где что читать/смотреть по этому вопросу, на хагингфейсе очень неудобно сделана документация и часто устаревшая информация
Аноним 29/01/25 Срд 22:30:50 1032486 218
Аноним 30/01/25 Чтв 01:55:15 1033106 219
>>1031514
На цивите и тензорарте забанили?
Аноним 30/01/25 Чтв 05:09:03 1033244 220
image.png 24Кб, 630x546
630x546
хоспаде храни шедулер фри продижи с фузедом
1024 с батчем 2 тащит на 11.5 свободных кеках 3060, 10-15 сек на итерацию
Аноним 30/01/25 Чтв 06:19:00 1033262 221
>>1033244
>10-15 сек на итерацию
А че так дохуя?
>с фузедом
Из-за него? На 3090 есть смысл использовать?
Хм, может тебе пару 3090 дать погонять, чтоб ты не мучался, и взамен дал каких-нибудь тестовых датасетов и настроил там всю хуйню с конфигами?
Аноним 30/01/25 Чтв 06:36:22 1033265 222
>>1033244
> 1024 с батчем 2 тащит на 11.5
У тебя не работает фьюзед, он и без него столько же жрёт, он впринципе только для sdxl_train.py, что является файнтюном, а не лорой
> 10-15 сек на итерацию
Преврати в адам, включи продиджи степс 1 и лр просто сам через д0 задай, лол, чтобы избавиться от лишних вычислений
Аноним 30/01/25 Чтв 07:18:57 1033276 223
>>1033265
>У тебя не работает фьюзед, он и без него столько же жрёт
Работает, чучуть меньше потребляет, любая экономия - экономия, не так как если фул трен запускать, но экономия.
>он впринципе только для sdxl_train.py, что является файнтюном
Есть патч для использования с лорами.
Аноним 30/01/25 Чтв 07:34:47 1033279 224
221964299299407.png 19Кб, 630x546
630x546
438777417449958.png 19Кб, 609x566
609x566
>>1033262
>А че так дохуя?
3060 момент.
>Из-за него?
Нет, фузед небольшой бонус просто (в среднем 100-300 метров экономии с лорами в зависимости от параметров), пикрелы вкл фузед и выкл. Основное уменьшение врама от шедулер фри логики форка продижей.
>На 3090 есть смысл использовать?
Для лор нет наверно с твоими 24 гигами, вот если фул чекпоинт дрочить то да.
>может тебе пару 3090 дать погонять, чтоб ты не мучался
А как, мы же наверно в разных городах с вероятностью 99%...
>
Аноним 30/01/25 Чтв 07:59:15 1033288 225
>>1033276
> Есть патч для использования с лорами.
Покажи, хочу затестить тоже
Аноним 30/01/25 Чтв 08:39:14 1033303 226
>>1033279
>3060 момент.
В интернетах чет пишут о цифрах получше. На 3090 у меня на тестовой дефолтной лоре с адамом было типа около секунды-полторы, с 1 батчем.
>А как, мы же наверно в разных городах с вероятностью 99%...
Есть такая штука rms, тем более это отдельный "сервер", в виде материнки лежащей на подоконнике с воткнутыми в нее видюхами... А не мой комп, я к нему сам по rms и подключаюсь.
В принципе если закинуть в гостевую сетку и дать доступ кому-то ничего особо страшного случиться не должно...
Аноним 30/01/25 Чтв 11:53:41 1033464 227
>>1033106
Мне нужны дополнительные инструменты, типа айпиадаптера. Да и нравится вообщем-то в коде ковыряться, только информацию искать сложно
Аноним 30/01/25 Чтв 14:30:26 1033713 228
image.png 93Кб, 920x413
920x413
Аноним 30/01/25 Чтв 15:48:16 1033823 229
Аноним 30/01/25 Чтв 17:05:46 1033968 230
>>1033823
Если тебе не даёт покоя дноклассница, то сними шлюху уже и выеби её, приклеив фотку своей ЕОТ ей на спину.
Аноним 30/01/25 Чтв 18:47:15 1034119 231
>>1033968
Увы, возраст не тот.
Аноним 30/01/25 Чтв 21:08:48 1034349 232
>>1033968
Короче, не подходят мне эти сервисы, там ограничения и низкий уровень контроля. Хочу свое. Но мне нужны ресурсы почитать, чтобы разобраться
Аноним 31/01/25 Птн 17:44:33 1035850 233
image.png 59Кб, 1091x490
1091x490
>>1033288
>Покажи, хочу затестить тоже
В train_network.py после строки train_util.resume_from_local_or_hf_if_specified(accelerator, args) добавляешь с форматирование как пикрел:
if args.fused_backward_pass:
# use fused optimizer for backward pass: other optimizers will be supported in the future
import library.adafactor_fused

library.adafactor_fused.patch_adafactor_fused(optimizer)
for param_group in optimizer.param_groups:
for parameter in param_group["params"]:
if parameter.requires_grad:

def __grad_hook(tensor: torch.Tensor, param_group=param_group):
if accelerator.sync_gradients and args.max_grad_norm != 0.0:
accelerator.clip_grad_norm_(tensor, args.max_grad_norm)
optimizer.step_param(tensor, param_group)
tensor.grad = None

parameter.register_post_accumulate_grad_hook(__grad_hook)

В train_util.py комментируешь строку с ассертом чтобы работало не только с адафактором:

""" assert (
optimizer_type == "Adafactor".lower()
), "fused_backward_pass currently only works with optimizer_type Adafactor / fused_backward_passは現在optimizer_type Adafactorでのみ機能します" """
Аноним 31/01/25 Птн 17:53:34 1035862 234
>>1033303
>В интернетах чет пишут о цифрах получше.
Смотря с чем и как.
>Есть такая штука rms, тем более это отдельный "сервер", в виде материнки лежащей на подоконнике с воткнутыми в нее видюхами... А не мой комп, я к нему сам по rms и подключаюсь.
Ну можно конечно попробовать, как с тобой связаться?
Аноним 31/01/25 Птн 18:06:23 1035887 235
image.png 146Кб, 1511x504
1511x504
Кто не пробовал grams попробуйте кстати, отлично стабилизирует градиенты, на пике все что скачет - без грамс, все что не скачет - грамс.

Алсо после достаточно продолжительного ресерча выяснил, что gLoRA в комплекте с DoRA является наиболее похожей конструкцией на полноценный файнтюн, так что если кому жмет врам но хочется файнтюн экспириенс, то настраиваете отношение 1 к 1 по дименшенам и не настраиваете дикей весов (опционально).
Аноним 31/01/25 Птн 20:53:21 1036186 236
1669885073969.png 151Кб, 669x665
669x665
>>1035850
Тут инденты проебутся вместе с символами, которые могут использоваться в разметке, можешь скинуть лучше на какую нибудь хуйню по типу пастебина?
>>1035887
Подробнее? Едм2 тоже умеет подстраивать динамически вес лосса на разных таймстепах, чтобы не было этого
Аноним 31/01/25 Птн 21:25:42 1036232 237
image.png 130Кб, 979x916
979x916
image.png 147Кб, 979x1047
979x1047
Аноним 31/01/25 Птн 21:34:35 1036246 238
>>1036232
> Batch Size2048
Выглядит как хуйня, ещё и lr выше чем у Lion. Вангую на низком батчсайзе так же как и Lion будет сосать. Алсо, на их же графиках Lion плавнее, и вообще по хорошему смотреть надо на финальный loss, а не то что они тесты на 1000 шагах сделали даже не приблизившись к нижнему loss.
Аноним 31/01/25 Птн 21:35:17 1036249 239
>>1036232
>>1035850
Если хук работает корректно, то увидишь перед тренировкой строчку
[ProdigyPlusScheduleFree] Kohya pipeline detected with fused backward pass. Gradient hook patch successful.
Аноним 31/01/25 Птн 21:37:02 1036255 240
>>1036246
>Выглядит как хуйня
А работает хорошо
Аноним 31/01/25 Птн 21:41:49 1036261 241
>>1036255
> хорошо
Слабо верится без пруфов.
Аноним 31/01/25 Птн 21:43:26 1036264 242
>>1036261
Сомневаешься - не пользуйся, всё просто.
Аноним 31/01/25 Птн 23:01:22 1036369 243
>>1035887
>если кому жмет врам но хочется файнтюн экспириенс
А если реально полноценный большой файнтюн, канает или переобучается/недообучается?
Есть ли смысл сливать лору с моделью и новую дальше учить каждые n шагов?
Аноним 01/02/25 Суб 01:40:02 1036566 244
Аноны, а ни у кого нет ссылок на гайды по автоматизации для сборки и тэгирования датасета?

В идеале чтоб какой-нибудь штуке скармливаешь ссылки на основные медиа-платформы (галереи рисовак, тэги на бурах, всё такое), а там оно уже само все качает и по папкам раскладывает. Если надо - логины с куками подтягивает.
Потом тэгает чем-нибудь крутым и умным, и тебе остается только тренировку запускать.

Хочу несколько десятков лор натренить, но вручную качать, сортировать, тэгать - времени нет да и лень.
Аноним 01/02/25 Суб 01:48:13 1036575 245
>>1036566
Чел, скриптом на питоне за 10 минут делается всё.
Аноним 01/02/25 Суб 01:49:57 1036576 246
>>1036575
Даааа?
И скачивается, и сортируется, и тэгается?
Давай скрипт.
Буду благодарен.
Аноним 01/02/25 Суб 03:25:12 1036665 247
>>1036369
>А если реально полноценный большой файнтюн, канает или переобучается/недообучается?
Имеешь в виду чтобы многотысячный датасет? Ну я до 10к пикч гонял тесты, все нормально.
>Есть ли смысл сливать лору с моделью и новую дальше учить каждые n шагов?
Да, делают так для большей адаптации, каждую эпоху обычно замещают веса.
Аноним 01/02/25 Суб 04:55:03 1036698 248
>>1035862
Пиши на jirnycot@proton.me или в тг @u4ku94kkw6 завтра к вечеру буду, либо ща если успеешь, через час съебну. Только закончил настраивать.
Аноним 01/02/25 Суб 05:02:21 1036702 249
>>1036249
Нету такого в логе, памяти вроде меньше стало жрать, но тренится стало подозрительно медленнее, ещё и это пропало
> [ProdigyPlusScheduleFree] Prodigy stepsize adaptation disabled after 1 steps for param_group 0
Можешь просто скинуть файлом целиком свой train_network.py? А лучше ссылку где обсуждение этой хуйни на жидхабе идёт, хз где проебался
>>1036232
> Пикрел, имплемент прямо в оптимайзер через https://rentry.org/k4hnesv9
Куда именно в оптимайзер и как это должно вызываться, не просто же там это условие и на этом всё, тоже бы обсуждение почитал где нашёл
Аноним 01/02/25 Суб 05:02:55 1036704 250
>>1036702
> подозрительно медленнее
Точнее наоборот, быстрее
Аноним 01/02/25 Суб 18:26:36 1037341 251
>>1036702
>Нету такого в логе
Я так понимаю ты в отличный от PPSF оптимайзер юзаешь, конкретно этот патч только для него, зависимости прописаны в самом оптимайзере и тебе надо под свой оптимайзер их переписать. Если не можешь в кодинг, то скачай visual studio code и там попросит гпт или соннет тебе адаптировать зависимости для хука из https://github.com/LoganBooker/prodigy-plus-schedule-free/blob/main/prodigyplus/core_optimiser.py и https://github.com/LoganBooker/prodigy-plus-schedule-free/blob/main/prodigyplus/prodigy_plus_schedulefree.py в файл/скрипты твоего оптимайзера.
>А лучше ссылку где обсуждение этой хуйни на жидхабе идёт, хз где проебался
https://github.com/LoganBooker/prodigy-plus-schedule-free/issues/7

>Куда именно в оптимайзер и как это должно вызываться, не просто же там это условие и на этом всё, тоже бы обсуждение почитал где нашёл
Тебе нужно определить новый гиперпараметр оптимайзера use_grams, типа как тут https://github.com/LoganBooker/prodigy-plus-schedule-free/commit/4b36ca7298245ac7337240a8cc2b239e9c8a7707
Опять же можешь все (через две папки проектов - в одном PPSF, во втором скрипт твоего оптимайзера) запихнуть в вижл студио и оно тебе все сделает.

>Точнее наоборот, быстрее
Это значит что скорее всего тренировка идет вхолостую и сеть не учится.
Аноним 02/02/25 Вск 23:03:26 1038942 252
>>1037341
> Я так понимаю ты в отличный от PPSF оптимайзер юзаешь
Нет, я же скинул даже строчку из лога выше свойственную ppsf с отрубанием продиджи степсов
> зависимости прописаны в самом оптимайзере
Я порылся чуть и увидел что там принтит подобную херню в консоль, судя по всему оптимайзер вообще не работает, может какой то конфликт параметров
> https://github.com/LoganBooker/prodigy-plus-schedule-free/issues/7
Вот именно такое поведение и наблюдается, сделал как бы всё тоже самое и перепроверил даже, запускал просто кохьевским фьюзедом, оптимайзеровским и обеими сразу, но нихуя, можешь полный конфиг или комманду запуска скинуть? Полюбому какой то баг
Аноним 03/02/25 Пнд 04:33:51 1039197 253
>>1037341
>>1038942
Забей вообщем, получилось запустить нормально, криво писал фьюзед арг кохьевский. С более высоким димом и батчем больше экономит, чем как у тебя 100мб или сколько там
Аноним 03/02/25 Пнд 13:00:03 1039437 254
Не читал ничего, пишу впервые. Хочу ответ для тупых, к коим, видимо, и отношусь.
Если после установки FLUX по гайдику из Интернетика, запуску его в webui и попытке генерации я получаю "RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cpu and cuda:0! (when checking argument for argument mat1 in method wrapper_CUDA_addmm)", то это просто значит, что я чмо?
Аноним 03/02/25 Пнд 13:05:59 1039441 255
>>1039339
Очевидно же что для ламы тебе важнее память, больше памяти и быстрее зарешают
Аноним 03/02/25 Пнд 13:20:34 1039459 256
>>1039437
set CUDA_VISIBLE_DEVICES=0
в батник, которым запускаешь попробуй засунуть
еще set commandline_args =-- medvram попробуй
Аноним 03/02/25 Пнд 13:28:16 1039473 257
>>1039459
а на что конкретно эти параметры lowvram medvram влияют? и какие рекомендации по их применению?
Аноним 03/02/25 Пнд 13:40:03 1039487 258
>>1039473
medvram если видеопамяти не хватает, разбивает модель на 3 части, только одна из частей модели в видеопамяти одновременно, скорость не замедляет
lowvram еще больше частей делает, когда уже даже с medvram не хватает, тут уже значительное замедление скорости генерации, рекомендуется только если на всех других настройках падает с ошибками памяти
Аноним 03/02/25 Пнд 13:42:21 1039488 259
>>1039473
Еще можешь попробовать vram offloading в драйвере включать-выключать, если ошибки памяти, но он включенный тоже значительно замедляет генерацию. Зато ошибки памяти вообще исчезают, если обычной памяти в компе хватает.
Аноним 03/02/25 Пнд 13:43:42 1039489 260
>>1039488
так, а вот это где включается, а то оно у меня до сноса и переустановки енвайренмента вроде работало а по свежему перестало...
>>1039487
спасибо за пояснение
Аноним 03/02/25 Пнд 13:49:00 1039496 261
image 193Кб, 640x659
640x659
>>1039489
Тут. Но это глобально для всех программ, а лучше зайти в соседнюю вкладку Program Settings и включить-выключить ее отдельно для программы webui\venv\scripts\python.exe, тогда будет только для webui, и на остальные игры и прочее не влиять.
Аноним 03/02/25 Пнд 19:04:26 1039837 262
Аноним 03/02/25 Пнд 20:48:56 1039990 263
Аноним 04/02/25 Втр 05:00:36 1040527 264
Аноним 04/02/25 Втр 09:46:19 1040588 265
aq0Bl374700w0.jpg 35Кб, 629x480
629x480
Извините что отвлекаю.

Посоветуйте с чего начать вкат в SD? Курсы термины, уроки и прочее. Что-то "как сделать бублик в Блендере".
Аноним 04/02/25 Втр 10:32:08 1040603 266
>>1040588
Скачиваешь с гитхаба koboldcpp, копируешь exe в папку, кликаешь на него, скачиваешь чекпоинт с цивитаи, указываешь его в кладке image gen, запускаешь браузер, ждешь, в консоли копируешь ссылку на sdui, вставляешь в браузер, идешь в вкладку txt2image, в окне промта вводишь 1girl, european woman, big boobs, наслаждаешься картинками бапп с одинаковым нейроебалом. Если у тебя аутизм и тебе не хватит этого поиграться на пару вечеров, можешь после этого начинать ставить комфи, качать лоры на пролапс и т.д.
Аноним 04/02/25 Втр 13:47:01 1040744 267
610371248148071.png 243Кб, 1416x961
1416x961
127525299622303.png 432Кб, 1885x678
1885x678
>>1040588
>Посоветуйте с чего начать вкат в SD?
Литературно пикрел 1.
Качаешь портабельный комфи https://github.com/comfyanonymous/ComfyUI/releases/latest/download/ComfyUI_windows_portable_nvidia.7z

Распаковываешь в удобную папку без руске буков.

Идешь качаешь какуюнибудь модель с цивитаи допустим натвис 2.7 https://civitai.com/models/617652?modelVersionId=1030169 , кидаешь ее в ComfyUI\models\checkpoints

Качаешь это (это так называемый консистенси алайнер, позволяет достигать результата без лишних усилий и быстрее, чем обычное прописывание тонны токенов на до черта шагов) https://huggingface.co/tianweiy/DMD2/blob/main/dmd2_sdxl_4step_lora_fp16.safetensors кидаешь в ComfyUI\models\loras
Также от местного анона есть эти моды https://huggingface.co/YOB-AI/DMD2MOD/tree/main https://huggingface.co/YOB-AI/HUSTLE/tree/main грузятся также в loras и используются в основном с NoobAI моделькой и ее производными , кароч пик 2

Качаешь на всякий случай sdxl vae (вообще оно обычно запечено в моделях, но иногда бывает не запечено, в случае с 1.5 версией оно не запечено и там другая вае модель) https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/blob/main/sd_xl_base_1.0_0.9vae.safetensors и кидаешь в ComfyUI\models\vae

Запускаешь комфи через run_nvidia_gpu.bat

Workflow - Browse Templates и загружаешь базовый пайплайн, добавляешь ноды как на пикче под скачанные модельки, обрати внимание что цфг 1 и семплер LCM, это под DMD2 лору чтобы работало нормально, негативы на цфг 1 не работают (выше 1 работают), так что можешь их не писать, в позитиве пишешь ну допустим woman nude selfie, жмешь рендер и готов твой бублик в блендере.

Остальное это нюансы пользования, расширения, мокрописьки, тонны семплеров и щедулеров, использование обычной генерации без всяких убыстрялок, контролнеты, айпиадаптеры, ллм в качестве промптера... Проще спрашивать что конкретно нужно и как реализовывать итт или искать на профильных ресурсах.
Аноним 04/02/25 Втр 14:29:04 1040810 268
image.png 119Кб, 1488x773
1488x773
image.png 39Кб, 1151x108
1151x108
Че какой там самый ёбовый кепчер щас для буру лайк под сдхл?

Пока остановился на https://github.com/EvilBT/ComfyUI_SLK_joy_caption_two
Там связка из ламы, сиглипа гугла и joy-caption-alpha-two, удобно что работает прям из комфи и куча поднастроек уровня исключения описания ватермарок текста, токена вызова и тд, прогнал тут порнуху на тест, делает прям хорошо, гораздо лучше чем торигейт который в токенизацию может через раз и шпарит в основном текстом под т5.
В четырех битах занимает около 8 гигов врама, картинки описывает долго но качественно зато.
Есть еще что-то более пиздатое или я нашел самое ёбовое?
Аноним 04/02/25 Втр 14:43:14 1040824 269
>>1040810
>картинки описывает долго
поправка, зависит от выбранных опций, можно снизить до 10-15 сек на пикчу на моей карте
Аноним 04/02/25 Втр 15:14:06 1040869 270
>>1040810
бля какой же он охуенный, впизду вдтаггер ебучий
Аноним 04/02/25 Втр 15:21:11 1040880 271
>>1040603
>>1040744

Спасибо.
Что можете сказать по поводу StabilityMatrix ?
Аноним 04/02/25 Втр 15:30:59 1040894 272
Аноним 04/02/25 Втр 15:35:05 1040899 273
image.png 13Кб, 240x290
240x290
>>1040894
Вдфанбой, спокуха, вот эта опция была выбрана. Под буру лайком я подразумевал токены через запятую, о которых знает сдохля, анимекал я не тренирую. Хочешь аниме с буру опцией прогоню специально для тебя?
Аноним 04/02/25 Втр 15:35:28 1040901 274
Аноним 04/02/25 Втр 15:39:43 1040910 275
>>1040901
>триггернулся на гайд как вкатиться без задней мысли
>хрю хрю комбо собрал уиии ряяя дмд лапша лоли хрюююю
Тебе нервишки подлечить надо, а то на людей кидаешься, собака сутулая.
Аноним 04/02/25 Втр 15:45:34 1040928 276
>>1040880
>Что можете сказать по поводу StabilityMatrix ?
Ничего, не вижу смысла в таких комбайнах, разве что для красивой картинки на макбуке. Оно еще скорее всего ресурсы кушает как градио, т.к. насколько я понял на дотнете сделано.
Аноним 04/02/25 Втр 15:46:39 1040931 277
>>1040810
Можно это использовать: https://github.com/jhc13/taggui
И протэгать, и поправить. Хотя интерфейс работы с тэгами мог быть и получше но все равно быстрее вд-таггера для автоматика.
Поддерживает несколько моделей.

Самое простое и быстрое, что сейчас есть для буру-тэгов - eva02 от SmilingWolf.
https://huggingface.co/SmilingWolf/wd-eva02-large-tagger-v3

Мультимодалки обычно нацелены на "натуральный" язык разной степени структурированности, и с тэгами лажают.
Не прям вообще "не могут", но шизят, выдумывают несуществующие тэги, или через раз сбиваются на свой "базовый" формат.
По крайней мере так ведут себя те, что я тестировал.
Аноним 04/02/25 Втр 15:47:45 1040934 278
>>1040910
Он все правильно написал, но забыл упомянуть, что этот "гайд как вкатиться без задней мысли" идентичен простыням в шапках на 4pda.to, где васяны сухо, но сочно описывают их безумие.
Аноним 04/02/25 Втр 15:50:40 1040936 279
>>1040934
Хуйню написал, вообще ни разу не похоже на гайды по рутированию ксяоми на 100500 шагов и линкованием постов через посты на посты с постами о постах.
Аноним 04/02/25 Втр 15:50:42 1040937 280
>>1040910
>как вкатиться
>лапша
>дмд
Чел, не учи нуба плохому.
Если он захочет стать красноглазиком, трахающимся со спаггети, он сам до этого доберется, когда-нибудь.
Но новичкам я бы эту штуку не советовал категорически.
Особенно - дмд и прочие лоры-ускоряки, ебущие качество картинки. Зато быстро!
Лучше уж ДипКэш юзать, дает ускорение, но без потери качества картинки.
Аноним 04/02/25 Втр 15:52:45 1040939 281
>>1040899
А нахера тебе простыня говна конкретно в буру стиле? Это самый главный недостаток буру теггинга, из за которого плохо протеганные концепты зачастую получаются нормально лишь на рандом переролливанием, либо каким нибудь экзотическим вовсе не очевидным комбо из других
Аноним 04/02/25 Втр 16:14:05 1040990 282
>>1040937
>Чел, не учи нуба плохому.
Так я хорошему научил. Плохому это если бы я факас посоветовал и бредпитта в негатив.
>Если он захочет стать красноглазиком, трахающимся со спаггети, он сам до этого доберется, когда-нибудь.
Ты ангажированная рваная попа, мог бы удержать свою ненависть к CT лорам и лучшему UI, но нет, тебе обязательно надо пердануть свое мнение, когда ситуация буквально петух и микрофон - тебя не спрашивали.
>Но новичкам я бы эту штуку не советовал категорически.
Если бы мне так расписали года три назад, то я был бы очень рад и меньше бы человекочасов потратил на генерацию хуиты, так что твое мнение инвалидно, можешь в курсе не держать.
>Особенно - дмд и прочие лоры-ускоряки, ебущие качество картинки. Зато быстро!
Какое нахуй ебущие качество картинки, ты вообще там ебнулся? Ты вообще понимаешь как работают CT лоры? Инфа сотка что нет. Выдача другая, нежели классик метод промтинга, но она не ебет качество (весь сд тред на дмд сидит, рвись не рвись но это факт), она просто работает эффективнее и по другому достигает минимумов. Единственное что конкретно дмд может ебать это учитывание токенов, т.к. конечные токены учитываются лучше при большом разнообразии.
>Лучше уж ДипКэш юзать
Не лучше.
Аноним 04/02/25 Втр 16:15:45 1040994 283
>>1040939
>А нахера тебе простыня говна конкретно в буру стиле?
А нахера мне т5 для сдхл?
Аноним 04/02/25 Втр 16:59:45 1041043 284
>>1040994
В дедомоделях разве не более дескриптив капшенинг, но без прозы?
Аноним 04/02/25 Втр 17:28:52 1041112 285
>>1040990
>Так я хорошему научил.
Нет.
>и лучшему UI
Кекнул.
>года три назад
А шо, комфи тогда уже был? Или ускоряки эти дрянные? Ты научился во времени путешествовать?
>весь сд тред на дмд сидит
Ну это, конечно, отличная демонстрация "качества" получается, да. Посмотришь на картинки там, и глаза порой вытекают.
>Не лучше.
Держи в курсе.
Аноним 04/02/25 Втр 20:40:44 1041434 286
Где можно погонять препроцессоры контролнета так чтобы экспортировать картинку? Нужен либо онлайн либо что-то простое, без установки питона и питорча. Перехожу на минимализм в SDCPP, но там встроенный препроцессор только на canny, а остальное нужно откуда-то брать.
Аноним 04/02/25 Втр 21:24:03 1041555 287
>>1041112
>Неть
>Кекнул))
>Хрюк
>субъективщина
>пук
Иди на хуй кароч в окно прыгни рыбкой, факас. Очевидные вещи я тебе объяснять не собираюсь и продолжать унижать тебя лень. Можно было бы дальше затирать про то что такое процесс дистилляции модели и производные из них лоры, почему турбо дистиллят от стабилити вытягивает фигуры при генерации не в разрешение, почему плохо дистиллируется dit модель и проще перетренить новую как сделали стабилити с медиумом, почему не делаю дистилляцию по типу DC-Solver и прочие приколы, но ты видимо даже не в курсе зачем вообще изначально существуют ct лоры - чтобы в лайвмоде рисовать с помощью нейронки и иметь максимальную консистенцию для семплера на который надрочена ct по таймстепам; со своим обосранным дипкешем (который суть те же укорачивания векторов по таймстепам, но без дистилляции путей) можешь хуй пойти соснуть, который ни скорости не дает, ни стабильности, его настроенный raunet ебет с MSWMSA атеншнером. Свободен.
Аноним 04/02/25 Втр 21:29:03 1041565 288
>>1041434
>либо что-то простое, без установки питона и питорча
в комфе встроенный енвайронмент питона с питорчем же, распаковал и запустил
Аноним 04/02/25 Втр 21:34:56 1041580 289
>>1041043
О, а ты прав оказывается, никогда не задумывался о таком, настолько привык к токен промптингу:

Базовая SDXL модель обучалась на огромном наборе пар «текст–изображение», где текстовые описания предоставлялись в их естественной, полноформатной форме. Это означает, что в исходных данных использовались полноценные описательные предложения, а не просто наборы токенов, разделённых запятыми.

Тексты, использованные при обучении, представляли собой естественные описания изображений. Обычно это полноценные предложения или фразы, отражающие смысл изображения, а не искусственно разделённые списки ключевых слов.

Естественно сформулированные описания обрабатываются токенизатором модели, который разбивает текст на токены (единицы, понятные модели). При этом модель не «видит» запятые как отдельный метод структурирования информации — она работает с токенизированным представлением исходного текста, каким бы он ни был (предложение или список).

Хотя при генерации изображений пользователи могут экспериментировать с различными стилями промптов (например, перечисления через запятые для акцентирования внимания на отдельных деталях), именно в обучающих данных использовались естественные, описательные тексты. То есть стиль промпта, который сейчас популярен в сообществе для управления весом элементов описания, не является отражением того, как модель изначально обучалась.

Таким образом, базовая SDXL модель обучалась на полноценных описаниях изображений, а не на искусственно разделённых запятыми токенах.
Аноним 04/02/25 Втр 21:38:36 1041595 290
>>1040810
>картинки описывает долго но качественно зато
Прогнал 60 картинок, ушло 22 минуты, неплохо, описания очень хорошие даже править ничего не нужно.
Аноним 05/02/25 Срд 01:01:26 1042006 291
>>1041555
>в окно прыгни рыбкой, факас.
На мамку твою рыбкой запрыгнул, утром проверишь.
А ты чего в ответ ждал?

>я тебе объяснять не собираюсь
Какая-то тарабарщина на вскукарекском, в попытке показаться умным.
Взял бы, да продемонстрировал работу своих ускоряк на практике, делов то.
Промпт\настройки, грид до, грид после, затраченное время.
Но этого, понятное дело, не будет.
Все, сгенеренное с этими лорами-ускоряками, что я пока видел, было либо арефаченным\размазанным говном, либо лютым черрипиком, либо улучшение изначальной "быстрой" генерации без подключения ускоряк, либо такие танцы с бубном, что лучше уж без них вообще.
Можешь? Переубеди.

При этом сокращение времени генерации с дипкэшом я у себя отлично вижу. А заодно вижу сохранение 95% исходной картинки, нулевое изменение параметров генерации (негатива, цфг, сэмплеров/шэдулеров). Включил - и работает.
Аноним 05/02/25 Срд 01:25:51 1042025 292
image.png 909Кб, 1280x835
1280x835
>>1042006
>кудах
>Переубеди
Щас метнусь петушку с двачей чето доказывать, совсем ебнулся чтоли?
Аноним 05/02/25 Срд 02:15:43 1042048 293
>>1040588
По какому-нибудь гайду ставишь автоматик/фордж и пытаешься генерировать. Если пердоля и не пугаешься инфернальных node-based-ui - ставь комфи, невольно быстрее освоишь что к чему и как устроено. Ссылку неплохую дали тебе. Главное помни что dmd и прочие ускорялки - сделка я дьяволом, ускорение дается ценой побочных эффектов и деградации. Если есть возможность - хотябы для начала откажись от них, а потом уже сам решишь.
>>1040603
> Скачиваешь с гитхаба koboldcpp
> вкат в SD
Надеюсь ты тралишь, хуже совет не придумаешь.
>>1040810
Обозначь какие картинки собрался тегать и для какой модели их юзать. Джойкапшн слабый, на выбранные параметры кладет болт и неточный, но для простых вещей типа "протегать еот" хватит.
>>1041043
Имея окно в 75 токенов особо не насрешь шизопромтами, хотя некоторые пытаются.
>>1041580
> наборы токенов
> разделённых запятыми
Чето проиграл, скоро тензоры двоеточиями начнут разделять.
> обучалась на полноценных описаниях изображений
Ты загляни из интереса в датасет. Там буквально:
> A photo of a black cat
описания преимущественно короткие, а смысловую часть занимают отдельные слова, разделения запятыми тоже много. Можешь еще как устроен clip ознакомиться.
> При этом модель не «видит» запятые как отдельный метод структурирования информации
Полнейший пиздеж, наоборот после тренировки они ими и становятся, а энкодер прекрасно их воспринимает, поскольку на них приходится отдельный токен. Не верь слепо выдаче языковых моделей в таких специфичных вопросах, особенно когда сам дал наводящий вопрос.
Аноним 05/02/25 Срд 02:23:45 1042050 294
>>1042048
>наоборот после тренировки они ими и становятся, а энкодер прекрасно их воспринимает, поскольку на них приходится отдельный токен
>модель не «видит» запятые как отдельный метод структурирования информации — она работает с токенизированным представлением исходного текста, каким бы он ни был
Так гпт это и сказало.
Аноним 05/02/25 Срд 02:26:55 1042052 295
кек.png 1252Кб, 1248x1520
1248x1520
>>1042025
Ожидаемо.
Хотя, казалось бы, ген два раза запустить на разных настройках, всего и делов.
Аноним 05/02/25 Срд 02:34:36 1042056 296
>>1042050
Сформулировано оче расплывчато, типа не видит, но с токенизированным представлением работает. А дальше трактуй как хочешь, можно уцепиться и доказывать что не являются.
По факту элементарный пример: "cowboy shot" и "cowboy, shot" на нормальной модели дадут совершенно разные результаты. Если что радикально за строго буру-стайл не агитирую, но лучше уж так, чем шизоидные полотна ни о чем.
>>1042052
Очевидно, придется помучаться и подкручивать, чтобы подобрать доказательную базу, где дмд даст явный буст без сопутствующих приколов. Проще насрать терминами и апеллировать к вырванным из контекста фразам, пыжась и пытаясь напугать.
Аноним 05/02/25 Срд 04:35:22 1042105 297
>>1042052
Ты же петушок на спецзадании, будешь отрицать все что угодно, тебя ток обоссывать надо, а не доказывать что-либо.

>>1042056
>Очевидно, придется помучаться и подкручивать, чтобы подобрать доказательную базу, где дмд даст явный буст без сопутствующих приколов.
Не нихуя подобного, у меня дмд по дефолту включен, я с ним и лоры тесчу т.к. он дотягивает до нужной кондиции недотрены, и просто так, постоянно. То что у вас двоих на самом деле скорее всего семена трясет культ ненависти к дмд - только ваш скилл ишуе.
>Проще насрать терминами и апеллировать к вырванным из контекста фразам, пыжась и пытаясь напугать.
Терпи.
Аноним 05/02/25 Срд 14:04:05 1042423 298
>>1042056
>Проще насрать терминами и апеллировать к вырванным из контекста фразам, пыжась и пытаясь напугать.
Всё так. C "напугать" у него, правда, не получилось.

>>1042105
>на спецзадании
Вау! Теории заговора и сюда добрались? Кто бы мог подумать...
Оказывается, есть те, кто получает "спецзадания", чтоб негативный пиар таким крутым и полезным ускорякам делать?
Где записаться можно, сколько платят?
>у меня дмд по дефолту включен
А, так ты уже и забыл, как нормальные гены выглядят. Тогда да, разницы ты действительно не увидишь.
>только ваш скилл ишуе.
И тут у нас обычная отмаза. У всех поголовно скилл ишью, один ты такой умный красивый, в белом пальто стоишь, на дмд дрочишь, и у тебя всё крутяк.
Аноним 05/02/25 Срд 19:34:57 1042723 299
>>1042105
> у меня дмд по дефолту включен
По тебе видно, лол. И скиллы в поломанном и2и с лишними пальцами и артефактами узнаются.
> дотягивает до нужной кондиции недотрены
Делает типикал прожарку, чем создает иллюзию, хотя где-то может ролять. Но то что ты пользуешься какими-то "недотренами" это уже говорит о многом.
> культ ненависти к дмд
Костыль со своими плюсами и минусами, на него всем похуй. А ненависть - к долбоебам, которые в оправдании своей всратости настолько преисполнились, что стали агрессивно агитировать за свои любимые костыли и форсить "тольковыиграли". Да и просто пиздаболов никто не любит.
>>1042423
> C "напугать" у него, правда, не получилось.
Чего еще с залетного дмд-шиза ожидать, только дозу кринжа привнес.
Аноним 05/02/25 Срд 21:49:11 1042961 300
Пиздец у вас тут высокоинтеллектуальные беседы, прям будто всё те же два озлобленных на мир анонима из соседнего треда и тут сидят.

>>1042423
> забыл, как нормальные гены выглядят
Я тут мимо проходил, пока ОП другого треда пропал, но всё еще помню, что нормальные от ускоренных отличаются примерно, как 20 секунд отличаются от 3-х минут. А что касается того, как они выглядят, то их на цивите под каждой моделью полно, не могут же там только и исключительно безрукие постить.
Аноним 05/02/25 Срд 22:29:10 1043051 301
>>1042961
> не могут же там только и исключительно безрукие постить
Миллионы мух? Да не, не может быть.
Аноним 05/02/25 Срд 22:45:55 1043071 302
>>1043051
Ну ок. Допустим там на цивите только криворукие новички, которые не могут совладать с моделью. Но в сд-треде же давно сидит мастер, который в отличие от всех остальных точно знает, как что работает и как получать качественные картинки без еретических лор. Почему он не постит годноту на чистой модели без ускорялок, а только поливает ведрами хейта всё, что ему кажется дмд (именно кажется, промахов у него не меньше, чем попаданий)? Если бы он реально мог что-то качественное сделать на голой модели, то выкладывал бы нормальные гены, а не только текст или явно намеренно всратые пики.
Аноним 06/02/25 Чтв 10:55:40 1043671 303
>>1042723
>>1042423
>>1043051
>визг скилишуе девочки
Дыши глубоко, не визжи.

>>1042961
>>1043071
Да не разгоняй дальше срач, этот обосрыш как вошел в режим спецзадания в сд треде, так и не вышел из него итт, только хрюкает, агрится с "умных слов" и на понт берет, такого ток по ебалу хлестать хуем.
Аноним 06/02/25 Чтв 11:49:24 1043713 304
>>1043671
> не разгоняй дальше срач
Ухожу. Перекат есть, я спокоен.
Приятного общения.
Аноним 06/02/25 Чтв 13:52:45 1043793 305
изображение.png 4Кб, 202x112
202x112
>>1043671
Ты промазал. Нас тут минимум двое.
А может, даже и трое, хе-хе.

>этот обосрыш как вошел в режим спецзадания в сд треде
Какой же ты шиз. Я в сд-тред уже и забыл, когда последний раз писал.
Особенно смешно выглядит твои задвиги про "спецзадания".
Совсем кукухой поехал.
>и на понт берет
Ну да, ведь продемонстрировать преимущество твоей любимой технологии так сложно, так сложно неиронично, но да. Вместо всего этого срача можно было бы сделать наглядное сравнение генов, жидко облажаться, и мы бы закрыли тему.
Аноним 06/02/25 Чтв 14:12:04 1043813 306
А в чем собственно конкретно заключается high-res fix, изображение тупо апскейлится и затем делается img2img по квадратам с низким денойзом и одинаковым сидом?
Аноним 06/02/25 Чтв 14:42:45 1043865 307
>>1043813
Увеличивается размер, добавляется шум, снова обрабатывается моделью.
Сид один на оба пика (хотя можно и поменять), денойз ты сам задаешь, как и апскейлер. Можно латент, можно ГАН, можно ДАТ. Базово - латент.
По-умолчанию картинка обрабатывается одним куском, без разбиения на тайлы. Но и тут можно всякого наворотить, при желании.
Аноним 06/02/25 Чтв 14:45:44 1043872 308
>>1043865
А промт из оригинала?
>По-умолчанию картинка обрабатывается одним куском, без разбиения на тайлы.
Странно, я всегда думал что там по тайлам. Пытаюсь воспроизвести хайрес в SDCPP
Аноним 06/02/25 Чтв 14:51:16 1043887 309
image 166Кб, 2225x641
2225x641
>>1043813
Тема загадочная, потому что хотя вроде все и так просто, но старый хайрез фикс работал по-другому, и новый так и не может его воссоздать ни на каком апскейлере. Только откат в старую версию webui помогает. Квадратов вроде там не было, это в SD Upscale они. Хайрез вроде как апскейлит в латентном представлении (пикселей еще нет, но есть все детали от генерации первого пасса), поэтому он может добавить больше деталей чем img2img, и потом переводит в пиксели. Img2img же работает уже на пикселях (вся инфа от первого пасса утрачена), переводит эту пиксельную модель в латентное представление, апскейлит и потом обратно. Поэтому по идее Hires fix должен получать изображения лучшего качества, чем img2img, т.к. у него информации от первого пасса больше. На практике однако зачастую можно лучших результатов все равно в img2img добиться.
Аноним 06/02/25 Чтв 14:51:41 1043888 310
изображение.png 49Кб, 759x395
759x395
>>1043872
Базово - из оригинала.
Но можно и менять.
Так это в автоматике сейчас выглядит.
Аноним 06/02/25 Чтв 14:55:32 1043897 311
>>1043887
>На практике однако
если использовать одни и те же настройки, получается плюс-минус одинаково.
Сходство картинок процентов 90-95, если не все 99.
По крайней мере, из моего опыта.
Аноним 06/02/25 Чтв 15:22:19 1043946 312
image 919Кб, 1260x349
1260x349
>>1043897
Латентные апскейлеры работают в латентном пространстве, так что они больше деталей могут добавить, которые другие апскейлеры не смогут. И изображения не могут быть полностью схожими, у них разная изначальная информация. Пример на пике, у хайреза был доступ к латентной модели, он ее не пересобирал из пикселей, поэтому смог нормально заапскейлить лису. Но часто это ведет и к нежелательным результатам, изображение слишком сильно меняется.
Аноним 06/02/25 Чтв 15:32:19 1043966 313
>>1043897
Забыл написать, разница только если Upscaler Latent (их там штук 6). Если другой апскейлер, разницы между img2img и Hires fix может и правда не быть - латентное представление тогда не используется, как и все его преимущества-недостатки для Hires fix.
Аноним 06/02/25 Чтв 16:23:31 1044052 314
>>1043793
>Ты промазал. Нас тут минимум двое.
Ну значит это твой однояйцевый братишка, и у вас один моск на двоих.
>А может, даже и трое
А может бесконечность, хуль, ты о себе во множественном чесле пиздишь весь тред, шизоид.
>Какой же ты шиз. Я в сд-тред уже и забыл, когда последний раз писал.
А воняешь как будто ток обосрался.
>Особенно смешно выглядит твои задвиги про "спецзадания".
Так буквально поведение у тебя такое. Корректируй поведение чтобы не ссали за шиворот.
>ведь продемонстрировать преимущество твоей любимой технологии так сложно, так сложно
>неиронично, но да
>Вместо всего этого срача можно было бы сделать наглядное сравнение генов
>жидко облажаться
Ну вот видишь, типикал спецзадание, ты уже сформировал мнение, сам себя подтвердил и пытаешься чето на понт взять. Ну и какой смысл с тобой дискутировать? Ты же натуральный скот с фиксацией на сверхценной идее, тебе хоть миллиард пруфов кинь - ты будешь врети орать как резаная свинья. Че думаешь я первый раз на двач зашел? Вас таких уебищ по всему двачу вагон гоняет, мобильный пункт вытирания хуёв прям. Так что вместо понтов ты ничего не получишь, даже не пытайся хрюкать.
>и мы бы закрыли тему.
Она уже закрыта была, когда ты вытащил хуй изо рта и проперделся своим первым постом в мою сторону. Терпи, обтекай.
Аноним 06/02/25 Чтв 17:36:10 1044208 315
эх.png 2120Кб, 1440x1440
1440x1440
>>1044052
И вот с такими людьми мы живем рядом...
Слов нет, одни фэйспалмы.
Аноним 06/02/25 Чтв 17:47:50 1044232 316
asu.png 1178Кб, 960x960
960x960
asu hires.png 2503Кб, 1440x1440
1440x1440
asu i2i.png 2497Кб, 1440x1440
1440x1440
>>1043946
>>1043966
По идее, и2и тоже имеет возможность апскейла через латент, но я, если честно, не совсем шарю, как оно там работает.

Как пример:
Первый пик - чистый вывод.
Второй пик - апскейл латентом, х1.5, 0.6 денойз, в хайрезфиксе.
Третий пик - апскейл латентом, х1.5, 0.6 денойз, но в и2и, на том же сиде.

Как видишь, различий не очень много, но хайрез все-же чуть поточнее. А может просто сид неудачный.
Аноним 06/02/25 Чтв 17:58:50 1044262 317
>>1043071
> только криворукие новички, которые не могут совладать с моделью
Среди них много опытных "новичков", наворачивающих слоп не первый год. Это уже мемная классика, когда юзер с десятками-сотнями тысяч запощенных пикч берет какую-то сложную лору под конкретную модель из современных, и пытается натянуть ее на пони с кучей мусорных тегов и шизопромтом. Получается отвратительно, но он старается изо всех сил, постя подряд десятки таких.
> Почему он не постит годноту на чистой модели без ускорялок
Приходи в анимублядский, большинство пикч там именно такие. Дедовскими не интересуюсь, но полагаю и там найдутся приличные.
>>1043671
Дмд шиз как есть, окружен но не сломлен. Твоя позиция - оправдание всратой ускорялки любой ценой. Ты в этом так заинтересован потому что считаешь свои генерации и прочее серьезным навыком и достижением, любая критика используемых средств - личное оскорбление, какое-либо признание недостатков - экзистенциальный кризис.
Окружающие лишь говорят - у дмд есть проблемы, не стоит советовать ее новичкам как панацею и врать. Но ты, вместо того чтобы согласиться с фактом - лишь исходишь на говно и дерейлишь, скатывая все в срач. А потом начинаются апелляции и маневры, чтобы побольше запутать.
Со стороны все видно, бонусом можно зоонаблюдать за поехом.
>>1043813
В том чтобы получить апскейл сразу/одной кнопкой, а не отправлять на другую вкладку и там нажимать лишние кнопки.
> затем делается img2img по квадратам
Нет, тайл един
> по квадратам
С сохранением соотношения сторон
> с низким денойзом
С тем, который выставишь.
>>1044052
Мусор, сгинь
Аноним 06/02/25 Чтв 20:18:29 1044493 318
>>1043887
> апскейлит в латентном представлении
Но в этом случае нужно много денойза, чтобы выравнять картинку после апскейла латента. Больше денойза - больше отличия от оригинала. Если переводить в пиксели, то можно хоть 0.01 денойза ставить и получать хуйню, но в этом случае разницы между хайрезфиксом и имг2имг нет.
Чел с твоего скрина нихуя не понял, не слушай его. Там обычный апскейл в пикселях был (lanczos скорее всего) до ломающего обновления.
Аноним 06/02/25 Чтв 21:04:11 1044575 319
1738865041305.png 1795Кб, 896x1152
896x1152
1738865041488.png 1799Кб, 896x1152
896x1152
1738865041655.png 1663Кб, 896x1152
896x1152
1738865041821.png 1857Кб, 896x1152
896x1152
>>1044262
> Приходи в анимублядский
Это друго Я нихуя не эксперт по аниме, но разве там не должно быть наоборот меньше деталей? По крайней мере из того, что я смотрел, там вообще в основном контуры раскрашенные на крупных планах и в лучшем случае овал с двумя точками вместо глаз на широких. В том смысле, что даже недоделанный пик на малых шагах будет вполне выглядеть, как обычное аниме.

Я конечно понимаю, что можно улучшить изображение (3-4) без ускорялок, если еще добавить шагов/поставить другой (более медленный) семплер, добавить PAG/SAG/FreeU и еще кучу плюшек, которые и дополнительный врам жрут, и замедляют генерацию, но никто этого не делает же, кроме очень немногих владельцев 4090. А так - разница между ускоренным геном и нормальным - это 26 секунд на 8 шагов против 140 секунд на 30 шагов, и это еще без апскейла, а цвета/контраст можно и в пикселях поправить при необходимости.

>>1043813
Чтобы на тайлы бить, есть Tiled Diffusion в фордже, например. Но когда я его последний раз открывал, там не было возможности включить только для хайрез.фикса, чтобы изначальный пик не разворотило, но можно было подобрать размер тайлов так, чтобы изначальная генерация влезала в один тайл.
Аноним 06/02/25 Чтв 21:29:06 1044616 320
>>1044575
> не должно быть наоборот меньше деталей
Больше, упрощение отдельных элементов не особо помогает и ставит повышенные требования к остальным и в целом к качеству исполнения. Это суждение ошибочно.
Проявление еще сильно зависит от того, что именно генерировать. Если там изначально парящий в воздухе вангерл-ситтинг на фоне мыльного коричневого нейрошума под дерево, то отличия будут несущественными. Если захочешь посложнее позу, нормальный фон, не коричневое мыло с мутными частицами - сразу открывается горькая правда о том, что вариативность пикч ушла, качество просело, проблемы с когерентностью стали еще более явными.
> 26 секунд на 8 шагов против 140 секунд на 30 шагов
Это 1060? В случае слабого железа в ускорялках нет ничего осудительного, особенно если приноровишься их использовать и выключать где надо, или "обыгрывать" недостатки. Да и впринципе на любом, если нашел необычное применение чему-то и достигаешь результата, то это хорошо. Плохо когда начинают затирать о том что черное - это белое в оправдание горькой действительности, и даже делают из этого культ.
> но никто этого не делает же
Не хочу нарушать коупинг, но большинство имеет видеокарту и даже генерит сразу с хайрезфиксом, адетейлером и прочим.
Аноним 06/02/25 Чтв 22:29:28 1044728 321
>>1044616
> Больше, упрощение отдельных элементов не особо помогает и ставит повышенные требования к остальным и в целом к качеству исполнения.
Ну я про само аниме говорил, а не про генерции. На генерациях деталей в триллион раз больше у всех почти. Там от аниме только пропорции и глаза остались.
> большинство имеет видеокарту и даже генерит сразу с хайрезфиксом, адетейлером и прочим
Я не знаю, как там в аниме-треде, но на цивите даже с 4090 (судя по размеру некоторых пикч и ген.инфо/воркфлоу) генерят без всего, кроме хайрезфикса или его аналога в комфи, тупо брутфорсят на карасях увеличением шагов, результаты соответствующие.
Врочем заглянул в аниме-тред, там вообще первым же постом недоденойзенный латент хайрезфикс, а дальше по треду такие же обычные генерации, как и сд-треде, без инпейнта/адетейлера. Так что я не знаю, про какой коупинг ты говоришь. Большинство может и имеет видеокарту, но не имеет желания её использовать, не то чтобы для вытягивания деталей, но даже для выправления разливов от латентного апскейла. Доделанные пики встречаются, но похоже, что не чаще, чем в общем сд-треде.
Аноним 06/02/25 Чтв 22:38:42 1044745 322
>>1044728
Путаешь скриншоты из массово-производимого видео и цифровой арт.
> на цивите
Всеравно что у бабы сраки, там есть юзернеймы как что реально делают что-то интересное, так и просто штампователи нейрослопа. Размер воркфлоу и разрешение не завязаны на видеокарту.
> про какой коупинг ты говоришь
Вот в целом про твой пост. Если разбирать по частям - говоришь ерунду и не шаришь. Если в общем то это просто заход в поиске до чего бы доебаться и опровергнуть, чтобы потом выстроить линию защиты и начать искажать себе в угоду. Иди траву потрогай и найди работу чтобы купить железо, сразу отпустит.
Аноним 06/02/25 Чтв 22:44:10 1044753 323
>>1044745
> разрешение не завязаны на видеокарту
Пока не поймаешь ООМ при апскейле без тайлинга, не поймешь, о чем там написано.
Аноним 06/02/25 Чтв 23:21:24 1044805 324
>>1044753
В комфи и форджах же делали фаллбек на тайлед вае при превышении. Но кто знает - сам ставит, там более реально в римит рам уже упереться.
Аноним 07/02/25 Птн 02:18:59 1045016 325
>>1044493
Латентные апскейлеры только с большим денойзом работают, это да. Поэтому в ютубе встречал народ, кто рекомендует их вообще не пользовать. Зато если удачно сгенерится, деталей у латентного апскейлера больше остается. В случае хайрез фикса еще и вариантов побольше, там целых 6 латентных апскейлеров на выбор. У имг2имг вроде только один, да и тот с обратно конвертированной моделью работает.
Аноним 07/02/25 Птн 11:55:36 1045400 326
>>1044745
> не шаришь
> до чего бы доебаться и опровергнуть
> Иди траву потрогай
тебя аж на один почти целый пост хватило, чтобы не скатываться до своей стандартной манеры общения. и чего ты пиздел, что в неаниме тред не заходишь, если ты там сутками напролет в каждом треде щитпостишь?
Аноним 07/02/25 Птн 14:19:33 1045554 327
>>1044208
>>1044262
анимедебил загорелся и горит
надо будет в будущем на любой выпад спрашивать анимедебил ли постер и сразу обоссывать есличе
Аноним 07/02/25 Птн 14:23:54 1045558 328
image.png 109Кб, 1512x538
1512x538
Проверил насколько тут профессионалы 40 лвл, загадка жака фреско: какой из этих графиков лосса - хорошо натренированная лора. У вас одна попытка.
Аноним 07/02/25 Птн 15:07:30 1045618 329
>>1045558
Сейчас бы оценивать качество тренировки по training loss. Ты сам же проваливаешь тест на интеллект.
Аноним 07/02/25 Птн 15:18:42 1045633 330
1706560716456.png 97Кб, 1463x611
1463x611
1733671340760.png 15Кб, 1077x186
1077x186
Аноны, может кто помочь?
Пытаюсь накатить LoRA_Easy_Training_Scripts, все собсно по инструкции с пикрелейт2, однако получаю пикрелейт1. Что с этим делать? Или пришло время переустанавливать шиндовс? Питон 3.11.0, с 3.10 то же самое.
Аноним 07/02/25 Птн 15:19:13 1045635 331
изображение.png 2Кб, 236x68
236x68
>>1045554
И снова мимо.

>анимедебил
Как что-то плохое, в самом деле.
Ну и лучше уж анимедебил, чем дмд-шиз с теорией заговора.
Аноним 07/02/25 Птн 15:22:57 1045641 332
>>1045633
Ошибка доступа к системному диску?
Переполнен диск C?
Сектор диска побился?

Что-то даже хз, чего тут еще может быть, и почему ему не удается переместить файл с аппдаты/юзерпапки.
Аноним 07/02/25 Птн 15:27:26 1045648 333
1609197929080.png 7Кб, 660x140
660x140
>>1045641
Диск не забит и вроде целый.
Сам путь путь .cache\huggingface\ вот этот вот акселерейт должен быть просто файлом? В консоли выглядит так как будто это должна быть папка, а в ней уже дефолт_конфиг.yaml. А тут что то непонятное.
Аноним 07/02/25 Птн 15:35:13 1045658 334
1728059967508.png 11Кб, 730x146
730x146
>>1045648
Пидорнул этот файл, сделал папку акселерейт - вроде установило.
Аноним 07/02/25 Птн 15:39:56 1045663 335
1641263030596.png 96Кб, 1292x756
1292x756
>>1045658
А нет, все равно нихуя не работает. При попытке запустить обучение пикрелейт. Это уже точно хрен его знает как чинить. Кто нибудь сталкивался?
Аноним 07/02/25 Птн 16:34:56 1045736 336
1599856930477.png 15Кб, 1373x75
1373x75
1708316618772.png 5Кб, 213x120
213x120
>>1045663
Ебать магия нахуй.
Оно таки запустилось после отключения всех видеоадаптеров, кроме основной карты и встройки, однако теперь ебашит какие то nan found in latents. Раньше количество адаптеров на работу не влияло.
Аноним 07/02/25 Птн 17:11:02 1045819 337
>>1045635
>мимо
попроси контакты у второго анимедебила, у вас наконецто будет реальный секс
>лучше
лучше? анимедебил - это приговор, диагноз, надгробие, это синоним навязчивости, незрелости и чрезмерной фиксации на чем-либо, например анимедебилы часто топят за какую-то иррациональную деструктивную хуйню, бессмысленный шитпост (анимедебилы не велезают из дока2 треда, т.к. там можно невозбранно шитпостить) просто чтобы вызвать какую-то реакцию или самоутвердиться исходя из каких-то своих особых критериев самоутвереждения, анимедебилы часто фажат по пероналиям и персонажам, спорить с анимедебилами бесполезно, это как спорить с пациентами с канала медфильм

в разрезе этой доски стандартный анимедебил обычно педалирует за фукас, ненавидит комфи, не любит т.н. "дедомодели" и реалистики в целом, не любит убыстрялки инференса, любит раздавать советы когда о советах не спрашивают, посты оформлены в ультимативной форме с использованием тонны пассивной агрессии, т.к. анимедебил из-за болезни искренне считает свою позицию истинной

собсно поэтому у анимешизов свой отдельный загон, но анимешизы иногда протекают в сдтред и повизгивают итт

оправдывайся теперь
Аноним 07/02/25 Птн 17:22:10 1045840 338
>>1045633
Выглядит как запуск от админа. Если запускать от админа то оно все в систем32 переносит и оттуда запускает, следовательно пути к которым ссылает скрипт могут проебаться. Либо виртуал енвайронмент делай отдельно, либо просто запускай без админа чтобы использовался локальный питон.
>>1045736
> однако теперь ебашит какие то nan found in latents
у тя слишком маленький лосс, ошибка градиентов и деление на ноль, здоровый лосс должен быть примерно между 0.05-0.15
Аноним 07/02/25 Птн 17:30:03 1045856 339
>>1045840
А если лосс в районе 0.08-0.07?
Аноним 07/02/25 Птн 17:41:46 1045873 340
>>1045856
Ну епты, оно же входит в диапазон 0.05-0.15, нормальный лосс.

Так для справки: стабильное обучение на >0.15 это стопроцентное переобучение и бесформенные блобы и шум, что закрывает тебе возможность применять лору на 100% весе, надо будет понижать влияние. Лосс меньше 0.05 просто неэффективен и времязатраты гигантские, плюс ошибки как у тебя, но у тебя прямо микроскопический лосс. Чем ниже лосс, тем больше получается что-то похожее на датасет и веса оригинальной модели, чем выше лосс, тем дальше от датасета и больше нойза.

Но есть исключение допустим с настроенным хубером на snr и мин_снр_гаммой 1 можно долго и упорно дрочить тренировку примерно на уровне 0.02-0.03 и оно даже спустя долгое время будет эффективно.
Аноним 07/02/25 Птн 19:54:43 1046089 341
>>1045819
>дмд-шиз -это приговор, диагноз, надгробие, это синоним навязчивости, незрелости и чрезмерной фиксации на чем-либо, например дмд-шизы часто топят за какую-то иррациональную деструктивную хуйню, бессмысленный шитпост (дмд-шизы не велезают из дедотреда, т.к. там можно невозбранно шитпостить) просто чтобы вызвать какую-то реакцию или самоутвердиться исходя из каких-то своих особых критериев самоутвереждения, спорить с дмд-шизами бесполезно, это как спорить с пациентами с канала медфильм
Буквально себя описал.

Остальное уже не стал переписывать, ведь буквально 1 в 1 всё.
Аноним 07/02/25 Птн 20:22:30 1046147 342
>>1045736
ты конфиг асселератора делал? если да, выстави там только одну карточку. возможно у тебя по умолчанию сразу несколько установлено. или выстави с помощь: export CUDA_VISIBLE_DEVICES=0 в сосноли, где цифра - ид твоего гпу.
Аноним 07/02/25 Птн 20:26:19 1046162 343
>>1046089
>перефорс
Анимедебилы обожают перефорсы. Держишь марку шизы.
Аноним 07/02/25 Птн 20:29:27 1046173 344
>>1045400
> шизику везде мерещатся его йобыри
К такому мусору даже притрагиваться неприятно
>>1045554
Дмд-шавка гавчет на всех, кто смеет критиковать его прелесть. Пинком под жопу кабысдоха.
>>1045736
Сохранил это комбо девайсов. Если вдруг ты наносек - не хочешь от интела видюху купить или у друзей взять ради скриншота?
Чтобы не отключать девайсы - можно указать cuda_visible_devices, но еще лучше в конфигурации акселерейта сразу обозначить номер 4090.
> nan found in latents
Используешь встроенное в модель vae? Там есть опции с no half, но лучше укажи путь к пофикшенному, и очисти имеющийся кэш. Из-за поломанных латентов и лосс так улетел.
Аноним 07/02/25 Птн 20:32:48 1046181 345
>>1046173
>анимесвинья визжит
Найс.
Аноним 07/02/25 Птн 21:04:56 1046227 346
>>1046147
> конфиг асселератора делал
А как это делается?

>>1046173
> от интела видюху купить
Лел, ну идея прикольная конечно, но я не наносек.
Аноним 08/02/25 Суб 15:57:32 1046974 347
Короче, наконец-то поставил комфи. Накидайте мне что ли всяких охуительных идеи для реализации. Мне все равно надоело генерировать однообразные нейрокартинки, я хочу поиграть с нодами в нейросетевое факторио и запустить нейросетевую ракету.
Аноним 09/02/25 Вск 14:33:55 1048321 348
ComfyUI00130.png 1353Кб, 1000x1000
1000x1000
art ComfyUI00121.png 435Кб, 512x512
512x512
Есть ли модели, заточенные под создания текстур для 3D? Желательно бесшовных текстур.
Аноним 09/02/25 Вск 21:02:21 1048698 349
>>1048321
любая модель может в текстуры, даже порнофайнтюны
если нужны текстуры по референсу то можно подключить ипадаптер и обгенериться ими
тайлы бесщовные тоже через расширения всякие делаются в зависимости от UI
Аноним 09/02/25 Вск 21:35:25 1048750 350
Столкнулся с тем, что резюм тренинг как-то ебануто работает с моим флоу тренировки, то есть он вообще не работает, тренировка продолжается, а результат последующей эпохи после стопа полностью в говне как и следующие после него, чего не происходит при непрерывной тренировке. Вероятно это проблема заумных настроек, некоторые из которых стейт не сохраняет.

Поэтому я попробовал методу, когда промежуток сливается с моделью и тренировка запускается с новой полученной базой, и знаете что, результат схождения прям очень хороший получается и даже быстрее получается (то есть буквально вместо 20 эпох последовательно более лучший результ дает 5 эпох+мердж+новые 5 эпох) и стабильнее в разы (процент артефактов и непопадания в токены снижается очень). Странно почему я раньше не пробовал так делать, хотя в курсе был о таком методе.

Правда есть небольшие минусы в том, что:
а) надо смешивать друг с другом лоры/с моделями полученные или экстрагировать финальную из модели потом. Сейчас тестовый конфиг этапов обучения выглядит как модель+бутерброд лор из дополнительных стейджей тренировки.
б) текстовый енкодер в одном случае хорошо выключать, в другом включать, при этом он тренируется в обоих стейджах; очевидно если задача сделать новую полную модель то разницы особой нет, но если надо выдрочить лору именно, то можно долго тасовать параметры применения; еще SVD между стейджами лор интересный эффект дает.

Плюсы наверно очевидны: можно на ходу править настройки стейджей и получать еще более похожий на полноценный файнтюн результат, даже смена сида существенно расширяет пространство влияния. Оно в принципе и так похоже на файнтюн с моей комбинацией из gLoRA (с функцией тренировки нормализационных слоёв, что почему-то большинство игнорирует судя по тем обсуждениям что я читал, хотя нормы тренируются во всех алгоритмах если нужно) и DoRA декомпрессии, которая не разрушает основную структуру модели, как в случае с обычнолорами модифицирующими веса напрямую непредсказуемо (W ′=W+γ⋅∥ΔW∥ΔW вместо W′ =W+ΔW).

Пост чисто для себя чтобы собрать в кучку мыслишки.
Аноним 09/02/25 Вск 21:56:19 1048778 351
>>1048750
Кстати, заметил еще в одном из гайдов из шапки есть строчка "Ранги (network_dim) выше 32 избыточны и не рекомендуются для простых тренировок, 16 хватит для 95% датасетов, даже с несколькими концептами внутри.".

Опытным путем было проверено и выяснено что общее качество и генерализация и точность от повышения размерности растет, причем не просто очень заметно, а прямо другие более лучшие модели выходят, даже на маленьких датасетах. Тестировал на той же конфе из gLoRA+DoRA, вплоть до 128/128 по нетворку и конволюшенам без какого-либо снижения влияния через альфу. Так что имейте в виду, что больше параметров в любом случае лучше и советы по настройкам под конкретные задачи уровня бабу на 8 дим, Eldritch abominations на 128 дим - это какая-то ситуативная шляпа и субъективизм конкретно используемого locon без доп фич.
Аноним 10/02/25 Пнд 06:48:43 1049066 352
PSX202502100721[...].png 1712Кб, 1000x1000
1000x1000
PSX202502100740[...].png 1745Кб, 1109x1000
1109x1000
Будучи художником, заметил огромный недостаток визуал. датасетов: узкое понимание абстрактных концепций. Казалось бы, мало того, что с деталями проблемы. Так, например, совершенно не понимают "мести/давления общества/рутины" и т. д. и их визуализаций (для "мести" допустим, два человека, и один как-то подсирает другому). Объясняется просто: "на чём учишь, то и получишь". Визуал. датасет тэгируется очень плоско. Лингвистические же, например, модели включают субъективные точки зрения (формируя объективность), а модели-визуализаторы нет. По крайней мере на уровне идей и концепций. Я вот, как клиент, хочу писать СМЫСЛ, который должен быть в работу вложен (хотя можно поспорить, что спрос рождает предложение, и у меня слишком высокие стандарты).
В общем, решил попробовать фиксить это лорой. Тэгать датасет буду, вручную, следуя такой формуле: (Триггер-слово, Какие чувства вызывает, Какая идея заложена, Кто, Какой (характер?), Что происходит, Визуальный стиль)
Знаю, что ебанусь руками это делать, но уверен, что оно окупится. Короче, оцените задумку от 0 до 10 и разъебите по фактам, если я неправ. Дайте совет какой. Может ещё подскажете концептуальные датасет где брать? А то как-то непросто искать что-то сос мыслом.
Аноним 10/02/25 Пнд 09:13:44 1049087 353
>>1049066
Не выйдет, слишком высокий уровень абстракции для текущих популярных нейронок типа дифузора.
Аноним 10/02/25 Пнд 10:21:15 1049109 354
image (14).png 3149Кб, 3000x1000
3000x1000
>>1049087
Почему? Если у фреймворка и модели достаточно параметров, это не проблема. Хотя я могу быть и не прав.
На цивите видел пару концептов "символизима/психоделик" и работали они достаточно предсказуемо в качестве вспомогательного инструмента.
С узкими концепциями справляется вообще отлично (напр., высунутый язык, homeless пикрил), а я ведь тоже самое сделать хочу - задать определённому смыслу определённую визуализацию.
Оно и так "абстрактные" концепции воссоздать может, только требует слишком много внешнего (ака неконтролируемого) контекста (так со свободой очень хорошо дела обстоят, и сетка даже понимает связь свобода - полёт). А лора, как я понял, этим и занимается, что раскидывает контекст по более узким веткам. Условно, если "одиночество", то всегда "solo"; если "рукопожатие" это всегда не менее "2persons".
Короч, дипсик оценила идею на 8/10 сняв два балла за сложность ручного тэгирования. Но я решу эту проблему развёрткой своего "концептуального" буру (booru, right?). Тут другие проблемы появляются, но оно уже второстепенно.
Аноним 10/02/25 Пнд 13:17:38 1049241 355
image.png 37Кб, 1485x212
1485x212
image.png 55Кб, 1468x316
1468x316
Что вы делаете в ситуации когда все эпохи хорошие и непонятно какую выбирать? Даже если x2 по весу чекать все равно все хорошие.
Аноним 10/02/25 Пнд 13:31:36 1049248 356
>>1049066
Твоя идея похожа на эстетик скоринг (эстетика это тоже субъективная оценка), но с другой концепцией. В идеале надо было бы обучать смысловой скорер отдельно и его использовать на датасете, не думаю что подобным ты будешь заниматься. А так идея нормальная, все получится.
Аноним 10/02/25 Пнд 15:23:44 1049334 357
>>1049109
>так со свободой очень хорошо дела обстоят, и сетка даже понимает связь свобода - полёт
Это не сетка понимает.
Это люди так понимают, и в основном это и рисуют.
А там уже связности текст-картинка подключились, когда это через ЛЛМ тэгать начали. Все эти "риски атмфосфер" и прочая пурпурная проза, которой современные модели промпт засирают вот уж не думал, что кому-то этот хлам пригодится.
Т.е. технически оно, может быть, и реализуемо, но будет сложно это все в кучу собрать и заставить работать.
Аноним 10/02/25 Пнд 15:25:00 1049336 358
>>1049241
Делаю грид с разными фонами, и смотрю, какая итерация меньша всего их ломает.
Если все визуально хорошо - просто кручу рандомную рулетку.
Аноним 10/02/25 Пнд 18:21:05 1049556 359
>>1049109
>Если у фреймворка и модели достаточно параметров, это не проблема.
Само собой. Но тренировать х10 флюкса ты не осилишь.
>Оно и так "абстрактные" концепции воссоздать может, только требует слишком много внешнего (ака неконтролируемого) контекста
Это и есть правильный путь, раскидывать сложные вещи по разным инструментам.
>А лора, как я понял, этим и занимается, что раскидывает контекст по более узким веткам.
Тут нужно больше контроля, и, желательно, ЛЛМ, которая будет разворачивать твои концепции "Лишение девственности в лесу медведем" в развёрнутое описание.
Аноним 11/02/25 Втр 04:32:36 1049951 360
IMG202502110531[...].jpg 41Кб, 736x498
736x498
>>1049248
Спасибо за мотивацию и наводку!
Да, по большей части автоматизирую процесс (по основным тэгам), но "человечкий" взгляд только отточит это дело. Сейчас только вопрос, как буру контрибуторов привлечь, но это уже тема не для этой ветки. Думал, на своём сайте развернуть и участникам какие-нибудь плюшки давать. Какие? Вопрос. Пока ничего кроме своих каких-то рисунков предложить не могу. Другое дело, что оно никому не надо.

>>1049334
Я наоборот это слово заменил спецом, чтоб меня в духоте не обвинили. Теперь понял, что оказался прав так сделав, лол. Ну ты базу выдал, хотя это и так очевидно. Короче, ничего информативного.

>>1049556
А что с флюксом не так?
>раскидывать сложные вещи по разным инструментам
Да конечно, я понимаю о чем ты. Так нормальные люди и делают: просят жпт написать промпт с развёрткой идеи. Вот только на моей практике оно даже так редко попадало в концепта (эмоциональный?) В общем, я сейчас топлю за то, что самый лучший результат будет и с детальными промптами и если сетка уловит вероятности концепта.

>больше контроля
Вопрос скорее всего тупой, но я всё равно спрошу. Правильно я понимаю, что если вместо клипа энкодера подключу какой-то другой, результат может стать лучше?
Давно в голове крутится, что если бы можно было как-то энкодер условного дипсика (то есть всю часть до момента, где токены в вектора семантики преобразются) впихнуть, и эти вектора уже отправлять дальше. Ну потому что для меня это звучит как нечто само собой разумеющееся, и не понятно, почему оно до сих пор так не сделано. Так что скорее всего я тупой, и не понимаю каких-то тонкостей и почему так сделать нельзя.
Это уже я на какую-то гибридную архитектуру замахиваюсь?
Аноним 11/02/25 Втр 05:14:48 1049960 361
>>1049951
>если бы можно было как-то энкодер условного дипсика
Это не так работает.
>Так что скорее всего я тупой, и не понимаю каких-то тонкостей и почему так сделать нельзя.
Да.
В ллмках нет энкодера.
А если использовать саму ллм как энкодер, далеко не факт что получится что-то хорошее. Может быть можно взять от ллм более лучшее понимание семантики промта, но не более.
Для диффузионки энкодер это как просто генератор ключей, от него она не то что бы дохуя информации получает.

Чтобы нейронка могла понимать высокие абстракции, так как ты хочешь, нужен вообще какой-то более продвинутый способ тренировки. Типа соединять ллмку через какой-нибудь контролнет с диффузией и тренировать вместе.
Аноним 11/02/25 Втр 07:22:23 1049987 362
>>1049960
Да, я поплыл, но теперь совершенно точно все понял. Хоть меня и ввело в зублужление то, что "у ллм нет энкодера". Он же есть как паттерн, просто теперь никому нахуй не нужен. И даже уже нарыл кое чего.

Семантический мост
1. LLM -> Эмбеддинг: Лингвистическая модель преобразует текстовое описание концепции в эмбеддинг. В данном случае, раз LLM без энкодера, вы будете использовать выход последнего слоя декодера в качестве эмбеддинга.
2. Visual NN + Эмбеддинг: Визуальная нейросеть принимает эмбеддинг как часть входных данных.
3. LoRA + Концепт -> Визуал: LoRA (или другой метод адаптации) "обучает" Visual NN генерировать изображения, соответствующие концепции, представленной эмбеддингом.
Аноним 11/02/25 Втр 09:18:18 1050019 363
>>1049951
>А что с флюксом не так?
В дефолте едва вмещается в 24ГБ врама.
>Давно в голове крутится, что если бы можно было как-то энкодер условного дипсика
И снова флюкс (или SD3)? Там правда t5xxl. Ну и для всего этого нужно совместное обучение.
>>1049960
>Типа соединять ллмку через какой-нибудь контролнет с диффузией и тренировать вместе.
А вот это верно, про это я и пишу, говоря о большем контроле.
Аноним 11/02/25 Втр 22:16:04 1050841 364
>>1050019
>>1049960
Ля, я не понимаю. Мы все про одно и тоже говорим или я про что-то другое? Ну вот эмбеддинги через контролнет пустить?
Или вы всё ещё говорите про способ, в котором ллм просто раскрывает концепт, а не связана семантически напрямую?
Аноним 11/02/25 Втр 22:33:03 1050862 365
>>1049987
> Семантический мост
> 1. LLM -> Эмбеддинг: Лингвистическая модель преобразует текстовое описание концепции в эмбеддинг. В данном случае, раз LLM без энкодера, вы будете использовать выход последнего слоя декодера в качестве эмбеддинга.
> 2. Visual NN + Эмбеддинг: Визуальная нейросеть принимает эмбеддинг как часть входных данных.
> 3. LoRA + Концепт -> Визуал: LoRA (или другой метод адаптации) "обучает" Visual NN генерировать изображения, соответствующие концепции, представленной эмбеддингом.
Выход последнего слоя ллм в качестве эмбедингов - говно. В нем нет полезной информации для диффузионки, с ее "точки зрения" это бесполезная чушь. Это будет тот же самый текст, может быть в чуть более удобном виде, а по факту часто в более худшем.
Для чисто тегового промта, имхо, текстовый кодировщик вообще не нужен. Скорее всего если тупо завести по обучаемуму эмбедингу на каждый тег, не сильно хуже получится.

Ллмку надо учить делать работу чтобы она вносила какую-то пользу. Делать визуальные рассуждения, оценивая какой элемент картинки уместен для нужного сюжета, проверять с обратной связью через визуальную голову какой получается результат и делать точечные правки.
А когда ты будешь просто делать из нее тупой энкодер - одна и будет в лучшем случае тупым энкодером.
Аноним 11/02/25 Втр 23:44:31 1050942 366
>>1049087
Это решается двумя способами: довольно крутой основой в качестве кондишнера, что будет "понимать" эти самые абстракции, или же продвинутые капшны и хитрая их аугментация при тренировке для более простых вариантов.
Ну и сама диффузия неплохо так закономерности запоминает и потом воспроизводит.
>>1049960
> далеко не факт что получится что-то хорошее
Почему? Обрабатываешь весь промт и вытаскиваешь скрытые состояния.
> нужен вообще какой-то более продвинутый способ тренировки
Нужно чтобы ллм могла в целом понимать смысловую часть написанного, и желательно чтобы в тренировочных данных были подробные описания. Только не трешовая содомия, целиком состоящая из мусорных дефирамб, как во флюксе, а именно содержательное.
> Типа соединять ллмку через какой-нибудь контролнет с диффузией
Представь себе, там весьма широкий канал для кондишнов заложен изначально.
> и тренировать вместе
Не стоит, только если на финальных этапах.
>>1049987
> 3. LoRA + Концепт -> Визуал: LoRA (или другой метод адаптации)
Это идет вразрез первым двум по принципу и явлениям.
>>1050862
> Делать визуальные рассуждения, оценивая какой элемент картинки уместен для нужного сюжета
Это можно сделать отдельно на этапе преобразования исходного промта. И прямо там же после можно вытащить скрытые состояния и использовать их.
> проверять с обратной связью через визуальную голову какой получается результат
Необучаемая многоножка, лучше посмотри как блоки dit работают.
> и делать точечные правки
Это возможно уже внешней петлей в итерационной схеме, реализовано уже. Только весьма сложно в обучении под что-то не дефолтное и очень громоздко.
> одна и будет в лучшем случае тупым энкодером
Нужен умный энкодер, которым она может быть, всего-то. И пусть дальше диффузия делает свою работу.
Аноним 12/02/25 Срд 02:24:18 1051055 367
Случилось страшное: Reactor теперь не работает с NSFW картинками! Как они могли?

Если Reactor видит на картинке непристойности, он отказывается делать Face Swap.

Но я нашёл модель, которая определяет NSFW. Пользуюсь Forge, лежит по пути \Forge\webui\models\nsfw_detector\vit-base-nsfw-detector\

Внимание, вопрос. Как мне самостоятельно отредактировать эту модель?

(Был раньше у меня и нормальный реактор, но удалил при чистке компа)
Аноним 12/02/25 Срд 02:34:01 1051059 368
>>1051055
Блокнотом, долбоеб. 0.80 замени на 1.
Аноним 12/02/25 Срд 04:20:58 1051115 369
Анончики, хелп. Есть две лоры тянок. Хочу напилить артов с ними, как их вообще объединить на одной генерации? Есть примеры у кого? Я уже с ума схожу. Пользуюсь Forge.
Аноним 12/02/25 Срд 05:54:00 1051151 370
>>1051115
Фотошопом + инпейнтом.
Аноним 12/02/25 Срд 06:50:28 1051157 371
>>1050862
Про "делать работу" идея хорошая, но смысл в том, что я и так её делать могу за наносек, будучи человеком. Мне всё-таки нужно, чтобы сетка делала то, чего я не умею (а именно рисовать картинку за наносек так, как мне надо).
>>1050942
Так и что ты предлагаешь в итоге делать? Как их соединить друг с другом? Мне бы вот прям инструкцию, как я писал по пунктам: чего к чему и в какой момент.
Аноним 12/02/25 Срд 07:35:05 1051168 372
>>1051059
Какое 0.80, на какое 1?
Блокнот не открывает этот файл.
Аноним 12/02/25 Срд 12:58:59 1051331 373
Сложный, странный вопрос. Кароче когда я генерирую я заметил что у меня на системном C что-то начинает отжирать место.
Ньюанс в том чтт SD у меня на другом диске само собой. Я бы и не заметил потому что пони гига 3 отжирало но я тут попытался флюкс запустить у меня все нахуй зависло. Увидел что на диске C вобще места нет. Стал тестить охуел.
Как это вообще возможно?
Аноним 12/02/25 Срд 13:53:40 1051381 374
>>1051331
П.с
Еще как я понял у меня флюкс почему-то не видит/не хочет пользоваться видеокартой.
Через диспетчер задач вижу 0% нагрузку на гпу и 99% на оперативку
Аноним 12/02/25 Срд 19:43:17 1051782 375
Аноним 12/02/25 Срд 19:44:43 1051786 376
>>1051381
>Еще как я понял у меня флюкс почему-то не видит/не хочет пользоваться видеокартой.
>Через диспетчер задач вижу 0% нагрузку на гпу и 99% на оперативку
Какая карта? Какая так скажем сборка флюкса - фул, квант, пониженная точность с апкастом?
Аноним 12/02/25 Срд 19:51:34 1051794 377
Аноним 12/02/25 Срд 19:51:40 1051795 378
Общаясь тут с гопотой по поводу glora конфигов своих он мне подсказал вариант, что стоит попробовать наоборот увеличивать понижающий коэффициент весов альфы (особенно конволюшенов) т.к. глора более устойчивый алгоритм. То есть допустим у меня база это 32 дименшен и 32 альфа, а пробовать 32 дименшен и 64 альфа. Я попробовал и результат стал значительно лучше, заметно на низких разрешениях, а на высоких там вообще четкость запредельная получается. Так вот, какие неочевидные штуки с масштабом весов еще можно применить в данном ключе?
Аноним 12/02/25 Срд 19:55:39 1051802 379
>>1051794
>Вот https://civitai.com/models/35549
Это просто веса или запечено вместе с т5 и клипом? По описанию непонятно. А такто веса в фп8, они по идее разворачиваются в x2 на картах без поддержки фп8 если без ключа на фп8 запускать, и соответственно у тебя все на оперативку складывается периодически.
>С SD понями все нормально было
Так сдшка в фп16 копейки весит в пике, 8-9 гигов, конечно у тя все помещается в карту.
Аноним 12/02/25 Срд 20:03:14 1051809 380
>>1051802
Наверное просто веса, я не очень за все термины эти но 2 фаила
> с т5 и клипом?
Я отдельно докачивал это как раз

Я просто слышал что даже на 12гигах такое вроде гоняют без проблем
Аноним 12/02/25 Срд 20:32:50 1051839 381
>>1051809
>Я отдельно докачивал это как раз
Ну вот, у тя тупа карты нехватает.
>Я просто слышал что даже на 12гигах такое вроде гоняют без проблем
Да, но тебе нужны кванты >>1040527
Аноним 12/02/25 Срд 20:45:40 1051857 382
>>1051839
ну сейчас попробую, значит я могу качать все что меньше 16 гигов спокойно себе из этого?
Аноним 12/02/25 Срд 21:00:17 1051882 383
>>1051157
Инструкция предельно проста - собираешь состояния с предпоследнего слоя (или поглубже) от позиции eos токена, инициализируешь структуру блоков под подходящий размер и тренируешь это на кластере.
Почему нет смысла расписывать это в деталях, полагаю, понимаешь. Если хочешь просто поиграться то примеров переработки промтов через ллм достаточно, в этом направлении копни.
Аноним 12/02/25 Срд 21:01:04 1051884 384
image.png 2118Кб, 1057x1079
1057x1079
>>1051857
не совсем так, тебе надо собрать комбайн из весов+т5+клипг+клипл (для шатлов надо ток один из последних двух я не помню какой, глянь воркфлоу под него офишиальный)+вае, чтобы оно все вместе помещалось к тебе в карту
все что >= Q4 для весов - ок кванты без особых потерь
для т5 в принципе любой квант подойдет, там вроде ток восприятие текста на ультра низких квантах страдает
Аноним 12/02/25 Срд 21:08:17 1051891 385
1617063132429.png 9436Кб, 3328x1216
3328x1216
>>1051884
> там вроде ток восприятие текста на ультра низких квантах страдает
T5 вообще всегда должен быть в fp16, если не хочешь мелких проёбов постоянно.
Аноним 12/02/25 Срд 21:20:00 1051897 386
>>1051891
>на всех картинках проебы даже на фп16
Зачем платить больше, и так нормально, несовершенная технология, тольковыиграле
Аноним 12/02/25 Срд 22:17:07 1051979 387
При каждом запуске настоятельно рекомендуют скачать это https://github.com/facebookresearch/xformers#installing-xformers
Насколько оно нужно? Через гит вводя предложеные команды не могу поставить.
Гайдов как поставить на комфи тоже нет. Ток на автоматик нашел.
Аноним 12/02/25 Срд 22:35:26 1052001 388
>>1051882
Всё, понял, спасибо большое.
Аноним 12/02/25 Срд 23:18:55 1052049 389
>>1052001
Ты долбоеба послушал, который пытается всех учить нихуя не разбираясь в теме, есличё.
Аноним 13/02/25 Чтв 01:22:45 1052125 390
>>1052049
Вместо пердежа в лужу расскажи как правильно.
Аноним 13/02/25 Чтв 02:05:44 1052140 391
textencoder.png 1282Кб, 2084x810
2084x810
>>1052125
>как правильно.
Взять Т5 и файнтюнить его вместе с диффузией.
А от того что ты выход ллм вместо эмбеддингов подашь никакой магии не произойдет. Вдруг волшебное понимание абстракций не появится.
Всё, точка, это было уже тысячу раз разобрано.
Просто тут есть шыз который кроме срачей и вброса подобной хуиты ничего полезного не приносит, зато мнит себя экспертом в любой теме. Детектится по паттерну "оскорбление" -> "почитай как работает x", где x - любая рандомная хуйня не относящиеся напрямую к теме.

Ну а если серьезно тебе это в какой-то хуй уперлось, берешь маленькую хорошую ллмку, на ее выходы лепишь еще один блок/слой с полноценным вниманием без масок, потому что в ллм однонаправленное внимание, в отличии от клипов/т5.
Как это и сделано в хуйняне ( https://aivideo.hunyuan.tencent.com/hunyuanvideo.pdf )
Если нигде не обосрешься, получше хороший текстовый энкодер для флюксоподобных промтов. Для тегов скорее всего профит будет околонулевым.
Аноним 13/02/25 Чтв 02:59:08 1052158 392
>>1052049
Я все версии изучаю. Если можешь предложить что-то лучшее - предложи. Он хотя бы не слился после прямого вопроса.
Аноним 13/02/25 Чтв 03:02:15 1052160 393
>>1052140
А, ладно. Я последовательно посты читал.
Лично мне и так твоя версия больше нравится. Звучит проще, а обычно "всё сложное просто".
Благодарю =)
Аноним 13/02/25 Чтв 03:08:44 1052162 394
>>1052140
> файнтюнить т5
И этот чудик еще выебывается. Вперед и с песней, тренируй. Пробежишься по граблям и дашь жидкого, осознав, что с тренировкой новых моделей застряли не просто так и это гиблый подход. Отказ от него в пользу в новых моделях тоже имеет под собой основания.
> Как это и сделано в хуйняне
Буквально ложится на мое описание и опровергает сказанное тобой, у тебя все хорошо? Иди в хайняне т5 поищи.
> Вдруг волшебное понимание абстракций не появится.
Что ты понимаешь под этим самым волшебным пониманием абстракций? На вещи, которые были в тренировочных данных и около того даже sd1 с малым клипом прекрасно откликаются.

> Детектится по паттерну "оскорбление" -> "почитай как работает x"
Сначала оскорбление >>1052049 а следом >>1052140 "почитай". Нука съебался нахуй отсюда, мамкин агрессивный эксперт.
Аноним 13/02/25 Чтв 03:36:14 1052170 395
IMG202502090720[...].png 389Кб, 736x1024
736x1024
>>1052162
Я и так планировал по этой схеме рабоать, напрямую с эмбеддингами (+сетка выбрала метод более перспективным), да и звучит это логично.
Вопрос: разве в таком случае не придётся всё равно это дело тренировать на картинках? И как оно, ты сам эту схему пробовал?

Я даже не догнал до природы срача, но хочу вкатиться, чтобы понимать. Оно интересное. База по сеткам у меня есть, но на таком уровне уже не понимаю. Кто проконсультировать сможет, я уши развешу в тг @slojno_pridumat_username
Аноним 13/02/25 Чтв 04:14:40 1052179 396
>>1052162
>осознав, что с тренировкой новых моделей застряли не просто так и это гиблый подход
Настолько же гиблый как присрать ллм вместо энкодера и надеяться на чудо.
>Буквально ложится на мое описание и опровергает сказанное тобой, у тебя все хорошо?
Опровергает что?
>Иди в хайняне т5 поищи.
Я про т5 в хуйняне ничего не писал.

Но ладно, для долбоеба поясню пошагово.
Залетный нуб: выдвигает невероятно новую и уникальную идею присрать ллм к диффузии вместо текстэнкодера
Я: Говорю что это делали сто раз и получается хуйня
Шыз: надо просто "вытащить скрытые состояния и использовать их"
Я: решая не утруждать себе тысячным бесполезным срачем прост пишу нубу что ему отвечает местный шиз-долбоеб
Я: все-таки поясняю нубу почему наивное подключение ллм вместо энкодера будет плохо работать и говорю как сделать чтобы работало лучше, привожу ссылку на то где это уже было реализовано
Шиз: рвоньк

>>1052170
>Я и так планировал по этой схеме рабоать, напрямую с эмбеддингами
Лол, ну и когда там от тебя новую модель ждать? Кластер с h100 не забыл купить только?

>Кто проконсультировать сможет, я уши развешу в тг
Тебе не консультироваться у шизов надо, а хотя бы не совершать XY-проблему ( https://habr.com/ru/companies/vdsina/articles/553498/ ) Когда знаешь же что нихуя не знаешь. Торч учил? Код диффузионок читал? Историю, эволюцию моделей, папиры где делают разную хуйню и предполагают, почему она работает/неработает? Градиентный спуск как работает?
Как ты собрался учить свою модель, если даже базы не знаешь?
Аноним 13/02/25 Чтв 09:23:24 1052267 397
IMG202502131011[...].png 513Кб, 736x813
736x813
>>1052179
>Лол, ну и когда там от тебя новую модель ждать?
Можешь не ждать, я разрешаю.
>Кластер с h100 не забыл купить только?
Это дело арендуется.
>не совершать XY-проблему
Было бы уместно, если бы мне ещё отвечали так, чтобы я понимал. Просто задав вопрос я ничего не теряю, потому что это ничего и не стоит. Более того, возможно приобретаю. Или ты скажешь, что знать как не надо делать не нужно? Ошибка выжившего тогда, мне нужно.
>Торч учил?
Поверхностно, пришлось частично разбираться, когда что-то полетело. Но если тебе не_интересно, в целом считаю хуйнёй, что это дело всё на питоне пишется. "Питон кал" by раст-прогер.
>Код диффузионок читал?
Пока нет, но вот-вот сложу крайние пазлы и начну лезть в середину.
>Историю, эволюцию моделей, папиры где делают разную хуйню и предполагают, почему она работает/неработает?
Любую историю считаю так же калом, но архитектуры и принципы работы предшественников знаю. Типа чистых MLP, RNN, AE, GRU. Глубже пока не нашёл смысла лезть. Как найду - залезу.
>Градиентный спуск как работает?
"Вычисляет" градиент функции потерь и обновляет модель на его основе. Спуск определяет какие производные будут у градиента, которые уменьшат влияние функции потерь, а сам градиент является вектором этих производных. Удивлён, что ты "стохастический" не добавил самоутверждения ради. Боялся, что я ахуею от такого большого количества новых слов или сам не шаришь, что это топ?
Из такого, что ещё в процессе изучения - вихрь Мерсенна.

>Как ты собрался учить свою модель, если даже базы не знаешь?
Как видишь, как-то собрался. Сомневаюсь, что ты тоже сразу умачём стал. А я ведь и не претендую на умачество, наоборот только спрашиваю, что да как.
Аноним 13/02/25 Чтв 18:59:17 1052674 398
>>1052170
> всё равно это дело тренировать на картинках
Да. Разумеется, ты можешь тренировать текстовый энкодер отдельно в составе самого клипа сравнивая с готовыми эмбедингами, или пытаться тренировать полный т5 на текстовых парах. Но диффузия не обязательно будет готова к полученным изменениям.
> Кто проконсультировать сможет
Тебе просто интересно, или что-то делать задумал?
>>1052179
> Настолько же гиблый как присрать ллм вместо энкодера
> хайнань: существует
Охлади траханье, агрессиор. То что ты отмечаешь детали - хорошо, и был бы даже молодцом, если бы не пытался разжигать срач и выставлять себя суперумником, подразумевая невежество остальных.
> Я про т5 в хуйняне ничего не писал.
Ты по сути то ничего нового не написал, уточнил и со слюнями и оскорблениями, имплая срыв покровов, от чего преисполнился выебонами.
> Шиз: рвоньк
Бедняга, зашивайся.
Аноним 13/02/25 Чтв 19:03:49 1052679 399
>>1052179
>Как ты собрался учить свою модель, если даже базы не знаешь?
С Божьей помощью. Проблемы?
Аноним 13/02/25 Чтв 21:59:24 1052843 400
>>1052674
>Тебе просто интересно, или что-то делать задумал?
В идеале "делать", но до этого пока слишком далеко. Я всё ещё почву прощупываю. А так, естественно делать. Какой смысл знаниям простаивать, если они есть?
Аноним 14/02/25 Птн 00:24:58 1052982 401
Аноним 14/02/25 Птн 03:15:24 1053115 402
Ктонибудь знает точно количество линейных и точное количество конволюшн модулей в сдхл? Интересует в том числе то, что считается как группы из модулей, где не входят только конволюшены например. Нигде не могу найти инфу, а скрипты показывают тупа разные значения с разной суммой, которые трудно правильно отфильтровать.
Аноним 14/02/25 Птн 03:24:27 1053120 403
>>974163 (OP)
Подскажите сейчас нейронки работают на чипах любого производителя
Просто я до недавнего времени слышал что только нвидию нужно брать?
Если возьму интел arc проблем не будет?
Аноним 14/02/25 Птн 03:35:56 1053124 404
>>1053120
только нвидия если не нужен пердолинг
если линуксошиз то можно рассмотреть красных из-за rocm
интел нинужон
Аноним 14/02/25 Птн 04:18:05 1053142 405
>>1053120
>проблем не будет?
Только они и будут.
Аноним 15/02/25 Суб 10:14:14 1054069 406
Технари-обучаторы, подскажите за kohyass, где я могу указать параметры для LoRa в webui?
>enable_blocks=10-14
>disable_blocks=OUTALL,IND
>conv_dim=0
Я нашел вроде бы нужный параметр с блоками (слоями), идущими через запятую, но в примере забито что-то вроде
>2,2,2,2,5,5,7,8,8,8,8,2,2,2,2
Я правильно понимаю что это сила (коэффицент) каждого блока (слоя)? То есть для enable_blocks=10-14 и disable_blocks=OUTALL,IND мне нужно задать что-то вроде >0,0,0,0,0,0,0,0,0,0,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0
Или мне лучше преднастроить модель, сохранить в json/toml параметры, отредактировать их вставив то что мне нужно и запускать через соснольку?
Аноним 15/02/25 Суб 10:25:52 1054073 407
>>1054069
Можно подумать что нейрообсосы сами в курсе для чего нужны эти параметры. Методом тыка все сам подбирай пока не будет сносно. Тут как на самом деле работает хайрезфикс в автоматике никто не знает.
Аноним 15/02/25 Суб 10:48:19 1054095 408
>>1054069
>Я правильно понимаю что это сила (коэффицент) каждого блока (слоя)?
да, у каждого блока еще есть сабслои, если тебе нужно еще более тоньше конкретные модули тренить (зачем неясно), через томл оно пишется типа как (щас форматирование поедет и символы потеряются вероятно):
"^(?!.(ff\\.net|proj)).input_blocks\\.8\\.1\\..*$"

>мне лучше преднастроить модель, сохранить в json/toml параметры, отредактировать их вставив то что мне нужно и запускать через соснольку?
ну это более читаемо так скажем, проще, чем в уи сидеть с разбегающимися глазами лично мне
Аноним 15/02/25 Суб 10:58:25 1054108 409
>>1054073
>что нейрообсосы сами в курсе для чего нужны эти параметры
за себя говори
>Методом тыка все сам подбирай пока не будет сносно
вредные советы, учитывая сколько параметров можно настроить, брутфорс будет длиться вечность, лучше мануальчики почитать и гпт поспрашивать
>Тут как на самом деле работает хайрезфикс в автоматике никто не знает.
генерит низкое разрешение через forward-pass для получения скрытых признаков, применяет апскейл, применяет методы (шринк например) для фильтрации шумов, увеличивает внимание, ослабляет/увеличивает влияние слоев, второй проход корректирует детали на основе полученного шума в начале и заново использует выбранные слои
Аноним 15/02/25 Суб 11:13:15 1054117 410
>>1054069
>Я правильно понимаю что это сила (коэффицент) каждого блока (слоя)?
>0,0,0,0,0,0,0,0,0,0,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0
Небольшое уточнение, это ранк каждого модуля прописываеется, поэтому твой пример с единичкой немного некорректен, так вроде только для фуловой тренировки нужно указывать т.к. там нет сниженных дименшенов для уменьшения веса. То есть ты можешь отдельный ранк для каждого блока прописать. То же самое для альфы и конволюшена, если надо.
Аноним 15/02/25 Суб 13:56:37 1054247 411
Пиздос только сегодня понял что конволюшн напрямую влияет на диверсити токенизейшен (когда изменение токена или добавление нового полностью перестраивает картинку).
Аноним 15/02/25 Суб 16:27:56 1054369 412
>>1054108
>генерит низкое разрешение через forward-pass для получения скрытых признаков
Ну видишь ли, это твои личные предположения. А в палате по соседству считают что оно латент апскейлит например. И так про все. Единственный в итоге критерий - дает результат или нет.
Аноним 15/02/25 Суб 17:41:06 1054435 413
>>1054369
>Ну видишь ли, это твои личные предположения
в смысле? это по паперу
>А в палате по соседству считают что оно латент апскейлит например
у тебя контекст маленький? перечитал еще раз пост
Аноним 15/02/25 Суб 17:41:42 1054436 414
Аноним 15/02/25 Суб 18:59:45 1054548 415
Screenshot 2025[...].png 50Кб, 962x634
962x634
>>1054435
Ну то есть ты вообще не в курсе про срач старый хайресфикс вс новый. И так у вас задротов вечно. Главное авторитетно пукнуть.

А Я ЫВ МОНУАЛЕ ПРОЧЕТАЛ

ЧО УЖЕ ПОМЕНЯЛЕ ВСЕ?

В ПЕРВЫИ РАЗ ВООБЩЕ СЛЫШУ

Поэтому я и говорю, что все нужно тестить лично.
Аноним 15/02/25 Суб 21:18:55 1054725 416
>>1054548
Проблемы вебуйщиков комфибояр не ебут.
Аноним 17/02/25 Пнд 03:15:04 1056704 417
Стикер 0Кб, 128x128
128x128
Сап, аноны.
Мне нужно обработать ДЖВЕСТИ МИЛЛИАРДОВ изображений, нужно сделать небольшой аутпэйнтинг процентов 5% от границ изображения влево, вправо и вверх.
Освоился с интерфейсом AUTO1111, но его аутпэйнтинг слишком... целевой, чтоли, делается долго, серьезно и там всегда нужен промпт оригинала. Это не подходит для массовой задачи.

Есть ли какой-нибудь метод для того чтобы такую задачу на поток поставить и без промпта тонну изображений обработать? В идеале какое-нибудь расширение для AUTO1111 ?
Аноним 17/02/25 Пнд 04:41:36 1056729 418
>>1056704
Закономерный вопрос нахуя?..
Аноним 17/02/25 Пнд 05:12:30 1056739 419
>>1056704
>задачу на поток поставить и без промпта тонну изображений обработать
Осваивайся дальше, там это есть искаропки.
Аноним 17/02/25 Пнд 05:55:43 1056749 420
>>1056729
Пытается лицо своё на видосе замазать. Ну или фэйкануть что-то.
Аноним 17/02/25 Пнд 17:27:46 1057072 421
image.png 44Кб, 886x411
886x411
image.png 67Кб, 933x907
933x907
Нихуя гпт умный. Ну в принципе логично.
Аноним 17/02/25 Пнд 19:50:12 1057201 422
>>1057072
> умный
Судя по твоим пикам как всегда несёт хуйню. И это судя по тупости на скринах всратый 4о, он особенно на русском любит нести "логичную" хуйню с умным видом, основываясь на фантазиях.
А если по теме, то лоры мы треним в первую очередь на линейных слоях, а там градиенты зависят только от количества каналов, которые фиксированные.
Аноним 17/02/25 Пнд 20:59:26 1057290 423
>>1057201
Анимедебил, опять выходишь на связь?
Аноним 18/02/25 Втр 02:34:48 1057697 424
1.png 964Кб, 768x768
768x768
Нейрачи подскажите, пожалуйста, какие вообще есть варианты по генерации своего персонажа? Сделать что-то на подобии character sheet и пытаться вытянуть из него пак для тренировки лоры?

А IPadapter вообще не для этого всего?

Или уже существуют отдельные инструменты для таких задач?
Аноним 18/02/25 Втр 03:12:59 1057726 425
>>1057072
> 2025
> до сих пор слушать бред жпт-4о, а не о1 или R1
Как же ору. А потом эксперты начитавшиеся подобного срут тут.
Аноним 18/02/25 Втр 11:28:36 1057967 426
>>1057697
> character sheet
Не нужен.
Просто генеришь побольше картинок с персом, желательно в разных стилях/позах/костюмах, и тренируешь лору.

В самом ленивом варианте хватит вообще одной картинки. На цивите были туторы по тренировке с одного файла, с настройками и примерами.
Но гибкость у такого похуже, чем у тренировки с полноценным датасетом.
Аноним 18/02/25 Втр 11:49:39 1057975 427
>>1056739
Что-то я там такого не заметил, ну ладно спасибо анон, перепроверю всю искаропку.

>>1056729
Некоторые текстуры делаю.
И твой вопрос не "закономерный". Я спрашиваю "как выполнить определенную задачу", ты отвечаешь "а что это у тебя за задача". Нахуя тебе эта информация? Она же тебе не нужна и ты и я это знаем.
Твой вопрос это просто флуд, который никому не нужен и ни куда не ведет и главное переводит нить обсуждения в нерилейтед, что вредит изначальному вопросы.
Аноним 18/02/25 Втр 12:07:32 1057990 428
Аноним 18/02/25 Втр 16:59:42 1058422 429
>>1057975
>И твой вопрос не "закономерный". Я спрашиваю "как выполнить определенную задачу", ты отвечаешь "а что это у тебя за задача". Нахуя тебе эта информация? Она же тебе не нужна и ты и я это знаем.
Еще один дегрод блядь который сам не знает чё ему надо. https://ru.wikipedia.org/wiki/Проблема_XY
>Твой вопрос это просто флуд, который никому не нужен и ни куда не ведет и главное переводит нить обсуждения в нерилейтед, что вредит изначальному вопросы.
ОРУ НАХУЙ
>Некоторые текстуры делаю.
С АУТПЕИНТА ТЕКСТУР ЕЩЕ БОЛЬШЕ ОРУ
Аноним 18/02/25 Втр 18:29:16 1058527 430
>>1058422
Зачем так бурно реагируешь?

>wiki Проблема_XY
Я же задал конкретный вопрос по инструменту, на который можно так же конкретно ответить, а ты не служба поддержки и это не твоя забота подвергать сомнению целесообразность моих задач.

>ОРУ НАХУЙ С АУТПЕИНТА ТЕКСТУР ЕЩЕ БОЛЬШЕ ОРУ
Ты орешь что я сам не знаю что мне нужно, но ты конечно же не можешь быть объективен в этом, потому что ты не знаешь что это за текстуры, что на них, для чего они будут использоваться и весь стек причин, который привел меня к этой задаче. А меня в свою очередь конечно не интересует мнение орущего школьника, у которого при малейшей критике рвется жопа и он начинает визжать выпучив глаза.
Аноним 18/02/25 Втр 19:10:48 1058559 431
>>1058527
Ты попробовал сначала хотя бы посчитать сколько лет твоя обработка займет? Лол, сам так и не ответил на вопрос но начал гореть и срать не по теме, нахуя тебе аутпеинтинг, ты там на курсе машоба обучаешь говносетку, но у тебя чет не работает, а тему про паддинг вы еще не проходили? Или нахуя еще тебе столько текстурок, которые не склеятся после аутпеинта?
Аноним 26/02/25 Срд 06:48:45 1069974 432
Идея выкинуть энкодер и по типу контролнетов сделать "копию" модели через лору, только еще реверснуть кросатеншн и заставить его генерить эмбединги по исходной картинке, потом ее денойзить уже как обычно с этими эмбединграми вместо энкодера, таки насколько плоха? Сами эмбединги мы конечно же потом будем получать при помощи ллмки как-нибудь в рамках отдельной тренировки.
Аноним 02/03/25 Вск 00:16:04 1075399 433
Там sd3 ветка сдскриптов обновилась оказца, теперь есть валидейшен лосс искаропки и даже все шедулерфри лицокниги работают нормально https://github.com/facebookresearch/schedule_free
Перекатился на адамв оттуда, кайф.
Аноним 02/03/25 Вск 00:25:33 1075412 434
image.png 815Кб, 800x800
800x800
image.png 298Кб, 800x800
800x800
>>1075399
А ктонить итт пробовал RAdamSF https://zenn.dev/dena/articles/6f04641801b387 ?
Меня немного пугают тесты пикрел на вакуумном коне, но судя по статье автора в реальном использовании он крутой.
Аноним 02/03/25 Вск 01:32:39 1075465 435
1638758464801.png 69Кб, 639x309
639x309
>>1075412
Нестохастические тесты, ещё и с кривым lr - это залупа полная. Но судя по пикрилу такая же хуйня как и обычный Schedule Free.
Аноним 02/03/25 Вск 14:43:42 1076005 436
изображение.png 4469Кб, 1650x1684
1650x1684
>>1075412
А почему нельзя вот так? Вроде просто и очевидно.
Аноним 02/03/25 Вск 15:48:52 1076080 437
>>1076005
ну придумай оптимайзер который так делает на похуях скипает все локал минимумы и ебет систему в рот все будут ток рады
Аноним 02/03/25 Вск 19:32:38 1076478 438
>>1076005
Для функции из двух параметров очевидно, а для сети из лярда параметров - нет. Это во первых.
Во вторых, в реальной сети нет локальных минимумов, или их число минимально, нас больше волнуют седловые точки.
В третьих, оптимайзеру надо не минимумы уметь хорошо проходить, это обеспечит стохастика и те самые седловые точки, что есть расширение минимума дополнительными обходными пространствами-путями, а надо уметь правильно учитывать второю производную, которой тоже не существует, но мы делаем вид что она есть. Так как есть что-то как минимум похожее на нее. А если в нейросетках есть какая-то метрика, которая может давать нам предсказание чуть более точное, чем случайное, то мы используем её.
Аноним 02/03/25 Вск 21:44:43 1076670 439
>>1076478
>Во вторых, в реальной сети нет локальных минимумов
А как так выходит? Мне чисто умозрительно кажется, что как раз в реальности всё в локальных минимумах. Иначе гроккинг не требовал бы тренировки за пределами оптимума в тысячи раз.
Аноним 03/03/25 Пнд 17:10:02 1077480 440
Как много ресурсов нужно, чтобы Flux стал обученным QAT (квантизованным в процессе обучения), а не PQT (квантизованным после обучения, как сейчас)?
Аноним 04/03/25 Втр 00:46:06 1078356 441
>>1076670
Что в одном разрезе минимум, в другом - нет. А измерений у нас дохуя разных, так что вероятность просто обойти минимум довольно велика.
>Иначе гроккинг не требовал бы тренировки за пределами оптимума в тысячи раз.
Это не так работает. При грокинге как бы сначала попадает в минимум, но этот минимум не надо преодолевать, он так и остается. Там проблема в том что пока нейронка сидит в переобученности, она естественным образом учится все лучше и уверенно извлекать тупо запомненные знания. "Умный" градиент из-за этого очень слабо идет по сети.
Аноним 04/03/25 Втр 14:47:12 1079061 442
Анончики, подскажите. Есть одна тян, не особо популярная. Хочу нагенерить с её лицом всякого. Есть ртх четвёртой серии, что почитать новенького, чтобы особо не погружаться, но добиться приемлимого результата? Спасибо большое всем кто ответит.
Аноним 04/03/25 Втр 16:59:20 1079219 443
image.png 101Кб, 1260x936
1260x936
>>1079061
Ну давай я попытюась сжать вкатоинфу, мне все равно нехуй делать.

Берешь модель с голыми бабами, допустим натвис 2.7.
Берешь собираешь датасет (если есть фулбади фотки то их тоже можешь в сет пихать, сетка еще допом и комплекцию схватит), генерируя описания например через это с токеном который будет вызывать листо бабы https://github.com/EvilBT/ComfyUI_SLK_joy_caption_two
Качаешь крайнюю версию https://github.com/kohya-ss/sd-scripts/tree/sd3 (именно sd3, это бранч со всем новым)

Выбираешь алгоритм модуля для ликориса, самый быстросчитаемый и при этом похожий на фул файнтюн это локр, самый похожий на фул файнтюн но считаемый значительно дольше и точнее/более флекси это глора, локон это классическая узконаправленная лора плюс конволшены, диагофт и бофт прикольные но у них не везде поддержка для применения в UI есть. Я бы начал с дрочения локра, и потом переключился на глору. По алго тут https://github.com/KohakuBlueleaf/LyCORIS/blob/dev/docs/Algo-List.md , по нетворк аргсам тут https://github.com/KohakuBlueleaf/LyCORIS/blob/dev/docs/Network-Args.md

Далее тебе нужно выбрать оптимайзер. Их три вида: классические неадаптивные с шедулером лернинг рейта (AdamW, Lion), адаптивные с шедулером/без шедулера (Prodigy, ProdigyPlusScheduleFree), и неадаптивные бесшедулерные (AdamWScheduleFree,RAdamScheduleFree). Адаптивные не требуют побирать LR юнета и текст энкодера. В примере ниже будет радам шедфри, но если будешь крутить шедулерный оптимайзер то cosine_with_restarts наверно самое мощное будет указать, либо просто cosine, либо constant в некоторых случаях если это адаптивный продижи.

Делаешь конфиг в бат файл в папке сдскриптс, создавая там же папку logs и output_dir и кидая папку с датасетом рядом в формате иерархии папка/числоитераций_класс/картинки (govno/1_woman/картинки)

accelerate launch --num_cpu_threads_per_process 8 sdxl_train_network.py ^
--pretrained_model_name_or_path="K:/natvisNaturalVision_v27.safetensors" ^
--train_data_dir="папка с сетом" ^
--output_dir="output_dir" ^
--output_name="test" ^
--network_args "algo=lokr" "module_dropout=0.1" "rs_lora=True" "conv_dim=10240" "conv_alpha=10240" "factor=4" "bypass_mode=False" "dora_wd=True" "preset=full" "train_norm=False" "use_scalar=False" ^
--resolution="1024,1024" ^
--save_model_as="safetensors" ^
--network_module="lycoris.kohya" ^
--max_train_epochs=40 ^
--save_every_n_epochs=1 ^
--save_state_on_train_end ^
--save_precision=bf16 ^
--network_dim=10240 ^
--network_alpha=10240 ^
--train_batch_size=1 ^
--gradient_accumulation_steps=1 ^
--max_data_loader_n_workers=1 ^
--enable_bucket ^
--bucket_reso_steps=64 ^
--min_bucket_reso=768 ^
--max_bucket_reso=1280 ^
--mixed_precision="bf16" ^
--caption_extension=".txt" ^
--gradient_checkpointing ^
--full_bf16 ^
--optimizer_type="RAdamScheduleFree" ^
--unet_lr=0.00001 ^
--text_encoder_lr=0.00001 ^
--loss_type="l2" ^
--max_grad_norm=1 ^
--scale_weight_norms=1 ^
--debiased_estimation_loss ^
--xformers ^
--seed=0 ^
--logging_dir="logs" ^
--persistent_data_loader_workers ^
--validation_split=0.1 ^
--validate_every_n_epochs=1 ^

pause

Пояснения:

--network_args "algo=lokr" "module_dropout=0.1" "rs_lora=True" "conv_dim=10240" "conv_alpha=10240" "factor=4" "bypass_mode=False" "dora_wd=True" "preset=full" "train_norm=False" "use_scalar=False" ^

Ранк дропаут и общий дропаут не работает с локром, только модульный, увеличивает отвязку финальной модели от датасета более гибко встраивая себя в фул модель.
rs_lora это https://huggingface.co/blog/damjan-k/rslora небольшая матанская мокропися увеличивающая стабильность и точность рангов, чем выше ранг тем выше точность
конволюшен огромный потому что локр все равно декомпозится, но в принципе можно и любое стандартное значение уровня 8-256 всунуть с соответствующей альфой, по дефолту альфа не учитывается
фактор - фактор декомпоза, чем меньше значение тем больше параметров в конечной лоре, чем выше значение тем меньше параметров, самый маленький вариант локра это значение -1, делающее локр вообще не переносимой на другие модели но зато максимальная выжимка для модели получается на которой тренируешь размером в пару мегабайт
дора - вариант декомпоза весов который похож по структуре на полноценный файнтюн https://civitai.com/articles/4139/the-differences-between-lora-and-fine-tune-as-well-as-nvidias-newly-released-dora-technology
preset=full это тренировка всех модулей, но есть другие варианты пикрел
нормы тренировать не надо обычно, но в принципе если позволяет память то можно и их включить, но нинужно

--network_dim=10240 ^
--network_alpha=10240 ^

Требования для локра для корректных вычислений, нетворк альфа не учитывается. Любые другие алгоритмы требуют точного указания размерности: допустим 64/32, сама альфа по дефолту это делитель, указывающая масштаб весов при сохранении, т.е. чтобы узнать влияние надо 32 поделить на 64 - 0.5, именно с таким коэффициентом будут обновляться веса модели весами лоры. Хочешь фул экспириенс - указываешь одинаковую размерность или 0 в альфе. Хочешь аккуратненький точечный тренинг - указываешь 1 в альфе или меньше, но длительность тренировки будет многократно увеличена. Тот же принцип для конволюшен слоев.

--unet_lr=0.00001 ^
--text_encoder_lr=0.00001 ^

Скорости обучения, принцип примерно такой: хочешь больше инфы оставить от изначальной модели - ставить TE lr ниже, чем UNET lr (вообще модулей в TE меньше в три раза, и он и так хорошо предобучен, так что соотношение 3 к 1, 2 к 1, 4 к 1 это база, но можно и 10 к 1 если прям тонкий файнтюнчик будет), хочешь добавить больше инфы из датасета - ставишь равный лр, но есть вероятнсоть пережарить te, особенно с адаптивными оптимайзерами - у продижи оригинального нельзя распараллелить лры и коэффициент на юнете и те одинаковый, у шедулер фри можно разные выставлять скорости. Тот же принцип визуально https://imgur.com/ksnip-screenshot-dktVoXT https://imgur.com/OFanVlM

--loss_type="l2" ^
функция оценки потерь, классическая четкая и агрессивная, есть другие
--max_grad_norm=1 ^
клиппер, не везде требуется, например в шедулер фри продижи есть свой клиппер
--scale_weight_norms=1 ^
скейлит обосравшиеся веса и показывает по факту что юнет начинает гореть, если ниче не скейлится по логу то обучения ок идет
--debiased_estimation_loss ^
понижает влияние нижних таймстепов (шум), повышает влияние верхних таймстепов (читаемая картиночка), есть еще одна штука min_snr_gamma с возможностью настройки - повышает полезный сигнал за счет понижения влияния нижних таймстепов, но она скорее для очень говеных датасетов, выбирай либо одно либо другое

--validation_split=0.1 ^
--validate_every_n_epochs=1 ^
очень удобная штука из разряда "как я без нее раньше жил", высчитывает метрику которая показывает грубо гря насколько обученная модель близка к валидационной части датасета, следовательно показывает доучилась ли модель или нет: если валидация падает - все хорошо, начался разворот и несколько эпох идет повышение - модель по факту обучилась и начала переобучаться
первый прааметр указывает часть которая отщипывается от датасета и не участвует в обучения а только в валидации

еще есть аргумент --optimizer_args который управляет аргументами оптимайзера, если они требуют настройки, допустим у прдижей сф дофига аргументов и выглядеть конструция будет ну примерно так --optimizer_args "d0=4e-5" "prodigy_steps=0" "eps=1e-8" "d_coef=1.0" "use_bias_correction=False" "factored=True" "factored_fp32=True" "use_adopt=False" "weight_decay=0.01" "weight_decay_by_lr=False" "use_cautious=False" "use_orthograd=False" "use_speed=False" "use_grams=False" "fused_back_pass=False" "split_groups=True" "split_groups_mean=False" "use_stableadamw=True" "use_muon_pp=False" "use_adopt=False" "stochastic_rounding=True" ^

не забудь поставить тензорборду и отслеживать графики в ней
Аноним 04/03/25 Втр 17:58:11 1079289 444
>>1079219
Я не он, но вот искренне интересно, ты вот веришь во всю эту магию идеальных параметров? Спустя столько времени и тренировок просто уже настолько всё это заебало, что приходит по тихоньку осознание что хоть ты там идеальные параметры подбери, будет минимальный сдвиг в плане качества на уровне плацебо особо не отличающийся от обычного дефолта после появление кохи с адамом. Но вот что реально влияет это три, описанных ещё давным давно, закона масштабирования https://arxiv.org/abs/2001.08361 и ведь по факту, файнтюн вс лора охуеть какая разница порой со сложными стилями бывает, это грубо говоря число параметров, размер датасета, где какая то хуйня низачто не натренится если модели сложно в это, какие бы параметры не выставил, только ты её пихаешь в биг дату (относительно, сам стиль типо 150, а так около 10к) оно делает идеальную копию, или тупо закидывание компьютом на похуй как делали с той же наив3, с лорой наверное тоже бы вышло, не 75к гпу часов конечно, но эквивалентное
Аноним 04/03/25 Втр 18:32:14 1079324 445
>>1075399
> валидейшен лосс искаропки
Он такой же пососный как и все прототипы? Расскажи насколько полезен/информативен по опыту, интересно.
> шедулерфри лицокниги работают нормально
Вроде и раньше работали, просто прописываешь полностью оптимайзер. Поделись впечатлением с адама без шедулера.
> sd3 ветка
Раньше там кеширование было поломано и что-то еще, починили?
>>1079289
> хоть ты там идеальные параметры подбери
Параметры - лишь часть результата, необходимая но не достаточная. Датасет и подбор всего с учетом его и желаемого результата - первичны, все верно.
> файнтюн вс лора охуеть какая разница порой со сложными стилями бывает
Местами лора может давать даже более удачный и приятный результат, как раз за счет сокращения эффективных параметров или большой скореллированности всех. Полный файнтюн весов чрезвычайно малым датасетом - не самая хорошая идея, просто все убьешь. Хотя офк никто не мешает, можно зажарить а потом извлечь лору для другого результата относительно исходной лоры.
> какая то хуйня низачто не натренится если модели сложно в это, какие бы параметры не выставил
В целом узкий файнтюн типа стиля или персонажа - натягивание совы на глобус (модели на аутпут), лоры здесь почти всегда хватает. Даже если пытаешься сделать сразу много стилей/персонажей - тоже спокойно прокатывает, хотя вот там уже эффект от повышения ранга начинает становиться заметным.
> закона масштабирования
> ты её пихаешь в биг дату
> сам стиль типо 150, а так около 10к
> тупо закидывание компьютом на похуй как делали с той же наив3
Натащил говна и рад, что сказать хотел в итоге?
Аноним 04/03/25 Втр 18:50:51 1079357 446
>>1079289
>ты вот веришь во всю эту магию идеальных параметров?
Ну тут нет идеальных параметров, просто общая инфа.

Вообще все параметры можно разделить на три группы
1. системные для в принципе работоспособности тренировки, их подбирать не надо
2. оптимайзерские, в основном теребится только вейт дикей пенальти и лернинги
3. сафети дампнеры, которые ограничиваю взрыв градиентов и сигнализирует о говне в штанах
Я сам против вот этих всех "выбирайте дименшен под датасет и выдрачивайте альфу при польной луне", а всякие ограничители даже подбирать не нужно в 80% случаев.

>будет минимальный сдвиг в плане качества на уровне плацебо особо не отличающийся от обычного дефолта после появление кохи с адамом.
Основное влияние на квалити оказывает реализация алгоритма и скорость/сходимость у оптимайзера, тут уже кому что надо выбирают - или быстрый результат или высокая точность.
Аноним 04/03/25 Втр 19:39:31 1079500 447
350485433178497.png 8Кб, 440x152
440x152
693290189718765.png 24Кб, 780x363
780x363
>>1079324
>Он такой же пососный как и все прототипы?
Я ток в еверидриме валидейшен юзал, не сказал бы что он пососный, принцип точно такой же как в скриптах https://github.com/victorchall/EveryDream2trainer/blob/main/doc/VALIDATION.md
>Расскажи насколько полезен/информативен по опыту
Ну вот графеки, пик1 показывает что вообще не туда ушла тренировка поэтому я ерли стопнул и поменля параметры.
Пик2 в красной точке лучшая модель. Удобно кароче, не надо по лоссам гадать где не обосралось.
Там еще есть метрика epoch_divergence, согласно автора

Added divergence value for step and epoch, indicating the difference between training and validation.

Вот допустим в модели с пика 2 отклонение всего минус 0.004, типа наверно нужно чтобы в идеале близко к нулевому значению было кароч.

>Вроде и раньше работали, просто прописываешь полностью оптимайзер.
Там какая-то хуйня была на мейн ветке типа в самих скриптах кои с шедфри логикой пыталось сохранять каждый шаг, вместо каждой эпохи, и вылетало, а самому фиксить говнокод трудно. На сд3 ветке все ок.

>Поделись впечатлением с адама без шедулера.
Ну адам как адам, такой же точный, быстрее сходится из-за того что нет расписания через заранее заданную кривую. Можно чуть более агрессивно тренировать, т.к. стабилизация внутри есть. Кароче шедулерфри просто более эффективны по сравнению с классическими версиями.

>Раньше там кеширование было поломано и что-то еще, починили?
Не юзаю кеш, а ломают обычно чето в дев ветке.
Аноним 04/03/25 Втр 19:40:02 1079505 448
>>1079324
> Местами лора может давать даже более удачный и приятный результат
А местами наоборот будет выглядеть будто и не тренил вовсе, как повезёт с основной моделью и её реакцией на датасет
> Натащил говна и рад, что сказать хотел в итоге?
То что твиканье гиперпараметров имеет незначительный импакт по сравнению с фундаментальными вещами описанными в том древнем пейпере, которые на удивление работают, в отличии от очередного прорывного пр притащенного в кохью, который благополучно забывается через неделю
>>1079357
> Основное влияние на квалити оказывает реализация алгоритма и скорость/сходимость у оптимайзера, тут уже кому что надо выбирают - или быстрый результат или высокая точность.
Да, наверное ты прав насчёт этого, но они всё равно по сути приводят к одному результату, просто какие то по лабиринту, а какие то более напрямую. Не всегда этот результат является тем, чего ожидаешь от датасета, нету каких то серьёзных прямо изменений от того что их крутишь, подбираешь, а всё определяется другими вещами, в основном моделью, ведь если бы они давали больший импакт, не надо было бы разделять модели на реалистик/фурри/аниме вообще
Аноним 04/03/25 Втр 20:01:39 1079578 449
>>1079505
>нету каких то серьёзных прямо изменений от того что их крутишь, подбираешь
если ты хочешь на основе модели через лору занулить знания основной модели и сделать датасет и описательную часть превалирующими на 100%, то надо нулить текстовый енкодер, а не обучать веса, то есть делать его лернинг безопасным, но выше 2-4 раза, чем скорость тренировки юнета, ты как бы ломаешь текстенкодер делая его уникальным
>ведь если бы они давали больший импакт, не надо было бы разделять модели на реалистик/фурри/аниме вообще
у них зануленые разные текстовые енкодеры несовместимые, там физически нельзя их совмещать никак, кроме как через DARE костыль
Аноним 04/03/25 Втр 20:36:44 1079736 450
>>1079578
> если ты хочешь на основе модели через лору занулить знания основной модели и сделать датасет и описательную часть превалирующими на 100%, то надо нулить текстовый енкодер, а не обучать веса, то есть делать его лернинг безопасным, но выше 2-4 раза, чем скорость тренировки юнета, ты как бы ломаешь текстенкодер делая его уникальным
Ты имеешь ввиду юнет онли, но с повышенным лр на те? А смысл, он же не тренится?
> х зануленые разные текстовые енкодеры несовместимые, там физически нельзя их совмещать никак, кроме как через DARE костыль
Просто даже если взять две относительно одинаковые модели с базовыми знаниями о концептах, пусть даже описанных по разному в клипе, тренируемые стили которые лежат в другом реалме от них сработают ужасно, аниме и реалистик тот же, несмотря на то как в действительности выглядит датасет.
Кстати про dare, может знаешь какой самый успешный франкенштейн с максимальной совместимость акросс олл чекпоинтс, пони, люстра, что там ещё натвиз чтобы намешаны были в один чан прямо, существуют такие вообще?
Аноним 04/03/25 Втр 20:53:19 1079807 451
>>1079500
> не сказал бы что он пососный
Ну оно норм только для простых вариантов, и даже там амплитуда изменений просто смехотворная и может даже оказаться лучше на поджаренных вариантах, которые потом вообще не управляются и проблемные. Насколько помню, аналогичная имплементация была и в симплтюнере, там если тренить на разнообразном датасете чара, чтобы ловить меньше байасов и легко управлять им потом, эта штука вообще не показательной оказалась, только совсем общие и грубые вещи может идентифицировать.
Хотя если именно это и нужно то норм. Может как-то дойдут руки эту затестить, как вариант неофитам точно полезно будет сразу плохие параметры отсечь.
> шедулерфри просто более эффективны по сравнению с классическими версиями
По ощущениям как реализуется в том что тренишь, или еще не распробовал?
>>1079505
> будет выглядеть будто и не тренил вовсе, как повезёт с основной моделью и её реакцией на датасет
В таких случаях и тюн не поможет а больше сломает.
> твиканье гиперпараметров имеет незначительный импакт
Ну да, датасет в целом первичен. Тут еще играет что типичные задачи тренировки что у обычных инджоеров типа лоры на чара, стиль, еот - это вообще другая тема относительно классического файнтюна ввиду чрезвычайной узости.
> в основном моделью
Только если пытаться обучить совсем радикально другому, очевидно что на модели что знает основы это сработает лучше, чем на той, которой обучаемый материал будет чужероден. Это из разряда очевидного какбы.
> не надо было бы разделять модели на реалистик/фурри/аниме вообще
Что? Совершенно разные вещи. Из анимца в реалистик можно перевести но сохранится только анатомия, а общие знания, всякое окружение и многие вещи останутся проебанными. Из (настоящего) реалистика анимцо сделать - земля пухом, нужна оче серьезная тренировка. Фурри стабильно дает свой налет и особенности, с которых плюются, хотя технически близко к анимцу и как-то может уживаться.
Аноним 04/03/25 Втр 20:56:03 1079818 452
>>1079578
> надо нулить текстовый енкодер
> зануленые разные текстовые енкодеры
Что значит зануленный энкодер?
>>1079736
> юнет онли
> но с повышенным лр на те
Это уровня "убить но чтобы остался живым".
Аноним 04/03/25 Втр 21:01:52 1079831 453
>>1079818
>Что значит зануленный энкодер?
когда текстовый енкодер теряет/ломает предыдущие знания и перезаписывает все связи токенов с новыми весами, теряя связь с базовой частью модели, у пони нуленый енкодер например
Аноним 04/03/25 Втр 21:24:19 1079899 454
>>1079831
Какой-то странный жаргон. На пони энкодер действительно полумертвый, а который clip-l там вообще все плохо.
Но без изменения связей не получить другую модель, потому что нужно как ввести туда новые понятия, так и адаптировать к другому типу капшнов, отличия неизбежны. Единственное что можно минимизировать побочный урон и постараться максимально сохранить основные возможности.
Аноним 04/03/25 Втр 21:38:05 1079942 455
>>1079807
> В таких случаях и тюн не поможет а больше сломает.
Вообще должен, если совсем не учится, с понями помню вытягивалось сложное для неё анонимными исследователями
> Ну да, датасет в целом первичен
Не только он, ещё количество параметров и гпу тайм
> Что?
Ну хуйню уже фантазирую, как было бы прекрасно переносить любой стиль на любую модель, если бы оно работало идеально вне зависимости от байасов модели и определялось лишь тем что модель может делать из концептов
>>1079831
Это типо с шума тренить? Не в домашних условиях явно
Аноним 04/03/25 Втр 21:49:16 1079983 456
>>1079942
> и гпу тайм
Для малых датасетов его нужны крохи. Ну, только если ты не какой-нибудь счастливый обладатель 3060, тогда будет тяжело.
В переносе, если там не проблемная поломанная херь типа поней могут быть две сложности. Первая - на каждую придется переобучать из-за разного представления клипа и отличий в юнете. Вторая - некоторые стили совсем радикально могут не подходить для исходного стиля и ориентации модели и быть слишком однообразным, из-за чего будет хуже результат и/или не получится хорошо отделить сам стиль от прочего в датасете.
А так, конечно, пофантазировать об суперуниверсальной модели было бы неплохо.
Аноним 07/03/25 Птн 01:26:20 1084045 457
PyTorch: новые инструменты для для экономии памяти при обучении моделей.

PyTorch представил усовершенствованные методы Activation Checkpointing (AC), цель которых - снижение потребления памяти при обучении.

Традиционный подход в eager mode сохраняет промежуточные активации для обратного прохода, что зачастую приводит к значительному расходу ресурсов. AC позволяет не сохранять эти тензоры, а вычислять их заново при необходимости, тем самым жертвуя вычислительным временем ради экономии памяти.

Новая техника – Selective Activation Checkpoint (SAC). В отличие от обычного AC, который затрагивает всю выбранную область, SAC дает гранулярный контроль над тем, какие операции следует пересчитывать, а какие – сохранять. Это достигается за счет использования policy_fn, определяющей, нужно ли сохранять результаты конкретной операции. SAC будет полезен для избегания перевычисления ресурсоемких операций, например, матричных умножений.

Для torch.compile стала доступна Memory Budget API. Эта функция автоматически применяет SAC с оптимальной политикой, исходя из заданного пользователем бюджета памяти (от 0 до 1). Бюджет 0 соответствует обычному AC, а 1 – поведению torch.compile по умолчанию.

🔜 Читать подробную статью в блоге Pytorch (https://pytorch.org/blog/activation-checkpointing-techniques/)
Аноним 08/03/25 Суб 09:15:37 1085846 458
1343465476Безым[...].png 11Кб, 982x483
982x483
Здравствуйте.

Нужно программа для тестов. Ну или хотя бы как это называется.
Есть несколько переменных и мне надо каждый пункт каждой одной переменной прогнать по очереди с всеми другими пунктами каждой переменной.

Какие есть программы для этого? Как эти методы называются?
Аноним 08/03/25 Суб 09:19:03 1085848 459
>>1085846
Ну тоесть, прямоугольники - это переменные, цифры внутри них - это варианты переменных. Каждый вариант нужно прогнать с другими вариантами в других прямоугольниках.
Аноним 08/03/25 Суб 09:46:15 1085864 460
>>1085846
Нашёл - метод полного перебора.

Кто-нибудь может подсказать программы с понятным интерфейсом?
Аноним 08/03/25 Суб 12:42:03 1085996 461
>>1085864
Это опять я, эта штука называется Pairwise. Теперь я пытаюсь найти, чтобы нормально с экселем работала.
Аноним 08/03/25 Суб 14:21:16 1086125 462
image.png 27Кб, 446x464
446x464
image.png 29Кб, 413x435
413x435
Кароче запустил тестовый ран на 10 епох, отключил на первой, передернул на 30 эпох, включил и получил другой график, ничего кроме эпох не менял. Почему так?
Аноним 08/03/25 Суб 14:39:04 1086146 463
1699168132645.png 211Кб, 1172x623
1172x623
>>1086125
Потому что датасет рандомится. Алсо, что за пиздец на графике у тебя? Хуй с ним что loss не падает, но расти точно не должен. Вот пикрил как должно примерно выглядеть.
Аноним 08/03/25 Суб 15:11:48 1086206 464
>>1079807
>По ощущениям как реализуется в том что тренишь, или еще не распробовал?
По ощущениям очень хорошо.

Гонял RAdamScheduleFree и AdamWScheduleFreeReference с LoKR и GLoRA (с дорой обе). Датасет из 100 картинок, содержит в основном общий концепт знаний.

Уточню почему именно локр и глора, если кто не в курсе. Локр влияет на всю модель целиком делая результат сорт оф фул файнтюн как если бы тебе нужно было тренить стилистику по токену, но стилистика будет даже не по токену а вообще адаптируется везде; путь каждого токена меняется согласно данным датасета, то есть я не получаю выдачу без стилистических данных из датасета даже если использовал описательную часть не относящуюся к кепшенам датасета, при этом сохраняется вся структура оригинальной модели, если это не прямо новые знания, с новыми знаниями идет их добавление как стандартное дообучение. Плюс достаточная гибкость декомпозиции. Из минусов что он очень капризный по лр и может в нан улетать без сафети говнин на сверхвысоких скоростях и без поджимания градиентов.

У глоры более так скажем целенаправленный тюнинг части модели относящейся к датасету, который сохраняет всю инфу основной модели, стилистику и меняет связи только в части кепшенов датасета, таким образом получается что если я не использую класс или токены из датасета то изображение относительно оригинальной модели меняется минимально на уровне погрешности сида. Ну и глора как бы более натурально вписывается в основную модель и из-за доп модуля подсказок адаптирует модель под себя как бы во время гена. Ну и превосходно управляет большим количеством параметров и вообще чем больше тем лучше.

Ни базовая лора, ни лора с конволюшенами таких эффектов не дают в моих юзкейсах.

Олсо на локре при отключении декомпоза второго блока результирующая лора имеет ультранизкие веса, и эту финальную лору надо буквально увеличивать x20-x25 по юнету и те чтобы давало результат (ну или через питорч умножать значения), если скорость обучения слишком низкая. Не то чтоб это минус, скорее даже плюс, т.к. ну прям силкисмус результат влияния получается в таком использовании.

Из того что можно отметить конкретно у шедфри с данными алго:

- Смысла ставить скорость по тренировке текстового енкодера ниже юнета практически нет, на обоих вариантах сниженный TE (в 2 или 10 раз) дает артефакты контуров (и в принципе артефакты) в основном, что особо заметно на глоре, как будто ей требуется в разы больше времени до схождения и это схождение никогда не происходит. Когда тренил 1 к 10 по итогу приходилось тестовые прогоны финальной лоры увеличивать чтобы было отношение 1 к 1. Так как смысла ставишь ниже нет, то и отпадает нужда в подборе лров раздельных, что очень хорошо. Почти как адаптив, только на продижи d0 floor надо подбирать вместо базового лр.

- Так как это шедфри, то там по паперу базовая скорость указана 0.0025, я сначала думал что это для гигантских тестов лицокниги в целом и выставил 0.0005 - так оно там настолько медленно сходилось что просто капец. Выставил 0.002 и заебись стало. В принципе даже на 0.003 будет стабильно, но если надо чуть безопаснее то 0.001-0.0015 наверно идеальный вариант если никуда не торопишься.

- Моментальное схождение на батче 1. Уже на первой эпохе стабильные результаты и дальше только улучшается. Из минусов непонятно когда свитспот, можно было бы использовать график max_key_norm но он не работает просто на бранче сд3 скриптов, как должен был работать судя по обсуждениям из 2023. Поэтому ручками все эпохи прогонять приходится. Значение лосса вообще ни на что не влияет.

- С продижами на локре было быстрее, чем на глоре. С шедфри почему-то наоборот, различие в скорости в два раза. На рам вроде ниче не течет.
Аноним 08/03/25 Суб 15:15:57 1086214 465
>>1086146
>Потому что датасет рандомится.
Так сид фиксированный. Если не смузить (пик1) то он имеет форму такую же. Надо попробовать еще раз запустить, я вспомнил что у меня был подобный баг когда после экстренной остановки был перезапуск и у лосса был сдвиг по оси Y, что на третий запуск исчезло.

> что за пиздец на графике у тебя? Хуй с ним что loss не падает, но расти точно не должен. Вот пикрил как должно примерно выглядеть.
Это на дедовых козинах он падать должен т.к. косинус функция, на шедулерфри форма лосса не имеет значения.
Аноним 08/03/25 Суб 15:44:52 1086251 466
image.png 14Кб, 241x402
241x402
>>1086214
>Надо попробовать еще раз запустить, я вспомнил что у меня был подобный баг
Да, это был баг. Перезапуск вернул исходный шейп при смузинге (пик1). Видимо ерли стоппинг во время обучения оставил говняк в памяти карты который повлиял.
Аноним 08/03/25 Суб 16:47:39 1086326 467
>>1086206
> Локр влияет
Чел, локр это способ декомпозиции весов, какие именно веса тренируется не зависит от него.
> тренить стилистику
Просто по рецепту b-lora отдели стиль от концепта, можешь выходные feed forward ещё добавить, если надо прям совсем стиль 1 в 1 сделать.
> свитспот
Лучше дампинг делай, чем ловить пережарки.
Аноним 08/03/25 Суб 16:56:08 1086338 468
>>1086214
Пиздос, это у тебя значит этот кал так долго ищет потолок lr. Алсо, schedule-free после потолка всё так же как косинус вниз опускает lr, разница лишь в том что ты ничего не контролируешь.
Аноним 08/03/25 Суб 17:37:14 1086386 469
>>1086338
> Пиздос, это у тебя значит этот кал так долго ищет потолок lr.
В смысле долго, ты не видел значения

>Алсо, schedule-free после потолка всё так же как косинус вниз опускает lr, разница лишь в том что ты ничего не контролируешь.
Он ездит туда сюда, опускание видно только на аверйдж лоссе (на 30-40 эпохах причем, когда уже и так все обучено) и 100 процентов смузинге графика, а смузинг это не показатель.

>>1086326
> > Локр влияет
> Чел, локр это способ декомпозиции весов, какие именно веса тренируется не зависит от него.
Зависит, лекомпозиция через факторизацию полной матрицы или вообще отключение второго блока это фича локра, благодаря этому он влияет цельно на все веса как будто у тебя есть полный доступ к полным параметрам при фул тренировке.
> > тренить стилистику
> Просто по рецепту b-lora отдели стиль от концепта, можешь выходные feed forward ещё добавить, если надо прям совсем стиль 1 в 1 сделать.
У меня задача другая, блора слишком узкобьющая.
> > свитспот
> Лучше дампинг делай, чем ловить пережарки.
Пережарок кстати нет, не по ним ищется.
Аноним 08/03/25 Суб 17:47:22 1086402 470
>>1086386

> Зависит, лекомпозиция через факторизацию полной матрицы или вообще отключение второго блока это фича локра, благодаря этому он влияет цельно на все веса как будто у тебя есть полный доступ к полным параметрам при фул тренировке.
Кстати именно поэтому локр не умет в нетворк дропаут и ранк дропаут, только в модуль дропауты.
Аноним 09/03/25 Вск 17:07:01 1088002 471
1678738410306.jpg 5696Кб, 5120x6144
5120x6144
>>1086206
> непонятно когда свитспот
В чём проблема делать тестовые генерации при тренировке, а не пытаться по ничего не значащему графику что-то высмотреть? Я каждые 100 шагов генерю тестовые пикчи чтоб видеть что там по итогу и не сломалась ли композиция. Пикрил для примера, прекрасно видно как в середине пидорасит, а к концу в норму приходит.
Аноним 12/03/25 Срд 00:55:38 1093355 472
2025-03-12003720.png 106Кб, 1255x674
1255x674
О, наконец-то понял что такое SVD, охуенный видос https://www.youtube.com/watch?v=DG7YTlGnCEo
По сути это как пачка одноранковых лор, в количестве полного ранга, каждая со своим весом, и все это складывается вместе, чтобы получилась исходная матрица.
Аноним 15/03/25 Суб 18:33:25 1098802 473
flux тоже тут обсуждается? Я правильно понимаю, что у него нет вообще негативного промта или я тупой?
Аноним 17/03/25 Пнд 15:19:48 1101720 474
>>1098802
>flux тоже тут обсуждается?
да, ток тут большинство дрочит сдхл
>Я правильно понимаю, что у него нет вообще негативного промта
вообще нет, т.к. другой тип трансформеров с возможностью воспринимать хуман лангвиж ллм модель и взаимодействия токенов внутри
негативный промт вообще в целом не нужен нигде, негативный промт в сверточных моделях стабили до третьей это костыль обусловленный начальными условиями тренировки и ранней остановкой (ну по факту базовая сдхл это бета, стабилити вполне могли бы бесконечно улучшать ее квалити вплоть до состояния дистиллированной модели) обучения моделей стабили, в идеальном состоянии дообученной модели он также и на свертках не требуется, т.к. свертки дистиллируются спокойно, лорами к слову суппресируется шумные веса как раз, что частично похоже на дистилляцию; в ллм тоже негативов нет, есть инструкции которые косвенно можно использовать как "не делай то-то", но это не негатив в смысле "не активируй нейроны содержащие токен", чем является негатив в сд; при этом негатив в сд это неполное выключение/вычитание и гораздо точнее было бы сделать реализацию минусовых значений в позитивном (основном) промте, такое есть в каком-то экстеншене, оно работает, т.к. позитив имеет огромную силу в отличие от негатива, но нативно было бы лутше
Аноним 17/03/25 Пнд 21:11:06 1102257 475
>>1101720
> вообще нет, т.к. другой тип трансформеров с возможностью воспринимать хуман лангвиж
> в ллм тоже негативов нет
Обоссы нейронку, которая тебе это написала, а потом попроси ее объяснить что такое cfg и как идет семплинг в моделях.
> дистиллированной
> дистиллируются
> дистилляцию
Пут буль, значение знаешь?
> и гораздо точнее было бы
Не точнее и все искажает, уже изучалось. Смещение в латентном пространстве там идет не туда куда нужно, только на "малых весах" уводит примерно в том направлении. Делать это можно без каких-либо экстеншнов.
Аноним 18/03/25 Втр 22:31:00 1103525 476
Тут кто-нибудь шарит, как сделать распознавалку простенькой капчи? Кучу гайдов перерыл, но либо не работал, либо скилл ишью. Есть у кого что-то годное?
Аноним 20/03/25 Чтв 08:23:41 1105022 477
Бля, обожаю когда таймер или firefox даже когда я выключил аппаратное ускорение в настройках в рандомный момент залезает в vram дает мне OOM.
Аноним 21/03/25 Птн 07:27:19 1106102 478
>>1105022
че как там на драйверах из 2022 года
Аноним 22/03/25 Суб 07:41:19 1107220 479
Аноним 22/03/25 Суб 14:58:51 1107612 480
image.png 16Кб, 540x286
540x286
>>1107220
10 часов назад поддержку сделали, обновляйся
Аноним 22/03/25 Суб 15:11:01 1107644 481
Аноним 23/03/25 Вск 06:26:43 1108540 482
я использую сервис krea ai для тренировки и затем генерации иллюстраций с помощью flux dev
проблема в том, что на изображении я могу сгенерить только одного персонажа, если добавить стиль с еще одним персонажем, то модель просто выдаст двух персонажей с одинаковой смешанной внешностью, даже если в промте четко указать тег для каждого персонажа в отдельности
я так понимаю это фундаментальная проблема всех моделей, есть ли какой-то work around?
до я этого походу задал этот вопрос в неверном треде, поэтому пришлось продублировать здесь, сорри))
Аноним 23/03/25 Вск 13:55:31 1108734 483
>>1108540
ты используешь две лоры, две лоры плюсуются и конкатируются до среднего значения как по текстовом енкодеру так и по весам, две лоры и далее никогда раздельно работать не смогут полноценно

как выйти
1. если нет возможности тренировать с нуля мультиконцепт, то только региональный промтинг и инпеинтинг
2. тренировать мультиконцепт, а именно - сабсет на 1 персону и на 2 персону, опцонально третий концепт на понятие о количестве персон (сабсет допстим в котором содержатся примеры композиций из двух и более разных персон), но даже в случае корректной тренировки вероятность несрабатывания достаточно большая на конкретном сиде, с флухом будет проще так как он знает про взаимодействия и количество изначально
Аноним 23/03/25 Вск 14:00:13 1108737 484
>>1108734
а да еще метод 3 есть, но он для сдхл, во флухах хз как реализовать:
тренировать конкретный слой юнета и те на 1 одного персонажа, и другую комбинацию слоев на другого, тогда слои применятся вместе без конката
Аноним 23/03/25 Вск 14:49:36 1108776 485
>>1108540
Брать лоры без оверфита.
>>1108734
> плюсуются
> конкатируются до среднего значения
Это совершенно разные вещи. Лоры всегда плюсуются. Если два раза применишь одну и туже лору с весом 1, то это будет тоже самое что применить лору один раз с весом 2. Никакого усреднения нет.
Аноним 23/03/25 Вск 14:52:51 1108782 486
Амд... уже п-подерживается? блушес
Аноним 23/03/25 Вск 20:24:26 1109064 487
>>1108776
>Если два раза применишь одну и туже лору с весом 1, то это будет тоже самое что применить лору один раз с весом 2. Никакого усреднения нет.
Потому что у тебя полный вес и та же лора с одинаковыми данными и структурой, а если разные то, емкость весов не безгранична и управление векторами пересекается, вполне возможно в одной лоре вектор 1 идет вверх с фикс длиной 1, а во второй этот же вектор идет вниз с фикс длиной 2, в инференс тайме невозможно обработать два значения сразу т.к. они противоположны, следовательно они усредняются показывая длину 1.5 куда-то влево. Это не учитывая, что у тебя сила применения 1 на обеих стоит что неверно, т.к. это эквивалент стандартной полной емкости матриц, корректнее применять 0.5 (50% емкость) на двух лорах чтобы получить новую полную матрицу эквивалентную размерам обеих (данный эффект хорошо наблюдается при смешивании лор через свд, но при вейтед суме обычном не настолько очевиден).
Аноним 23/03/25 Вск 20:26:28 1109067 488
>>1108776
> тренировать мультиконцепт
идея интересная, если я правильно понял
но тут понадобится большое количество данных
пока, что лучшее решение это импейнт, но качество сильно падает при взаимодействии персонажей: объятий, поцелуев и т.д.
Аноним 24/03/25 Пнд 01:15:42 1109358 489
Это Нормальный тред без нсфв? Продублирую тут:
Как сделать https://www.krea.ai/feed?style=v5hi9pj01& стиль? Очень зашло, это лора типо какая-то? И как такое повторить в обычных условиях без привязки к сервису?
Аноним 24/03/25 Пнд 08:37:15 1109455 490
>>1109358
> Это Нормальный тред без нсфв?
Тут вообще картинок нет

> Как сделать https://www.krea.ai/feed?style=v5hi9pj01& стиль? Очень зашло, это лора типо какая-то? И как такое повторить в обычных условиях без привязки к сервису?
Это лора на концепт. Чтобы повторить нужен датасет с файлами описаний и скрипт тренинга. Сети по дефолту знают что такое прозрачность объектов в принципе, поэтому задача просто найти достаточное количество разных картинок транспарент продукт дезайн концепт бесплатно без смс и сделать норм дескриптивное описание (или ручками или мокрописями автоматом) под т5. Особого токена под такое тренить не надо, достаточно чтобы описании было "концепт прозрачного объекта/прозрачный дизайн/дезайн траспарент продакт" и тд в вариациях + детальное описание того что на пикче. Не знаю какая у тебя видяха но флух тренить на 12 гигах или меньше очень больно, так что если тебе нужен аналог мультимодального флюха но не такой монструозный по требованиям к железу, то можешь потрогать сд 3.5 медиум, он и быстрее, и тренится на малом количестве памяти нормально. Гуи для тренинга не советую пользоваться, если ни разу ничего не тренил, лучше классический метод со скриптами и росписью батника тренировки через вот эту ветку https://github.com/kohya-ss/sd-scripts/tree/sd3 (на то что сд3 называется не смотри, оно и длч стейблдифуженов и флюхоа). Как вариант можно потренить сдхл, тем более там есть отдельные фуловые чекпоинты для продукт дезайна тип дроида https://civitai.com/models/566601?modelVersionId=1147975 так что будет еще проще натренить, но на сдхл чуть сложнее подобрать параметры и оптимайзеры чтобы и быстро и эффективно тренилось, тут кто во что горазд.
Аноним 24/03/25 Пнд 19:32:17 1109947 491
>>1109455
Спасибо, буду изучать дальше.
Аноним 25/03/25 Втр 09:40:53 1110762 492
image.png 171Кб, 1898x550
1898x550
pythonxULs8sc6SN.jpg 435Кб, 2190x1040
2190x1040
pythonWErUNoxgB7.jpg 506Кб, 2190x1040
2190x1040
pythonUinehuzxhC.jpg 58Кб, 1095x1040
1095x1040
>>974163 (OP)
На какие настройки следует обратить внимание если на разных датасетах и чекпоинтах график loss абсолютно одинаковый? На Prodigy с разными настройками warmup, schedule и др. И всегда после 30 шага стабильно поднимается loss. Ta же херня с первыми 10 оптимайзерами AdamW, ADAGRAD, ADAM, AdEMAMix, ADOPT, Lamb, LION, RMSPROP.
Использую 32бит т.к. GTX карта.
Аноним 25/03/25 Втр 09:41:22 1110763 493
chromeO2ZbcyimG2.jpg 362Кб, 1920x1040
1920x1040
Аноним 25/03/25 Втр 12:18:41 1110934 494
image.png 249Кб, 1574x1107
1574x1107
>>1110762
>На какие настройки следует обратить внимание если на разных датасетах и чекпоинтах график loss абсолютно одинаковый?
1. Лосс это не график качества или обучения, лосс это суррогатный график ошибки в конкретный момент времени, ошибка показывает насколько далеко предсказание от датасета, здоровое значение корректного обобщения находится примерно от 0.05 до 0.15; чем ниже лосс, тем ближе результат предсказания по мнению сети к изображению из датасета (но это не значит что если ты укатаешь в 0.01 ошибку, то сеть станет топ, скорее наоборот она будет говном, которое обучилось воспроизводить датасет, а не обучилось обобщать).
2. Лосс будет уменьшаться в основном при долгом времени обучения только если у тебя идеальные настройки, есть настройки снижения влияния обновлений, снижения скорости и настроен нисходящий шедулер (косинус, полином)
3. Лосс может быть одинаковым или быть похожим друг на друга на разных данных если размерность сети, скорость обучения и сид фиксированы
4. Есть два лайфхака которые могут прямо показать насколько успешна адаптация - валидейшен лосс и график регуляризации нормы через флаг scale_weight_norms, первый сравнивает результат предсказания с частью датасета которая выбирается и не используется в обучении, вторая опция скалирует нормы весов до поставленного значения, что имеет разные косвенные интерпретации и влияет на обучение напрямую при этом: и как переобучение, и как момент когда сеть на самом деле начинает обучение, а когда его заканчивает. Могу ссылок накидать почитать как это выглядит, но на самом деле ни то ни другое особо нинужно - первое относительный эффект обучения показывает, а не реальную адаптацию, примерно можно понять где стопать тренировку ток. Второе буквально сдерживает обновление и ломает веса, но зато показывает происходит ли вообще стабилизация адпатции или нет (допустим вот на моем пике эта самая фича, что по ней можно сказать? а в целом ничего - обучение новым данным это огромная гребенка, далее стабилизация, веса на всем протяжении тренировки находятся вне единичной нормы веса и ужимаются вот тем флагом выше (что кстати негативно влияет по итогу и ломают адаптацию))

>На Prodigy с разными настройками warmup, schedule и др.
Продижи вообще адаптивный, он может гулять сам по себе вверх-вниз по лоссу. Кароче лосс это не показатель. Есть только один вариант когда лосс показывает что-то корректное - он начинает улетать в пизду, то есть когда происходит взрыв градиентов и обучение максимально дестабилизируется и сеть начинает запоминать размеры ключей гигантических размеров, которые неээфективны, неверны и не работают.
>И всегда после 30 шага стабильно поднимается loss.
Опять же обучение очень тонкая штука. 30 шагов это очень мало чтобы о чем-то говорить.
Вообще тебе надо понять принцип работы самого процесса обучения: вот ты запустил тренинг, далее сеть каждый шаг выбирает рандомный таймстеп от 0 до 1000 (если нет ограничителей), где полный шум это 0 и расшумленная картинка 1000 и проводит процесс предсказания. Из шумных таймстепов трудно вытаскивать полезные точные данные (из 0-50 практически невозможно, накинь на любую картинку 95% шума в фотошопе и попробуй понять что на ней изображено), поэтому лосс выше, из более "четких" таймстепов полезные данные и закономерности вытаскиваются проще, поэтому предсказание (его лосс) в этот момент будет относительно ниже. Вот о графике в этом >>1110763 посте что можно сказать: обучение в целом выглядит как здоровое, градиентарного взрыва нет, единственное что в определенные моменты на рандомных таймстепах (высоких) предсказание оказывается очень близко к датасету, что может влиять на процесс обобщения негативно.

Плюс учитывай что оптимайзеры разные и принципы математические и возможности у них тоже разные, следовательно и поведение. Вот допустим продиги оригинальные не умеют распараллеливать обучение текстового енкодера и весов, соотвественно процес обновления будет и там и там одинаков, что может переобучить либо одно, либо другое (хочешь раздельный lr - есть Prodigy Plus Schedule Free, который позволяет разделять лернинги). При этом у продижи есть куча своих внутренних настроек, допустим d0, который является floor скоростью обучения ниже которой оптимайзер не будет падать, в продижи он по дефолту на 1e-6, что очень низкая скорость и ее стоит повышать до 1e-5 или 1e-4 чтобы обновления были существенными, в противном случае процесс тренинга будет гигантским по времени и различия между эпохами незначительными.

Кароче слишком общирная тема чтобы расписывать, лучше задавай конкретные вопросы и какие у етбя задачи.
Аноним 25/03/25 Втр 18:15:57 1111530 495
chromefpKT6UnDij.jpg 552Кб, 1920x953
1920x953
>>1110934
Спасибо анон, вот это реально очень редкая инфа. Нигде толком не рассказывают хотя это самые важные знания для понимания процесса. В civitai+youtube очень поверхностно рассказывают зарываясь в детали и не получается единую картину сложить.
Вот это:
>2. Лосс будет уменьшаться в основном при долгом времени обучения только если у тебя идеальные настройки, есть настройки снижения влияния обновлений, снижения скорости и настроен нисходящий шедулер (косинус, полином)
на 180 поменяло мое представление о тренировке. Это получается loss график в виде кривой в форме гаммы это уже последняя - предпоследняя версия настроек обучения.
>Лосс может быть одинаковым или быть похожим друг на друга на разных данных если размерность сети, скорость обучения и сид фиксированы
Я ожидал что должна была быть хотя бы погрешность в миллиметр, а оно всегда одно и то же повторяло (рил). Вот тогда уже руки и опустил, но после того как прочитал решил поставить дурацкие значения ЛР и да, лосс вверх улетело - значит таки работает.

Тут много о чем подумать, мне нужно переспать с этой информацией. Завтра еще пару раз перечитаю твой ответ.
Аноним 25/03/25 Втр 23:33:20 1112235 496
>>1111530
>Это получается loss график в виде кривой в форме гаммы это уже последняя - предпоследняя версия настроек обучения.
Если ты про U-shape лосса и его популярность в коммьюнити лородрочеров, то это частичное перенесение принципов тренировки полноценных чекпоинтов на лоры с некоторыми но. При обучении больших моделей loss обычно снижается и выходит на плато за сотни тысяч шагов и там остается (в большинстве случаев, но не всегда, тоже бывают моменты когда в фулл обучении лосс начинает обратно расти), но в лорах ситуация другая: из-за малого количества параметров и быстрого обучения переобучение наступает гораздо раньше. Поэтому в лорах используют дополнительные механизмы стабилизации, например множитель alpha. Косинусный шедулер (или любой нисходящий) помогает снижать скорость обновлений, но на больших лернингах в лорах переобучение все равно рано или поздно наступает, и лосс начинает расти обратно. Поэтому на практике лору можно тренировать с разными шедулями или вообще без них и даже не смотреть на график лосса как таковой ибо лора спокойно обучается даже без снижения лосса во времени, а U-shape просто устоялся как удобный способ отслеживания переобучения, но опять же он не всегда точен, так как переобучение может зависеть от множества говен, включая выбор оптимизатора, качество датасета и даже конкретный ранг лоры. Короче в лорах важно не минимизировать лосс, а сохранить полезную информацию, избегая переобучения, лосс просто должен быть в стабильном диапазоне эффективного запоминания закономерностей.
Аноним 26/03/25 Срд 04:48:53 1112575 497
А можно объединять лоры? Или смысла в этом не больше чем если в комфи соединить лоры в цепочку? И кстати имеет ли значение порядок их соединения, или они просто складываются?
Аноним 26/03/25 Срд 08:03:49 1112652 498
>>1112575
>А можно объединять лоры?
Можно
>Или смысла в этом не больше чем если в комфи соединить лоры в цепочку?
Обычной суммой да, а вот если через SVD, то это расчет новых весов с самым соком от каждой так скажем и имеет смысол.
>И кстати имеет ли значение порядок их соединения, или они просто складываются?
Порядок не имеет значения
Аноним 26/03/25 Срд 09:23:35 1112693 499
image.png 282Кб, 1771x902
1771x902
Аноним 26/03/25 Срд 14:36:17 1113127 500
>>1112693
Да, оно.
Еще есть mecha пак нод там с кучей методов смешивания, есть ротейшен (другое название свд) но он считается как-то хуево на цопе похоже долго и надо соблюдать логику нод для смешивания лор https://github.com/ljleb/comfy-mecha/
Аноним 26/03/25 Срд 14:53:38 1113181 501
>>1110934
>здоровое значение корректного обобщения находится примерно от 0.05 до 0.15
важное уточнение забыл, что на отображение лосса влияет сама функция потерь и усилители/дамперы таймстепов используемые вместе

то есть допустим если использовать квадрат L2 (Mean Squared Error) с debiased_estimation_loss, то лосс будет в указанных значениях, а если сменить L2 на абсолютные линейные значения L1 вместе с debiased_estimation_loss, то лосс будет на монструозных 0.4-0.3 лосса, на качестве обучения это никак не отразится за исключением того что L1 линейный и штрафует все ошибки и устойчив к выбросам градиентарным сильнее а значит стабильнее график будет
Аноним 26/03/25 Срд 21:01:03 1114193 502
Возникла мысль попытаться написать скрипт, который бы брал видео-файл, раскладывал на кадры и выбирал 200-500 изображений, наиболее подходящих для тренировки стилевой лоры.

Фильм 100 мин. - это 144к кадров, можно сперва без анализа сократить датасет до, скажем, 10к кадров неким осмысленным с т.з. статистики образом, потом выбирать из 10к, переходя от вычислительно дешевых методов к более затратным и сокращая датасет на каждом шаге.

Выбор осуществлять на основе анализа разнообразия (по гистограмме и т.п., но можно и по содержанию тоже на каком-то этапе), качества (уровень четкости и т.д.), эстетической оценки (NIMA или что-то подобное).

Собственно, вопросы:

1. Наверняка я не один такой выдумщик, и кто-то уже в такое пытался. Известны ли примеры?
2. Каковы подводные камни, и не гиблое ли это дело?
Аноним 27/03/25 Чтв 16:38:26 1115799 503
Бля, пиздец, нахуй в Sage attention работает обратный проход, если оно не юзабельно для тренировки? Впердолил его и пол дня искал где насрано, пока не понял что эта параша при тренировке шакалит дико.
Аноним 27/03/25 Чтв 23:51:10 1116609 504
Есть что то новое интересное для шапки или текущей катить?
Аноним 28/03/25 Птн 05:36:56 1116938 505
Почему весам нейрокалов придумали дименщен и альфу, а весам клипа не придумали? С одной стороны либо жаришь ТЕ чтобы эффективно, четко, быстро сходилось, но потом приходится вес клипа в лоре прямо уменьшать. С другой стороны занижаешь ТЕ и оно сходится вечность и результаты вообще не такие крутые как лернинги 1 к 1/1 к 2. По итогу сидишь дрочишь ТЕ в тщетных попытках перебора для нахождения когда там и быстро и не говно, вместо того чтоб просто задать эффективный дименшен и альфой примешивание к оригинальному клипу все задать. В чем проблема реализации не пойму, если спокойно можно силу клипа постфактум менять. Прям зла нехватает.
Аноним 28/03/25 Птн 06:03:58 1116962 506
>>1116938
Попробуй моментум клипу накинуть щедро в х10 раз так. Может быть и его биасам и нормализациям тоже сверху еще навалить. Клип же не на свертках, ему плохо без больших батчей.
Аноним 28/03/25 Птн 10:06:43 1117137 507
>>1116609
Без шапки пили, она устарела, и без нейроговна. Опционально без котов. Спасибо.
Аноним 28/03/25 Птн 11:08:09 1117168 508
>>1116962
>Попробуй моментум клипу накинуть щедро в х10 раз так. Может быть и его биасам и нормализациям тоже сверху еще навалить.
А как
Аноним 28/03/25 Птн 11:24:58 1117184 509
>>1116938
> В чем проблема реализации не пойму
Никакой проблемы и нет. Это надо спрашивать чем ты тренируешь, что за пердольное говно у тебя там.
Аноним 28/03/25 Птн 12:13:23 1117209 510
>>1110934
В SD loss по больше части вниз летит у любителей ставить фиксированный сид говнокоха, да. В SDXL диапазон латента на выходе из UNET меньше чем на входе. Когда сид фиксированный, соответственно и целевой шум фиксированный. И первым делом оптимизация пытается сбалансировать выхлоп модели, как итог loss летит вниз, а мы получаем "пережарку" - просто значения на выходе становится больше. Опять же я отчасти понимаю почему они так делают - они попытались с рандомным сидом потренить и получили такой себе результат. Но ведь это крайности. Просто делаешь диапазон сидов размером с датасет и больше никогда не наблюдаешь летящего loss вниз с пережарками.
>>1113181
> на качестве обучения это никак не отразится
Потому что это попытки лечит симптомы т.е. loss, а не причину.
Аноним 28/03/25 Птн 12:58:23 1117235 511
>>1117209
Ну фикс сид в основном для повторяемости результатов чтобы сранивать как срало на разных настройках, это удобно.
>диапазон сидов размером с датасет
Ну звучит логично, но это же просто стохастику увеличивает, тип дополнительный метод регуляризации, как выключать описание каждый шаг с вероятностью 50% чтобы симулировать эффект дримбудки. Есть сравнения результов?
Аноним 28/03/25 Птн 13:48:38 1117296 512
>>1117209
>Когда сид фиксированный, соответственно и целевой шум фиксированный. И первым делом оптимизация пытается сбалансировать выхлоп модели, как итог loss летит вниз, а мы получаем "пережарку" - просто значения на выходе становится больше. Опять же я отчасти понимаю почему они так делают - они попытались с рандомным сидом потренить и получили такой себе результат. Но ведь это крайности. Просто делаешь диапазон сидов размером с датасет и больше никогда не наблюдаешь летящего loss вниз с пережарками.

Погоди, но ведь генератор случайных чисел инициализируется случайным значением один раз в начале тренировки и не меняется во время нее. То есть сид не меняется допустим каждый шаг/эпоху. В чем смысл тогда, если вручную выставленный сид эквивалентен выставленному на основе условного системного времени на рандоме?
Аноним 28/03/25 Птн 19:50:26 1117998 513
>>1117168
В адаме это параметр b1.
Аноним 28/03/25 Птн 21:01:33 1118119 514
>>1117998
>Beta1: Отвечает за то, как сильно учитываются предыдущие градиенты (направление изменений). Чем выше (ближе к 1, например, 0.9), тем больше "память" о прошлом, и шаги получаются плавнее. Если меньше (например, 0.5), то оптимизатор быстрее реагирует на новые данные, но может быть менее стабильным.

>Beta2: Контролирует, как сильно учитываются прошлые значения квадратов градиентов (величина изменений). Высокое значение (например, 0.999) делает обучение более устойчивым к шумным данным, а низкое (например, 0.9) ускоряет реакцию на изменения, но может добавить нестабильности.

бета1 же и так 0.9, как в 10 раз увеличить если макс 1, и если 1 оно тупа новые градиенты не учитывает а ток старые
Аноним 28/03/25 Птн 22:20:36 1118239 515
>>1118119
>как в 10 раз увеличить если макс 1, и если 1 оно тупа новые градиенты не учитывает а ток старые
0.99

По дефолту если 0.9, значит у тебя параметр каждый раз обновляется на 0.9 по старому градиенту и на 0.1 по новому.

Вторая бета уменьшает лр по параметру если на него стабильно приходится большой либо шумный градиент.
Например отчасти решает проблему затухающих градиентов, если у тебя до слоев доходит мало градиента, то адам поднимет им лр чтобы они все равно учились.
Аноним 28/03/25 Птн 22:26:04 1118244 516
Аноним 29/03/25 Суб 07:55:22 1118664 517
Аноним 29/03/25 Суб 07:59:03 1118665 518
Аноним 08/04/25 Втр 10:29:07 1138273 519
Аноним 12/04/25 Суб 18:09:08 1148396 520
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов