ИТТ делимся советами, лайфхаками, наблюдениями, результатами обучения, обсуждаем внутреннее устройство диффузионных моделей, собираем датасеты, решаем проблемы и экспериментируемТред общенаправленныей, тренировка дедов, лупоглазых и фуррей приветствуются
Существующую модель можно обучить симулировать определенный стиль или рисовать конкретного персонажа.
✱ LoRA – "Low Rank Adaptation" – подойдет для любых задач. Отличается малыми требованиями к VRAM (6 Гб+) и быстрым обучением. https://github.com/cloneofsimo/lora - изначальная имплементация алгоритма, пришедшая из мира архитектуры transformers, тренирует лишь attention слои, гайды по тренировкам: https://rentry.co/waavd - гайд по подготовке датасета и обучению LoRA для неофитов https://rentry.org/2chAI_hard_LoRA_guide - ещё один гайд по использованию и обучению LoRA https://rentry.org/59xed3 - более углубленный гайд по лорам, содержит много инфы для уже разбирающихся (англ.)
✱ LyCORIS (Lora beYond Conventional methods, Other Rank adaptation Implementations for Stable diffusion) - проект по созданию алгоритмов для обучения дополнительных частей модели. Ранее имел название LoCon и предлагал лишь тренировку дополнительных conv слоёв. В настоящий момент включает в себя алгоритмы LoCon, LoHa, LoKr, DyLoRA, IA3, а так же на последних dev ветках возможность тренировки всех (или не всех, в зависимости от конфига) частей сети на выбранном ранге: https://github.com/KohakuBlueleaf/LyCORIS
✱ Текстуальная инверсия (Textual inversion), или же просто Embedding, может подойти, если сеть уже умеет рисовать что-то похожее, этот способ тренирует лишь текстовый энкодер модели, не затрагивая UNet: https://rentry.org/textard (англ.)
➤ Тренировка YOLO-моделей для ADetailer: YOLO-модели (You Only Look Once) могут быть обучены для поиска определённых объектов на изображении. В паре с ADetailer они могут быть использованы для автоматического инпеинта по найденной области.
>>974038 → > Я не уточняю, но вообще можно уточнять. Но локон норм и так. Уточнил короче > Че за приколы, не влезут, ток что проверил, в 1024 с букетами до 768 еле влезает один, с двумя уже на рам протик. Сам проверил, действительно переоценил что то, вспомнил просто 11300 чтоли потребление с 2 и спизданул навскидку. 2 влезают точно, прямо сейчас проверил, а больше обычно для мелкого говна и не юзаю энивей, хоть врам и позволяет, но толку нет > Вообще речь шла у меня в посте про 64 дименшен такто, там один батча то еле влезает, что уж говорить о двух трех. Ну а нахер тебе такой огромный для одной еот? Хорошего человека должно быть много чтоли? > У меня лр на юнет какраз 10 щас Ебанись > Вармап не юзаю, его как бы заменяет продижистепс параметр, который ищет оптимум лернинг и фризит его Вот этот продиджистепс вообще какая то шутка. Единственный случай когда продиджи всё зажарит, это когда ты рестарт на лре сделаешь, он такое точно не любит и плавные шедулеры для него мастхев, а так он обычно если ему лр не хватает, от падения шедулера сам начинает его вверх дёргать, шедулер не до нуля обычно, а до 0.01-0.005 хорошо работает > Не, один чел не сможет так сделать, цивит бы в помойку быстро превратился. Тут дору взяли потому что не хуй с горы сделал а нвидиеподсосы. AYS тогда почему не сделали? Я помню там кто то, кто первую дору выложил и писал им чтобы добавили > Это скорее алгоритм ДЛЯ ликориса. И ничеси очередной, почти полноценный файнтюн без нужды дрочить фул модель, лафа для врамлетов и гораздо меньше временных затрат. Ты уверен? Оно тренилось когда я пробовал намного дольше, единственный плюс, что врам типо засейвит, а толку ноль, во времена поней даже оно нихуя от обычных не отличались, единственный верный способ был зажарить нахуй модель в говно, чтобы по датасету пошёл перегар, тогда генерализация пойдёт на остальную часть, ценой пиздеца по датасету, даже глора не спасала, вот всё перепробовал, прямо помню это чётко с аутизмом этим ебучим > Ну глора это вот алгоритм репараметризации. Ты можешь эту глору вместо с дорой юзать, у них вообще разные задачи и наверно они дополнят друг друга. Кстати надо попробовать, интересно че будет, в сдскриптс вроде есть. Я в курсе, что дора поверх других алго работает, с аутизмом ничего не помогло, опять же > Забей место под ADOPT, другой сверхточный адам форк https://github.com/iShohei220/adopt Да этих новых оптимайзеров как говна за баней, с каждого теперь охуевать чтоли? Вон иди попробуй фишмонгер, он ещё хлеще продиджи там по визуализации был в одном трункорде https://github.com/Clybius/Personalized-Optimizers и я на нём делал пару лор, они действительно заебись перформят, но у тебя небось не влезет в память, там 2 батч уже лучше 16гб и дольше продиджи в 2 раза, будто флюкс тренишь Вон ещё охуевай, мемори эффишиент и фаст, потому что адам, с фичами https://github.com/lodestone-rock/torchastic
>>974834 >Ну а нахер тебе такой огромный для одной еот? Хорошего человека должно быть много чтоли? Ну параметризация больше моментная в работе, потенциальная точность выше, выше мощности адаптации модели и её способности захватывать более сложные паттерны в данных. Это особенно хорошо видно когда тренишь отдельные слои как в случае с билорой, выставил 1024 если ты 4090 боярин 128 и оно прям дышит сразу и в разы проще наваливает. Если оно работает с отдельными многомерными слоями то почему не работает с полными параметрами? Всегда можно отресайзить потом по финалу. >Ебанись А что, не запрещено - значит разрешено. Тем более работает и решает задачи. >Вот этот продиджистепс вообще какая то шутка Не, не шутка. Т.к. шедулера тут нет, то продижи надо пинком отрубать чтобы вызвать т.н. escape velocity и чтобы он перестал уменьшать свою полезность бесконечно, можешь тут почитать принцип https://arxiv.org/pdf/2409.20325 >шедулеры шедулер Так речь про бесшедулерный... >AYS тогда почему не сделали? AYS это шедулер для семплеров же, буквально просто функция одной строчкой от лабы нвидии. Куда ее добавлять собрался? >Ты уверен? Ну да. Дора это такой читкод на фулпараметрик без полноценного фулпараметрика. >Оно тренилось когда я пробовал намного дольше, единственный плюс, что врам типо засейвит, а толку ноль, во времена поней даже оно нихуя от обычных не отличались, единственный верный способ был зажарить нахуй модель в говно, чтобы по датасету пошёл перегар, тогда генерализация пойдёт на остальную часть, ценой пиздеца по датасету, даже глора не спасала, вот всё перепробовал, прямо помню это чётко с аутизмом этим ебучим Чет я мысль твою потерял, переформулируй >способ был зажарить нахуй модель в говно, чтобы по датасету пошёл перегар, тогда генерализация пойдёт на остальную часть Не ну зажарить иногда бывает полезно, потом просто лорку можно поменьше весом применять и тольковыигрывать. Не с дорой конечно, т.к. там шаг влево шаг вправо от базового веса уже ощутимая потеря данных идет. >с аутизмом ничего не помогло, опять же Ну ты вот пишешь то не работает, то не работает, я ж вообще понятия не имею как ты тестируешь, тренируешь, какой юзкейс у этого всего. Может ты там 3000 степов на эпоху страдаешь вообще по 60 часов лору тренишь и с хоть малейшим смазом на гене отбраковываешь и начинаешь заново, а гены пускаешь на какомнибудь Dormand–Prince в миллиард шагов. У меня лично есть несколько рабочих вариантов как даже самый всратый тренинг заставить терпимо работать. Принцип тренинга же в чем вообще заключается? В том чтобы он давал результат безотносительно того как ты этот результат достигаешь. В чем проблема недотренов и перетренов? В недостатке или избытке данных и последующем денойзе этих данных. По факту дифузные модели уже с первых шагов понимают и знают калцепт который ты им кормишь, единственный вопрос в достаточности и точности данных, которые сеть получает во время тренировки дальше чтобы тюнить свои вектора, и разными способами можно заставить сетку считать, что достаточность данных для инферирования в результат на месте. >Да этих новых оптимайзеров как говна за баней, с каждого теперь охуевать чтоли? Да понятно что любой лох может оптимайзер сделать, но тут университет токио все дела, оптимизер без нужды тюнить параметры тренировки и с хорошей скоростью и точностью базированный на адаме. >Вон иди попробуй фишмонгер Давай попробую, че там как его настраивать? >и я на нём делал пару лор, они действительно заебись перформят Покажи + настроечки >Вон ещё охуевай, мемори эффишиент и фаст, потому что адам Круто, но это просто мемори эфишент мод со знижением байтов на параметр. ADOPT про другое.
>>975217 > Всегда можно отресайзить потом по финалу. Неа, не всегда, некоторые алгоритмы до сих пор не ресайзятся с сд-скриптс, полагаться можно только на лору и локон в этом плане и плане мерджей. Костыли правда я видел, для глоры той же были скрипты где то на форчонге > Не, не шутка. Т.к. шедулера тут нет, то продижи надо пинком отрубать чтобы вызвать т.н. escape velocity и чтобы он перестал уменьшать свою полезность бесконечно, можешь тут почитать принцип https://arxiv.org/pdf/2409.20325 Ну ёпта там всё в матане, короче продиджи в стоке шедулфри через жопу работает и если эстимейшен не выключить на определённом шаге будет пиздец с нетворком? > Так речь про бесшедулерный... Реально не пойму в чём прикол убирать шедулер, он всегда в диапазоне двух порядков от лр нормально работает, или вообще до нуля, ладно там лр искать заёбно, но шедулер то, плюс ещё придётся ебаться с параметрами поновой искать, судя по тому что в основной репе пишут, один гемор > AYS это шедулер для семплеров же, буквально просто функция одной строчкой от лабы нвидии. Куда ее добавлять собрался? В генератор на сайте, куда же ещё, тоже ведь от нвидии > Ну да. Дора это такой читкод на фулпараметрик без полноценного фулпараметрика. Вот этот читкод сейчас полностью облажался при тренировке гойвэя впреда, с энкодером сдохло просто и пережарилось, юнет онли нан. На сам попробуй, если хочешь https://files.catbox.moe/8bpnnx.toml без доры нормально, там тольк минснр ёбнутая указана по фану проверить, с ней работает без доры и на адаме и на продиджи > Чет я мысль твою потерял, переформулируй Я пытался генерализовать максимально одного маняме хуйдоджника известного в узких кругах с аутизм чекпоинтом, фангдонга, он в основном к*ичек рисует, тестил на конкретном промпте, который был отдалён от того что он рисует, там была какая то кошкодевка с блюарка с огромными бидонами в купальнике, что очень отдалённо, ни один алгоритм из доступных полгода назад не выдал стиль на этом промпте, только одна лора, которую я взял с цивита работала на этом и почти всех остальных промптах, она по факту была ужарена, но я хотел повторить это, ведь ничего не работало, глянул в мету, там тренилось на похуй стоком с адамом прямиком с аутизма на малом датасете, ну сделал так же и получилось с первого раза по перформансу схоже с той, что была на циве, и та и другая по датасету выдают ужас, если кэпшен 1в1 копировать, но генерализация у них охуенная > Ну ты вот пишешь то не работает, то не работает, я ж вообще понятия не имею как ты тестируешь, тренируешь, какой юзкейс у этого всего. Может ты там 3000 степов на эпоху страдаешь вообще по 60 часов лору тренишь и с хоть малейшим смазом на гене отбраковываешь и начинаешь заново, а гены пускаешь на какомнибудь Dormand–Prince в миллиард шагов Ну вроде выше расписал понятно что я пытался сделать > По факту дифузные модели уже с первых шагов понимают и знают калцепт который ты им кормишь, единственный вопрос в достаточности и точности данных, которые сеть получает во время тренировки дальше чтобы тюнить свои вектора, и разными способами можно заставить сетку считать, что достаточность данных для инферирования в результат на месте. Это всё здорово конечно, но есть огромные байасы у чекпоинтов, тот же пони или дериватив аутизм (который ещё хуже говноговнапростоблять) практически невозможно направить в определённое русло, считай в пэинтерли стили, без лютых танцев с бубном, yd, fkey или ciloranko на них выглядят и тренятся отвратительно, а, например, на люстре заебись > Да понятно что любой лох может оптимайзер сделать, но тут университет токио все дела, оптимизер без нужды тюнить параметры тренировки и с хорошей скоростью и точностью базированный на адаме. Когда уже там будет оптимайзер, который сам лучшую архитектуру и датасет подберёт, а после чекпоинт натренит по запросу за часок с нуля? Ну что, как он в деле в итоге? > Давай попробую, че там как его настраивать? Я в рекомендуемом дефолте его гонял вообще с адамовским лром, с ним особо быстро не покрутишь и хз как будет не на впредонубе, ну смотри сам короче, конфиг такой был https://files.catbox.moe/i2ed6m.toml прикостылил к изи-скриптсам сделав из него питон пэкэдж
>>975335 >Неа, не всегда, некоторые алгоритмы до сих пор не ресайзятся с сд-скриптс, полагаться можно только на лору и локон в этом плане и плане мерджей. Костыли правда я видел, для глоры той же были скрипты где то на форчонге Ну можно по старинке смерджить лору с моделью а потом экстракцию ликориса в нужный дименшен произвести. >короче продиджи в стоке шедулфри через жопу работает и если эстимейшен не выключить на определённом шаге будет пиздец с нетворком? Не совсем так. Если никак не контролировать lr юнета на продигах он просто вечно будет его увеличивать. Не то что бы это было плохо, но в теории он может проскочить свитспот (шедулер фри константные) и тренить не так эффективно при определенных условиях. Это можно доджить через кучу разных параметров впрочем. Параметром продижи степс ты просто указываешь продигам шаг после которого лр обязать стать константой для него. >Реально не пойму в чём прикол убирать шедулер, Бесшедулерный оптим очень гибкий и реагирует на loss/градиенты, классика жесто привязана к функции шедулера (косинус хуесинус вот ето все, как барен матанского мира решил так и будет). Бесшедулер быстро реагирует на лосс, каждый шаг, классика реагирует только каждую эпоху. Очевидный плюс в меньшем количестве тюнинга конфига. Не нужен вармап. >плюс ещё придётся ебаться с параметрами поновой искать Да там в d0 менять только, в зависимости от того насколько агрессивно и бысттро ты хочешь обучать. >В генератор на сайте, куда же ещё, тоже ведь от нвидии Не, дора прям разработка мозгов из нвидии, даже в блоге у себя писали, AYS это так чисто разнообразить количество шедулеров и решить конкретную задачу. >На сам попробуй Странные настройки у тебя, я бы половину повыкидывал сразу. >с энкодером сдохло просто и пережарилось, юнет онли нан. Датасет дашь какой тренил? >гойвэя впреда Ой я вперды не тренил никогда, там какие-то особые условия есть? >Ну вроде выше расписал понятно что я пытался сделать Дай датасет крч и ссылку на лору или гены на которые ты ориентируешься по квалити, плюс ссылку на проблемный чекпоинт >Когда уже там будет оптимайзер, который сам лучшую архитектуру и датасет подберёт, а после чекпоинт натренит по запросу за часок с нуля? Неиронично билору тренить на одной картинке проще всего по такому запросу лол >Ну что, как он в деле в итоге? Адопт чисто не гонял, только в комплекте с шедфри продиги, и он даже работает. Ну консистенцию увеличивает да, сразу с первой эпохи, не говнит.
Гандон на кое захардкодил применение fused_backward_pass который пиздец как повышает скорость и снижает юз врама на адафактор онли, ну что за пидераст. А между прочим фьзд изкаропки держит продижи шедулед фри. Как же пичот сука.
>>975416 >дора прям разработка мозгов из нвидии, даже в блоге у себя писали Дохуя мозгов видимо потребовалось чтобы магнитуды вынести в отдельный параметр.
>>975416 > Ну можно по старинке смерджить лору с моделью а потом экстракцию ликориса в нужный дименшен произвести. Не ну ты слышь, читы то не включай > Не совсем так. Если никак не контролировать lr юнета на продигах он просто вечно будет его увеличивать. Не то что бы это было плохо, но в теории он может проскочить свитспот (шедулер фри константные) и тренить не так эффективно при определенных условиях. Это можно доджить через кучу разных параметров впрочем. Параметром продижи степс ты просто указываешь продигам шаг после которого лр обязать стать константой для него. Ладно, понял короче > Бесшедулерный оптим очень гибкий и реагирует на loss/градиенты, классика жесто привязана к функции шедулера (косинус хуесинус вот ето все, как барен матанского мира решил так и будет). Бесшедулер быстро реагирует на лосс, каждый шаг, классика реагирует только каждую эпоху. Очевидный плюс в меньшем количестве тюнинга конфига. Не нужен вармап К классике вармап и нормальный шедулер с 1.5 не менялся, он тоже везде подходит, но в целом конечно понятно почему у меня хуита была с адамом и флюксом, я там не особо запариваясь просто оптимайзер поменял, но оставил тот же косин и лр даже не поднимал > Да там в d0 менять только, в зависимости от того насколько агрессивно и бысттро ты хочешь обучать. Сколько, 1e-4? > Не, дора прям разработка мозгов из нвидии, даже в блоге у себя писали, AYS это так чисто разнообразить количество шедулеров и решить конкретную задачу. Тоже через жопу с впредом кстати работает > Странные настройки у тебя, я бы половину повыкидывал сразу. Что там странного? Вообще ничего лишнего даже не стоит, чуть ли не сток. А конфиг с фишмонгером не странный а сраный, изискриптс просто калговна и там чтобы кастомный оптимайзер заюзать надо оверрайдом хуярить через экстра арг, в мету всё равно основной оптимайзер запишется, хоть он и не используется по факту > Датасет дашь какой тренил? Не сорян, конкретно этот не дам, я уверен там не от него зависит, любой подойдёт > Ой я вперды не тренил никогда, там какие-то особые условия есть? Ну теоритически только два флага включить, фактически вот доры в трейнинге и аусы в инференсе отваливаются, бета шедулеру ещё другие альфа и бета нужны, лр поменьше для тренировки лучше юзать, короче нюансов хватает, сигмы там ещё стоит крутить выше, даже кто то я видел скидывал ~35 значений для вставки в кумфи, предположительно используемых в наи > Дай датасет крч и ссылку на лору или гены на которые ты ориентируешься по квалити, плюс ссылку на проблемный чекпоинт На короче паком, там только две генерализуются нормально из всех, по гридам увидишь, https://litter.catbox.moe/2t6iys.7z стандартный, чекпоинт https://civitai.com/models/288584?modelVersionId=324524 датасет просто с буру сграбь, будет максимально приближённо к генерализуемым версиям > Неиронично билору тренить на одной картинке проще всего по такому запросу лол Вот несколько дней назад делал лору из одной картинки буквально, не стал изобретать велосипед и сделал с адамом и продиджи, справился лучше адам, более менее с такой лорой можно ещё нагенерить датасета, потом уже выёбываться
Сначала хотел спросить здесь, но решил сначала сам загуглить. Вопрос был про встроенные в комфи генераторы промтов. Вайлкарты меня заебали, особенно на флюксе который стал их очень хорошо реализует так что начинаю замечать повторы.
Оказалось есть Ollama с локальными текстовыми нейронками к которым можно подключиться через ноду в комфи. Быстро накалхозенный воркфлоу приложен.
На пике три прогона на одном и том же файле конфига, два одинаковых рана, второй ран чучуть отличается. Почему так нахуй? Если сравнивать чекпоинт с красного графика то он отличается по генам с зеленого (и нихуево так отличается, композ и прочее говно в целом то же но отличается как будто другой сид). Все настройки зафиксированы. Отчего данный факап мог случиться?
>>979978 >Братан, все гораздо проще Да скриптом то я и так могу. Ну, почти - если оно с зависимостями не обосрется по какой-то причине, тогда их чинить придется.
Мне именно для вебуя решение нужно было, чтоб и протэгать, и посмотреть, что таггером навалило, и сразу в другой вкладе начать редачить.
Нашел форк таггера, в котором поддержка всех моделей реализована. Хотя модель качать заново пришлось, старую он не увидел. Ну да пофиг, работает - и хорошо.
> Нашел форк таггера, в котором поддержка всех моделей реализована. Хотя модель качать заново пришлось, старую он не увидел. Ну да пофиг, работает - и хорошо. А ссылку?
>>980367 Чет я заебался запускать этот валидейшен лосс, какие-то ошибки ебанутые в коде скрипта. Вроде все правильно делаю, а он не может оптимайзер загрузить из-за какого-то [doc] в скрипте трейна.
Вот есть допустим в целом для питорча https://github.com/davidtvs/pytorch-lr-finder , пытался оптимизнуть код под юнет хотя бы - хуй мне в ебало, максимум че достиг это начало тренинга и мисматч ошибки по тензорам хуензорам.
А кто-нибудь из моделеделов пробовал такую штуку проворачивать с руками: 1) собираем какой-нибудь датасет (пиздим с каггла или ещё откуда-то) с изображениями рук 2) изалекаем из него эмбеддинги, уменьшаем размерность эмбеддингов 3) кластеризуем уменьшенные эмбеддинги, присваиваем кластерам какие-нибудь рандомные хеши 4) идём уже датесет для обучения нашей SD модели, берём YOLO для детекции рук и те квадраты, что нам извлек YOLO мы классифицируем по полученным ранее кластерам (изалекаем эмбеддинги, тем же уменьшителем размерности проецируем, считаем косинусные расстояния) 5) и по результатам классификации мы в теги кладём хеш соответствующего кластера
По идее такой трюк должен существенно улучшить качество рук, но наверняка я не первый, кому она приходила в голову...
>>981056 >Чет я заебался запускать этот валидейшен лосс, Так, наконецто запустил. Ну в принципе удобная штука да чтобы находить промежуток идеального лернинга для датасета. Жаль что прогоны только на ублюдских полторахо чекпоинтах.
>>981267 Нахуя он тебе всрался то вообще? Вот этот форк типо может https://github.com/67372a/LoRA_Easy_Training_Scripts но там он пиздец поломанный был в стоке когда тестил, и даже через жопу хл тренил, если включить энкодеры, то он тренил только мелкий, баг или что хз, но я ебал, даже оптимайзер в стоке не работал практически ни один нормально. Включи просто продиджи и несколько датасетов натрень, он тебе всё равно покажет лр нормальный средний для того чтобы ставить с адамом
>>981556 >Нахуя он тебе всрался то вообще? Чтобы ручками не подбирать. >Вот этот форк типо может https://github.com/67372a/LoRA_Easy_Training_Scripts Ебать он у меня стоит, а я не заметил. >Включи просто продиджи и несколько датасетов натрень А я че по твоему делаю? Учитывая что у продигов достаточно своеобразные настройки то в лернинг я попал примерно на 20 прогон последний раз. > он тебе всё равно покажет лр нормальный средний Нет, ты не понял концепции. У продижи/продижишедулерфри есть параметр d0, который по сути управляет силой обучения. Лернингрейт самих весов и енкодера у него фиксед и настраивается отдельно. Сам d0 продижи не побирает. >для того чтобы ставить с адамом Я не пользуюсь адамами.
Вообще, строго говоря, та хуйнюшка которая дрочит полтораху достаточно удобная, потому что делает все быстро со вторым батчем в 512, буквально моментально 10 дестовых эпох на 200 пикчевом датасете ебашит. С хл так быстро не будет ни разу.
Лучший помощник для кодеров GitHub Copilot стал БЕСПЛАТНЫМ сегодня.
Пока открываете шампанское, пару слов о лимитах: 2000 дополнений кода и 50 сообщений к умнейшим нейронкам GPT-4o и Claude 3.5. Всё, что нужно — зайти в VSCode через аккаунт в GitHub.
Надеюсь хоть оно справится с моей задачей и портирует скрипт нормально
>>982057 Скормил ему https://github.com/davidtvs/pytorch-lr-finder , на какойто из итераций фиксинга оно даже запустилось, но видимо развернуло мне веса в фп100500 и не влезоо ни в 32 рама ни в видяху при этом и ебнулось с ООМ. Последущие фиксы чтобы было все в фп16 к успеху пока не привели. Чисто на гпт там вообще нихуя не заработало есличе, так что копилот мощнее для кодинга определенно.
>>981976 > Нет, ты не понял концепции. У продижи/продижишедулерфри есть параметр d0, который по сути управляет силой обучения. Лернингрейт самих весов и енкодера у него фиксед и настраивается отдельно. Сам d0 продижи не побирает. Продиджи оригинальными авторами задумывался, чтобы не ебаться с этими д0 и лр впринципе, он ведь и разгоняется сам по себе, а ты ему придумал новый лр подбирать, обрубив шедулер > Я не пользуюсь адамами. А что так? Лр от продиджи как раз ему и подходит, ну процентов 15 накинь максимум и по идее тот же эффект окажется
>>982843 >Продиджи оригинальными авторами задумывался, чтобы не ебаться с этими д0 и лр впринципе, он ведь и разгоняется сам по себе, а ты ему придумал новый лр подбирать, обрубив шедулер Оптимизация времени обычная. Если ты знаешь оптимум d0 для своего датасета или любой параметр в любом другом бесшедулернике отвечающий за это то ты его указываешь и не ебешь себе мозг пока косинусное говно само себе там чето высчитает на лоу лр за 100500 часов. Это супер критично когда у тебя огромный датасет, а учитывая что дора+локр+скалар это буквально полноценный файнтюн со звездочкой позволяющий хоть 10к картинок датасет обучать, то это неебическое сохранение времени и баланс. >А что так? Жрет больше, чем бесшедулерник продижи, а 8бит лютая параша дли совсем нищеты Сложно доджить падение в локальный минимум. Еще и падает не в тот локальный минимум часто. Если датасет вариативный, то как-то хуево с признаками работает сопредельными и убивает вариети. Бесшедулерный адам вообще ебнутый - обучаешь хую, запоминает яички, ну это условно.
>>982843 >Продиджи оригинальными авторами задумывался, чтобы не ебаться с этими д0 Кстати нет. If the model is not training, try to keep track of d and if it remains too small, it might be worth increasing d0 to 1e-5 or even 1e-4. That being said, the optimizer was mostly insensitive to d0 in our other experiments.
>>982901 > Оптимизация времени обычная Но ты же 20 ранов сделал ебли, какая тут оптимизация времени то > Если ты знаешь оптимум d0 для своего датасета или любой параметр в любом другом бесшедулернике отвечающий за это то ты его указываешь и не ебешь себе мозг пока косинусное говно само себе там чето высчитает на лоу лр за 100500 часов Зачем лоу лр то? Если знаешь тот же лр с обычным адамом, то тоже самое что знать д0 с бесшедулерным. Поставь просто дефолтный 1е-4 на д0 с продиджи безшедулерным, раз уж на то пошло, или ты уже пробовал? > Это супер критично когда у тебя огромный датасет Когда у тебя огромный датасет, в эксперименты как то лезть не особо есть желание и хочется юзать то что точно работает нормально, ведь вот подобная > дора+локр+скалар Комба литералли обсирается с впредом, начиная с доры, которая нанами начинает сыпать > 10к картинок Вообще в лору влезет, от 100к хотя бы был бы смысл в полноценном файнтюне, но учитывая жор хля, либо сосать с мелким батчем на адаме, либо сосать с большим на адафакторе, про продиджи вообще можно забыть > Жрет больше, чем бесшедулерник продижи Да ну нахуй, что это за волшебная оптимизация там такая? Может и тюн даже влезет в 24, кто знает >>982910 Это кстати буквально недавно добавили https://github.com/konstmish/prodigy/commit/9396e9f1ca817b1988466f46ed40e9f993aef241 на самом деле охуеть интерес к оптимайзеру проснулся, даже начали пры пуллить и ридми обновлять, ну окей, но что 1.5, что хл, до недавнего времени действительно был инсенсетив и трогать д0 смысла не было в стоковой версии
>>982954 >Но ты же 20 ранов сделал ебли, какая тут оптимизация времени то Это меньше чем бы я потратил на другом оптимизере. Ты же понимаешь что если трен слишком медленный, или слишком быстрый, то в обоих случаях это на выходе будет замещение весов, ликинг, мутанты, сломанные веса или пережар? >Зачем лоу лр то? Потому что базовый лр 1е-4 это лоулр. >Если знаешь тот же лр с обычным адамом, то тоже самое что знать д0 с бесшедулерным. Ну так а смысл чето с адамом делать тогда? Тот же самый поиск свитспота, так еще и шедулер трахать. >Поставь просто дефолтный 1е-4 на д0 с продиджи безшедулерным, раз уж на то пошло, или ты уже пробовал? Да не работает так как надо. Оно может вообще не тренировать эффективно. С 1e-4 на моем датасете тренинг идет крайне медленно притом что я и лр юнета задираю чтоб побыстрее. Можно делать как ты предлагаешь и терпеть, но это не разумно и не нормально, проще свитспот для d0 найти и потом лр юнета оттюнить туда сюда - это гораздо проще. >Когда у тебя огромный датасет, в эксперименты как то лезть не особо есть желание и хочется юзать то что точно работает нормально Дело вкуса. Я предпочитаю точность и меньше тюнинга параметров. >Комба литералли обсирается с впредом, начиная с доры, которая нанами начинает сыпать Ты конечно извини, но это 99% вопрос скилишуя, я на твой пост >>977016 как-то подзабил в ответе и до сих пор не тестировал впред. Вот ты там спрашивал 1е-4 или нет, откуда мне знать, у меня вообще на одном датасете свитспот на 5e-4 находится, а ты какие-то мелкие лернинги берешь вообще непонятно для какого датасета и потом говоришь что ниче неработает.
Кароче, давай сразу попути отвечу >Что там странного? Давай начнем с того почему у тебя дименшены одинаковые. Ты тренируешь полное замещение? Смысл? У тебя какойто-то анимушный трен кастомный, судя по всему ты какуюто анимепизду тренишь, так смысл в замещении если тебе надо оставить веса кастомной модели? Хочешь получать датасетовые картинки? Датасет ты мне не показал по количеству сколько там, но судя по степам в 2500 и лернингу в 1 там может и 250 и 25 картинок быть. Опять же непонятно почему ты говоришь про обсер впреда в контексте доры локра и скалярного слоя, если у тебя изначально вообще другое. Дальше почему min_snr_gamma = 99? Это требование вперда или ты просто от балды ебанул? У тебя градиенты супернеустойчивые и вероятно поэтому наны, но я не уверен. Почему lr те именно 0.25, если у тебя стоит и так низкий лернинг? Тоже от балды поделил на 4 или есть какое-то обоснование данного мува? Ты тренируешь токен или фул описание? Зачем вармап в режиме ратио на продиги, если у тебя шедулер контролирует невозможность вечного роста лр? Почему лосстайп l2 если он неусточив к шуму, а ты тренируешь вперд который работает со скоростью шума, повышает нестабильность и слишком сильно ебет за большие ошибки, что все вместе дает анстейбл лосс? Почему минимальный букет 256? Эта циферка очень ситуативна и понижает качество и генерализацию на сдхл. С 2048 на макс вообще в шок выпал потому что в этом ноль смысла вообще такто. Допустим у тебя в датасете куча картинок выше 2048 и ты хочешь обрабатывать широкий рендж резолюшенов, чтобы что? У тебя базовая анимушная модель на которой ты тренишь может в 2048 искаропки? По моему мнению гораздо эффективнее было бы тогда настроить нойзофсет, мультиреснойздискант и итерации чтобы детализация/шарп остались на месте, снизив букет до дефолтных 768/1024 и увеличив стабильность градиентов наоборот таким образом, поделив альфу на 2 таким образом у тебя сохранилась бы возможность генерировать хайрезы не прибегая к шизобукету в 2048 пукселей. Почему репитов именно 10? У тебя супермелкий датасет? Тогда зачем 2500 шагов? Это же шиза. Зачем кешировать латенты на диск если они багуют частенько? Косинусный шедулер конфликтует с шедулером из оптимайзера теоретически. Зачем указан конволюшн дименшен одновременно, если у тебя и так указаны 16x16 по дименшену и альфе? Ты уверен что это не бесполезный параметр в данном случае и локон не является алиасом обычной лоры? Ты перепроверил наличие и фунциклирование конв слоев в лоре после тренинга вообще? Почему пресет фулл вообще? У тебя мелкий датасет же судя по всему, зачем тренить дримбутлайк фул? >от 100к хотя бы был бы смысл в полноценном файнтюне, но учитывая жор хля, либо сосать с мелким батчем на адаме, либо сосать с большим на адафакторе, про продиджи вообще можно забыть Но количество каринок в датасете не коррелирует с оптимайзером, у тебя ж все картинки в латент переводятся просто и потом по мере дрочения юзаются. Не понял проблемы кароч и именно такого вывода по оптимайзерам. > Вообще в лору влезет В обычнолору нет, там по струнке магнитуд дирекшена вся дата с 10к пикч выстроится и поломается, т.к. лора либо вносит изменения большой величины + большого направления, либо изменения малой величины + малого направления. >Может и тюн даже влезет в 24 Может и влезет, у меня нет 24 карты. >трогать д0 смысла не было в стоковой версии Хз, на дефолте всегда трогал...
>>983053 > Это меньше чем бы я потратил на другом оптимизере. Ты же понимаешь что если трен слишком медленный, или слишком быстрый, то в обоих случаях это на выходе будет замещение весов, ликинг, мутанты, сломанные веса или пережар? Хз к чему ты это, но замещение весов будет всегда, ведь ты их обновляешь тренируя лору, ну и в инференсе накладывая потом это поверх. Ликинг, мутанты и пережар идут почти всегда в комплекте, а вот непослушность энкодера может сильно выделяться > Потому что базовый лр 1е-4 это лоулр. Конкретно для чего? Для того чтобы поней стукнуть и они сместили свой ебучий стиль дефолтный, да, помню что на порядок пришлось поднимать, там уже всё вышеперечисленное комплектом как раз и шло, а ниже нихуя считай и не тренилось > на одном датасете свитспот на 5e-4 находится Вот я бы поглядел на этот датасет, результат, и с чего это тренится с таким огромным лр > а ты какие-то мелкие лернинги берешь вообще непонятно для какого датасета и потом говоришь что ниче неработает Этот лр подходит для 90% стилей с буру для аниме моделей, ну или хотя бы частично аниме моделей, люстре кстати в стоке продиджи до 4е-4 задирает, с ней можно в стоке и прибавить в пару раз, с нубом эпсилоном ставит те же 1е-4 > Давай начнем с того почему у тебя дименшены одинаковые Линейный и конволюшен? Хз, ну этого достаточно чтобы одну хуйню по типу стиля или чара вместить, можно даже конволюшен отключить для чара, что ты предлагаешь сменить? > Ты тренируешь полное замещение? Смысл? По другому не работает, смотри лоры выше, они от разных тренирователей с форчка, сработало только полное замещение, причём считай со стоковыми параметрами > У тебя какойто-то анимушный трен кастомный, судя по всему ты какуюто анимепизду тренишь, так смысл в замещении если тебе надо оставить веса кастомной модели? Нет, там хуйдоджник анимушный, веса базовой модели нереально стереть лорой впринципе, можно лишь сильно задавить > Датасет ты мне не показал по количеству сколько там, но судя по степам в 2500 и лернингу в 1 там может и 250 и 25 картинок быть 50 картинок показали себя лучше, там максимум около 75 можно найти консистентных и без повторов, литералли просто на буру зайди и вбей tianliang_duohe_fangdongye, скачай всё это говно граббером, вот тебе и фулл датасет, потом только повторы фильтрани > Опять же непонятно почему ты говоришь про обсер впреда в контексте доры локра и скалярного слоя, если у тебя изначально вообще другое. Это вообще отдельная тема, с дорой и впредом походу надо на порядок лр уменьшать минимум, мне лень разбираться, но так в наны падает сразу обычно если огромный лр поставить не подходящий абсолютно, 1е-5 и ниже проверять надо > Дальше почему min_snr_gamma = 99? Это требование вперда или ты просто от балды ебанул? Нет, с впредом лосс высчитывается по другому, но если включить минснр, то "по старому", вроде ключ скейла лосса делает тоже самое, но я просто сделал это через минснр, буквально выключив эффект от него таким значением > Почему lr те именно 0.25, если у тебя стоит и так низкий лернинг? Тоже от балды поделил на 4 или есть какое-то обоснование данного мува? Ты тренируешь токен или фул описание? Фулл выхлоп с вд теггера, в 4 раза меньше поставил чтобы энкодер не поджигать, в 3-4 раза меньше просто из прошлых экспериментов вывел значение. Опять же, а сколько ты предлагаешь туда ставить? Равный юнету результировал в непослушности с лорой, слишком мелкий в неработающем вовсе теге, если стилей несколько в лоре > Зачем вармап в режиме ратио на продиги, если у тебя шедулер контролирует невозможность вечного роста лр? Вообще хз зачем я вармап до сих пор ставлю с продиджи, когда у него свой, надо было хоть сейвгвард тогда влепить чтоли или вообще убрать. Ты уверен что он "вечно" растёт? Я гонял продиджи с флюксом на константе, он максимум там один бамп делал х2 иногда и всё, в то время как когда шедулер начинает стремительный спуск посередине, с лром примерно такая же картина случается из скачков > Почему лосстайп l2 если он неусточив к шуму, а ты тренируешь вперд который работает со скоростью шума, повышает нестабильность и слишком сильно ебет за большие ошибки, что все вместе дает анстейбл лосс? Там и выбора то не особо много. Huber или smooth l1 лучше типо будет? Ну хз, экспериментировать опять надо, дефолт хоть как то работает вроде нормально > Почему минимальный букет 256? Эта циферка очень ситуативна и понижает качество и генерализацию на сдхл. С 2048 на макс вообще в шок выпал потому что в этом ноль смысла вообще такто. Допустим у тебя в датасете куча картинок выше 2048 и ты хочешь обрабатывать широкий рендж резолюшенов, чтобы что? У тебя базовая анимушная модель на которой ты тренишь может в 2048 искаропки? Это не так работает. Цифры такие элементарно чтобы не ограничивать бакеты вообще, если картинка ультравайд, либо наоборот, она попадёт в соответствующий бакет тренировочного разрешения 1536х512 и наоборот, оно не ставит разрешение 2048 во время тренировки, а крутится вокрут 1024х1024 так или иначе, такие картинки кстати энивей большая редкость > По моему мнению гораздо эффективнее было бы тогда настроить нойзофсет, мультиреснойздискант и итерации чтобы детализация/шарп остались на месте, снизив букет до дефолтных 768/1024 и увеличив стабильность градиентов наоборот таким образом, поделив альфу на 2 таким образом у тебя сохранилась бы возможность генерировать хайрезы не прибегая к шизобукету в 2048 пукселей. Вообще хрень какая то полная, если честно. Нойз оффсет нельзя трогать даже палкой издалека, мультирез хоть и очень полезен с эпсилоном, в впреде его трогать увы нельзя и придётся отдать всё на откуп зтснр. Ты же просто предлагаешь ужать бакеты, чтобы получить хер пойми что из датасета по итогу, вообще без понятия как он будет ресайзится и скейлится от такого, а зная кохью, ему вообще никакие ресайзы лучше не давать делать > Почему репитов именно 10? У тебя супермелкий датасет? Да, этот был из 15 вроде картинок, я делал лору из одной ебучей картинки итеративно
>>983053 > Тогда зачем 2500 шагов? С одной там на 500 уже прогар пошёл лютый, но с 15 уже 2500 зашло, тоже конечно прогар, но всё лишь бы сделать ещё больше для следующей итерации. А 2500 просто многочисленными эмпирическими тестами хл вывел что для стиля хороший свитспот, беря в расчёт остальные параметры того конфига, конкретно с тем датасетом этого много было, но там вери эджи кейс, так сказать, ну и концепты и чары тоже поменьше будут требовать, как и датасеты, в которых меньше 100 картинок например > Зачем кешировать латенты на диск если они багуют частенько? Очистить можно, если багнутся просто, почему нет впринципе > Косинусный шедулер конфликтует с шедулером из оптимайзера теоретически Там не до нуля косинус, а CAWR до 0.01 обычно, но ты же сам рассказываешь про стратегию "контры постоянно растущего лр", работает и довольно заебато > Зачем указан конволюшн дименшен одновременно, если у тебя и так указаны 16x16 по дименшену и альфе? ? Чтобы добавить конволюшен слоёв > Ты уверен что это не бесполезный параметр в данном случае и локон не является алиасом обычной лоры? Ты перепроверил наличие и фунциклирование конв слоев в лоре после тренинга вообще?? То что слои там есть это точно, ведь как минимум лора весит чуть больше, чем обычная лора с линейными слоями, должно работать, насколько эффективно хз как объективно оценить > Но количество каринок в датасете не коррелирует с оптимайзером, у тебя ж все картинки в латент переводятся просто и потом по мере дрочения юзаются. Не понял проблемы кароч и именно такого вывода по оптимайзерам. Никакой проблемы. Говорю просто что фулл файнтюн потребует много памяти, не каждый оптимайзер будет реально запустить, тем более с большим батчем > В обычнолору нет, там по струнке магнитуд дирекшена вся дата с 10к пикч выстроится и поломается, т.к. лора либо вносит изменения большой величины + большого направления, либо изменения малой величины + малого направления. Хз, я запихиваю тонны нейрокала, тегаю по разному разный нейрокал, что даёт возможность потом это контроллировать, и пока вроде нормально, конечно имеет общий паттерн нейрокаловости, но в этом и есть весь датасет, с фулл тюном не сравнивал конечно, да и туда норм батч хотя бы в 8 с адамом даже не впихнуть скорее всего. С нубом просто больше нехуй тренить считай, всё остальное с буру и так по идее в датасете было > Может и влезет, у меня нет 24 карты. Так что там по оптимизациям в итоге?
>>983126 >но замещение весов будет всегда, ведь ты их обновляешь тренируя лору Так альфа контролирует насколько ты дефолтные веса тюнишь. Можно избежать практического замещения оттюнив основные веса и не применяя TE, например. В локре допустим вообще факторизация и не требуется указывать дименшены вообще, кроме фактора их сокращения чтобы сделать локр универсальным или наборот только под конкретную модель, то есть по факту с помощью локра ты тюнишь веса основной модели, а не примешиваешь тренинговые веса классической лоры. И посмотреть веса и слои в локре ты тоже не сможешь, потому что их не существует. >Ликинг, мутанты и пережар идут почти всегда в комплекте Это неправильно подобранный лернинг, о чем я и говорю. >а вот непослушность энкодера может сильно выделяться К вопросу о те, то он то в целом на концепт и не нужен, клипатеншен слои ты так и так тренишь и его хватает. Я бы даже сказал что тренировать ТЕ+веса на токен сразу это какой-то нубский мув, который по факту задействуется чтобы недотрененные веса через ТЕ добирать при генерации до норм состояния, такой ред флаг на то что лернинги неправильно подобраны. >Конкретно для чего? Для любого небольшого датасета. >Вот я бы поглядел на этот датасет, результат, и с чего это тренится с таким огромным лр Unet тестовый на одну бабу тренился на маленьком датасете. Принцип же в любом случае что чем ниже даты в датасете тем более агрессивно сетка должна хватать градиенты. >Этот лр подходит для 90% стилей с буру для аниме моделей, ну или хотя бы частично аниме моделей, люстре кстати в стоке продиджи до 4е-4 задирает, с ней можно в стоке и прибавить в пару раз, с нубом эпсилоном ставит те же 1е-4 Но в реальности то эти лернинги не является golden так скажем. Я ж не говорю что их нельзя использовать и терпеть, я про то что идеальный лернинг который тебе в жопу говна не накинет и не потребует снижать/повышать вес применения готового продукта - это тонкая штука которую надо искать. >Линейный и конволюшен? Я имею в виду network_dim = 16 network_alpha = 16.0, конволюшены это другой вопрос. >По другому не работает Я бы поспорил и даже бы тестовый прогон сделал, но я сейчас другое треню. >веса базовой модели нереально стереть лорой впринципе, можно лишь сильно задавить Бля ну если так рассуждать то любой жоский файнтюн это вообще лора обмазанная поверх базовой модели, которая успешно экстрагируется. Я ж не про то. >50 картинок показали себя лучше, там максимум около 75 можно найти консистентных и без повторов, литералли просто на буру зайди и вбей tianliang_duohe_fangdongye, скачай всё это говно граббером, вот тебе и фулл датасет, потом только повторы фильтран Ну у тя ж есть готовый сет, скинь. >Фулл выхлоп с вд теггера А смысл если сам чекпоинт анимушный и хуйдожник анимушный? Думаешь сетка не разберется сама? >в 4 раза меньше поставил чтобы энкодер не поджигать, в 3-4 раза меньше просто из прошлых экспериментов вывел значение А че ты отдельно юнет и отдельно те не тренируешь несвязанно? Пережар происходит из-за несоответствующего схождения во время одновременной тренировки, а так это можно так костыльно обойти в целом. >Опять же, а сколько ты предлагаешь туда ставить? Равный юнету результировал в непослушности с лорой, слишком мелкий в неработающем вовсе теге, если стилей несколько в лоре Я бы вообще не тренировал те на стиль такто, максимум на один новый токен, не пересекающийся с основой. >Там и выбора то не особо много. Huber или smooth l1 лучше типо будет? Хубер будет лучше да. >Это не так работает. В смысле? Ты делаешь букеты по разным разрешениям с шагом 64 чтобы лишний раз не даунсейлить 2048 до 1024, чтобы изображения разных размеров букетировались друг с другом а не 256 с 2048 и не потерять детали разве нет? Алсо у тя включено enable_bucket = true что добавляет паддинг с черными пукселями вместо скейла, я бы не скозал что это ок. >Вообще хрень какая то полная, если честно. Нойз оффсет нельзя трогать даже палкой издалека Я тебе рабочий вариант расписал. У меня датасет с текущей бабой состоит из мыльного говна с переебанными цветами и тонной шумов с размерами от 512 до 1024, вместе с условными --noise_offset=0.05 --multires_noise_discount=0.2 --multires_noise_iterations=7 ^ выходные гены ни в каком месте не имеют ни шумов, ни мыла ни чего бы то ни было вообще. >Ты же просто предлагаешь ужать бакеты, чтобы получить хер пойми что из датасета по итогу, вообще без понятия как он будет ресайзится и скейлится от такого Прекрасно будет скейлиться.
>>983127 >С одной там на 500 уже прогар пошёл лютый, но с 15 уже 2500 зашло Бля ну как по мне это ну очень дохуя, 15 картинок и 2500 шагов. Я бы не терпел так. >но ты же сам рассказываешь про стратегию "контры постоянно растущего лр", работает Ну может быть, я просто предположил что может конфликтовать теоретически. >Чтобы добавить конволюшен слоёв Не, я конкретно юзкейс конв в твоем случае. В датасете много текстурок или локальных деталей что сетка не уловит без их помощи на адаме? >о что слои там есть это точно, ведь как минимум лора весит чуть больше, чем обычная лора с линейными слоями Они могут быть просто пустыми. >насколько эффективно хз как объективно оценить Слайсишь лору на две части - одна лора чисто конв слои, вторая часть это все остальное, тестируешь. >я запихиваю тонны нейрокала Вот у меня датасет есть готовый на 7000 пикч с достаточно обширным универсальным концептом, до того как дору выкатили я с обычнолорами так наебался с ним, ничего путного не выходило, урезал вплоть до 1000 - все равно отсос - либо натрениваешь в датасетовские картинки, либо лезет основная модель и насилует бедную лору, хоть медленно трень хоть быстро, то есть было проще дримбудкой целый чекпоинт тренить и потом дифренс вычитать в лору, а сейчас спокойно любой размер датасета всаживается практически в любой алгоритм и лора работает как и должна - быть дополнением для модели и работать аккуратно. Это 1 в 1 как ситуация с первыми нсфв лорами на сдхл типа https://civitai.com/models/144203/nsfw-pov-all-in-one-sdxl-realisticanimewd14-74mb-version-available , где нсфв калтент как бы работает, но эта работа ужасная и ограниченная, насколько я понял там чето около 100к пикч датасета. >Так что там по оптимизациям в итоге? В каком смысоле?
>>983159 >Вот я бы поглядел на этот датасет, результат, и с чего это тренится с таким огромным лр >Unet тестовый на одну бабу тренился на маленьком датасете. Принцип же в любом случае что чем ниже даты в датасете тем более агрессивно сетка должна хватать градиенты. Кароче вот эта тестовая лора на 5e4, 3 эпоха всего лишь с датасетом около 10 пикч, оригинал бабцы наверно не надо показывать, просто скажу что основные признаки сетка спокойно сожрала и они на вот это пикче все полном объеме и в принципе на 5е4 дальше можно тренить было, но мне 10 пикч тренить нахер не надо было.
>>983159 > В локре допустим вообще факторизация и не требуется указывать дименшены вообще, кроме фактора их сокращения чтобы сделать локр универсальным или наборот только под конкретную модель, то есть по факту с помощью локра ты тюнишь веса основной модели, а не примешиваешь тренинговые веса классической лоры. И посмотреть веса и слои в локре ты тоже не сможешь, потому что их не существует. И что тогда в файле выходном остается? Я пробовал в локр с 1.5 давно, не помню какой фактор ставил, 1000000000000 чтоли, чтобы по размеру был как обычная лора короче в 100мб, там приходилось с лр заёбываться и ставить что то типо в 4 раза больше, чем с обычной, эффекта вау не было, просто другой способ сделать одно и тоже > К вопросу о те, то он то в целом на концепт и не нужен, клипатеншен слои ты так и так тренишь и его хватает Концепт как раз тренят обычно включая энкодер, ведь там есть слабые или неизвестные модели токены > который по факту задействуется чтобы недотрененные веса через ТЕ добирать при генерации до норм состояния Был даже какой то датасет, который с энкодером лучше намного работал > Принцип же в любом случае что чем ниже даты в датасете тем более агрессивно сетка должна хватать градиенты. Ты не перепутал? Чем меньше датасет, тем быстрее сетка оверфитнется и тем меньший лр лучше ставить, даже выше пример, 1пикча на 500 пиздец, 15 на 2500 не полный, но пиздец, 75 уже вроде ничего на 2500, даже можно было сильнее жарить > Я имею в виду network_dim = 16 network_alpha = 16.0, конволюшены это другой вопрос. А, ты имеешь ввиду почему у меня дим и альфа одинаковые? Чтобы не скалировать ничего, нахуя мне лишний дампенер, когда ничего не горит, а наоборот бы натренить посильнее > Я бы поспорил и даже бы тестовый прогон сделал, но я сейчас другое треню. Вот если бы я увидел ту кошкодевку в стиле фангдонга, натрененную твоим суперспособом, я бы реально поверил, а так до сих пор считаю все эти алгоритмы просто самовнушением и по большей части базовых вещей и стока хватит для 90% случаев Похуй, читай ниже насчёт конфига > ну если так рассуждать то любой жоский файнтюн это вообще лора обмазанная поверх базовой модели Не, это щитмикс называется, лол > Ну у тя ж есть готовый сет, скинь. У меня он всратый, нейрокал для паддинга до 120 был добавлен, с таким точно результата не выйдет желаемого по генерализации, да и не очень хочется это заливать куда то, по понятным причинам, сграбь просто с гелбуры, зарегайся, спизди апи ключ и введи в imgbrd grabber, настройки чтобы теги вместе спиздить поставь https://files.catbox.moe/e29fq5.png > А смысл если сам чекпоинт анимушный и хуйдожник анимушный? Думаешь сетка не разберется сама? Разберётся конечно, просто параметры с энкодера иногда помогают дотренить, но я и сам не особо люблю идею тренить одиночный стиль с энкодером, но так получается иногда лучше > А че ты отдельно юнет и отдельно те не тренируешь несвязанно? Потому что это лишний гемор, когда можно просто поменьше лра поставить > Я бы вообще не тренировал те на стиль такто, максимум на один новый токен, не пересекающийся с основой. На мультистиль без вариантов, надо тренить уникальные токены вызова > Хубер будет лучше да А ты его тестил с впредом? Может он вообще не работает или через жопу > В смысле? Ты делаешь букеты по разным разрешениям с шагом 64 чтобы лишний раз не даунсейлить 2048 до 1024, чтобы изображения разных размеров букетировались друг с другом а не 256 с 2048 и не потерять детали разве нет? Ты делаешь букеты, чтобы пикчи сами просто ресайзнулись до разрешений, смежных твоему выбранному разрешению. Это просто границы бакетинга, если базовое разрешение 1024, всё будет просто ресайзнуто в подходящие разрешения. Если ты укажешь 1280 верхнюю границу с 1024 тренировочным, а у тебя ультравайд 3:1 5400х1800 я на самом деле хз что будет, но она скорее всего ресайзнется в ещё более мелкую хуйню, что не есть гуд > добавляет паддинг с черными пукселями вместо скейла Всегда юзал букетинг и ни разу не заметил эффекта этого паддинга > --noise_offset=0.05 А теперь 2-3-4-10 таких натрень и попробуй стакнуть, охуев от того что будет происходить, мультирез кстати даже маловат, 8/0.4 вполне > ни шумов Не усваивает ни одна, по крайней мере аниме, сетка film grain, хоть ты выебись, вае уничтожит ещё на этапе сжатия это всё, только в фш накидывать после > 15 картинок и 2500 шагов. Я бы не терпел так. Так они быстрые с батчем в 1 за 15 минут и без чекпоинтинга, потому что влезает, терпеть это когда пытаться нормально натренить и вдруг узнать, что с мелким датасетом было лучше и надо крутить что то, потому что мелкие датасеты насыщаются быстрее, это тупо база > Не, я конкретно юзкейс конв в твоем случае. В датасете много текстурок или локальных деталей что сетка не уловит без их помощи на адаме? Любому стилю не помешают, в любом сколько нибудь выделяющемся есть какие то особенности лайна как минимум, даже в однотипном анимекале, персу не критично естественно > Слайсишь лору на две части - одна лора чисто конв слои, вторая часть это все остальное, тестируешь. Воркфлоу есть для такого или чем делать? > либо натрениваешь в датасетовские картинки, либо лезет основная модель и насилует бедную лору, хоть медленно трень хоть быстро, то есть было проще дримбудкой целый чекпоинт тренить и потом дифренс вычитать в лору, а сейчас спокойно любой размер датасета всаживается практически в любой алгоритм и лора работает как и должна - быть дополнением для модели и работать аккуратно Ну окей, если не захочешь в итоге сам фангдонга собирать и тренить, то хотя бы скинь фулл конфиг, расчехлю пони и постараюсь в адекватное сравнение с предыдущими попытками генерализации того хуйдоджника на примере той кошкодевки, используя оригинальные работы без нейрокала > В каком смысоле? Что делал чтобы продиджи требовал меньше врам, чем адам? > Кароче вот эта тестовая лора на 5e4, 3 эпоха всего лишь с датасетом около 10 пикч, оригинал бабцы наверно не надо показывать, просто скажу что основные признаки сетка спокойно сожрала и они на вот это пикче все полном объеме и в принципе на 5е4 дальше можно тренить было, но мне 10 пикч тренить нахер не надо было. Ну это шагов за 500 небось, если не меньше в 2-3 раза с таким мелким датасетом, опять же, если бы было 100, задача бы усложнилась, в отрыве от других параметров кстати довольно бесполезно знать лр, может у тебя соотношение альфы там 1/128 или дропаут какой огромный, но раз утверждаешь что есть конфиг для генерализации даже огромного количества пикч, то я бы попробовал
>>983562 А всё, там рандом сид каждый раз был. Ввел фикс сид все стало повторяемым. Теперь вопрос как этой хуйней пользоваться нахуй. Кто хочет потестить?
>>983578 Не ну в принципе оно ебашит нормально. Если датасет увеличивается в 2 раза, то лернинг советуемый падает как и должно быть. На батче 2 нереально за 100 итераций вызвать нестабильность градиента. Хоть какаято польза от полторашного чекпоинта, лол, считает моментально.
>>983612 Ради теста бахнул стартовой точкой для датасета в 100 картинок 2e-3, оно мне сразу выдало повышающийся лосс, то есть определенно ниже нужно. Работает блядж!
>>983617 Кароче я так понимаю основной принцип что нужно вызвать нестабильность для градиента, и примерно 10 эпох от количества картинок, то есть датасет в 100 картинок требует 1000 шагов постоянного повышения лернинга для чекинга градиентов. Щас проверим.
>>983175 >Ну это шагов за 500 небось, если не меньше в 2-3 раза с таким мелким датасетом, опять же, если бы было 100, задача бы усложнилась, 139 шагов >может у тебя соотношение альфы там 1/128 16/8 вроде, или 8/4 >дропаут Не пользуюсь, он не нужон на продигах >И что тогда в файле выходном остается? локальная адаптация весов с помощью свёрточных операций, они не имеют визуализации в виде отличных друг от друга AB слоёв, буквально адаптация весов и слоев модели, а не добавление натрененных слоев как с классикой сам состав локра сложный, я так сразу не скажу не подглядывая >не помню какой фактор ставил, 1000000000000 чтоли, чтобы по размеру был как обычная лора короче в 100мб Э ну там несколько не так работает, вес зависит от параметра факторизации - чем он ниже, тем больше параметров в итоговой лоре и тем больше ее вес вплоть до фактора 1 размером с полную модель, а если указать -1 то это будет минимальная лора из возможных, точно не скажу но чето около нескольких мегабайт, если не сотен килобайт. В целом там в дименшен нетворка можно хоть триллиард поставить циферку, ее главное назначение чтобы она была больше 10к с копейками чтобы факторизовать веса, если меньше поставишь то там деление не произойдет просто и тренинг не запустится. >Концепт как раз тренят обычно включая энкодер, ведь там есть слабые или неизвестные модели токены >Был даже какой то датасет, который с энкодером лучше намного работал Я треню концепт на 1 токен если нужно с те. А баба сверху например вообще без те, и там клипатеншен захватил последовательность символов в качестве токена из кепшена и его можно юзать. Собсно поэтому я дрочу на правильный тренинг весов, потому что при правильном тренинге те и не нужен. >Ты не перепутал? Чем меньше датасет, тем быстрее сетка оверфитнется и тем меньший лр лучше ставить Нет, я все правльно скозал. Чем меньше датасет тем меньше даты для запоминания, тем выше лернинг для градиентов. > 1пикча на 500 пиздец, 15 на 2500 не полный, но пиздец, 75 уже вроде ничего на 2500, даже можно было сильнее жарить У нас разные эти как их пайплайны работы, у меня вообще другой опыт с моими вариантами мокрописек. > Чтобы не скалировать ничего, нахуя мне лишний дампенер, когда ничего не горит, а наоборот бы натренить посильнее Ну я понял что тебе выдача и знания самой модели не особо важны. >Не, это щитмикс называется, лол Ну как ето, можно же спокойно разницу в лору из любого файнтюна вытащить. >У меня он всратый Чел мне так лень заново делать когда у тебя уже есть. Мне без разницы всратый или нет, я и так со всратками работаю постоянно. >Потому что это лишний гемор Всего то в два раза больше времени, зато потом все работает как часеки. >На мультистиль без вариантов, надо тренить уникальные токены вызова Опять же спокойно можно на стиль тренировать без те, это не какаято особая магия. >А ты его тестил с впредом? Может он вообще не работает или через жопу Не тестил, но хуюер сам по себе мягкий и совмещает л1 и л2 в зависимости от типа ошибки. >Ты делаешь букеты, чтобы пикчи сами просто ресайзнулись до разрешений, смежных твоему выбранному разрешению. Это просто границы бакетинга, если базовое разрешение 1024, всё будет просто ресайзнуто в подходящие разрешения. Если ты укажешь 1280 верхнюю границу с 1024 тренировочным, а у тебя ультравайд 3:1 5400х1800 я на самом деле хз что будет, но она скорее всего ресайзнется в ещё более мелкую хуйню, что не есть гуд Ну вопервых я бы скозал что гигабукеты для сдхл уменьшают скорость сходимости, вовторых я бы не скозал что мелкая хуйня это какая-то проблема вообще для нейросеток ибо латент хуе мое, многомерное пространство признаков, что скукожилось выкукожится. Мне понравилось тренить каскад одно время когда он чучуть хайповал, там можно на ультракале из шакалов обучать достойно было. >Всегда юзал букетинг и ни разу не заметил эффекта этого паддинга Медленные лернинги вероятно. Если аналогично с альфой грузить пикчи которые обрабатываются как черный цвет то на высоких лернингах оно схватит и будет срать ими. Хотя опять же может это конкретный кейс альфаканалов, но я на всякий случай не букеирую со скейлом. >А теперь 2-3-4-10 таких натрень и попробуй стакнуть Не стакаю лоры, они же замещают друг друга, если только это не архитектрный дистиллят и лора контента. >Не усваивает ни одна Глора спокойно любое говно схватит и умножит. >Так они быстрые Какая карта? >Воркфлоу есть для такого или чем делать? Слои можно списком посмотреть через анализатор в кое или аналогичный скрипт, далее можно скриптом слайсить вот этим например https://github.com/ThereforeGames/blora_for_kohya ток расписать трейты под себя. >Что делал чтобы продиджи требовал меньше врам, чем адам? Я ниче не делал, просто наебенил себе шедулерфри.
>>977016 >Вот несколько дней назад делал лору из одной картинки буквально Как думаешь, есть смысл докидывать в датасет похожих картинок чтобы только греть оптимайзер на них? По сути просто побочные картинки в датасете, для которых будет нулевой или околонулевой лр.
>>983624 Ого, я оказывается неправильно понял документацию. Надо не на уебавшийся лосс смотреть, а генерировать нисходящий лосс в начале и брать примерно середину. Интересно, то же самое дает валидейшен в евердриме, ток дольше по времени. Завтра кароч перну в гитхаб этой хуйней может кому итт пригодится.
Алсо может вы придумаете че еще можно прикрутить. Я вместо МСЕлосса хубер прихуячил например.
>>985853 блять ну зато в вебуе обосраном работает конечно ебать свинья лежит там где не ждешь
ну результ бофты кароч шикарный, даже на первой эпохе ебет, взял датасет для теста из 600 пикч Cindy Shine с легалов, не тегировал
из минусов: как и случае с локром какой-то параметр или его отустствие (допустим конволюшн блоков нет ни там ни там и их в целом нельзя вкл сделать) не позволяет генерить без мутантов в нестандартных размерах, хотя основная модель позволяет, вероятно возможно надо было тренить ток атеншн, а не прям веса тюнить под 768 разрешение ну и считает вечность конечно
3 эпоха, 453 шага с батчем 4
1 пикча с датасета, остальные лоурес гены, 4 кроп литса с нсфв контентной пикчи с расширенной песдой еще хуйцы с порнухи все схватило нормально так и всякие позычи и нюансики детальки
>>985913 > не позволяет генерить без мутантов в нестандартных размерах То есть вот проблематика какая, первый три пикчи с разными настройками, с и без консистенси алайнерами, четвертая дефолт ген модели Всё в 1024x1400 Если кто знает в чем прекол может быть подскажите
>>985922 Не ну теоретически может быть банальный оверфит, потому что все более менее работает на весе бофта в 0.5, но тогда похожесть литса модели теряется (хотя я на нее и не тренил но все равно хочеца применять лорку на весе 1 в любом случае)
>>985922 >Если кто знает в чем прекол может быть подскажите >1024x1400 Занижай разрешение, очевидно же. ИИ имеет свойство заполнять персом все пространство, если ты ему жестко не говоришь делать обратное (т.е. в промпте много пишешь про окружение, плюс разные "ландщафтные" тэги типа изображения используешь). Плюс потеря когерентности, ибо разрешение таки уже предельное. И тут ты еще своей лорой говоришь рисовать исключительно тянку. Вот у модели крыша от совокупности проблем и едет.
На более низких разрешениях, типа 1280х768 должно получше быть, даже учитывая какие-то проблемы с лорой.
>>985980 Нет, ты не понял. Модель на которой я треню натренена так что внедатасетовые размеры спокойно жрет, что я показываю пикчей 4 тут >>985922 Помимо этого дистиллят дмд2 в качестве алайнера сам по себе задизайнен на хайрезы. Как только я применяю натрененный бофт с весом 1 начинаются мутанты на разрешении выше 1024-1280. Но если снижать влияние лоры до 0.5 то все устаканивается. Для сравнения та же проблема с фуловым весом локра на пикче, в целом все консистентное но есть небольшая вытяжка тела, но по итогу он более лутше отрабатывает фул вес лоры. Если снижать вес, то там вообще чикипуки все. То есть налицо проблема в тренинге, вопрос в чем именно. Различие между конфигами локра и бофты буквально незначительно уровня отсутствия скалярного слоя у бофт и лернингов, единственное что есть у обоих - декомпрессия весов с помощью доры. Вероятность что это дора подсирает?
>>985998 Так я про совокупность говорю. На 4-м пике из поста тоже проблемы есть, просто из-за позы и заполнения кадра не такие заметные. А ты своей лорой буквально приказываешь модели рисовать стоящую тянку на фоне стены и дивана. Да еще и на высоких разрешениях. Вот ее и вытягивает. Когда занижаешь влияние лоры - модель рисует тянку с более корректной анатомией, так как старается отработать больше из своего датасета, а не из того, что ты натренировал. Отсюда и частичное исправление.
Другими словами, я бы не в архитектуру или настройки тренировки копал, а в то, что именно ты тренировал. Ну или просто занизил разрешение, и посмотрел, как оно будет работать. Если такие мутанты даже на минимальном 1024х768 будут - явно косяк в тренировочных параметрах. Если нет - значит, ты просто изнасиловал модель своим стремным сетом, и на тренировку плеваться не надо.
>>985980 Касательно твоих тезисов >ИИ имеет свойство заполнять персом все пространство, если ты ему жестко не говоришь делать обратное (т.е. в промпте много пишешь про окружение, плюс разные "ландщафтные" тэги типа изображения используешь). Я не расписываю ничего, буквально несколько токенов вызовов уровня гирл стендинг, можно вообще без вызовов генерить.
>Плюс потеря когерентности, ибо разрешение таки уже предельное. Зависит от базовой модели и мокрописек. Если шринк включать там все выравнивается и работает, но шринк это костыль.
>И тут ты еще своей лорой говоришь рисовать исключительно тянку. Так датасет из тянки в модели которая полностью из тянок, даже с пустым промтом будет тянка. Ладно, давай попробуем без упоминания тянок. skyscraper photo with car 1024x1400 Локр фул вес, локр 0.5 вес, бофт фул вес, бофт 0.5 вес
>На более низких разрешениях, типа 1280х768 должно получше быть Так я и говорю что базовые разрешения норм.
>>986012 >На 4-м пике из поста тоже проблемы есть Нет, там нет никаких проблем. Вот тебе еще дефолт гены в еще более высоком разрешении. >стоящую тянку на фоне стены и дивана. Да еще и на высоких разрешениях. Вот ее и вытягивает. Можно то же самое сделать на дефолт модели и без каких-либо мутантов. В этом проблема. >Ну или просто занизил разрешение, и посмотрел, как оно будет работать. Ало, очевидно же что дефолт работает как надо. >Другими словами, я бы не в архитектуру или настройки тренировки копал, а в то, что именно ты тренировал. >Если нет - значит, ты просто изнасиловал модель своим стремным сетом, и на тренировку плеваться не надо. Данных проблем не было на локоне и глоре.
>>986053 Если мое предположение верно то тренировка глоры и локона насколько я помню была с включенными аугментациями типа --random_crop, флипы и даже колор, если щас окажется что так и есть и рандом кроп решит проблему ебаных мутантов на локре и бофт то буду очень рад
>>986766 Да, проверил лоры с любыми кроп аугами (даже чисто на литсо) все они генерят не в размер спокойно без мутантов. Даже локр я оказывается уже тренил в таком ключе а потом чето все ауги убрал. Ебаный насос.
>>983917 > 139 шагов Как оно вообще в теории то должно успечь нормально пропечься, учитывая равномерное распределение таймстепов в стоке? > чем он ниже, тем больше параметров в итоговой лоре и тем больше ее вес вплоть до фактора 1 размером с полную модель Да, вспомнил, фактор 4 и дим дохуя ставил, чтобы получить эквивалент обычной лоры, короче не впечатлило, больше ебли, результат тот же > Я треню концепт на 1 токен если нужно с те А, лол, ты вообще без тегов чтоли хуяришь, ну это был полный забей на пони, когда я тестил, даже юнет онли лучше в тегами выглядел > потому что при правильном тренинге те и не нужен На что то одно да, а дальше нужно уже и те и разделение тегами > У нас разные эти как их пайплайны работы, у меня вообще другой опыт с моими вариантами мокрописек. Видимо, у меня обычно просто лора лопается, если пикч мало и неадекватный лр выставлен, поэтому абсолютно противоположный экспириенс, может дедомодели от анимушных отличаются конечно > Ну я понял что тебе выдача и знания самой модели не особо важны. Неиронично, я ещё не встречал ни одну хл модель, которая бы после накладывания лоры поверх не выпрямлялась бы, буквально все работают просто лучше с лорой и это какая то общая проблема шероховатости файнтюна, да и затереть там "скином" на стиль нереально, опять же повторю, особенно если специально не устраивать прогар > Чел мне так лень заново делать когда у тебя уже есть. Мне без разницы всратый или нет, я и так со всратками работаю постоянно. Да не в этом дело, даже очищенную версию просто заливать куда то не особо хочется, поглядел бы что там, понял бы что имею ввиду, а на буре уже валяется и стянуть любой может напиши чтоли хоть фейкомыло какое, туда хоть скину лучше > Опять же спокойно можно на стиль тренировать без те, это не какаято особая магия. Разделять потом как разные стили? > Не тестил, но хуюер сам по себе мягкий и совмещает л1 и л2 в зависимости от типа ошибки. Это смуз л1 вроде так делает, а не сам хубер, да и с впредом там в целом уже как то по другому всё с лоссом изначально > Ну вопервых я бы скозал что гигабукеты для сдхл уменьшают скорость сходимости Любое увеличение разрешения её снизит > Мне понравилось тренить каскад одно время когда он чучуть хайповал, там можно на ультракале из шакалов обучать достойно было Жаль тюнов кстати так и не появилось нормальных, в целом база не самая плохая была бы, модальная, нашли бы как тренить и врамлетам, и если надо, гигачедам с H100 > Медленные лернинги вероятно. Если аналогично с альфой грузить пикчи которые обрабатываются как черный цвет то на высоких лернингах оно схватит и будет срать ими. Хотя опять же может это конкретный кейс альфаканалов, но я на всякий случай не букеирую со скейлом. > Не стакаю лоры, они же замещают друг друга, если только это не архитектрный дистиллят и лора контента. Короче я в целом понял, ты на огромном лр одну вжариваешь без тегов и всё? Как она там себя показывает с другими и тд уже второстепенно, поэтому может и были проблемы с дмд от такого > Глора спокойно любое говно схватит и умножит. В том архиве есть глора от не самого глупого тренировщика с форчка, не схватила и не умножила, выглядит как дора обычная. Есть ещё идеи про волшебный конфиг который поможет это сделать без тупо оверврайта весов напролом? Конфиг так и не скинул кстати, в котором уверен, что сработает > Какая карта? 4090, батч 1 лора быстрее всего делается, потому что нету штрафа от чекпоинтинга и влезает в память > Слои можно списком посмотреть через анализатор в кое или аналогичный скрипт, далее можно скриптом слайсить вот этим например По конкретней, какой скрипт у кохьи ты называешь анализатором и что приблизительно вписываешь в конфиг слайсера?
>>984158 Если они прямо совсем одинаковые, то лучше на них тоже учить, потом проще будет датасет для некст итерации пополнять, если не совсем, то хз даже, наверное нет
>>984407 > Алсо может вы придумаете че еще можно прикрутить Хл так и не поддерживается?
>>986018 >>985922 Из опыта на анимекале так всрато вытягиваются если тренишь в разрешении ниже 1024, им впринципе никогда жертвовать нельзя с хл, хз что конкретно ты там напердолил
>>986871 >Из опыта на анимекале так всрато вытягиваются если тренишь в разрешении ниже 1024, им впринципе никогда жертвовать нельзя с хл, хз что конкретно ты там напердолил Это точно не разрешение, потому что вообще не вылезаю за 768 пукселей и >>986766>>986767
>>986871 >Хл так и не поддерживается? Можешь переделать спокойно под хд, там плюс минус тот же код за исключением зависимостей для полторахи, но мне в этом нужды ноль, потому что вопервых полтораха меньше весит, вовторых у нее базовое разрешение ниже для работы (хотя это и не важно вообще, тут слоп на графике же ток найти надо а не консистентное изображение), втретьих она быстрее считается, вчетвертых такто можно хоть 128x128 по разрешению выставить, впятых все перечисленное позволяет на 3060 гонять 50+ батчей за итерацию
>>986882 > вообще не вылезаю за 768 пукселей Тогда и в генерациях не вылезай за них, оно же тюнится под это разрешение >>986886 И на хл оно тот же самый лр найдёт думаешь? Только не говори, что ты полтораху на серьёзе тренишь
Этот тред нагоняет на меня тоску. Да и вся доска. Что то получается, радостный заходишь, смотришь на то ,что местные делают, и сразу какой то разочарование от собственного позора. А ещё флюкс медленно работает, и по ощущениям, он на озу генерит, иначе минутные генерации мне вообще непонятны. Хотя это может быть из за того ,что это квантованная версия
>>986911 >Тогда и в генерациях не вылезай за них, оно же тюнится под это разрешение Но это не так работает in vivo епт. Это если ты просто тюнишь веса под картиночки с нулем аргументов на каком-нибудь одном разрешении и упором в альфу на оптиме который падает в локальный минимум и там умирает. Можно вообще тюнить attn-mlp или attn и сохранять юзкейс модели изначальный. Или конкертные слои, как в случае билоры. У меня же юзкейс вообще другой, я где-то на какойто итерации тестинга проебал аугментационные аргументы, тупа random_crop не выставил, вероятно потому что решил перенсти латенты в кеш, а латенты с вкл кропом не работают, а он если че:
Когда включено (true):
Обрезает изображение случайным образом при его масштабировании. Полезно для нестандартных разрешений.
Изображение случайно обрезается до меньшего размера, а затем подгоняется под размер разрешения (resolution=768x768). Это изменяет расположение объектов и может переместить объект от центра к краям изображения. Используется для снижения переобучения на "центральных" объектах. Включить (true) — когда нужно увеличить разнообразие расположения объектов. Например, чтобы лица или объекты могли находиться не только в центре, но и в углах. Для контекстуальных изображений. Выключить (false) — если важно сохранить центрированное расположение объектов (например, при обучении модели для портретов или аватаров, где лицо всегда должно быть в центре).
Алсо тот же эффект без вытянутых пропорций и мутантов на хайрезах наблюдается если использовать автообрезку по ебалу, если трен на лицо.
>И на хл оно тот же самый лр найдёт думаешь? А архитектура не важна, сам принцип алгоритма это постоянно увеличивающаяся кривая лернинга, который каждую итерацию считает лосс. Кривую обучения можно поделить на разогрев, слоп обучения, плато накопления признаков и взрыв градиентов/переобучения, задача алгоритма визуально показать в каком промежутке находится комфортный слоп обучения. Обучать в целом можно и на лернингах плато, но наиболее эффективно судя по паперам это именно промежуток слопа.
>Только не говори, что ты полтораху на серьёзе тренишь Нет, я не шиз.
>>986871 >Как оно вообще в теории то должно успечь нормально пропечься, учитывая равномерное распределение таймстепов в стоке? Жоско наказываешь за ошибки, задираешь лернинг юнета. Для еще более быстрой сходимости на тест можно использовать (IA)^3, который чуть ли не в 5 раз меньше требований к шагам имеет чем любой другой оптим. Алсо еще имеет значение сам оптим, адам на котором ты сидишь требует условно 1к шагов на эпоху, продиги требуют в половину меньше шагов для успешного обучения, есть еще более пизданутые по скорости схождения, но там в основном проблема с признаками и ошибка в определении локальных минимумов. >больше ебли Так наоборот меньше, дименшены и их отношение выставлять не надо, количество параметров управляется значением фактора. >ты вообще без тегов чтоли хуяришь Именно. У меня не миллионный датасет, я не треню ТЕ, устойчивые мультиконцепты это рандом в несовершенных архитектурах и поиск грааля и проще разные лоры тренить. >ну это был полный забей на пони, когда я тестил, даже юнет онли лучше в тегами выглядел Я паприколу киданул сложный калцепт нюши из смешариков (шарообразное нечто с глазами, сетка вообще не отдупляет че это) в пони и оно норм в целом по первым эпохам было.Так что не думаю что пони как-то разительно отличается от безтокенного обучения на базовых сдохлях. Я бы даже сказал что пони проще, т.к. сломаный текстовый енкодер позволяют втюнивать exaggerated дату, ну типа в обычносдхл сложно втюнить концепт гипербубсов размером с солнечную систему, на пони это как два пальца обоссать будет. >а дальше нужно уже и те и разделение тегами Я руководствуюсь тем что модель которая берется в качестве базы уже в курсе обо всех концептах датасета и модель сама все прекрасно понимает по входящим данным. То есть естетсвенно в какой-нибудь файнтюн на архитектуру смысла пихать порно нет, а в модель про порно нет смысла пихать архитектуру. VIT обрабатывает картиночку, TE уже и так полон концептов связанных с весами которые тюнятся, зачем чтото еще, если оно и так работает? >у меня обычно просто лора лопается, если пикч мало и неадекватный лр выставлен, поэтому абсолютно противоположный экспириенс, может дедомодели от анимушных отличаются конечно Мне кажется ты просто не юзаешь мокрые письки чтобы контролить генерализацию и конвергенцию получающейся модели на ранних этапах и ждешь у моря погоды дотренивая лору до состояния уголька, я в прошлом треде писал уже что модель уже буквально с первой эпохи обучена, но недостаток инфы не дает ей инферировать корректно, ты можешь ее пиздануть ломом и заставить выдавать корректное даже в полном недостатке признаков чтобы понять а туда ли ты обучаешь вообще. Да, это не даст тебе выложить лорочку на потеху другим пчеликам и без гайда на конкретное использование они пососут при использовании, но тебе нужен фактический тест, а не готовый продукт. >Неиронично, я ещё не встречал ни одну хл модель, которая Я про сохранение концептов базовой модели. Какой мне условный смысл тренить ебало еот чтобы модель делала мне ебало еот вместо контента который может модель? Никакого. >напиши чтоли хоть фейкомыло какое, туда хоть скину лучше khaus.mister@inbox.ru >Разделять потом как разные стили? Не юзать мультиконцепты стилей в одной лоре? Нейросети локальные пиздец тупые, мультиконцепты делают ток хуже, ликинги вот эти все. >ты на огромном лр одну вжариваешь без тегов и всё? Преимущественно да. >Как она там себя показывает с другими и тд уже второстепенно Ну тут смотря что с чем. Можно шизануться и одну лору на один слой аутпута натренить, а другую на соседний и бед не знать. Или тренить ток атеншены в одной лоре, а в другой ток прожекшены. Вариантов масса, но в целом да я больше 1 концептной лоры при генерации не юзаю. Ну или придумай мне юзкейс когда нужно юзать джве концептные лоры. >поэтому может и были проблемы с дмд от такого Не, там дмд агрился на TE, уже порешали вопросики. >В том архиве есть глора от не самого глупого тренировщика с форчка, не схватила и не умножила, выглядит как дора обычная. Я не смотрел состав, может там на атеншены тренились ток. В глоре целый парк адаптационных слоев, если ее фулово тренить она так все схватит что потом заебешься вилкой чистить. >выглядит как дора обычная Но дора это разложение весов, а не алгоритм адаптации. >Есть ещё идеи про волшебный конфиг который поможет это сделать без тупо оверврайта весов напролом? Атеншоны тренить? >Конфиг так и не скинул кстати, в котором уверен, что сработает Я ниче не скинул потому что у меня у самого нет идеального конфига, постоянно меняю всё. >По конкретней, какой скрипт у кохьи ты называешь анализатором Ну в kohyass есть отдельная вкладка верификации лоры, туда грузишь лору и он тебе послойно показывает состав. Отдельно должен быть скрипт. >что приблизительно вписываешь в конфиг слайсера? Ну если задача разделить конволюшены и все остальное, то для первого трейта будет
Во втором случае может потребоваться прописать в вайтлисте конкретно все маски нужных слоев за исключением конв, если тебе например фастфорвард слои не нужны.
>>986949 >иначе минутные генерации мне вообще непонятны. Хотя это может быть из за того ,что это квантованная версия Минута на флюхкале это еще быстро, риктифайд флоу лижет и сосет по оптимизации. У меня на 3060 в ггуфах полторы минуты ген, в то время как ммдит и ммдитх сд 3.5 50 и 20 сек соотвтественно.
>>986767 >>986882 Все, это рандом кроп выключенный был виноват. Мотайте на усики что рандомкроп повышает обобщающую способность и позволяет сохранить возможность генерации хайрезов даже на меньшем размере тренировки, пикрел натренен на 768.
Потренил кароче бигасп2, ну и как будто он даже лучше для не курируемого датасета, очень хорошая стабильность и консистенция. Лернинг по д0 стоял на 1е-4 для продижов и сета в 602 картинки, 10 эпох, на первой эпохе уже полный стиль спиздило, к пятой эпохе локальный минимал лосс и дальше уже как будто и смысла тренить нет, разве что увеличивается фиксация на конкретных превалирующих элементах датасета.
У него правда есть небольшая проблема в том что чекпоинт малость перетренирован и поэтому жарит сам по себе, особенно с убыстрялками, а реки автора вообще 2-3 по цфг. В целом это обходится мокрописьками типа шринка, но я не о том. Натренилтя значит локр, и он поправил на какой-то процент пережарку модели. Если еще на порядок опустить д0 вероятно будет еще мягче.
>>987785 Щас пробую на бигаспе потренить диагональный OFT, бофт мне зашел но скорость тренинга его меня просто разыбала - аналог 3000 шагов 6 часов ебал. А диагоналка ниче так, бодро. Не понял за что отвечает парам констрейнт, но выставил 16 как дименшен нетворк. Альфу тоже нипонятно то ли в 1 надо то ли выше, оставил как с бофт 1 пока что. Еще у диагоналки есть параметр рескейлед, но тож хуй знает че делает.
>>987885 Ну че я могу сказать, дигофт который кофт изза аргумента уже на первой эпохе ебет и спизидл весь стиль с фоток и фигуру и немного ебало модели. После, до. Почему до жарит? Потому что бигасп жарит, ебаное говно в виде вебуя бесоебит и вообще алайнер срет тоже.
>>987910 тест клозапа 8 эпоха, 1 эпоха, без диагофта Ну я хуй знает кароч, да похожесть с эпохами бустится но как для стиля достаточно одной эпохи совершенно точно
>>987914 Судя по графику тензорборды локальный минимум лосса был на 800 шаге, ближайшая эпоха это 755 т.е. 5, ну да в принципе похоже на модельку (напомню что на ебало я не тренировал, просто определяю где там лучшая точка схождения)
>>974163 (OP) Где есть информация о том в каком режиме надо мерджить эпохи? И как вообще может получится оверфит при обычном сложении весов? Я думал вся информация не уместившаяся в количество параметров сетки просто улетает.
>Где есть информация о том в каком режиме надо мерджить эпохи? Из всего списка хороший вариант разве что только трейндифренс, ну это лично по моему многолетнему опыту, но это больше для сложения чекпоинтов фуловых.
>И как вообще может получится оверфит при обычном сложении весов? Хз, ни разу оверфита не получал. Но есть момент, что ты, если имеешь доступ к слоям, можешь удалить ненужные которые могут сильнее других влияет на ген, ну условно ff_net слои в инпут/аутпут блоках могут ужаривать лору итоговую если смешать допустим дистиллят дмд с обычнолорой.
>Я думал вся информация не уместившаяся в количество параметров сетки просто улетает. Если вейтед сум или вычитание - улетает.
Алсо обычное сложение/вычитание сосет потому что не учитывает матанские связи внутри слоев. Наверно самый адекватный метод мерджа весов лор это сингулярное разложение. Но оно долго считается достаточно. Гугли Singular Value Decomposition (SVD).
>>987012 > Жоско наказываешь за ошибки, задираешь лернинг юнета Получаешь нуба впред 1.0 весь в артефактах, лол, они на скоростях лор хуярили ведь 1е-4 и с батчем претрейна 1024 > Для еще более быстрой сходимости на тест можно использовать (IA)^3, который чуть ли не в 5 раз меньше требований к шагам имеет чем любой другой оптим Но это не оптим, да и он тотал юзлесс гарбейдж вообще из тестов, даже на собственной модели с которой тренилось > Алсо еще имеет значение сам оптим, адам на котором ты сидишь требует условно 1к шагов на эпоху, продиги требуют в половину меньше шагов для успешного обучения, есть еще более пизданутые по скорости схождения, но там в основном проблема с признаками и ошибка в определении локальных минимумов. Да что ты на эти лоссы дрочишь так, они нихуя глобально с меньше чем 100к степов не покажут, в прошлом вроде треде показательный скрин был насколько похуй на него > Так наоборот меньше, дименшены и их отношение выставлять не надо, количество параметров управляется значением фактора. Там лр дефолтный не работал > Именно. У меня не миллионный датасет, я не треню ТЕ, устойчивые мультиконцепты это рандом в несовершенных архитектурах и поиск грааля и проще разные лоры тренить. С таким подходом и базовые модели бы не появились, лора для всего, ембрейс 1.5 > Я паприколу киданул сложный калцепт нюши из смешариков (шарообразное нечто с глазами, сетка вообще не отдупляет че это) в пони и оно норм в целом по первым эпохам было.Так что не думаю что пони как-то разительно отличается от безтокенного обучения на базовых сдохлях. Я бы даже сказал что пони проще, т.к. сломаный текстовый енкодер позволяют втюнивать exaggerated дату, ну типа в обычносдхл сложно втюнить концепт гипербубсов размером с солнечную систему, на пони это как два пальца обоссать будет. Пони это как раз для фриков чекпоинт, он любит такое, я уже вроде говорил, что эстетичными стилями там вообще не пахнет > Я руководствуюсь тем что модель которая берется в качестве базы уже в курсе обо всех концептах датасета и модель сама все прекрасно понимает по входящим данным. То есть естетсвенно в какой-нибудь файнтюн на архитектуру смысла пихать порно нет, а в модель про порно нет смысла пихать архитектуру. VIT обрабатывает картиночку, TE уже и так полон концептов связанных с весами которые тюнятся, зачем чтото еще, если оно и так работает? Ни в одной аниме модели нету толком нейрокаловых стилей выпуканных грифтерами за год существовнаия наи, которые выглядят иногда довольно пиздато и уж точно отличаются от дефолтного хл лука очень сильно, чтобы их не делать по одной лоре энкодер придётся включить, чтобы хоть как то разделять. Пони тоже, если уж и обучать, то придётся с энкодером, потому что оттуда выпилены базовые маняме калцепты и добавлена куча gpo > Мне кажется ты просто не юзаешь мокрые письки чтобы контролить генерализацию и конвергенцию получающейся модели на ранних этапах Что например, альфу чтоли? Или вот эти махинации с тренируемыми частями? Я в целом не ебу какие части должны за что отвечать, если распишешь вкрацте конечно только > пиздануть ломом и заставить выдавать корректное даже в полном недостатке признаков чтобы понять а туда ли ты обучаешь вообще С 1 эпохи то это да, оно действительно видно должно быть, если датасет консистентный, по крайней мере на крупных лорах, но пиздить ломом врятли покажет что то полезное, помимо рандомных мутантов обычно, сложно переносимость стиля так оценивать > Я про сохранение концептов базовой модели. Какой мне условный смысл тренить ебало еот чтобы модель делала мне ебало еот вместо контента который может модель? А я опять напишу, их нереально оверрайднуть, это реально надо постараться и вжарить энкодер на 1е-2 в энкодер онли тренировке или типо того и не улететь при этом в нан, тогда действительно начнёт не слушаться, с примерно правильной лорой просто должно ебало поменяться, даже поза не смениться или стиль, ну если проводить аналогию на чара для манямекала > Не юзать мультиконцепты стилей в одной лоре? Нейросети локальные пиздец тупые, мультиконцепты делают ток хуже, ликинги вот эти все. Но хочется в одной всё иметь, потом через компел комбинить, в рефордже до сих пор нету, только кумфи нормально может управлять снижением весами > придумай мне юзкейс когда нужно юзать джве концептные лоры Концептные ноль кейсов, чар+стиль самый распространённый случай например, вот ещё какие то дмд появились теперь > Я не смотрел состав, может там на атеншены тренились ток. В глоре целый парк адаптационных слоев, если ее фулово тренить она так все схватит что потом заебешься вилкой чистить. Не, там не запариваясь с частями тренилось просто на алгоритмах > Но дора это разложение весов, а не алгоритм адаптации. Ладно, локон с дорой поверх > Атеншоны тренить? С дефолтным фулл пресетом типо не тренятся или смысл именно их онли? > Я ниче не скинул потому что у меня у самого нет идеального конфига, постоянно меняю всё. Короче датасет я тебе прислал, если в гриде из того зипа получится уравнять твою попытку с antifreeze-2 или autismbase_v8 то это считай успех > ["маска_конволюшенов_"] Где весь список то этого посмотреть? Вроде у кохака в ликорисе был, но в доках нихуя не могу найти
>>987198 Ну здорово конечно, но выглядит как костыль и теги подосрут, которые есть, а трит обрезался >>986972 > Но это не так работает Да нет, именно так, если не пердолиться со слоями и кропами >>986972 > А архитектура не важна, сам принцип алгоритма это постоянно увеличивающаяся кривая лернинга, который каждую итерацию считает лосс. Кривую обучения можно поделить на разогрев, слоп обучения, плато накопления признаков и взрыв градиентов/переобучения, задача алгоритма визуально показать в каком промежутке находится комфортный слоп обучения. Обучать в целом можно и на лернингах плато, но наиболее эффективно судя по паперам это именно промежуток слопа Как не важна, если даже с впредом будет другой лр, с хл тем более. Почему вообще с разными сидами разные лр выдаёт? > Кстати там ссану выпустили в весах умеющих в 2к + тренинг лор с гайдом https://github.com/NVlabs/Sana/blob/main/asset/docs/sana_lora_dreambooth.mdhttps://github.com/NVlabs/Sana вот ее бы я потренил, в комфю и прочие уи еще не завезли поддержку кстати Хуита из тех примеров что я видел, 4к мыльных и уёбищный вае, даже тут вон https://raw.githubusercontent.com/NVlabs/Sana/refs/heads/main/asset/Sana.jpg оно может и быстрее дохуя, но толку как то маловато от этого
>>991071 >Получаешь нуба впред 1.0 весь в артефактах, лол, они на скоростях лор хуярили ведь 1е-4 и с батчем претрейна 1024 Ты не учитываешь что 1е-4 это для десятимилионного датасета который они собрали. Твой ретрен весов на большем лр ничего глобально не изменит. >Но это не оптим Опечатка >да и он тотал юзлесс гарбейдж вообще из тестов Что с тобой не так то, у тебя все гарбаж и юзлес получается >Да что ты на эти лоссы дрочишь так, они нихуя глобально с меньше чем 100к степов не покажут Потому что мне надо максимум за минимум времени >в прошлом вроде треде показательный скрин был насколько похуй на него Че за скрин >Там лр дефолтный не работал В смысле не работал >С таким подходом и базовые модели бы не появились, лора для всего, ембрейс 1.5 Не очень объективно сравнивать триллиардные датасеты для базовых архитектурных моделей с нашими микродатасетами на концепт. > я уже вроде говорил, что эстетичными стилями там вообще не пахнет А причем тут это если я про безтокенный тюн весов. >чтобы их не делать по одной лоре энкодер придётся включить, чтобы хоть как то разделять. Кароче проблемы мультиконцептов >Пони тоже, если уж и обучать, то придётся с энкодером, потому что оттуда выпилены базовые маняме калцепты и добавлена куча gpo Там не выпилены, там енкодер поломался от задранного лр, сам астралите говорил, такто маняме можно на пони делать. >Что например, альфу чтоли? Или вот эти махинации с тренируемыми частями? Да много разного есть, можно постфактум лору оттюнить софтово, можно изначально тестовые прогоны на конкретные слои тюнить и смотреть результат. >Я в целом не ебу какие части должны за что отвечать, если распишешь вкрацте конечно только В одном из след постов покажу пару простых кейсов как чекать хорошо ты лору натрениваешь или нет. >но пиздить ломом врятли покажет что то полезное, помимо рандомных мутантов обычно, сложно переносимость стиля так оценивать У меня практически все лоры являются фактическим недотреном в дефолтном использовании на некурируемом датасете, что не мешает их перетрахивать постфактум и получать консистентный стиль который был в датасете. >их нереально оверрайднуть, это реально надо постараться и вжарить энкодер на 1е-2 в энкодер онли тренировке или типо того и не улететь при этом в нан, тогда действительно начнёт не слушаться, с примерно правильной лорой просто должно ебало поменяться, даже поза не смениться или стиль Спокойно можно оверрайднуть через дору и будет выдавать чисто датасетовые пикчи с полным игнором промта, достаточно на шедулед фри выставит 10 по лр юнету и 1 по текстенкодеру. >Но хочется в одной всё иметь, потом через компел комбинить, Ну я губу закатал например и ничего, нормально. Опять же для трушного эффекта разделения концептов есть безумное умение в виде трена одного калцепта на один слой выходной, а второго на другой, потом их соединяешь и получаешь мутанта который в целом задачу то выполняет но много лишних телодвижений, в том числе трен отдельного текстенкодера. >в рефордже до сих пор нету, только кумфи нормально может управлять снижением весами Как это нету? Там же есть мокрописька который позволяет те и юнет отдельно крутить разве нет? >чар+стиль самый распространённый случай например То есть условно ты берешь смешарика и хочешь его в стиле евангелиона генерить? Так можно сингулярным разложением две отдельные лоры соединить и будет тебе тот же эффект но без дрочки концептов в одной лоре. >вот ещё какие то дмд появились теперь Дмд дистиллят векторов базовой модели по таймстепам LCM, там совершенно плевать с какими лорами и моделями пользоваться им. Функция у него другая. >С дефолтным фулл пресетом типо не тренятся или смысл именно их онли? С фулом у тебя фул слои вообще все и тренятся, а если ты тренишь ток атеншен слои то остальное не участвует. >Где весь список то этого посмотреть? Гуй кохи запускаешь, в утилитис (вроде) лора верифай вкладка, если лора содержит читаемые слои то все модули тебе покажет. Если непонял где это, то щас попробую запустить кою, но я питон откатывал мб и не запустится щас. >но выглядит как костыль и теги подосрут Не, я ж треню на вписывание в модель, а не на перезапись, там хоть как крути будет теперь выдавать с оглядкой на все возможности оригинальной модели. >Да нет, именно так, если не пердолиться со слоями и кропами Если не пердолиться, то нахуй оно и нинужно. >Как не важна, если даже с впредом будет другой лр, с хл тем более. Потому что матан, представь что у тебя датасет из Nк картинок, это переводится в условное пространство вероятностей, где для этого пространства вероятностей существует эффективный лернинг рейт в промежутке от и до. >Почему вообще с разными сидами разные лр выдаёт? Имеешь в виду где тебе в командной строке пишется? Так оно не работает как надо, мне лень допиливать чтобы оно брало среднее значение слопа если и так по фигуре можно потыкаться. >Хуита из тех примеров что я видел, 4к мыльных и уёбищный вае, даже тут вон https://raw.githubusercontent.com/NVlabs/Sana/refs/heads/main/asset/Sana.jpg Пиздец ты токсик. Давай еще наедь на дефолт говногены сдхл с мутантами. >оно может и быстрее дохуя, но толку как то маловато от этого На ноль поделил, скорость это важнейшее такто в генерации, остальное можно допилить. >>991118 > они разве не обе уже ректифаед флоу модели? Ммдит это же просто архитектура, а флоу что то типо вперд таргета, не? Не, 3.5 не флоу, 3.5 мультимодал трансформерсы. Алсо изза того что 3.5 не флоукал оно может работать без т5 как сдохля, а флюх не может так.
>>991270 >Если непонял где это, то щас попробую запустить кою, но я питон откатывал мб и не запустится щас. Да, хуй мне надо питон пердолить. Кароче в kohya_ss\kohya_gui лежит скрипт verify_lora_gui.py , вот он занимается показом модулей в лоре.
>>986972 > random_crop Это что там у тебя за кейс для такой штуки? Для ухватывания совсем абстрактного стиля или шлифовки на грани анкондишнал, в остальных же случаях возникнут проблемы с соответствием промта и содержимого кропа. > Полезно для нестандартных разрешений. Ерунда вообще XL вообще может пережить некоторую тренировку с разрешении пониже, но всеравно это будет сказываться потом. > Кривую обучения можно поделить на разогрев, слоп обучения, плато накопления признаков и взрыв градиентов/переобучения В общем случае - да, но в зависимости от того что уже знает модель и насколько отличается датасет от условного среднего по тем же кондишнам - эти автоалгоритмы могут вообще порваться. > наиболее эффективно судя по паперам это именно промежуток слопа Там действительно происходит наибольшее изменения и "усвоение", но сопровождается это множеством побочек, которые потом необходимо сглаживать, и есть еще нюансы. >>987012 > Именно. > я не треню ТЕ Если такое с мелким датасетом и на что-то конкретное, а не особый твикер или стилизатор - пиздец. Капшны нужны не для того чтобы те тренить, если что. > про сохранение концептов базовой модели Вот как раз анкондишнал все распидарасит нахер и отклик на них поломается, исключения есть но это крайне специфичное.
Слишком долгая и душная у вас беседа, может все это оправдано и просто вырываю из контекста, тогда сорян. Но со стороны выглядит той еще дичью.
>>987198 Оно выглядит как потеря когеретности, на пикчах беда с пропорциями и фейлы даже в простых линиях. >>990489 Если есть возможность - лучше сразу тренить нормально. Для мерджей лучше взвешанная сумма и cosineA, если пытаешься получить среднее между двумя. Можешь попробовать упороться и замержить льва с жопой носорога, а потом это закинуть на тренировку с пониженным лр и фиксированным оптимайзером, часто подобное срабатывает. > как вообще может получится оверфит при обычном сложении весов? Посмотри как устроены блоки в диффузии и вспомни что оно в фп16. С неудачными комбинациями значений на краях диапазона получишь поломку, да и чисто по результатам косинус лучше срабатывает. >>990556 > хороший вариант разве что только трейндифренс Это если хочешь добавить фичи одного (слабо) тренированного чекпоинта (зная его базу, которую будешь вычитать) к другому на примерно той же основе. В рамках мерджа разных эпох модели неприменимо. > Наверно самый адекватный метод мерджа весов лор Вмердживать в основные веса, проводить с ними манипуляции, а потом делать извлечение и соснуть из-за несовершенства алгоритмов, лучше вообще никогда лоры не мерджить. > Singular Value Decomposition Вот это интересно >>991071 > 1е-4 и с батчем претрейна 1024 На самом деле для такого батча это не то чтобы плохо. Но в целом, это слишком много для тренировки чекпоинта, который уже знает то что они обучают, такой батч тоже больше оптимального для dit ибо после претрейна там лучший результат достигается при меньших батчах но с правильной группировкой пикч для них. У них там в целом хватало проебов. >>991270 > для десятимилионного датасета Оно коррелирует с размером датасета чуть меньше чем никак. > Потому что мне надо максимум за минимум времени Зачем? Натренить лору в любом случае быстро и легко. Если хочешь в нормальное обучение - там быстро не получится, что полные веса, что всякие хитровыебанные твикеры и подобное. > безтокенный тюн весов Покажи пример результатов этого чуда и опиши что именно там тренишь.
>>991462 >Это что там у тебя за кейс для такой штуки? Чтобы не привязывалось к 768. >в остальных же случаях возникнут проблемы с соответствием промта и содержимого кропа. Спорно, но не, вообще мимо. Ни разу не было на тестовых прогонах с кропом даже на первой эпохе, а вот без кропа лезет какая-то хуйня. Полные лоры с кропом работают как должны. >Ерунда вообще >XL вообще может пережить некоторую тренировку с разрешении пониже, но всеравно это будет сказываться потом. Так кто ж спорит, ток это разрешение пониже поднасрет на разрешении повыше. >Оно выглядит как потеря когеретности, на пикчах беда с пропорциями и фейлы даже в простых линиях. Ой не выдумывай, особенно с потери когерентности кекнул. Оно выглядит как обычное селфи с дисторсией объектива, ты че натвис не гонял? Погоняй, там полдатасета это селфи с онлика где бабцы фотались голыми под экстремальными углами. А баба сама по себе длинная и худая по датасету. Я понимаю что надо приебаться и как-то оправдать "кропы нинужно", но лучше просто прими как факт что это норма и не ищи сусликов там где их нет. Могу еще погенить без токена селфи всякое, хз как еще показать в интернете что ктото не прав. >но в зависимости от того что уже знает модель и насколько отличается датасет от условного среднего по тем же кондишнам Так для этого и берем датасет без тегирования и базовую модель, которая по дефолту знает много общего. Но кондишены и не важны на самом деле, мы переводим картиночки в абстрактный манямирок признаков и наша задача выбрать лр который будет эффективно эти признаки хватать. Если ты о кондишенах заботишься, то тебе валидейшен лосс нужен, где промежуточные тренировки будут сравниваться сходимостью с частью датасета и выводить курву. >Если такое с мелким датасетом и на что-то конкретное, а не особый твикер или стилизатор - пиздец. Все нормально, те нинужны. Прими как факт. >Вот как раз анкондишнал все распидарасит нахер и отклик на них поломается Нет. >Слишком долгая и душная у вас беседа, может все это оправдано и просто вырываю из контекста, тогда сорян. Но со стороны выглядит той еще дичью. Ну и зачем ты тогда влетел в нашу беседу? >Это если хочешь добавить фичи одного (слабо) тренированного чекпоинта (зная его базу, которую будешь вычитать) к другому на примерно той же основе. В рамках мерджа разных эпох модели неприменимо. Трейндифренс сам по себе добавляет мягенько, что возможно потребует еще пару итераций трейндифренса, это тебе не ебка вейтедсумовая, которой похуй уполовинила и готово. >Вмердживать в основные веса, проводить с ними манипуляции, а потом делать извлечение и соснуть из-за несовершенства алгоритмов, лучше вообще никогда лоры не мерджить. Я вот не понимаю твоей радикальности, влетел и разбрасываешь "этанинужно" "этогавнокал" "ниработаит", как будто существует эталон какой-то. Уже и лоры нельзя мерджить тыскозал лол, хотя есть магнитуд пруне, который стабилизирует смешивание лор, особенно при разложении. Вот смысл твоего поста в принципе? Ты думаешь кто-то как-то поменяет свои действия от советов, о которых не просили или что? Зачилься кароч, ничто не истина - все дозволено. >Вот это интересно Учитывая что ты раздаешь советики и ультимативен в своих тезисах, но не в курсе про ротейшен/свд, всё ясно. >Оно коррелирует с размером датасета чуть меньше чем никак. Ну вот опять. Ок, чатжпт, есть ли корреляция: Да, размер датасета коррелирует с выбором learning rate (LR), но связь не является строго линейной. >Зачем? Юзкейс такой. >Если хочешь в нормальное обучение - там быстро не получится, что полные веса, что всякие хитровыебанные твикеры и подобное. Держи в курсе. >Покажи пример результатов этого чуда и опиши что именно там тренишь. Еот тренил без токенов чтобы делать нюдесы с гейпопиздой, показывать не буду тк по гену найдешь ее вк.
Если че за пассивную агрессивность извиняй, я хз как отвечать по другому на такого плана посты.
>>991470 tldr: Никому не рекомендую серьезно воспринимать высказывания этого вонаби умника.
> Ну и зачем ты тогда влетел в нашу беседу? Думал что в треде не все потеряно и остались адекваты, а не одни поехи. Или даже надежда была что есть кто-то продвинутый да толковый кого не знаю и так. > Я вот не понимаю твоей радикальности, влетел и разбрасываешь Уберечь от ошибок и очередной пробежки по граблям, в первую очередь тех, кто зашел сюда за знаниями или с вопросами.
Хотел было подробно ответить, а там по каждому пункту бредни. Ну буквально везде не прав или глупейшие ошибки, оправдываемые неуместным бросанием терминов. Ухватил какие-то верха не понимая устройства и применимости своих суждений. > я хз как отвечать по другому на такого плана посты В дурку тебе пора, а не на посты отвечать. Натренил лоботомирующую лору на еот, посмотрел курсы для чайников и так преисполнился самоуверенностью. Хотя ультимативный дилетант, что делает ложные выводы на неверном обобщении своего скудного опыта.
>>991462 >Капшны нужны не для того чтобы те тренить, если что. Вот интересная мысль, если посмотреть на новую txt2vid от гугла, то там явно ллмка промт разворачивает. Учитывая что она так хороша, там наверное жирнющий подробный капшн, на котором и учили саму модель. Когда у диффузии есть больше инфы и меньше неопределенности, у нее остается больше ресурсов на то чтобы сконцентрироваться на более высоких абстракциях, получить лучшее качество, так как лосс не ебет по хуйне, которую модель физически не способна предсказать без gan-головы.
>>991488 >Хотел было подробно ответить, а там по каждому пункту бредни. Мне расскажи, а то моей компетенции пока не хватает чтобы понять кто из вас неправ...
>>991488 >подорвался что его на хуй послали в вежливой форме с его манямнением основанным буквально ни на чем и ряяя нинужно @ >сгорел и перешел на прямые оскорбления
Ты давай иди гугли че такое свд лучше, петух ебаный, а то так и будешь "делойти как я скозал а иначе врети неработает уииихрююю" в тред постить и жопу зашивать потом при первом же сопротивлении твоему ультимативному пиздежу.
> а то моей компетенции пока не хватает чтобы понять кто из вас неправ... Да, оч сложно понять конечно... Когда тебя начинают учить как делать что-то с явным посылом на владение Истиной при многообразии вариантов, то это редфлаг ебаной чсвшной преисполнившейся помойки. Не работает когда очевидно известен лучший вариант, а эта хуйлуша не только не знает лучшего варианта (в противном случае лучший вариант был бы предоставлен, а не соплями по монитору бы свою попуки про нинужность чего-либо размазывал), а еще и отрицает всё, с чем не сталкивалась.
>>991516 Ну не знаю, не знаю... а скажи-ка мне свое мнение по поводу существования локальных минимумов? Или вы оба долбаеба начнете доказывать что они существуют?
>>991526 Нет, к сожалению, тебе придется принести пруфы их существования. Но что-то мне подсказывает, что ты дашь заднюю сразу как только увидишь что каждый шаг оптимизатора почти ортогонален предыдущему, что как бы немного исключает движение в строну минимума. Геометрически.
>>991528 > Нет, к сожалению, тебе придется принести пруфы их существования. Концепция локальных минимумов в нобелевке у создателей концепции нейросеток это база, чел...
>>991071 >Короче датасет я тебе прислал, если в гриде из того зипа получится уравнять твою попытку с antifreeze-2 или autismbase_v8 то это считай успех А промт какой епт? Скортеги юзать не юзать? Какие настройки гена у картиночек были в примере? еще ублюдский мердж в виде аутизма качать ну пиздец
>>991539 Да можешь и ты написать. Я тебе даже прямо показал на что можно посмотреть и куда копать. Мне не жалко. А в науке и после нобелевок как бы дохуя нюансов и корректировок находили.
>>991071 >Короче датасет я тебе прислал >все версии из архива скорее всего с таким датасетом и тренились, >скорее всего >датасет полностью другой стиль если сравнивать с то к чему стремишься бля это прикол чтоли? то есть ты вообще не в курсе какой на самом деле датасет был? я конечно уже получил на первых эпохах копию именно датасетовской рисовки, но это же вообще разные вещи стилистически
>>991538 >>991546 >>991071 Кароче понятия не имею какие настройки гена и какой промтинг, и вообще не шарю за онимекалы и че там надо писать, но вот тестовый прогон на понях и пара шотов которые мне нравятся. Но вообще строго повторяясь датасетовые пикчи совершенно не то, что "антифриз", у них и желтушный фильтр везде и сорт оф рваная рисовка и аутлайны в тон, и глитчи всякие, И ебла характерные, и лимитед палитра, и блюра навалено. Кароче епты бля чето типа такого гена как пик 4.
>>991270 > Ты не учитываешь что 1е-4 это для десятимилионного датасета который они собрали. Твой ретрен весов на большем лр ничего глобально не изменит. Мой то не изменит, я скорее к тому что такой лр с батчем для эстетик трена поверх файнтюна это бред какой то, вся работа по усваиванию уже была сделана люстрой > Че за скрин >>924760 → > В смысле не работал Ну в прямом, приходилось тестировать другие, чтобы тренилось > Не очень объективно сравнивать триллиардные датасеты для базовых архитектурных моделей с нашими микродатасетами на концепт. Уже вроде и про это писал, одну хуйню любую вжарить юнет онли не проблема, но если рассчитывать на лору побольше, или в модели чего то нет со стороны энкодера, то придется включить > Кароче проблемы мультиконцептов Ну забей, если не хочешь вылезать дальше вжаривания одной штуки в каждую лору, после адуха это комбинить конечно > Там не выпилены, там енкодер поломался от задранного лр, сам астралите говорил, такто маняме можно на пони делать. Да можно то можно, но wariza, dogeza, cheek pinching, bandaid on pussy, doko? Vtumor или 2hoes помимо Реймухи? И это только вершина айсберга > Опять же для трушного эффекта разделения концептов есть безумное умение в виде трена одного калцепта на один слой выходной, а второго на другой, потом их соединяешь и получаешь мутанта который в целом задачу то выполняет но много лишних телодвижений Звучит слишком хорошо, если бы так работало что тогда помешало бы просто делать базовые модели и запихивать по слоям классы с подклассами? На деле один-пару слоёв всегда оверрайдится отвечающих за стиль или концепт, остальные че то там чуть сдвигаются > Как это нету? Там же есть мокрописька который позволяет те и юнет отдельно крутить разве нет? <lora::unet=1:te=1>? Я не про это вот тут глянь https://github.com/BlenderNeko/ComfyUI_ADV_CLIP_emb?tab=readme-ov-file#down-weighting могу грид найти отлично демонстрирующий какая хуйня в стоке даже на кумфи, точнее не грид а примеры одного сида, я не стал разбираться как с кумфи пилить гриды просто > То есть условно ты берешь смешарика и хочешь его в стиле евангелиона генерить? Так можно сингулярным разложением две отдельные лоры соединить и будет тебе тот же эффект но без дрочки концептов в одной лоре. Ну типо, есть примеры такого сингулярного разложения где то? Сукалол проорал пока читал это название > Гуй кохи запускаешь, в утилитис (вроде) лора верифай вкладка, если лора содержит читаемые слои то все модули тебе покажет. Если непонял где это, то щас попробую запустить кою, но я питон откатывал мб и не запустится щас. Да нашёл уже, что тут конволюшены lora_unet_output_blocks_2_2_conv.lora_down.weight,(16-1280-3-3) это? > Потому что матан, представь что у тебя датасет из Nк картинок, это переводится в условное пространство вероятностей, где для этого пространства вероятностей существует эффективный лернинг рейт в промежутке от и до > Имеешь в виду где тебе в командной строке пишется? Так оно не работает как надо, мне лень допиливать чтобы оно брало среднее значение слопа если и так по фигуре можно потыкаться. И всегда этот матан выдаёт разное оптимальное значение, судя по тому что ты тестил и выкладывал выше, ну так же не бывает > Пиздец ты токсик. Давай еще наедь на дефолт говногены сдхл с мутантами. Не стану, хл в стоке хоть и был пиздец каким мыльным и ненасыщенным гаммой, но уж мутантов там точно не было или артефактов, да и в долгосроке архитектура оказалась норм, а тут пикчи бувально как после х4 гана. Рано конечно пока говорить по превью, но сота аниме модель наив3 на хл выглядит лучше, чем их высер недотрененной пока в4 стилистически, неизвестно пока как тот франкеншейн в полной версии правда будет себя показывать, но превью выглядит где то между 1.5 и флюксом, лол, вае ведь от него тоже > Не, 3.5 не флоу, 3.5 мультимодал трансформерсы. Алсо изза того что 3.5 не флоукал оно может работать без т5 как сдохля, а флюх не может так. Да как не флоу то ёбаный рот блять https://huggingface.co/stabilityai/stable-diffusion-3.5-large/blob/main/scheduler/scheduler_config.json то что они не упомянули в превью не значит, что там он растворился волшебным образом, картинка в сд3 и 3.5 одинаковая та вообще с архитектурой. У сд3 репа не диффузер формата а говна, но если разобрать, там небось такой же конфиг будет
>>991462 > На самом деле для такого батча это не то чтобы плохо. Но в целом, это слишком много для тренировки чекпоинта, который уже знает то что они обучают, такой батч тоже больше оптимального для dit ибо после претрейна там лучший результат достигается при меньших батчах но с правильной группировкой пикч для них Такой батч сам по себе плох, они не тренят с шума или весов 1.0, это шлифование файнтюна. Им или стратегию сменить в сторону лоры для люстры (чем оно в конце концов по сути и оказалось), но в полных весах ради впреда, либо тюнить с голой основы, учитывая что датасет с компьютом позволяли
>>991538 > А промт какой епт? Скортеги юзать не юзать? Какие настройки гена у картиночек были в примере? Прямо в гриде и есть данные этого аутлеер примера для генерализации, перетащи в рефордж
>>991546 > бля это прикол чтоли? то есть ты вообще не в курсе какой на самом деле датасет был? Я же писал, что глора и дора тренились вообще разными людьми с форча, не могу же я быть вкурсе про датасет каждого, но тренить с таким было бы самым разумным выбором из за высокой консистентности стиля и отсутствия нейрокала, больше прямо похожих просто нету, ну может ещё ватермарки почистить только
>>991768 >>991785 Хрень, на том моём гриде кстати только 1 и 4 "нормальные" остальные андердоги, прикол на 1гёрл получить, с этим любая из них справится, а конкретно тот аутлеер найденный генерализовать нормально, как на 1 и 4
>>991927 > Да нашёл уже, что тут конволюшены lora_unet_output_blocks_2_2_conv.lora_down.weight,(16-1280-3-3) это? Я с хл никогда не рылся в слоях лоры, но оказывается там всего 4 конволюшен слоя тренится, в отличии от той же полторахи, там их точно было дохуя, интересно почему так
>>991768 Кстати не просто хрень, а тотал хрень, если выдаёт как на 2 и 3, но мб не шаришь и запромптил еще криво
>>991512 С горелой жопой говорить что кто-то порвался - нет более рофлового зрелища. Ну давай разберем по частям все тобою написанное >>991470 > Чтобы не привязывалось к 768. Использование рандомкропа никак не поменяет разрешение тренировки, оно просто кропнет пикчу вцелевое разрешение и именно что модель привяжется к 768. С учетом того что это будет порождать проблемы несоответствия изображения и промта - оче плохая идея и годно для редких специфичных кейсов. > Спорно, но не, вообще мимо. Судя по запощенным пикчам - прямо в цель. > Ни разу не было на тестовых прогонах с кропом Кроп не меняет разрешение тренировки > даже на первой эпохе На первой эпохе эффект будет меньше всего заметен, чем дальше тем хуже. > просто прими как факт что это норма > РРРЕЕЕ ЯСКОЗАЛ! Словил синдром утенка, получив первый успех в самом днищенском из всех возможных вариантов тренировки, и теперь ведет проповеди. > Ой не выдумывай Что тут выдумывать если у нее ребра подмышкой, трусы двоятся, на плече 2 ключицы и складки, левый плечевой сустав на первой пикче исчез, телефон кривой, мелкий огрызок бека на второй 3 раза прыгает, ебало вытянуто по высоте, плечевые кости со страшным загибом. Именно так проявляется потеря когерентности, ужасающая хтонь. Ну ты погенери хороших, заебешься роллить. > для этого и берем датасет без тегирования Это здесь никаким боком и ни к чему хорошему кроме лоботомии и потере контроля не приведет. > и базовую модель, которая по дефолту знает много общего > знает много общего Жопой прочел, речь не о наличии общих знаний, которые в базовой XL посредственны, а об отличии конкретного материала обучения от того что выдает модель по тем же кондишнам, и в целом способности их понимать. Дополнительно накладывается эффект от перегона промта в эмбединги клипа. > кондишены и не важны на самом деле Сколько раз повторил, но ни разу ни единого аргумента в пользу этого. А их и быть не может. > кондишены и не важны на самом деле, мы переводим картиночки в абстрактный манямирок признаков и наша задача выбрать лр который будет эффективно эти признаки хватать Это бессвязный бред. Все к чему приведет такая тренировка без кондишнов - к полной перестройке модели на выдачу всратых вариаций датасета и полной потери нормальной работоспособности. В качестве всратого костыля для лоуэфортного получения слопа, напоминающего еот - подойдет, но не более. > Все нормально, те нинужны. Прими как факт. Ну опять это > ррееее нинужны моя первая еотолора натренилась без них и я верю а ведь есть нормальные исследования влияния анкоднишнал семплов в ходе тренировки. Но ты сначала пруфы своих заявлений про ненужность притащи. > Трейндифренс сам по себе добавляет мягенько Он ничего не добавляет "мягонько", он буквально добавляет разницу. Если эта разница разных атрибутов то при правильном выборе базовой модели для вычитания будет эффект, похожий на дополнительную тренировку того что есть в модели из которой вычитается. Если там будет нечто общее или выбрать неверную модель для вычитания - будут только поломки и оверфит. Для недалеких - всеравно что применить лору дважды. Ему нет применений для мерджа разных эпох модели, он приведет только к поломок. Зачем ты "вмешиваешься в беседу" если несешь такой бред? > не понимаю твоей радикальности, влетел и разбрасываешь "этанинужно" "этогавнокал" "ниработаит", как будто существует эталон какой-то Потому что это действительно так. Почти пару лет назад все это уже проходили, и при наличии понимания выглядит максимально кринжово, всеравно что советовать двигать тазом и рычать для склеивания еот. Для жирухи с синдромом дауна (примитивной лоботомирующей лоры) подойдет, но во всех нормальных случаях будет только фейл. > ничто не истина - все дозволено Действительно, результата можно достигнуть разными путями, потому и важно понимать что именно какой эффект дает. Но у васянов в принципе голова не соображает чтобы что-то понять, и отсутствует опыт и знания для каких-либо выводов. Поэтому, получив жалкое подобие успеха не из-за правильных действий, а потому что случай максимально примитивен и в нем можно что угодно товрить и как-то придти к концу, они фиксируются на ошибках и пытаются их тиражировать, выдавая за прорыв. > Учитывая что ты раздаешь советики и ультимативен в своих тезисах, но не в курсе про ротейшен/свд, всё ясно. Это буквально > ррряяяя смотри я знаю термин, я его слышал в видосике, понял?! слышал про него и знаю, а значит все мои слов истина! я еще ты его не знаешь, яскозал яскозал! максимальный кринж. Ты сам не понимаешь о чем говоришь, и при этом делаешь какие-то выводы за собеседника. Видимо, подсознательно ощущаешь что хлебушек и не вывезешь в нормальной дискуссии, потому пытаешься это свести к низкосортному срачу. Уровень сразу виден. > Ок, чатжпт Вот и твой источник познаний найден, кривая интерпретация языковой модели, которой изначально задаешь неверный вопрос, с заложенным ответом. > Да, размер датасета коррелирует с выбором learning rate (LR) Сетка пытается дать тебе сдержанный ответ, намекая о том что для разных датасетов и целей тренировки вся совокупность гиперпараметров должна быть подбрана. А вовсе не то, что лр как-то зависит от размера датасета, любой кто что-то смыслит в теме поймет насколько абсурдны твои выводы. Это то же самое что говорить о том, что в законе ома сопротивление зависит от приложенного напряжения. И ведь правильно задав вопрос, ллм вспомнит про температурную зависимость удельного сопротивления, свяжет это с током, тот с напряжением и даст ложный ответ. Хотя скорее всего не даст а приложит дополнительные комментарии с объяснениями, но глупцы их не поймут. > Держи в курсе. Настолько жопа разлетелась от того что с ним не согласились а просто спокойно обозначили возможные ошибки, что уже сам влезает не туда и пытаешься хоть что-то спиздануть.
tldr: шизик после долгих попыток натренил лору на еот, накрутил уверенности с бесплатной чмоней и теперь мнит себя мастером
>>991491 > там наверное жирнющий подробный капшн, на котором и учили саму модель Разные реализации бывают. Там не совсем капшн, там стоит адаптер и широкий входной слой дита под эмбединги и их маску. В качестве них может быть что-то примитивное, вплоть до буквально токенов, или же что-то обработанное. Если модель опенсорсная - можно посмотреть ее структуру залезая в либы в репорте по ней, там хотябы общие схемы всегда ставят. Тебя конкретно подготовка кондишнов интересует, или то как модель их внутри блоков обрабатывает? Как правило, короткие фразы из промта юзера преобразуются в что-то более крупное, но много лишнего на этом этапе не добавляется, все уже внутри саммой диффузии "выбирается". > Когда у диффузии есть больше инфы и меньше неопределенности, у нее остается больше ресурсов на то чтобы сконцентрироваться на более высоких абстракциях Все несколько сложнее. При обучении с одной стороны важна максимальная информативность кондишнов, чтобы там была упомянута каждая мелочь, так модель будет им обучаться. Но это приводит к тому что не усваиваются более общие и абстрактные вещи, например на простые промты без описания всего и вся будет ерунда. Поэтому, применяют техники аугументации, с отсечением частей кондишнов (вплоть до полгого удаления в небольшом проценте итераций в батче, это важно для корректной работы cfg). Можно делать это уповая на рандом, можно заранее запланировать с учетом датасета. Также, могут варьироваться маски или изредка полностью пропускаться некоторые участки обработки. > так как лосс не ебет по хуйне В том и проблема что он просто так не позволяет выделить что хуйня а что не хуйня. Есть методы разной оценки, маскировки и воздействия на него, но (в опенсорсе) для диффузии они на низком уровне. > Мне расскажи Будет тяжело читаться, потому что это настолько абсурдно что вызывает эмоциональный отклик. В какой-нибудь около ирл дискуссии, особенно в более менее знающем коллективе это чудо мгновенно бы слилось. Хотя такое невозможно, ибо еотолораделов с таким шизослопом никто и никогда всерьез не воспринимал, и к чему-то релевантному они доступа не имеют. Просто скучно вечером, вот и решил его раскидать, дело наблагодарное на самом деле ибо шизло не воспримет и дальше будет мношить свой бред.
>>991516 > начинают учить как делать что-то с явным посылом на владение Истиной при многообразии вариантов, то это редфлаг ебаной чсвшной преисполнившейся помойки И теперь смотрим на шизослоп > Ни разу не было на тестовых прогонах с кропом даже на первой эпохе, а вот без кропа лезет какая-то хуйня. Полные лоры с кропом работают как должны. > кондишены и не важны на самом деле > Все нормально, те нинужны. Прими как факт. Какой френдлифаер. >>991546 >>991785 Хорошая иллюстрация "правильных" методов тренировки, заставить модель генерировать срань из паттернов похожих на датасет с поломкой всего и вся. >>991927 > или 2hoes помимо Реймухи? И еще большинство втуберов. Зато ces by gpo прекрасно усвоился. > Такой батч сам по себе плох, они не тренят с шума или весов 1.0, это шлифование файнтюна. this, именно оно. Ну и там еще был ряд проблем: стратегия обучения те странная; вместо капшнов мешанина с упущенными тегами, также частично удалялись артисты, некоторые теги и неконсистентно вводилить свои; стратегия дропа слишком агрессивная; датасет нормально не фильтровался - готовился; ограниченный баккетинг и математические алгоритмы апскейла вместо нейронок (и то не везде, были лоурезы); следствие разрешения - из-за особенностей тренера там далеко не всегда был батч 1000 ибо количество могло не набраться, потому шаг мог вжариться на значительно меньшем количестве пикч без изменения лра. и сам к этому причастен, стыд Да и много чего, но винить их не то чтобы стоит, ибо ранее такого толком никто не делал, каждый тянул на себя одеяло, сроки были очень сжатые а давление извне высоким. Получилось то что получилось, спасибо и за это.
>>991965 >Хорошая иллюстрация "правильных" методов тренировки, заставить модель генерировать срань из паттернов похожих на датасет с поломкой всего и вся. >>991927 >Хрень, на том моём гриде кстати только 1 и 4 "нормальные" остальные андердоги, прикол на 1гёрл получить, с этим любая из них справится, а конкретно тот аутлеер найденный генерализовать нормально, как на 1 и 4 >>991943 >Кстати не просто хрень, а тотал хрень, если выдаёт как на 2 и 3, но мб не шаришь и запромптил еще криво
Ой да пошел ты на хуй, сначала кинул датасет, как пример кинул вообще пикчи с подкруткой стилизации хуй пойми какой не в датасет вообще, а теперь оказывается что тренировка - это не генерировать срань из датасета, а на самом деле надо чтобы какуюто левую поебень генерило, которая к датасету не имеет вообще отношения, блять ору, какие-то андердоги манeвровые полезли, хотя у пикч с примеров НОЛЬ ОТЛИЧИЙ между собой вообще, там буквально накинуть любой атeншер поверх скоров и то же самое вылезет, пyки про генерализацию которой тупа блять нахуй нет в примере изначальном. Какая блять генерализация? Генерализация пониконцепта который со скорами лезет и рисует лайтинг eдж и женерик свимсьюты на мокрой жопе анимебляди? Рили блять анимeшник всегда ебанутый, пойду дальше холодильники тренить, ни копейки времени на пиздеж с онемецефалами итт не потрачу больше.
>>991965 > И еще большинство втуберов Я вообще упомянул, просто очень "смешным" словом > Хорошая иллюстрация "правильных" методов тренировки, заставить модель генерировать срань из паттернов похожих на датасет с поломкой всего и вся. Да в том то и дело что не получилось вообще, даже хуже дефолтных настроек выглядит но хз что он там ещё промптил, вся суть изначально была что я выдвинул инфу что натренить подобные аутлееры в пони невозможно любым другим способом, кроме как вжаркой лютой, для примера вот эту старую понихуйню просто взял >>991988 Че бахнул то? > как пример кинул вообще пикчи с подкруткой стилизации хуй пойми какой не в датасет вообще Всмысле бля, вот тебе конкретный пример, естественно с метой, свежий даже не поленился на этой старой херне сделать https://litter.catbox.moe/1vrs1w.png Две первые можно считать хоть какой то генерализацией на этом аутлеере, дальше дора и глора, которые хуёво перформят, но без поджарки хотя бы, по датасету или близко к дистрибьюции справляются > это не генерировать срань из датасета, а на самом деле надо чтобы какуюто левую поебень генерило, которая к датасету не имеет вообще отношения Тренировка стиля это генерировать остальные знания модели, накладывая срань датасета вместо скина
>>992009 >Че бахнул то? С того что ебаный анимеинвалид замисматчил меня по полной. >Всмысле бля, вот тебе конкретный пример, естественно с метой, свежий даже не поленился на этой старой херне сделать >Две первые можно считать хоть какой то генерализацией на этом аутлеере, дальше дора и глора, которые хуёво перформят, но без поджарки хотя бы, по датасету или близко к дистрибьюции справляются 1. Пикчи одинаковые фактически, я вообще в душе не ебу где и в каком месте там отличия. Максимум если не знать, что это оказывается три разных лоры, выглядит как погрешность сида. И это я с позиции того что я хуйдожник с абразаваньем смотрю с огромной насмотренностью. Допустим может это у меня мозг сбоит и прошаренный отаку под сакэ видит в той хуйне отличия и сходство с датасетом, в таком случае я подстраховался и кинул другому хуйдожнику пикрел. 2. Аналогичная стилистически анимехуйня выводится в дефолтных понях и так, мне пришлось лернинги задирать чтобы перекрыть стили лезущие из скоров связанные с аниме чтобы они хоть как-то отличались от примерной стилизации примера твоего. 3. Ты во втором окне отрой датасет свой, я не знаю кем надо быть чтобы говорить что у пикч с примера есть что-то общее с датасетом вообще. >Тренировка стиля это генерировать остальные знания модели, накладывая срань датасета вместо скина Тогда я всё сделал правильно.
>>992073 > Пикчи одинаковые фактически, я вообще в душе не ебу где и в каком месте там отличия. Максимум если не знать, что это оказывается три разных лоры, выглядит как погрешность сида. И это я с позиции того что я хуйдожник с абразаваньем смотрю с огромной насмотренностью. Допустим может это у меня мозг сбоит и прошаренный отаку под сакэ видит в той хуйне отличия и сходство с датасетом, в таком случае я подстраховался и кинул другому хуйдожнику пикрел Ну такое увидеть можно не будучи хуйдоджником, а будучи нейродебилом, когда заебёшься с понями далеко от дистрибьюции генерить и получать пролезающий дефолтный стиль и пойдёшь во все тяжкие, как я, тренить 20 разных версий разными подходами, сравнивая между собой результаты > Аналогичная стилистически анимехуйня выводится в дефолтных понях и так, мне пришлось лернинги задирать чтобы перекрыть стили лезущие из скоров связанные с аниме чтобы они хоть как-то отличались от примерной стилизации примера твоего Ну хорошо, убери скоры и сурс, не поможет https://litter.catbox.moe/gys1s6.png > Ты во втором окне отрой датасет свой, я не знаю кем надо быть чтобы говорить что у пикч с примера есть что-то общее с датасетом вообще Общий уклон цветогаммы в желто-коричневый оттенок, лайн вокруг чара, пропорции чара датасета в конце концов > Тогда я всё сделал правильно. Где? Здесь, например, вообще мимо >>991768 здесь уже более менее нормально >>991785 но если дашь всю инфу генерации то я попробую с этими 4 версиями, скорее всего с ними тоже на этом промпте будет всё в порядке
>>991953 >Тебя конкретно подготовка кондишнов интересует, или то как модель их внутри блоков обрабатывает? Да я так, просто всем интересуюсь. Ты видел то ту модель? Тот пример со львом так то нихуево выглядит, как понимание модели смысла происходящего и согласованности. >например на простые промты без описания всего и вся будет ерунда И потому там промт разворачивается ллмкой, которая там 100% есть. Иначе да, ни один нормиюзер длинную шизопростыню писать никогда не будет, но если у тебя один формат капшнов, то ничего сложного свернуть их суммарайзом в одно-два предложения, а потом на этом файнтюнить ллм, она формат хорошо усвоит и никаких проебов качества не будет. >(вплоть до полгого удаления в небольшом проценте итераций в батче, это важно для корректной работы cfg). От этой хуйни надо тоже избавляться, так как качества самим весам это очевидно не прибавляет. Лишь костыль для работы другого костыля. >Также, могут варьироваться маски или изредка полностью пропускаться некоторые участки обработки. Это да, вотермарки хотя бы закрыть, это же вообще ничего не стоит... А так наверное можно придумать какую-нибудь эвристику, чтобы маскировать лосс областями там где он сильно высок. Curriculum learning типа. Вообще повесить gan следом, и брать не градиент с него, как обычно принято, а маску.
Кста, мне чатгпт недавно напиздела, когда я у нее спрашивал как работают таймстепы, типа на тысячном, если модель "идеально" предсказывает шум то якобы должно получиться исходное изображение после его вычитания. Я ей даже сначала поверил, уж слишком она и не только она уверенно пиздела. Но когда сам разобрался, конечно же оказалось полностью наоборот. Из зашумленного изображение исходное никак невозможно получить. Инфа теряется пропорционально добавленному шуму.
Diffusion Meets Flow Matching: Two Sides of the Same Coin
В начале декабря группа чуваков из Глубокого Разума, среди коих признанные аксакалы, как Hoogeboom, De Bortoli и Salimans опубликовала презанятнейший пост Diffusion Meets Flow Matching: Two Sides of the Same Coin (https://diffusionflow.github.io/).
Нынче стало модно учить диффузионки в Flow Matching постановке. Тренд, по всей видимости, был задан SD3 (https://stability.ai/news/stable-diffusion-3). И большинство нынешней SOTA в картиночной и видео генерации (из того, что известно) FLUX, MovieGen, HunyuanVideo.
И что это значит? Классическая парадигма - пережиток истории 🤔?
Ан нет.
В данном блогпосте авторы в деталях анализируют процесс сэмплирования и обучения в стандартной noise-prediction Variance Preserving (VE) диффузионной постановке и Flow matching, и показывают, что по сути обе сущности про одно и то же. Основная разница в коэффициентах при шуме/сигнале и использовании скорости в качестве выхода нейронной сети вместо шума/x0. И по ходу повествования эквивалентность двух парадигм авторы иллюстрируют с разных сторон.
Сам блогпост содержит красивые 🥰 иллюстративные визуализации с ползунками 😮.
Кроме того, авторы опровергают распространенное мнение, что Flow Matching дает непременно более прямые траектории, чем диффузия. Для узких распределений Flow Matching действительно дает более прямые траектории, чем типичный диффузионный процесс, но для широких распределений все может поменяться с точностью до наоборот. Впрочем, для наиболее типичного сценария text-2-image генерации или редактирования изображения, целевое распределение, по всей видимости, достаточно узкое.
Датасет на 3к картинок, батч 2, аккумуляция 3, рандомно выбирает файл из датасета и выдает OSError, на первой эпохе гдето в промежутке 10-30 шагов. В чем может быть проблема? Файлы не битые. Error loading file OSError: Caught OSError in DataLoader worker process 0.
Сколько VRAM надо для трена классического контролнета не островного lllite-говна под XL? Сам контролнет в diffusers сжирает 16 гигов, UNET на 24 гигах в ООМ падает, на две карты не переносится - граф рвётся. При этом без градиентов всё вместе всего 9 гигов жрёт. В issues челики с А100 жалуются на ООМы. Они там сколько конволюшенов туда напихали, что он так жрёт? Пиздец какой-то.
>>993089 Там нету пнгшек, битмапы и жыпеги, причем триггерится на жипеги, говорит чтото типа OSError: image file is truncated (25 bytes not processed), хотя само изображение открывается для просмотра и прочее. Взял другой датасет на 5к изображений, уже пять часов нормально тренит.
> File "D:\kohya_ss-24.1.7\kohya_gui\common_gui.py", line 1263, in SaveConfigFile > os.makedirs(os.path.dirname(folder_path)) > File "C:\Program Files\Python\lib\os.py", line 225, in makedirs > mkdir(name, mode) > FileNotFoundError: [WinError 3] Системе не удается найти указанный путь: '' Чо за хуита выскакивает при попытке тренировки? Питон установлен.
Есть ли кто-нибудь, кто готов поделиться случайным датасетом и конфигом под него, с которым получились хорошие результаты + примеры использования? Можно даже под полтораху, интересен небольшой, нетривиальный датасет.
От какого параметра зависит т.с. превалируемость лоры над весом модели при ее полном применении? Оптим продижи, по настройкам: конв дим 16, конв альфа 1 (чтоб снизить влияние сверточков) нетворк дим 16, альфа дим 1 (опять же чтобы половинить влияние лоры) д0 1е4 Дропаут 0.1 чтобы не перетренивать на дате Тренировка нормализационного слоя вкл Дора вкл Биас корекшен вкл Лосс л2 Снр гамма 1 Приорлосс 1 Батч 2
Пока натренил 3 варианта с разным дкоеф и результаты странные. При дкоеф 10 при полном применении лоры очевидные перетрен, но это и понятно, дефолт дкоефа 1. Если снижать вес лоры до 0.5 то более менее норм, при весе 0.2 результат прям топ. Исходя из предыдущего пункта логически нужно ставить дкоеф 2 (0.2 от 10), итоговая лора при полном весе уже не совсем перетрен но есть деформации и управлять промтом также нереально. При 0.5 уже терпимо. При 0.2 опять же так же хорошо как с 0.2 при дкоеф 10. Поставил дкоеф 0.5, результат при полном весе буквально картинки из датасета, при 0.5 хорошо, при 0.2 опять же пушка гонка качество и управление.
Сейчас тренится дкоеф 0.1 и чтото мне подсказывает что будет снова точно такая же ситуация когда фул вес дает картинки с датасета.
Почитал что если альфа на конве стоит на 1, то это значит линейное применение и при полном применении лора является ведущей по весам и замещает собой всё, звучит максимум нелогично, но в целом так и получается, перекинул лоры на другую модель и там на полном весе точно также датасет картинки лезут.
Так вот вопрос: че подкрутить и в какую сторону чтобы полновесная лора не замещала собой веса основной модели? Моя логика с понижением адаптации через дкоеф работает получается только чтобы перетрена не было, а замещение как было так и остается.
В инете говорят что надо ставить альфы в половину от дименшенов и только на особых алго надо их в 1 или меньше укатывать, типа гибкость больше, но это же в 8 раз больше параметров наоборот, нелогично нихуя. Что будет если поставить альфы в 0.1 кстати? Мне ощущается что сила замещения будет меньше, но так как результаты наоборотные, то будет видимо вообще застревание на дате из датасета еще большее.
>>996531 Короче. old woman face, cute, show breast
Пик 1 дефолт, пик 2 16 по дименшенам и 8 по альфам, пик 3 16 по дименшенам 1 по альфам дкоеф на пик 2 и 3 0.1 вес применения 1, с таким весом на верси где альфа 8 больше мутантов и проебов, но зато полная копия датасетовских картиночек по кволити и содержанию (старых тянов вообще не было, одни молодухи и матюры) с полпинка, в версии пика 3 никаких проебов нет, но стилевая хуйня немного дальше и без расписывания промта датасетовское кволити не лезет особо
остается проверить 16x16, т.к. вероятно возможно мутации именно из-за халвинга матриц на внедатасетовых разрешениях получаются а так будет аналог 1x1 но без линейного применения на альфе с 1
>>992111 > Ты видел то ту модель? Ты про хуйнань или какую? > как понимание модели смысла происходящего и согласованности. Понимание смысла идет от правильной подготовки кондишнов и реакции на них, а согласованность уже исключительно сама диффузия. > И потому там промт разворачивается ллмкой, которая там 100% есть. Тут есть нюанс и не всегде сделано именно так. Например, часто модель используют не для прямого "разворачивания" а для некоторого семантического анализа и получения "смысловых" активаций, на которые уже удобно реагировать. Хороший пример с T5, классический энкодер-декодер, который можно натренить на любую t2t задачу и будет очень даже прилично, или обрезать жопу и получить с середины уже обработанные кондишны. Но возникает уже своя проблема - модель может плохо понимать теги, которткие вещи или что-то специфичное (ровно то что видим с диффузией, которая использует т5). К этому можно добавить дополнительный костыль в виде разворачивающей ллм, о котором ты и написал. Как, например, хочет сделать Астралайт в новых понидифьюжн, или тот же далли3, к которому тексты поступают уже после обработки. Но вариант тоже специфичный, иногда просто тренировка энкодера может дать гораздо больше, чем попытки ужать для пропихивания через бутылочное горлышко. > От этой хуйни надо тоже избавляться, так как качества самим весам это очевидно не прибавляет. Сложный вопрос, тут во-первых, само определение cfg, во-вторых, оно дает свои преимущества и такая вот аугументация. Тут все на костылях построено, увы. > вотермарки хотя бы закрыть, это же вообще ничего не стоит На самом деле задача не самая простая, как минимум нужна будет модель, которая сможет точно формировать маску для них. Мало кто этим занимается, даже у корпов лезут подписи. > можно придумать какую-нибудь эвристику, чтобы маскировать лосс областями там где он сильно высок Хз насчет эвристики, но при тренировке ты его буквально видишь и именно прямой модификацией делается маскед-лосс. Можно действительно сделать процедурный алгоритм для сглаживания областей с большими величинами, или применения каких-либо обработок. Вот только что там выйдет на практике уже нужно смотреть. > чатгпт недавно напиздела, когда я у нее спрашивал как работают таймстепы Они регулярно серут и плохо понимают эту тему. Чуть лучше отвечает опус и сонет 3.5, но даже те могут в двух соседних свайпах себе же противоречить. > Из зашумленного изображение исходное никак невозможно получить. Инфа теряется пропорционально добавленному шуму. Именно. Отсюда кстати берет корни баг, заложенный в SD. Там зашумливание по дефолту не полное, из-за чего самые нижние гармоники (общая яркость) сохранялись, и наступает проблема средней яркости и плохой когерентности.
>>1000683 >Ты про хуйнань или какую? Гугл veo новая. Вот видрил с которого я охуел немного. Не верю что чистая диффузия в такое может, даже если ее через какой-нибудь gan тренили, он должен быть дохуя умным сам по себе. Либо каскадная модель, где первую ступень можно из умной ллмки получать. Не в виде текста или тех же эмбедингов, а во временно-согласованной структуре. >Сложный вопрос, тут во-первых, само определение cfg, во-вторых, оно дает свои преимущества и такая вот аугументация. Тут все на костылях построено, увы. А кто-нибудь пробовал безпромт для cfg в лору сливать, а родные веса не трогать? Или лора в негативе на генерации все сломает? Хотя негатив обычно все же не пустой, хуй знает как это будет работать. >На самом деле задача не самая простая, как минимум нужна будет модель, которая сможет точно формировать маску для них. Мало кто этим занимается, даже у корпов лезут подписи. А смысл точной маски? Точность все равно проебется после vae, достаточно бокса, его и разметить можно очень просто, и провалидировать можно чуть ли не весь датасет в одно рыло. Подписи обычно не очень большие, и если боксы нарезать в одну ленту html-страницы, то можно глазками очень быстро отбраковывать проебы. >и именно прямой модификацией делается маскед-лосс Я вообще читал что лучше не лезть в сам лосс а занулить градиент после лосса по той же маске. Ибо там якобы какие-то протечки в лоссе могут быть.
>>1002931 > Не верю что чистая диффузия в такое может А что в этом такого уникального? Наоборот, диффузия очень хорошо ухватывает некоторые закономерности, последовательности, особенности взаимодействия предметов и прочее. В отличии от каких-то моделей и движков, тут могут быть абсурдные артефакты, зато оно прекрасно воспроизведет всякую "физику", взаимодействия в ту самую согласованность. Оно не понимает ничего, просто воспроизводит концепт отражения в зеркале с синхронным движением объектов. > безпромт для cfg в лору сливать, а родные веса не трогать? Не совсем понял что ты хочешь сделать, распиши подробнее. > А смысл точной маски? Для минимизации влияния на остальные объекты, есть достаточно крупные ватермарки, и не сказать что оно прямо так проебывается. > разметить можно очень просто, и провалидировать можно чуть ли не весь датасет в одно рыло Попробуй заняться этим, есть и готовые тулзы, правда придется чуть попердолить. Есть и готовые модели, аниме ватермарк на обниморде. Только количество и разнообразие ватермарок такие что нормальной точности сложно получить. > что лучше не лезть в сам лосс Ты можешь вносить в него модификации как просто умножая на коэффициент, так и делать это с его отдельными областями. Ну а как вычленить градиенты от этой части уже после обарботки не зацепив все остальное - хз. Распиши подробнее.
>>1002952 >Не совсем понял что ты хочешь сделать, распиши подробнее. Ну, очевидная мысль, что если образцы без подписей при тренировке не добавляют качества самой тренировке с подписями, и если от этого нельзя отказаться, то может быть стоит хотя бы в лору запекать пустые подписи, чтобы это не влияло на основные веса. Сразу же понятна проблема, что негатив в генерации обычно не пустой, а значит эта схема работает неправильно. (На генерацию негатива надо подключать эту самую лору). Но если же эта теория не верна, и пустые подписи на самом деле идут в плюс и работают как регуляризация, то тут уже возникают вопросы, почему и насколько? >Для минимизации влияния на остальные объекты, есть достаточно крупные ватермарки, и не сказать что оно прямо так проебывается. Опять же, насколько велико это влияние? Можно закрыть нахуй маской рандомную половину картинки, например. Чет мне кажется модель сильно хуже учиться не будет, фоны на персонажах же так закрывают. Можно хитрее проверить, каким-нибудь шахматным паттерном или случайным шумом. Так что я думаю в ватермарку достаточно примерно боксом попасть и проблем не будет. Проблемы будут там где вотермарка проскочила в датасет, а если случайный кусок закрыли - похуй, будем считать что это регуляризация, лол. >Ну а как вычленить градиенты от этой части уже после обарботки не зацепив все остальное - хз. Распиши подробнее. Последний выходной нейрон, пиксель латента, по сути, просто если попадает под маску, то делаем ему градиент - 0. Это 100% метод который ничего не ломает. На коэффициент по идее тоже можно умножать, только надо пересчитать его кривую. Хз, если занулять сам лосс, вроде бы то же самое, но я где-то читал что нет. Если лосс там внутри усредняется-нормируется, то вырезанный кусок влияет на расчет.
>>1002952 > ватермарки Достаточно взять любой DiT и навсегда забыть про подобное. В том же Флюксе даже если весь датасет в ватермарках, в генерациях они не появятся пока не запромптишь.
>>1003295 Не пизди, флюкс их всасывает точно так же как и хл, единственное отличие, что он их воспроизводит идеально, в отличии от предыдущего говна с 4канальным вае и промпт от этого не спасает. Ты т5 чтоли вжаривал?
>>1003419 Если ты капшены так же по даунски как и на XL делаешь, то естественно говно получается. Литералли любая vlm увидит ватермарку и напишет что на ней, а то что ты прописал в капшене при генерации без прямой просьбы не появится. Это всегда работает, оно просто не может не работать. Я тренил кучу лор на порнухе, там бывают ватермарки на четверть экрана, никогда не вылезали при генерации. Для этого ничего дополнительно не надо делать.
>>1003899 Я мимошел в вашем диалоге не участвовал, но считаю что проблема ватермарок это проблема базовой модели и настроек агрессивности тренинга/гиперзапоминания на низковариативном составе датасета (когда у тебя все изображения не аугментируются вообще никак и скармливаются 1 к 1 где ватермарка будет всегда в одном месте). Я тоже по порностилистикам угараю и при этом вообще кепшены не юзаю и ватермарки тоже не лезут, например потому что изначальный файнтюн (бигасп 2, там годно закурировал датасет свой чел) и сама сдхл база по дефолту не надрочены на то чтобы ватермарки выблевывать. И напротив можно упомянуть про натвис где челу например было похуй на ватермарки и при гене условных селфи частенько онлифанс проскакивает в качестве марки.на самой базе.
>>1003149 > если образцы без подписей при тренировке не добавляют качества самой тренировке с подписями Ну как сказать, объективного вреда от этого нет, даже наоборот. Кроме анкондишнал генерации чего-то среднего по датасету, или части что наиболее отличается от среднего по модели, но грустить с того что с пустым промтом делает канничек только дурак будет. > стоит хотя бы в лору запекать пустые подписи Вот это не понял, что значит запекать в лору? Там просто в батче у некоторых специально или случайно выбранных пикч не будет подписей. > насколько велико это влияние? Настолько, насколько захватываешь лишнего. Если постоянно еще будешь закрывать одни и те же места картинки, с этой областью в дальнейшем будут проблемы. > думаю в ватермарку достаточно примерно боксом попасть и проблем не будет Попробуй, скажешь как получается. Пока что ни одного успешного (озвученного) кейса с подобным подходом нет. > пиксель латента, по сути Неа, там не совсем пиксель латента. А так всегда умножают на ноль конкретные пиксели лосса или все величины. >>1003295 Ну удачи. >>1003899 Оно может нормально научиться только на разнице. И как у тебя влмка их протегает, "ватермарка такого-то хуя"? Простейшие тексты проблем даже в 1.5 не вызывали, а так там всегда там или эмблема, или особый шрифт, или хитрая подпись. В удачном кейсе оно зацепит что "ватермарка в углу" это вот именно эта штука, а насколько протечет параллель с тренируемым стилем/персонажем - большой вопрос. Если недефолтные ватермарки везде то будут лезть со страшной силой. > тренил кучу лор на порнухе, там бывают ватермарки на четверть экрана Какая-то блядища и совершенно разные ватермарки с разных студий/ресурсов по вполне типичным паттернам, они даже сами по себе слишком нерегулярны чтобы их запомнило. Зато если захочешь какого-то художника тренишь - насладишься. >>1003925 Все так, она просто слишком разные и дадут лишь косвенные проявления даже если не описывать.
>>1004917 > удачном кейсе оно зацепит что "ватермарка в углу" это вот именно эта штука У меня vlm в таком виде их всегда тегает. > There are two watermarks visible: "by Tommy Bernstein" in the bottom left corner and "femjoy.com" in the bottom right corner. > There is a watermark on the image that reads "u/PCake99". Никогда не пропускает, никогда не видел на генерациях их. В том числе после полного пака пиков, где 50 раз ватермарка повторяется. Если текст ватермарки прописан, то куда она денется, любой DiT в текст умеет. > с тренируемым стилем/персонажем Если XL, то надо по схеме b-лоры делать, выкидывая остальные слои, туда в принципе ватермарки не могут протечь, я без проблем тренил на рандомном говне с артстешена, даже на постерах норм стили тренить.
>>1005006 Ну это простая херня и текст, который будет разный в разных пикчах, за счет этого похуй если совсем не фейсроллить. Там же речь уже про вполне нормальную, полноценную и консистентную ватермарку, которая будет приписана артисту. > Если текст ватермарки прописан Но даже и текст может быть довольно непростым, как на пикрелах, и оно будет везде. У рингеко они в разных вариациях и постоянно над важными объектами, тут и флюкс пасует.
Кстати ватермарка с первой пикчи становится популярной в минимальных вариациях, и модель именно на нее легко обучается, ибо она на разных художниках, стилях, персонажах почти одинакова! Это позволяет в крупных датасетах обучать не удаляя, будто это просто отдельный концепт и элемент, даже негативить не придется потом. Не перестаю с этого орать, массовая акция художников привела не к появлению единой штуки, которая бы сильно лезла везде, а наоборот к систематизации хорошо регуляризуемого объекта, который даже удалять не надо. В итоге, страдают только зрители и сами авторы с горящей жопой.
ребята. ну вот я закал себе лламу 3 на локалку, но как теперь её тьюнить что бы отключить политкоректность и всякую хуйню для безопастности/ограничения?
>>1005129 > закал себе лламу 3 > как теперь её тьюнить Для начала обзаведись 80гиговой видеокартой и хотябы средним знанием пихона и конкретно торча. Когда выполнишь - часть вопросов отпадет сама собой и можно будет уже обсуждать. >>1005147 Лламатред двумя блоками ниже. Но там тебе также ответят, прочти тамошнюю вики для начала.
>>1003899 > Литералли любая vlm Нет, не любая, на заре флюкса с популярностью гойкапшена он плохо протегивал wlop'а, хотя там 90% на полебла текст его ника, так же с пикрилом полный провал был без ручного затирания, пролезает слишком часто >>1005129 А вот и глейзокал подъехал, лол, не смущает что вся пикча в масле?
>>1005147 >Блять скинь гайдик Перегружай ввод, смени акценты в тексте, отвлеки от запрещенного, дай свободу выбора, предварительно её жестко ограничив.
>>1005196 > с популярностью гойкапшена Он только у анимешников почему-то популярен был потому что умел тегами срать. Сейчас выбор огромный чем капшены делать, джой хуйня.
Щас пишу рассказик, к рассказику, на его базе хочу запилить кинцо-мыльцо визуальную новелку с минимумом ходить
Хочу базированные текстурки, свои, музыку свою, персонажей своих, минимально имел опыт моделирования.
Отношение у меня ко всему этому, такое, что ИИ крутой костыль, при условии, что ты сам стараешься и делаешь свой мирок, который интересен тебе, прежде всего.
Без воровства, переработок и индусо-засеров 100 раз переделанным патерном на новый лад
В связи с этим хочу приспособить локальную пекарню на 4070ti:
- Лингвистическая модель для перевода, локальная или нет, похуй наверное
- Озвучка персонажей
- Моделирование текстур 3Д, персонажей и прочего
- музыка
Есть ли смысл вкатываться, или все еще кал? Ну и ИИ как само хобби, все же головой понимаю, что смысл вката все равно есть ибо набью руку а там уже, что нибудь, новое завезут, что уже мне подойдет.
Оч загружен и работой в ойтишечке и книжкой своей, и плагинодрочем в UE5.
так, что исходя их моеих хотелок, в какую сторону дрочить примерно? МОжно уровня только сказать имя актуалочки или что выстрелит или связки, остальное на ютубе сам задрочу
>>1005637 >Лингвистическая модель для перевода, локальная или нет, похуй наверное ЧатГПТ. Гугловский Гемини, 50 бесплатных промптов на акк. Claude лучше всего понимает и умеет в русский. Всё из РФ недоступно. Плюс цензура, некоторые темы без нецензуренного входа с АПИшки обсуждать откажется (а некоторые и с апишкой). Локальные сильно тупые.
>Озвучка персонажей Посмотри профильные треды. Пока что все довольно сырое, и качество прямо пропорционально времени, которые ты на обработку потратишь. Вплоть до того, что самому озвучивать придется, и потом голос менять.
>Моделирование текстур 3Д, персонажей и прочего Ничего годного в этой области нет. Только картинки.
>музыка Вообще хз.
>Оч загружен и работой в ойтишечке и книжкой своей, и плагинодрочем в UE5. Значит и не пытайся. Чтоб начать делать что-то хорошо - надо потратить дофига времени.
Побуду амбассадором и периодически буду постить по обновам шедулер фри продигов мб кто не в курсе, т.к. это буквально на данный момент самая ёбовая ёба из существующих, позволяющая и фуловый чекпоинт тренить на лоурам без прибегания к адафактор калу, и лоры с пачкой автоматических мокрописек по принципу файр'н'форгет https://github.com/LoganBooker/prodigy-plus-schedule-free
>>1007020 Калом с уёбищным lr не пользуемся. На XL база обычный AdamW, на DiT - AdEMAMix. Уметь выставлять корректный lr - это чему быдло должно в первую очередь научится, перед тем как лезть в тренировку.
>>1007033 >На XL база обычный AdamW, на DiT - AdEMAMix >петух_и_микрофон.жпг Тя там с двух сторон в жопу ебут - адам по растригину в локальный минимум падает (но до решения хоть доходит) и там сдыхает в оверфите, по росенброку неизвестно как долго потребуется нахождение полного решения. И это еще не 8бит, который вообще сосиот. Итог: устаревшее говно для хлебобулочных изделий, которые просидят за настройками гиперов дольше, чем тренировка будет идти.
С адемамикса вообще проиграл, тут комментарии излишни.
>>1007049 > растригину > росенброку Ясно, ты шизик, даже не тренирующий ничего. > устаревшее говно для хлебобулочных изделий Тем не менее претрейн все только на нём делают, в то время как шизики не могу основы осилить. > оверфите С оверфита лор вообще проиграл.
>>1007053 >ooooeee hryuu vrete!! ты шизик, даже не тренирующий ничего! Не визжи. >все только на нём делают Отучаемся говорить за всех. Если ты делаешь претрейн на говне, то это не значит что все делают на говне. >С оверфита лор вообще проиграл. Ну то есть ты там на адаме сидишь недотрениваешь говно своё (потому что адами не вывозит) и тольковыиграешь от этого? Так держать, верной дорогой.
>>1007059 > Отучаемся говорить за всех. Выключай врёти, в transformers ровно два оптимизатора, потому что остальные не нужны. И уж тем более никто не использует пердольное говно от васянов. > адами не вывозит А ты можешь показать где твоё говно лучше AdamW? Я вот могу что не лучше, прямиком из их публикации. Точно так же могу обоссать тебя и показать как выглядит AdEMAMix с корректным lr.
В настоящих нейросетках локальных минимумов не существует, напоминаю. Ландшафт функции потерь имеет вид лабиринта и даже близко маняграфикам не соответствует. Локальные минимумы появляются только когда делается градиентный спуск НЕ СТОХАСТИЧЕСКИЙ по всему датасету (один шаг - считаем градиент по всему датасету и так каждый раз заново), но так вы ничему путному не научите большую нейросетку, даже если представить что у вас на это есть компьют. Более того со стохастикой ландшафт вообще перестает быть стационарным.
>>1007020 > позволяющая и фуловый чекпоинт тренить на лоурам Сильное заявление, кто-нибудь что-то с ним уже натренил, или это просто впечатление по теоретическому потреблению врам ценой замедления? Особенно интересно как оно будет реагировать на всякие аугументации, манипуляции с лоссом и чуждые чекпоинту пикчи. > fused_back_pass в kohya Главный вопрос - он работает в мультигпу, или также как с адафактором/фьюзед группами отваливается нахуй? Если работает то даже запущу ради интереса. >>1007033 > на DiT - AdEMAMix По первым впечатлениям он хуже адамв (тем более на хл), разве что "добавить немного" не ломая ничего, а тренится довольно вяло. Но это ерунда, интересно увидеть конкретный успешный опыт его применения, штука то интересная. Алсо есть его производные в т.ч. с 8 битами. >>1007049 > И это еще не 8бит, который вообще сосиот Тут наоборот от 8битных в части случаев отказываются, а тут такое. >>1007119 > только А если по половине датасета - уже не появляются? А если по четверти? Так и до типичных батчей дойти можно, давай пруфы раз делаешь много заявлений.
>>1007142 > тренится довольно вяло Челики у кохи пишут что быстрее у них тренится. Да и я заметил на Флюксе оно заметно лучше, особенно на больших датасетах.
>>1007142 >А если по половине датасета - уже не появляются? А если по четверти? Для простейших примеров вот посмотри https://www.youtube.com/watch?v=dZuYwwyGc4Y&t=998s На половине "датасета" уже ведет себя как стохастический градиентный спуск, а не не-стохастический. Даже если взять батч 199 из датасета размером 200, градиентный спуск все равно переходит в стохастику https://www.youtube.com/watch?v=dZuYwwyGc4Y&t=1226s На настоящих нейронках конечно цифры могут быть другими, но тенденция та же.
>>1009267 вроде всё ок. в вебуи при применении лоры используется некое внутреннее название, а не имя файла. но если что напишите, если я хуйню сотворил
>>1009293 >но если что напишите, если я хуйню сотворил Да нет, всё верно. Сетка использует для идентификации модели/лоры её хэш, на него же смотрит цивитаи когда крепит к картинке лоры и модель. Единственно, могут быть экзотические случаи протекания имени лоры с отсутствующим соответствием в промпт, если ты добавил его в Comfy ради того, чтобы он включил хэш лоры в метадату и её подцепил Civitai. Обычно промпт не загрязняется именем лоры даже в Comfy, похоже что нужны особые условия.
>>1009603 >>1009293 В вебуе два способа вызова лоры - с внутреннего идентификатора, и по имени. Переключаются в настройках. Внутренний обычно выглядиткак раз как test_pook_srenk_000000012 Поэтому у себя я переключил на вызов с имени. Но тут могут быть косяки с совместимостью при переносе на другую машину или в облако.
💰 Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget
Вышел официальный код и чекпоинты для MicroDiffusion от Sony.
Советую прочитать статью, в ней авторы подробно рассказывают о том, как они обучили модель уровня SD1 (MicroDiT) за $1890, используя диффузионный трансформер с MoE и наборы реальных+синтетических данных на 37M.
Теперь любой желающий может обучить модель Stable Diffusion v1/v2-уровня с нуля всего за 2,5 дня, используя 8 графических процессоров H100 (стоимостью < $2000)
>>1010436 Там есть несколько нюансов. Первый - это батчсайз, сможешь ли ты сделать успешный претрейн с батчсайзом ниже 64 - загадка. Второй - датасет. С другой стороны это сильно лучше чем у понибляди, который за два месяца на таком же конфиге из 10хH100 натренил каких-то мутантов, при том что даже не с нуля тренил.
>>1011976 > с батчсайзом ниже 64 Для тренировки с шума даже 64 мало. Но с чекпоинтингом и/или аккумуляцией 64 можно хоть на одной H100 сделать. Если тренить анимублядство с нуля - там действительно сложно с датасетом ибо он оче несбалансированный с точки зрения знаний ирл и чего-то общего.
>>1011976 Аккумуляция градиентов вроде как от батч сайза таки ничем не отличается по результату, но гпт пишет может быть разница на сотнях-тысячах из-за ошибок округления. Как там на самом деле - хз.
Новое что-то придумал, или хуйню? Обучение лоры/модели под адетейлер. Зашумляем латент не полностью, а квадратом внутри, рамка остается нетронутой. На рамку накидываем маску лосса. Правка кода минимальна.
>>1021550 >Но если это так просто, то почему их никто не тренит? Потому что они делаются суммой дельты модели и SDXL с базовой инпэйнт моделью. Вдобавок многие модели нормально инпэйнтят из коробки, и ничего изобретать не надо.
Анон, так случилось, что я нищеброд и не могу позволить себе нормальную видеокарту, поэтому продолжаю юзать колаб, но там запретили вебинтерфейсы и генерировать теперь приходится кодом. Подскажи, где что читать/смотреть по этому вопросу, на хагингфейсе очень неудобно сделана документация и часто устаревшая информация
>>1033244 >10-15 сек на итерацию А че так дохуя? >с фузедом Из-за него? На 3090 есть смысл использовать? Хм, может тебе пару 3090 дать погонять, чтоб ты не мучался, и взамен дал каких-нибудь тестовых датасетов и настроил там всю хуйню с конфигами?
>>1033244 > 1024 с батчем 2 тащит на 11.5 У тебя не работает фьюзед, он и без него столько же жрёт, он впринципе только для sdxl_train.py, что является файнтюном, а не лорой > 10-15 сек на итерацию Преврати в адам, включи продиджи степс 1 и лр просто сам через д0 задай, лол, чтобы избавиться от лишних вычислений
>>1033265 >У тебя не работает фьюзед, он и без него столько же жрёт Работает, чучуть меньше потребляет, любая экономия - экономия, не так как если фул трен запускать, но экономия. >он впринципе только для sdxl_train.py, что является файнтюном Есть патч для использования с лорами.
>>1033262 >А че так дохуя? 3060 момент. >Из-за него? Нет, фузед небольшой бонус просто (в среднем 100-300 метров экономии с лорами в зависимости от параметров), пикрелы вкл фузед и выкл. Основное уменьшение врама от шедулер фри логики форка продижей. >На 3090 есть смысл использовать? Для лор нет наверно с твоими 24 гигами, вот если фул чекпоинт дрочить то да. >может тебе пару 3090 дать погонять, чтоб ты не мучался А как, мы же наверно в разных городах с вероятностью 99%... >
>>1033279 >3060 момент. В интернетах чет пишут о цифрах получше. На 3090 у меня на тестовой дефолтной лоре с адамом было типа около секунды-полторы, с 1 батчем. >А как, мы же наверно в разных городах с вероятностью 99%... Есть такая штука rms, тем более это отдельный "сервер", в виде материнки лежащей на подоконнике с воткнутыми в нее видюхами... А не мой комп, я к нему сам по rms и подключаюсь. В принципе если закинуть в гостевую сетку и дать доступ кому-то ничего особо страшного случиться не должно...
>>1033288 >Покажи, хочу затестить тоже В train_network.py после строки train_util.resume_from_local_or_hf_if_specified(accelerator, args) добавляешь с форматирование как пикрел: if args.fused_backward_pass: # use fused optimizer for backward pass: other optimizers will be supported in the future import library.adafactor_fused
library.adafactor_fused.patch_adafactor_fused(optimizer) for param_group in optimizer.param_groups: for parameter in param_group["params"]: if parameter.requires_grad:
def __grad_hook(tensor: torch.Tensor, param_group=param_group): if accelerator.sync_gradients and args.max_grad_norm != 0.0: accelerator.clip_grad_norm_(tensor, args.max_grad_norm) optimizer.step_param(tensor, param_group) tensor.grad = None
В train_util.py комментируешь строку с ассертом чтобы работало не только с адафактором:
""" assert ( optimizer_type == "Adafactor".lower() ), "fused_backward_pass currently only works with optimizer_type Adafactor / fused_backward_passは現在optimizer_type Adafactorでのみ機能します" """
>>1033303 >В интернетах чет пишут о цифрах получше. Смотря с чем и как. >Есть такая штука rms, тем более это отдельный "сервер", в виде материнки лежащей на подоконнике с воткнутыми в нее видюхами... А не мой комп, я к нему сам по rms и подключаюсь. Ну можно конечно попробовать, как с тобой связаться?
Кто не пробовал grams попробуйте кстати, отлично стабилизирует градиенты, на пике все что скачет - без грамс, все что не скачет - грамс.
Алсо после достаточно продолжительного ресерча выяснил, что gLoRA в комплекте с DoRA является наиболее похожей конструкцией на полноценный файнтюн, так что если кому жмет врам но хочется файнтюн экспириенс, то настраиваете отношение 1 к 1 по дименшенам и не настраиваете дикей весов (опционально).
>>1035850 Тут инденты проебутся вместе с символами, которые могут использоваться в разметке, можешь скинуть лучше на какую нибудь хуйню по типу пастебина? >>1035887 Подробнее? Едм2 тоже умеет подстраивать динамически вес лосса на разных таймстепах, чтобы не было этого
>>1036232 > Batch Size2048 Выглядит как хуйня, ещё и lr выше чем у Lion. Вангую на низком батчсайзе так же как и Lion будет сосать. Алсо, на их же графиках Lion плавнее, и вообще по хорошему смотреть надо на финальный loss, а не то что они тесты на 1000 шагах сделали даже не приблизившись к нижнему loss.
>>1036232 >>1035850 Если хук работает корректно, то увидишь перед тренировкой строчку [ProdigyPlusScheduleFree] Kohya pipeline detected with fused backward pass. Gradient hook patch successful.
>>1035887 >если кому жмет врам но хочется файнтюн экспириенс А если реально полноценный большой файнтюн, канает или переобучается/недообучается? Есть ли смысл сливать лору с моделью и новую дальше учить каждые n шагов?
Аноны, а ни у кого нет ссылок на гайды по автоматизации для сборки и тэгирования датасета?
В идеале чтоб какой-нибудь штуке скармливаешь ссылки на основные медиа-платформы (галереи рисовак, тэги на бурах, всё такое), а там оно уже само все качает и по папкам раскладывает. Если надо - логины с куками подтягивает. Потом тэгает чем-нибудь крутым и умным, и тебе остается только тренировку запускать.
Хочу несколько десятков лор натренить, но вручную качать, сортировать, тэгать - времени нет да и лень.
>>1036369 >А если реально полноценный большой файнтюн, канает или переобучается/недообучается? Имеешь в виду чтобы многотысячный датасет? Ну я до 10к пикч гонял тесты, все нормально. >Есть ли смысл сливать лору с моделью и новую дальше учить каждые n шагов? Да, делают так для большей адаптации, каждую эпоху обычно замещают веса.
>>1036249 Нету такого в логе, памяти вроде меньше стало жрать, но тренится стало подозрительно медленнее, ещё и это пропало > [ProdigyPlusScheduleFree] Prodigy stepsize adaptation disabled after 1 steps for param_group 0 Можешь просто скинуть файлом целиком свой train_network.py? А лучше ссылку где обсуждение этой хуйни на жидхабе идёт, хз где проебался >>1036232 > Пикрел, имплемент прямо в оптимайзер через https://rentry.org/k4hnesv9 Куда именно в оптимайзер и как это должно вызываться, не просто же там это условие и на этом всё, тоже бы обсуждение почитал где нашёл
>Куда именно в оптимайзер и как это должно вызываться, не просто же там это условие и на этом всё, тоже бы обсуждение почитал где нашёл Тебе нужно определить новый гиперпараметр оптимайзера use_grams, типа как тут https://github.com/LoganBooker/prodigy-plus-schedule-free/commit/4b36ca7298245ac7337240a8cc2b239e9c8a7707 Опять же можешь все (через две папки проектов - в одном PPSF, во втором скрипт твоего оптимайзера) запихнуть в вижл студио и оно тебе все сделает.
>Точнее наоборот, быстрее Это значит что скорее всего тренировка идет вхолостую и сеть не учится.
>>1037341 > Я так понимаю ты в отличный от PPSF оптимайзер юзаешь Нет, я же скинул даже строчку из лога выше свойственную ppsf с отрубанием продиджи степсов > зависимости прописаны в самом оптимайзере Я порылся чуть и увидел что там принтит подобную херню в консоль, судя по всему оптимайзер вообще не работает, может какой то конфликт параметров > https://github.com/LoganBooker/prodigy-plus-schedule-free/issues/7 Вот именно такое поведение и наблюдается, сделал как бы всё тоже самое и перепроверил даже, запускал просто кохьевским фьюзедом, оптимайзеровским и обеими сразу, но нихуя, можешь полный конфиг или комманду запуска скинуть? Полюбому какой то баг
>>1037341 >>1038942 Забей вообщем, получилось запустить нормально, криво писал фьюзед арг кохьевский. С более высоким димом и батчем больше экономит, чем как у тебя 100мб или сколько там
Не читал ничего, пишу впервые. Хочу ответ для тупых, к коим, видимо, и отношусь. Если после установки FLUX по гайдику из Интернетика, запуску его в webui и попытке генерации я получаю "RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cpu and cuda:0! (when checking argument for argument mat1 in method wrapper_CUDA_addmm)", то это просто значит, что я чмо?
>>1039473 medvram если видеопамяти не хватает, разбивает модель на 3 части, только одна из частей модели в видеопамяти одновременно, скорость не замедляет lowvram еще больше частей делает, когда уже даже с medvram не хватает, тут уже значительное замедление скорости генерации, рекомендуется только если на всех других настройках падает с ошибками памяти
>>1039473 Еще можешь попробовать vram offloading в драйвере включать-выключать, если ошибки памяти, но он включенный тоже значительно замедляет генерацию. Зато ошибки памяти вообще исчезают, если обычной памяти в компе хватает.
>>1039488 так, а вот это где включается, а то оно у меня до сноса и переустановки енвайренмента вроде работало а по свежему перестало... >>1039487 спасибо за пояснение
>>1039489 Тут. Но это глобально для всех программ, а лучше зайти в соседнюю вкладку Program Settings и включить-выключить ее отдельно для программы webui\venv\scripts\python.exe, тогда будет только для webui, и на остальные игры и прочее не влиять.
>>1040588 Скачиваешь с гитхаба koboldcpp, копируешь exe в папку, кликаешь на него, скачиваешь чекпоинт с цивитаи, указываешь его в кладке image gen, запускаешь браузер, ждешь, в консоли копируешь ссылку на sdui, вставляешь в браузер, идешь в вкладку txt2image, в окне промта вводишь 1girl, european woman, big boobs, наслаждаешься картинками бапп с одинаковым нейроебалом. Если у тебя аутизм и тебе не хватит этого поиграться на пару вечеров, можешь после этого начинать ставить комфи, качать лоры на пролапс и т.д.
Workflow - Browse Templates и загружаешь базовый пайплайн, добавляешь ноды как на пикче под скачанные модельки, обрати внимание что цфг 1 и семплер LCM, это под DMD2 лору чтобы работало нормально, негативы на цфг 1 не работают (выше 1 работают), так что можешь их не писать, в позитиве пишешь ну допустим woman nude selfie, жмешь рендер и готов твой бублик в блендере.
Остальное это нюансы пользования, расширения, мокрописьки, тонны семплеров и щедулеров, использование обычной генерации без всяких убыстрялок, контролнеты, айпиадаптеры, ллм в качестве промптера... Проще спрашивать что конкретно нужно и как реализовывать итт или искать на профильных ресурсах.
Че какой там самый ёбовый кепчер щас для буру лайк под сдхл?
Пока остановился на https://github.com/EvilBT/ComfyUI_SLK_joy_caption_two Там связка из ламы, сиглипа гугла и joy-caption-alpha-two, удобно что работает прям из комфи и куча поднастроек уровня исключения описания ватермарок текста, токена вызова и тд, прогнал тут порнуху на тест, делает прям хорошо, гораздо лучше чем торигейт который в токенизацию может через раз и шпарит в основном текстом под т5. В четырех битах занимает около 8 гигов врама, картинки описывает долго но качественно зато. Есть еще что-то более пиздатое или я нашел самое ёбовое?
>>1040894 Вдфанбой, спокуха, вот эта опция была выбрана. Под буру лайком я подразумевал токены через запятую, о которых знает сдохля, анимекал я не тренирую. Хочешь аниме с буру опцией прогоню специально для тебя?
>>1040901 >триггернулся на гайд как вкатиться без задней мысли >хрю хрю комбо собрал уиии ряяя дмд лапша лоли хрюююю Тебе нервишки подлечить надо, а то на людей кидаешься, собака сутулая.
>>1040880 >Что можете сказать по поводу StabilityMatrix ? Ничего, не вижу смысла в таких комбайнах, разве что для красивой картинки на макбуке. Оно еще скорее всего ресурсы кушает как градио, т.к. насколько я понял на дотнете сделано.
>>1040810 Можно это использовать: https://github.com/jhc13/taggui И протэгать, и поправить. Хотя интерфейс работы с тэгами мог быть и получше но все равно быстрее вд-таггера для автоматика. Поддерживает несколько моделей.
Мультимодалки обычно нацелены на "натуральный" язык разной степени структурированности, и с тэгами лажают. Не прям вообще "не могут", но шизят, выдумывают несуществующие тэги, или через раз сбиваются на свой "базовый" формат. По крайней мере так ведут себя те, что я тестировал.
>>1040910 Он все правильно написал, но забыл упомянуть, что этот "гайд как вкатиться без задней мысли" идентичен простыням в шапках на 4pda.to, где васяны сухо, но сочно описывают их безумие.
>>1040934 Хуйню написал, вообще ни разу не похоже на гайды по рутированию ксяоми на 100500 шагов и линкованием постов через посты на посты с постами о постах.
>>1040910 >как вкатиться >лапша >дмд Чел, не учи нуба плохому. Если он захочет стать красноглазиком, трахающимся со спаггети, он сам до этого доберется, когда-нибудь. Но новичкам я бы эту штуку не советовал категорически. Особенно - дмд и прочие лоры-ускоряки, ебущие качество картинки. Зато быстро! Лучше уж ДипКэш юзать, дает ускорение, но без потери качества картинки.
>>1040899 А нахера тебе простыня говна конкретно в буру стиле? Это самый главный недостаток буру теггинга, из за которого плохо протеганные концепты зачастую получаются нормально лишь на рандом переролливанием, либо каким нибудь экзотическим вовсе не очевидным комбо из других
>>1040937 >Чел, не учи нуба плохому. Так я хорошему научил. Плохому это если бы я факас посоветовал и бредпитта в негатив. >Если он захочет стать красноглазиком, трахающимся со спаггети, он сам до этого доберется, когда-нибудь. Ты ангажированная рваная попа, мог бы удержать свою ненависть к CT лорам и лучшему UI, но нет, тебе обязательно надо пердануть свое мнение, когда ситуация буквально петух и микрофон - тебя не спрашивали. >Но новичкам я бы эту штуку не советовал категорически. Если бы мне так расписали года три назад, то я был бы очень рад и меньше бы человекочасов потратил на генерацию хуиты, так что твое мнение инвалидно, можешь в курсе не держать. >Особенно - дмд и прочие лоры-ускоряки, ебущие качество картинки. Зато быстро! Какое нахуй ебущие качество картинки, ты вообще там ебнулся? Ты вообще понимаешь как работают CT лоры? Инфа сотка что нет. Выдача другая, нежели классик метод промтинга, но она не ебет качество (весь сд тред на дмд сидит, рвись не рвись но это факт), она просто работает эффективнее и по другому достигает минимумов. Единственное что конкретно дмд может ебать это учитывание токенов, т.к. конечные токены учитываются лучше при большом разнообразии. >Лучше уж ДипКэш юзать Не лучше.
>>1040990 >Так я хорошему научил. Нет. >и лучшему UI Кекнул. >года три назад А шо, комфи тогда уже был? Или ускоряки эти дрянные? Ты научился во времени путешествовать? >весь сд тред на дмд сидит Ну это, конечно, отличная демонстрация "качества" получается, да. Посмотришь на картинки там, и глаза порой вытекают. >Не лучше. Держи в курсе.
Где можно погонять препроцессоры контролнета так чтобы экспортировать картинку? Нужен либо онлайн либо что-то простое, без установки питона и питорча. Перехожу на минимализм в SDCPP, но там встроенный препроцессор только на canny, а остальное нужно откуда-то брать.
>>1041112 >Неть >Кекнул)) >Хрюк >субъективщина >пук Иди на хуй кароч в окно прыгни рыбкой, факас. Очевидные вещи я тебе объяснять не собираюсь и продолжать унижать тебя лень. Можно было бы дальше затирать про то что такое процесс дистилляции модели и производные из них лоры, почему турбо дистиллят от стабилити вытягивает фигуры при генерации не в разрешение, почему плохо дистиллируется dit модель и проще перетренить новую как сделали стабилити с медиумом, почему не делаю дистилляцию по типу DC-Solver и прочие приколы, но ты видимо даже не в курсе зачем вообще изначально существуют ct лоры - чтобы в лайвмоде рисовать с помощью нейронки и иметь максимальную консистенцию для семплера на который надрочена ct по таймстепам; со своим обосранным дипкешем (который суть те же укорачивания векторов по таймстепам, но без дистилляции путей) можешь хуй пойти соснуть, который ни скорости не дает, ни стабильности, его настроенный raunet ебет с MSWMSA атеншнером. Свободен.
>>1041043 О, а ты прав оказывается, никогда не задумывался о таком, настолько привык к токен промптингу:
Базовая SDXL модель обучалась на огромном наборе пар «текст–изображение», где текстовые описания предоставлялись в их естественной, полноформатной форме. Это означает, что в исходных данных использовались полноценные описательные предложения, а не просто наборы токенов, разделённых запятыми.
Тексты, использованные при обучении, представляли собой естественные описания изображений. Обычно это полноценные предложения или фразы, отражающие смысл изображения, а не искусственно разделённые списки ключевых слов.
Естественно сформулированные описания обрабатываются токенизатором модели, который разбивает текст на токены (единицы, понятные модели). При этом модель не «видит» запятые как отдельный метод структурирования информации — она работает с токенизированным представлением исходного текста, каким бы он ни был (предложение или список).
Хотя при генерации изображений пользователи могут экспериментировать с различными стилями промптов (например, перечисления через запятые для акцентирования внимания на отдельных деталях), именно в обучающих данных использовались естественные, описательные тексты. То есть стиль промпта, который сейчас популярен в сообществе для управления весом элементов описания, не является отражением того, как модель изначально обучалась.
Таким образом, базовая SDXL модель обучалась на полноценных описаниях изображений, а не на искусственно разделённых запятыми токенах.
>>1040810 >картинки описывает долго но качественно зато Прогнал 60 картинок, ушло 22 минуты, неплохо, описания очень хорошие даже править ничего не нужно.
>>1041555 >в окно прыгни рыбкой, факас. На мамку твою рыбкой запрыгнул, утром проверишь. А ты чего в ответ ждал?
>я тебе объяснять не собираюсь Какая-то тарабарщина на вскукарекском, в попытке показаться умным. Взял бы, да продемонстрировал работу своих ускоряк на практике, делов то. Промпт\настройки, грид до, грид после, затраченное время. Но этого, понятное дело, не будет. Все, сгенеренное с этими лорами-ускоряками, что я пока видел, было либо арефаченным\размазанным говном, либо лютым черрипиком, либо улучшение изначальной "быстрой" генерации без подключения ускоряк, либо такие танцы с бубном, что лучше уж без них вообще. Можешь? Переубеди.
При этом сокращение времени генерации с дипкэшом я у себя отлично вижу. А заодно вижу сохранение 95% исходной картинки, нулевое изменение параметров генерации (негатива, цфг, сэмплеров/шэдулеров). Включил - и работает.
>>1040588 По какому-нибудь гайду ставишь автоматик/фордж и пытаешься генерировать. Если пердоля и не пугаешься инфернальных node-based-ui - ставь комфи, невольно быстрее освоишь что к чему и как устроено. Ссылку неплохую дали тебе. Главное помни что dmd и прочие ускорялки - сделка я дьяволом, ускорение дается ценой побочных эффектов и деградации. Если есть возможность - хотябы для начала откажись от них, а потом уже сам решишь. >>1040603 > Скачиваешь с гитхаба koboldcpp > вкат в SD Надеюсь ты тралишь, хуже совет не придумаешь. >>1040810 Обозначь какие картинки собрался тегать и для какой модели их юзать. Джойкапшн слабый, на выбранные параметры кладет болт и неточный, но для простых вещей типа "протегать еот" хватит. >>1041043 Имея окно в 75 токенов особо не насрешь шизопромтами, хотя некоторые пытаются. >>1041580 > наборы токенов > разделённых запятыми Чето проиграл, скоро тензоры двоеточиями начнут разделять. > обучалась на полноценных описаниях изображений Ты загляни из интереса в датасет. Там буквально: > A photo of a black cat описания преимущественно короткие, а смысловую часть занимают отдельные слова, разделения запятыми тоже много. Можешь еще как устроен clip ознакомиться. > При этом модель не «видит» запятые как отдельный метод структурирования информации Полнейший пиздеж, наоборот после тренировки они ими и становятся, а энкодер прекрасно их воспринимает, поскольку на них приходится отдельный токен. Не верь слепо выдаче языковых моделей в таких специфичных вопросах, особенно когда сам дал наводящий вопрос.
>>1042048 >наоборот после тренировки они ими и становятся, а энкодер прекрасно их воспринимает, поскольку на них приходится отдельный токен >модель не «видит» запятые как отдельный метод структурирования информации — она работает с токенизированным представлением исходного текста, каким бы он ни был Так гпт это и сказало.
>>1042050 Сформулировано оче расплывчато, типа не видит, но с токенизированным представлением работает. А дальше трактуй как хочешь, можно уцепиться и доказывать что не являются. По факту элементарный пример: "cowboy shot" и "cowboy, shot" на нормальной модели дадут совершенно разные результаты. Если что радикально за строго буру-стайл не агитирую, но лучше уж так, чем шизоидные полотна ни о чем. >>1042052 Очевидно, придется помучаться и подкручивать, чтобы подобрать доказательную базу, где дмд даст явный буст без сопутствующих приколов. Проще насрать терминами и апеллировать к вырванным из контекста фразам, пыжась и пытаясь напугать.
>>1042052 Ты же петушок на спецзадании, будешь отрицать все что угодно, тебя ток обоссывать надо, а не доказывать что-либо.
>>1042056 >Очевидно, придется помучаться и подкручивать, чтобы подобрать доказательную базу, где дмд даст явный буст без сопутствующих приколов. Не нихуя подобного, у меня дмд по дефолту включен, я с ним и лоры тесчу т.к. он дотягивает до нужной кондиции недотрены, и просто так, постоянно. То что у вас двоих на самом деле скорее всего семена трясет культ ненависти к дмд - только ваш скилл ишуе. >Проще насрать терминами и апеллировать к вырванным из контекста фразам, пыжась и пытаясь напугать. Терпи.
>>1042056 >Проще насрать терминами и апеллировать к вырванным из контекста фразам, пыжась и пытаясь напугать. Всё так. C "напугать" у него, правда, не получилось.
>>1042105 >на спецзадании Вау! Теории заговора и сюда добрались? Кто бы мог подумать... Оказывается, есть те, кто получает "спецзадания", чтоб негативный пиар таким крутым и полезным ускорякам делать? Где записаться можно, сколько платят? >у меня дмд по дефолту включен А, так ты уже и забыл, как нормальные гены выглядят. Тогда да, разницы ты действительно не увидишь. >только ваш скилл ишуе. И тут у нас обычная отмаза. У всех поголовно скилл ишью, один ты такой умный красивый, в белом пальто стоишь, на дмд дрочишь, и у тебя всё крутяк.
>>1042105 > у меня дмд по дефолту включен По тебе видно, лол. И скиллы в поломанном и2и с лишними пальцами и артефактами узнаются. > дотягивает до нужной кондиции недотрены Делает типикал прожарку, чем создает иллюзию, хотя где-то может ролять. Но то что ты пользуешься какими-то "недотренами" это уже говорит о многом. > культ ненависти к дмд Костыль со своими плюсами и минусами, на него всем похуй. А ненависть - к долбоебам, которые в оправдании своей всратости настолько преисполнились, что стали агрессивно агитировать за свои любимые костыли и форсить "тольковыиграли". Да и просто пиздаболов никто не любит. >>1042423 > C "напугать" у него, правда, не получилось. Чего еще с залетного дмд-шиза ожидать, только дозу кринжа привнес.
Пиздец у вас тут высокоинтеллектуальные беседы, прям будто всё те же два озлобленных на мир анонима из соседнего треда и тут сидят.
>>1042423 > забыл, как нормальные гены выглядят Я тут мимо проходил, пока ОП другого треда пропал, но всё еще помню, что нормальные от ускоренных отличаются примерно, как 20 секунд отличаются от 3-х минут. А что касается того, как они выглядят, то их на цивите под каждой моделью полно, не могут же там только и исключительно безрукие постить.
>>1043051 Ну ок. Допустим там на цивите только криворукие новички, которые не могут совладать с моделью. Но в сд-треде же давно сидит мастер, который в отличие от всех остальных точно знает, как что работает и как получать качественные картинки без еретических лор. Почему он не постит годноту на чистой модели без ускорялок, а только поливает ведрами хейта всё, что ему кажется дмд (именно кажется, промахов у него не меньше, чем попаданий)? Если бы он реально мог что-то качественное сделать на голой модели, то выкладывал бы нормальные гены, а не только текст или явно намеренно всратые пики.
>>1042961 >>1043071 Да не разгоняй дальше срач, этот обосрыш как вошел в режим спецзадания в сд треде, так и не вышел из него итт, только хрюкает, агрится с "умных слов" и на понт берет, такого ток по ебалу хлестать хуем.
>>1043671 Ты промазал. Нас тут минимум двое. А может, даже и трое, хе-хе.
>этот обосрыш как вошел в режим спецзадания в сд треде Какой же ты шиз. Я в сд-тред уже и забыл, когда последний раз писал. Особенно смешно выглядит твои задвиги про "спецзадания". Совсем кукухой поехал. >и на понт берет Ну да, ведь продемонстрировать преимущество твоей любимой технологии так сложно, так сложно неиронично, но да. Вместо всего этого срача можно было бы сделать наглядное сравнение генов, жидко облажаться, и мы бы закрыли тему.
А в чем собственно конкретно заключается high-res fix, изображение тупо апскейлится и затем делается img2img по квадратам с низким денойзом и одинаковым сидом?
>>1043813 Увеличивается размер, добавляется шум, снова обрабатывается моделью. Сид один на оба пика (хотя можно и поменять), денойз ты сам задаешь, как и апскейлер. Можно латент, можно ГАН, можно ДАТ. Базово - латент. По-умолчанию картинка обрабатывается одним куском, без разбиения на тайлы. Но и тут можно всякого наворотить, при желании.
>>1043865 А промт из оригинала? >По-умолчанию картинка обрабатывается одним куском, без разбиения на тайлы. Странно, я всегда думал что там по тайлам. Пытаюсь воспроизвести хайрес в SDCPP
>>1043813 Тема загадочная, потому что хотя вроде все и так просто, но старый хайрез фикс работал по-другому, и новый так и не может его воссоздать ни на каком апскейлере. Только откат в старую версию webui помогает. Квадратов вроде там не было, это в SD Upscale они. Хайрез вроде как апскейлит в латентном представлении (пикселей еще нет, но есть все детали от генерации первого пасса), поэтому он может добавить больше деталей чем img2img, и потом переводит в пиксели. Img2img же работает уже на пикселях (вся инфа от первого пасса утрачена), переводит эту пиксельную модель в латентное представление, апскейлит и потом обратно. Поэтому по идее Hires fix должен получать изображения лучшего качества, чем img2img, т.к. у него информации от первого пасса больше. На практике однако зачастую можно лучших результатов все равно в img2img добиться.
>>1043887 >На практике однако если использовать одни и те же настройки, получается плюс-минус одинаково. Сходство картинок процентов 90-95, если не все 99. По крайней мере, из моего опыта.
>>1043897 Латентные апскейлеры работают в латентном пространстве, так что они больше деталей могут добавить, которые другие апскейлеры не смогут. И изображения не могут быть полностью схожими, у них разная изначальная информация. Пример на пике, у хайреза был доступ к латентной модели, он ее не пересобирал из пикселей, поэтому смог нормально заапскейлить лису. Но часто это ведет и к нежелательным результатам, изображение слишком сильно меняется.
>>1043897 Забыл написать, разница только если Upscaler Latent (их там штук 6). Если другой апскейлер, разницы между img2img и Hires fix может и правда не быть - латентное представление тогда не используется, как и все его преимущества-недостатки для Hires fix.
>>1043793 >Ты промазал. Нас тут минимум двое. Ну значит это твой однояйцевый братишка, и у вас один моск на двоих. >А может, даже и трое А может бесконечность, хуль, ты о себе во множественном чесле пиздишь весь тред, шизоид. >Какой же ты шиз. Я в сд-тред уже и забыл, когда последний раз писал. А воняешь как будто ток обосрался. >Особенно смешно выглядит твои задвиги про "спецзадания". Так буквально поведение у тебя такое. Корректируй поведение чтобы не ссали за шиворот. >ведь продемонстрировать преимущество твоей любимой технологии так сложно, так сложно >неиронично, но да >Вместо всего этого срача можно было бы сделать наглядное сравнение генов >жидко облажаться Ну вот видишь, типикал спецзадание, ты уже сформировал мнение, сам себя подтвердил и пытаешься чето на понт взять. Ну и какой смысл с тобой дискутировать? Ты же натуральный скот с фиксацией на сверхценной идее, тебе хоть миллиард пруфов кинь - ты будешь врети орать как резаная свинья. Че думаешь я первый раз на двач зашел? Вас таких уебищ по всему двачу вагон гоняет, мобильный пункт вытирания хуёв прям. Так что вместо понтов ты ничего не получишь, даже не пытайся хрюкать. >и мы бы закрыли тему. Она уже закрыта была, когда ты вытащил хуй изо рта и проперделся своим первым постом в мою сторону. Терпи, обтекай.
>>1043946 >>1043966 По идее, и2и тоже имеет возможность апскейла через латент, но я, если честно, не совсем шарю, как оно там работает.
Как пример: Первый пик - чистый вывод. Второй пик - апскейл латентом, х1.5, 0.6 денойз, в хайрезфиксе. Третий пик - апскейл латентом, х1.5, 0.6 денойз, но в и2и, на том же сиде.
Как видишь, различий не очень много, но хайрез все-же чуть поточнее. А может просто сид неудачный.
>>1043071 > только криворукие новички, которые не могут совладать с моделью Среди них много опытных "новичков", наворачивающих слоп не первый год. Это уже мемная классика, когда юзер с десятками-сотнями тысяч запощенных пикч берет какую-то сложную лору под конкретную модель из современных, и пытается натянуть ее на пони с кучей мусорных тегов и шизопромтом. Получается отвратительно, но он старается изо всех сил, постя подряд десятки таких. > Почему он не постит годноту на чистой модели без ускорялок Приходи в анимублядский, большинство пикч там именно такие. Дедовскими не интересуюсь, но полагаю и там найдутся приличные. >>1043671 Дмд шиз как есть, окружен но не сломлен. Твоя позиция - оправдание всратой ускорялки любой ценой. Ты в этом так заинтересован потому что считаешь свои генерации и прочее серьезным навыком и достижением, любая критика используемых средств - личное оскорбление, какое-либо признание недостатков - экзистенциальный кризис. Окружающие лишь говорят - у дмд есть проблемы, не стоит советовать ее новичкам как панацею и врать. Но ты, вместо того чтобы согласиться с фактом - лишь исходишь на говно и дерейлишь, скатывая все в срач. А потом начинаются апелляции и маневры, чтобы побольше запутать. Со стороны все видно, бонусом можно зоонаблюдать за поехом. >>1043813 В том чтобы получить апскейл сразу/одной кнопкой, а не отправлять на другую вкладку и там нажимать лишние кнопки. > затем делается img2img по квадратам Нет, тайл един > по квадратам С сохранением соотношения сторон > с низким денойзом С тем, который выставишь. >>1044052 Мусор, сгинь
>>1043887 > апскейлит в латентном представлении Но в этом случае нужно много денойза, чтобы выравнять картинку после апскейла латента. Больше денойза - больше отличия от оригинала. Если переводить в пиксели, то можно хоть 0.01 денойза ставить и получать хуйню, но в этом случае разницы между хайрезфиксом и имг2имг нет. Чел с твоего скрина нихуя не понял, не слушай его. Там обычный апскейл в пикселях был (lanczos скорее всего) до ломающего обновления.
>>1044262 > Приходи в анимублядский Это друго Я нихуя не эксперт по аниме, но разве там не должно быть наоборот меньше деталей? По крайней мере из того, что я смотрел, там вообще в основном контуры раскрашенные на крупных планах и в лучшем случае овал с двумя точками вместо глаз на широких. В том смысле, что даже недоделанный пик на малых шагах будет вполне выглядеть, как обычное аниме.
Я конечно понимаю, что можно улучшить изображение (3-4) без ускорялок, если еще добавить шагов/поставить другой (более медленный) семплер, добавить PAG/SAG/FreeU и еще кучу плюшек, которые и дополнительный врам жрут, и замедляют генерацию, но никто этого не делает же, кроме очень немногих владельцев 4090. А так - разница между ускоренным геном и нормальным - это 26 секунд на 8 шагов против 140 секунд на 30 шагов, и это еще без апскейла, а цвета/контраст можно и в пикселях поправить при необходимости.
>>1043813 Чтобы на тайлы бить, есть Tiled Diffusion в фордже, например. Но когда я его последний раз открывал, там не было возможности включить только для хайрез.фикса, чтобы изначальный пик не разворотило, но можно было подобрать размер тайлов так, чтобы изначальная генерация влезала в один тайл.
>>1044575 > не должно быть наоборот меньше деталей Больше, упрощение отдельных элементов не особо помогает и ставит повышенные требования к остальным и в целом к качеству исполнения. Это суждение ошибочно. Проявление еще сильно зависит от того, что именно генерировать. Если там изначально парящий в воздухе вангерл-ситтинг на фоне мыльного коричневого нейрошума под дерево, то отличия будут несущественными. Если захочешь посложнее позу, нормальный фон, не коричневое мыло с мутными частицами - сразу открывается горькая правда о том, что вариативность пикч ушла, качество просело, проблемы с когерентностью стали еще более явными. > 26 секунд на 8 шагов против 140 секунд на 30 шагов Это 1060? В случае слабого железа в ускорялках нет ничего осудительного, особенно если приноровишься их использовать и выключать где надо, или "обыгрывать" недостатки. Да и впринципе на любом, если нашел необычное применение чему-то и достигаешь результата, то это хорошо. Плохо когда начинают затирать о том что черное - это белое в оправдание горькой действительности, и даже делают из этого культ. > но никто этого не делает же Не хочу нарушать коупинг, но большинство имеет видеокарту и даже генерит сразу с хайрезфиксом, адетейлером и прочим.
>>1044616 > Больше, упрощение отдельных элементов не особо помогает и ставит повышенные требования к остальным и в целом к качеству исполнения. Ну я про само аниме говорил, а не про генерции. На генерациях деталей в триллион раз больше у всех почти. Там от аниме только пропорции и глаза остались. > большинство имеет видеокарту и даже генерит сразу с хайрезфиксом, адетейлером и прочим Я не знаю, как там в аниме-треде, но на цивите даже с 4090 (судя по размеру некоторых пикч и ген.инфо/воркфлоу) генерят без всего, кроме хайрезфикса или его аналога в комфи, тупо брутфорсят на карасях увеличением шагов, результаты соответствующие. Врочем заглянул в аниме-тред, там вообще первым же постом недоденойзенный латент хайрезфикс, а дальше по треду такие же обычные генерации, как и сд-треде, без инпейнта/адетейлера. Так что я не знаю, про какой коупинг ты говоришь. Большинство может и имеет видеокарту, но не имеет желания её использовать, не то чтобы для вытягивания деталей, но даже для выправления разливов от латентного апскейла. Доделанные пики встречаются, но похоже, что не чаще, чем в общем сд-треде.
>>1044728 Путаешь скриншоты из массово-производимого видео и цифровой арт. > на цивите Всеравно что у бабы сраки, там есть юзернеймы как что реально делают что-то интересное, так и просто штампователи нейрослопа. Размер воркфлоу и разрешение не завязаны на видеокарту. > про какой коупинг ты говоришь Вот в целом про твой пост. Если разбирать по частям - говоришь ерунду и не шаришь. Если в общем то это просто заход в поиске до чего бы доебаться и опровергнуть, чтобы потом выстроить линию защиты и начать искажать себе в угоду. Иди траву потрогай и найди работу чтобы купить железо, сразу отпустит.
>>1044493 Латентные апскейлеры только с большим денойзом работают, это да. Поэтому в ютубе встречал народ, кто рекомендует их вообще не пользовать. Зато если удачно сгенерится, деталей у латентного апскейлера больше остается. В случае хайрез фикса еще и вариантов побольше, там целых 6 латентных апскейлеров на выбор. У имг2имг вроде только один, да и тот с обратно конвертированной моделью работает.
>>1044745 > не шаришь > до чего бы доебаться и опровергнуть > Иди траву потрогай тебя аж на один почти целый пост хватило, чтобы не скатываться до своей стандартной манеры общения. и чего ты пиздел, что в неаниме тред не заходишь, если ты там сутками напролет в каждом треде щитпостишь?
Аноны, может кто помочь? Пытаюсь накатить LoRA_Easy_Training_Scripts, все собсно по инструкции с пикрелейт2, однако получаю пикрелейт1. Что с этим делать? Или пришло время переустанавливать шиндовс? Питон 3.11.0, с 3.10 то же самое.
>>1045641 Диск не забит и вроде целый. Сам путь путь .cache\huggingface\ вот этот вот акселерейт должен быть просто файлом? В консоли выглядит так как будто это должна быть папка, а в ней уже дефолт_конфиг.yaml. А тут что то непонятное.
>>1045658 А нет, все равно нихуя не работает. При попытке запустить обучение пикрелейт. Это уже точно хрен его знает как чинить. Кто нибудь сталкивался?
>>1045663 Ебать магия нахуй. Оно таки запустилось после отключения всех видеоадаптеров, кроме основной карты и встройки, однако теперь ебашит какие то nan found in latents. Раньше количество адаптеров на работу не влияло.
>>1045635 >мимо попроси контакты у второго анимедебила, у вас наконецто будет реальный секс >лучше лучше? анимедебил - это приговор, диагноз, надгробие, это синоним навязчивости, незрелости и чрезмерной фиксации на чем-либо, например анимедебилы часто топят за какую-то иррациональную деструктивную хуйню, бессмысленный шитпост (анимедебилы не велезают из дока2 треда, т.к. там можно невозбранно шитпостить) просто чтобы вызвать какую-то реакцию или самоутвердиться исходя из каких-то своих особых критериев самоутвереждения, анимедебилы часто фажат по пероналиям и персонажам, спорить с анимедебилами бесполезно, это как спорить с пациентами с канала медфильм
в разрезе этой доски стандартный анимедебил обычно педалирует за фукас, ненавидит комфи, не любит т.н. "дедомодели" и реалистики в целом, не любит убыстрялки инференса, любит раздавать советы когда о советах не спрашивают, посты оформлены в ультимативной форме с использованием тонны пассивной агрессии, т.к. анимедебил из-за болезни искренне считает свою позицию истинной
собсно поэтому у анимешизов свой отдельный загон, но анимешизы иногда протекают в сдтред и повизгивают итт
>>1045633 Выглядит как запуск от админа. Если запускать от админа то оно все в систем32 переносит и оттуда запускает, следовательно пути к которым ссылает скрипт могут проебаться. Либо виртуал енвайронмент делай отдельно, либо просто запускай без админа чтобы использовался локальный питон. >>1045736 > однако теперь ебашит какие то nan found in latents у тя слишком маленький лосс, ошибка градиентов и деление на ноль, здоровый лосс должен быть примерно между 0.05-0.15
>>1045856 Ну епты, оно же входит в диапазон 0.05-0.15, нормальный лосс.
Так для справки: стабильное обучение на >0.15 это стопроцентное переобучение и бесформенные блобы и шум, что закрывает тебе возможность применять лору на 100% весе, надо будет понижать влияние. Лосс меньше 0.05 просто неэффективен и времязатраты гигантские, плюс ошибки как у тебя, но у тебя прямо микроскопический лосс. Чем ниже лосс, тем больше получается что-то похожее на датасет и веса оригинальной модели, чем выше лосс, тем дальше от датасета и больше нойза.
Но есть исключение допустим с настроенным хубером на snr и мин_снр_гаммой 1 можно долго и упорно дрочить тренировку примерно на уровне 0.02-0.03 и оно даже спустя долгое время будет эффективно.
>>1045819 >дмд-шиз -это приговор, диагноз, надгробие, это синоним навязчивости, незрелости и чрезмерной фиксации на чем-либо, например дмд-шизы часто топят за какую-то иррациональную деструктивную хуйню, бессмысленный шитпост (дмд-шизы не велезают из дедотреда, т.к. там можно невозбранно шитпостить) просто чтобы вызвать какую-то реакцию или самоутвердиться исходя из каких-то своих особых критериев самоутвереждения, спорить с дмд-шизами бесполезно, это как спорить с пациентами с канала медфильм Буквально себя описал.
Остальное уже не стал переписывать, ведь буквально 1 в 1 всё.
>>1045736 ты конфиг асселератора делал? если да, выстави там только одну карточку. возможно у тебя по умолчанию сразу несколько установлено. или выстави с помощь: export CUDA_VISIBLE_DEVICES=0 в сосноли, где цифра - ид твоего гпу.
>>1045400 > шизику везде мерещатся его йобыри К такому мусору даже притрагиваться неприятно >>1045554 Дмд-шавка гавчет на всех, кто смеет критиковать его прелесть. Пинком под жопу кабысдоха. >>1045736 Сохранил это комбо девайсов. Если вдруг ты наносек - не хочешь от интела видюху купить или у друзей взять ради скриншота? Чтобы не отключать девайсы - можно указать cuda_visible_devices, но еще лучше в конфигурации акселерейта сразу обозначить номер 4090. > nan found in latents Используешь встроенное в модель vae? Там есть опции с no half, но лучше укажи путь к пофикшенному, и очисти имеющийся кэш. Из-за поломанных латентов и лосс так улетел.
Короче, наконец-то поставил комфи. Накидайте мне что ли всяких охуительных идеи для реализации. Мне все равно надоело генерировать однообразные нейрокартинки, я хочу поиграть с нодами в нейросетевое факторио и запустить нейросетевую ракету.
>>1048321 любая модель может в текстуры, даже порнофайнтюны если нужны текстуры по референсу то можно подключить ипадаптер и обгенериться ими тайлы бесщовные тоже через расширения всякие делаются в зависимости от UI
Столкнулся с тем, что резюм тренинг как-то ебануто работает с моим флоу тренировки, то есть он вообще не работает, тренировка продолжается, а результат последующей эпохи после стопа полностью в говне как и следующие после него, чего не происходит при непрерывной тренировке. Вероятно это проблема заумных настроек, некоторые из которых стейт не сохраняет.
Поэтому я попробовал методу, когда промежуток сливается с моделью и тренировка запускается с новой полученной базой, и знаете что, результат схождения прям очень хороший получается и даже быстрее получается (то есть буквально вместо 20 эпох последовательно более лучший результ дает 5 эпох+мердж+новые 5 эпох) и стабильнее в разы (процент артефактов и непопадания в токены снижается очень). Странно почему я раньше не пробовал так делать, хотя в курсе был о таком методе.
Правда есть небольшие минусы в том, что: а) надо смешивать друг с другом лоры/с моделями полученные или экстрагировать финальную из модели потом. Сейчас тестовый конфиг этапов обучения выглядит как модель+бутерброд лор из дополнительных стейджей тренировки. б) текстовый енкодер в одном случае хорошо выключать, в другом включать, при этом он тренируется в обоих стейджах; очевидно если задача сделать новую полную модель то разницы особой нет, но если надо выдрочить лору именно, то можно долго тасовать параметры применения; еще SVD между стейджами лор интересный эффект дает.
Плюсы наверно очевидны: можно на ходу править настройки стейджей и получать еще более похожий на полноценный файнтюн результат, даже смена сида существенно расширяет пространство влияния. Оно в принципе и так похоже на файнтюн с моей комбинацией из gLoRA (с функцией тренировки нормализационных слоёв, что почему-то большинство игнорирует судя по тем обсуждениям что я читал, хотя нормы тренируются во всех алгоритмах если нужно) и DoRA декомпрессии, которая не разрушает основную структуру модели, как в случае с обычнолорами модифицирующими веса напрямую непредсказуемо (W ′=W+γ⋅∥ΔW∥ΔW вместо W′ =W+ΔW).
Пост чисто для себя чтобы собрать в кучку мыслишки.
>>1048750 Кстати, заметил еще в одном из гайдов из шапки есть строчка "Ранги (network_dim) выше 32 избыточны и не рекомендуются для простых тренировок, 16 хватит для 95% датасетов, даже с несколькими концептами внутри.".
Опытным путем было проверено и выяснено что общее качество и генерализация и точность от повышения размерности растет, причем не просто очень заметно, а прямо другие более лучшие модели выходят, даже на маленьких датасетах. Тестировал на той же конфе из gLoRA+DoRA, вплоть до 128/128 по нетворку и конволюшенам без какого-либо снижения влияния через альфу. Так что имейте в виду, что больше параметров в любом случае лучше и советы по настройкам под конкретные задачи уровня бабу на 8 дим, Eldritch abominations на 128 дим - это какая-то ситуативная шляпа и субъективизм конкретно используемого locon без доп фич.
Будучи художником, заметил огромный недостаток визуал. датасетов: узкое понимание абстрактных концепций. Казалось бы, мало того, что с деталями проблемы. Так, например, совершенно не понимают "мести/давления общества/рутины" и т. д. и их визуализаций (для "мести" допустим, два человека, и один как-то подсирает другому). Объясняется просто: "на чём учишь, то и получишь". Визуал. датасет тэгируется очень плоско. Лингвистические же, например, модели включают субъективные точки зрения (формируя объективность), а модели-визуализаторы нет. По крайней мере на уровне идей и концепций. Я вот, как клиент, хочу писать СМЫСЛ, который должен быть в работу вложен (хотя можно поспорить, что спрос рождает предложение, и у меня слишком высокие стандарты). В общем, решил попробовать фиксить это лорой. Тэгать датасет буду, вручную, следуя такой формуле: (Триггер-слово, Какие чувства вызывает, Какая идея заложена, Кто, Какой (характер?), Что происходит, Визуальный стиль) Знаю, что ебанусь руками это делать, но уверен, что оно окупится. Короче, оцените задумку от 0 до 10 и разъебите по фактам, если я неправ. Дайте совет какой. Может ещё подскажете концептуальные датасет где брать? А то как-то непросто искать что-то сос мыслом.
>>1049087 Почему? Если у фреймворка и модели достаточно параметров, это не проблема. Хотя я могу быть и не прав. На цивите видел пару концептов "символизима/психоделик" и работали они достаточно предсказуемо в качестве вспомогательного инструмента. С узкими концепциями справляется вообще отлично (напр., высунутый язык, homeless пикрил), а я ведь тоже самое сделать хочу - задать определённому смыслу определённую визуализацию. Оно и так "абстрактные" концепции воссоздать может, только требует слишком много внешнего (ака неконтролируемого) контекста (так со свободой очень хорошо дела обстоят, и сетка даже понимает связь свобода - полёт). А лора, как я понял, этим и занимается, что раскидывает контекст по более узким веткам. Условно, если "одиночество", то всегда "solo"; если "рукопожатие" это всегда не менее "2persons". Короч, дипсик оценила идею на 8/10 сняв два балла за сложность ручного тэгирования. Но я решу эту проблему развёрткой своего "концептуального" буру (booru, right?). Тут другие проблемы появляются, но оно уже второстепенно.
>>1049066 Твоя идея похожа на эстетик скоринг (эстетика это тоже субъективная оценка), но с другой концепцией. В идеале надо было бы обучать смысловой скорер отдельно и его использовать на датасете, не думаю что подобным ты будешь заниматься. А так идея нормальная, все получится.
>>1049109 >так со свободой очень хорошо дела обстоят, и сетка даже понимает связь свобода - полёт Это не сетка понимает. Это люди так понимают, и в основном это и рисуют. А там уже связности текст-картинка подключились, когда это через ЛЛМ тэгать начали. Все эти "риски атмфосфер" и прочая пурпурная проза, которой современные модели промпт засирают вот уж не думал, что кому-то этот хлам пригодится. Т.е. технически оно, может быть, и реализуемо, но будет сложно это все в кучу собрать и заставить работать.
>>1049109 >Если у фреймворка и модели достаточно параметров, это не проблема. Само собой. Но тренировать х10 флюкса ты не осилишь. >Оно и так "абстрактные" концепции воссоздать может, только требует слишком много внешнего (ака неконтролируемого) контекста Это и есть правильный путь, раскидывать сложные вещи по разным инструментам. >А лора, как я понял, этим и занимается, что раскидывает контекст по более узким веткам. Тут нужно больше контроля, и, желательно, ЛЛМ, которая будет разворачивать твои концепции "Лишение девственности в лесу медведем" в развёрнутое описание.
>>1049248 Спасибо за мотивацию и наводку! Да, по большей части автоматизирую процесс (по основным тэгам), но "человечкий" взгляд только отточит это дело. Сейчас только вопрос, как буру контрибуторов привлечь, но это уже тема не для этой ветки. Думал, на своём сайте развернуть и участникам какие-нибудь плюшки давать. Какие? Вопрос. Пока ничего кроме своих каких-то рисунков предложить не могу. Другое дело, что оно никому не надо.
>>1049334 Я наоборот это слово заменил спецом, чтоб меня в духоте не обвинили. Теперь понял, что оказался прав так сделав, лол. Ну ты базу выдал, хотя это и так очевидно. Короче, ничего информативного.
>>1049556 А что с флюксом не так? >раскидывать сложные вещи по разным инструментам Да конечно, я понимаю о чем ты. Так нормальные люди и делают: просят жпт написать промпт с развёрткой идеи. Вот только на моей практике оно даже так редко попадало в концепта (эмоциональный?) В общем, я сейчас топлю за то, что самый лучший результат будет и с детальными промптами и если сетка уловит вероятности концепта.
>больше контроля Вопрос скорее всего тупой, но я всё равно спрошу. Правильно я понимаю, что если вместо клипа энкодера подключу какой-то другой, результат может стать лучше? Давно в голове крутится, что если бы можно было как-то энкодер условного дипсика (то есть всю часть до момента, где токены в вектора семантики преобразются) впихнуть, и эти вектора уже отправлять дальше. Ну потому что для меня это звучит как нечто само собой разумеющееся, и не понятно, почему оно до сих пор так не сделано. Так что скорее всего я тупой, и не понимаю каких-то тонкостей и почему так сделать нельзя. Это уже я на какую-то гибридную архитектуру замахиваюсь?
>>1049951 >если бы можно было как-то энкодер условного дипсика Это не так работает. >Так что скорее всего я тупой, и не понимаю каких-то тонкостей и почему так сделать нельзя. Да. В ллмках нет энкодера. А если использовать саму ллм как энкодер, далеко не факт что получится что-то хорошее. Может быть можно взять от ллм более лучшее понимание семантики промта, но не более. Для диффузионки энкодер это как просто генератор ключей, от него она не то что бы дохуя информации получает.
Чтобы нейронка могла понимать высокие абстракции, так как ты хочешь, нужен вообще какой-то более продвинутый способ тренировки. Типа соединять ллмку через какой-нибудь контролнет с диффузией и тренировать вместе.
>>1049960 Да, я поплыл, но теперь совершенно точно все понял. Хоть меня и ввело в зублужление то, что "у ллм нет энкодера". Он же есть как паттерн, просто теперь никому нахуй не нужен. И даже уже нарыл кое чего.
Семантический мост 1. LLM -> Эмбеддинг: Лингвистическая модель преобразует текстовое описание концепции в эмбеддинг. В данном случае, раз LLM без энкодера, вы будете использовать выход последнего слоя декодера в качестве эмбеддинга. 2. Visual NN + Эмбеддинг: Визуальная нейросеть принимает эмбеддинг как часть входных данных. 3. LoRA + Концепт -> Визуал: LoRA (или другой метод адаптации) "обучает" Visual NN генерировать изображения, соответствующие концепции, представленной эмбеддингом.
>>1049951 >А что с флюксом не так? В дефолте едва вмещается в 24ГБ врама. >Давно в голове крутится, что если бы можно было как-то энкодер условного дипсика И снова флюкс (или SD3)? Там правда t5xxl. Ну и для всего этого нужно совместное обучение. >>1049960 >Типа соединять ллмку через какой-нибудь контролнет с диффузией и тренировать вместе. А вот это верно, про это я и пишу, говоря о большем контроле.
>>1050019 >>1049960 Ля, я не понимаю. Мы все про одно и тоже говорим или я про что-то другое? Ну вот эмбеддинги через контролнет пустить? Или вы всё ещё говорите про способ, в котором ллм просто раскрывает концепт, а не связана семантически напрямую?
>>1049987 > Семантический мост > 1. LLM -> Эмбеддинг: Лингвистическая модель преобразует текстовое описание концепции в эмбеддинг. В данном случае, раз LLM без энкодера, вы будете использовать выход последнего слоя декодера в качестве эмбеддинга. > 2. Visual NN + Эмбеддинг: Визуальная нейросеть принимает эмбеддинг как часть входных данных. > 3. LoRA + Концепт -> Визуал: LoRA (или другой метод адаптации) "обучает" Visual NN генерировать изображения, соответствующие концепции, представленной эмбеддингом. Выход последнего слоя ллм в качестве эмбедингов - говно. В нем нет полезной информации для диффузионки, с ее "точки зрения" это бесполезная чушь. Это будет тот же самый текст, может быть в чуть более удобном виде, а по факту часто в более худшем. Для чисто тегового промта, имхо, текстовый кодировщик вообще не нужен. Скорее всего если тупо завести по обучаемуму эмбедингу на каждый тег, не сильно хуже получится.
Ллмку надо учить делать работу чтобы она вносила какую-то пользу. Делать визуальные рассуждения, оценивая какой элемент картинки уместен для нужного сюжета, проверять с обратной связью через визуальную голову какой получается результат и делать точечные правки. А когда ты будешь просто делать из нее тупой энкодер - одна и будет в лучшем случае тупым энкодером.
>>1049087 Это решается двумя способами: довольно крутой основой в качестве кондишнера, что будет "понимать" эти самые абстракции, или же продвинутые капшны и хитрая их аугментация при тренировке для более простых вариантов. Ну и сама диффузия неплохо так закономерности запоминает и потом воспроизводит. >>1049960 > далеко не факт что получится что-то хорошее Почему? Обрабатываешь весь промт и вытаскиваешь скрытые состояния. > нужен вообще какой-то более продвинутый способ тренировки Нужно чтобы ллм могла в целом понимать смысловую часть написанного, и желательно чтобы в тренировочных данных были подробные описания. Только не трешовая содомия, целиком состоящая из мусорных дефирамб, как во флюксе, а именно содержательное. > Типа соединять ллмку через какой-нибудь контролнет с диффузией Представь себе, там весьма широкий канал для кондишнов заложен изначально. > и тренировать вместе Не стоит, только если на финальных этапах. >>1049987 > 3. LoRA + Концепт -> Визуал: LoRA (или другой метод адаптации) Это идет вразрез первым двум по принципу и явлениям. >>1050862 > Делать визуальные рассуждения, оценивая какой элемент картинки уместен для нужного сюжета Это можно сделать отдельно на этапе преобразования исходного промта. И прямо там же после можно вытащить скрытые состояния и использовать их. > проверять с обратной связью через визуальную голову какой получается результат Необучаемая многоножка, лучше посмотри как блоки dit работают. > и делать точечные правки Это возможно уже внешней петлей в итерационной схеме, реализовано уже. Только весьма сложно в обучении под что-то не дефолтное и очень громоздко. > одна и будет в лучшем случае тупым энкодером Нужен умный энкодер, которым она может быть, всего-то. И пусть дальше диффузия делает свою работу.
Анончики, хелп. Есть две лоры тянок. Хочу напилить артов с ними, как их вообще объединить на одной генерации? Есть примеры у кого? Я уже с ума схожу. Пользуюсь Forge.
>>1050862 Про "делать работу" идея хорошая, но смысл в том, что я и так её делать могу за наносек, будучи человеком. Мне всё-таки нужно, чтобы сетка делала то, чего я не умею (а именно рисовать картинку за наносек так, как мне надо). >>1050942 Так и что ты предлагаешь в итоге делать? Как их соединить друг с другом? Мне бы вот прям инструкцию, как я писал по пунктам: чего к чему и в какой момент.
Сложный, странный вопрос. Кароче когда я генерирую я заметил что у меня на системном C что-то начинает отжирать место. Ньюанс в том чтт SD у меня на другом диске само собой. Я бы и не заметил потому что пони гига 3 отжирало но я тут попытался флюкс запустить у меня все нахуй зависло. Увидел что на диске C вобще места нет. Стал тестить охуел. Как это вообще возможно?
>>1051331 П.с Еще как я понял у меня флюкс почему-то не видит/не хочет пользоваться видеокартой. Через диспетчер задач вижу 0% нагрузку на гпу и 99% на оперативку
>>1051381 >Еще как я понял у меня флюкс почему-то не видит/не хочет пользоваться видеокартой. >Через диспетчер задач вижу 0% нагрузку на гпу и 99% на оперативку Какая карта? Какая так скажем сборка флюкса - фул, квант, пониженная точность с апкастом?
Общаясь тут с гопотой по поводу glora конфигов своих он мне подсказал вариант, что стоит попробовать наоборот увеличивать понижающий коэффициент весов альфы (особенно конволюшенов) т.к. глора более устойчивый алгоритм. То есть допустим у меня база это 32 дименшен и 32 альфа, а пробовать 32 дименшен и 64 альфа. Я попробовал и результат стал значительно лучше, заметно на низких разрешениях, а на высоких там вообще четкость запредельная получается. Так вот, какие неочевидные штуки с масштабом весов еще можно применить в данном ключе?
>>1051794 >Вот https://civitai.com/models/35549 Это просто веса или запечено вместе с т5 и клипом? По описанию непонятно. А такто веса в фп8, они по идее разворачиваются в x2 на картах без поддержки фп8 если без ключа на фп8 запускать, и соответственно у тебя все на оперативку складывается периодически. >С SD понями все нормально было Так сдшка в фп16 копейки весит в пике, 8-9 гигов, конечно у тя все помещается в карту.
>>1051809 >Я отдельно докачивал это как раз Ну вот, у тя тупа карты нехватает. >Я просто слышал что даже на 12гигах такое вроде гоняют без проблем Да, но тебе нужны кванты >>1040527
>>1051157 Инструкция предельно проста - собираешь состояния с предпоследнего слоя (или поглубже) от позиции eos токена, инициализируешь структуру блоков под подходящий размер и тренируешь это на кластере. Почему нет смысла расписывать это в деталях, полагаю, понимаешь. Если хочешь просто поиграться то примеров переработки промтов через ллм достаточно, в этом направлении копни.
>>1051857 не совсем так, тебе надо собрать комбайн из весов+т5+клипг+клипл (для шатлов надо ток один из последних двух я не помню какой, глянь воркфлоу под него офишиальный)+вае, чтобы оно все вместе помещалось к тебе в карту все что >= Q4 для весов - ок кванты без особых потерь для т5 в принципе любой квант подойдет, там вроде ток восприятие текста на ультра низких квантах страдает
>>1051884 > там вроде ток восприятие текста на ультра низких квантах страдает T5 вообще всегда должен быть в fp16, если не хочешь мелких проёбов постоянно.
При каждом запуске настоятельно рекомендуют скачать это https://github.com/facebookresearch/xformers#installing-xformers Насколько оно нужно? Через гит вводя предложеные команды не могу поставить. Гайдов как поставить на комфи тоже нет. Ток на автоматик нашел.
>>1052125 >как правильно. Взять Т5 и файнтюнить его вместе с диффузией. А от того что ты выход ллм вместо эмбеддингов подашь никакой магии не произойдет. Вдруг волшебное понимание абстракций не появится. Всё, точка, это было уже тысячу раз разобрано. Просто тут есть шыз который кроме срачей и вброса подобной хуиты ничего полезного не приносит, зато мнит себя экспертом в любой теме. Детектится по паттерну "оскорбление" -> "почитай как работает x", где x - любая рандомная хуйня не относящиеся напрямую к теме.
Ну а если серьезно тебе это в какой-то хуй уперлось, берешь маленькую хорошую ллмку, на ее выходы лепишь еще один блок/слой с полноценным вниманием без масок, потому что в ллм однонаправленное внимание, в отличии от клипов/т5. Как это и сделано в хуйняне ( https://aivideo.hunyuan.tencent.com/hunyuanvideo.pdf ) Если нигде не обосрешься, получше хороший текстовый энкодер для флюксоподобных промтов. Для тегов скорее всего профит будет околонулевым.
>>1052140 А, ладно. Я последовательно посты читал. Лично мне и так твоя версия больше нравится. Звучит проще, а обычно "всё сложное просто". Благодарю =)
>>1052140 > файнтюнить т5 И этот чудик еще выебывается. Вперед и с песней, тренируй. Пробежишься по граблям и дашь жидкого, осознав, что с тренировкой новых моделей застряли не просто так и это гиблый подход. Отказ от него в пользу в новых моделях тоже имеет под собой основания. > Как это и сделано в хуйняне Буквально ложится на мое описание и опровергает сказанное тобой, у тебя все хорошо? Иди в хайняне т5 поищи. > Вдруг волшебное понимание абстракций не появится. Что ты понимаешь под этим самым волшебным пониманием абстракций? На вещи, которые были в тренировочных данных и около того даже sd1 с малым клипом прекрасно откликаются.
> Детектится по паттерну "оскорбление" -> "почитай как работает x" Сначала оскорбление >>1052049 а следом >>1052140 "почитай". Нука съебался нахуй отсюда, мамкин агрессивный эксперт.
>>1052162 Я и так планировал по этой схеме рабоать, напрямую с эмбеддингами (+сетка выбрала метод более перспективным), да и звучит это логично. Вопрос: разве в таком случае не придётся всё равно это дело тренировать на картинках? И как оно, ты сам эту схему пробовал?
Я даже не догнал до природы срача, но хочу вкатиться, чтобы понимать. Оно интересное. База по сеткам у меня есть, но на таком уровне уже не понимаю. Кто проконсультировать сможет, я уши развешу в тг @slojno_pridumat_username
>>1052162 >осознав, что с тренировкой новых моделей застряли не просто так и это гиблый подход Настолько же гиблый как присрать ллм вместо энкодера и надеяться на чудо. >Буквально ложится на мое описание и опровергает сказанное тобой, у тебя все хорошо? Опровергает что? >Иди в хайняне т5 поищи. Я про т5 в хуйняне ничего не писал.
Но ладно, для долбоеба поясню пошагово. Залетный нуб: выдвигает невероятно новую и уникальную идею присрать ллм к диффузии вместо текстэнкодера Я: Говорю что это делали сто раз и получается хуйня Шыз: надо просто "вытащить скрытые состояния и использовать их" Я: решая не утруждать себе тысячным бесполезным срачем прост пишу нубу что ему отвечает местный шиз-долбоеб Я: все-таки поясняю нубу почему наивное подключение ллм вместо энкодера будет плохо работать и говорю как сделать чтобы работало лучше, привожу ссылку на то где это уже было реализовано Шиз: рвоньк
>>1052170 >Я и так планировал по этой схеме рабоать, напрямую с эмбеддингами Лол, ну и когда там от тебя новую модель ждать? Кластер с h100 не забыл купить только?
>Кто проконсультировать сможет, я уши развешу в тг Тебе не консультироваться у шизов надо, а хотя бы не совершать XY-проблему ( https://habr.com/ru/companies/vdsina/articles/553498/ ) Когда знаешь же что нихуя не знаешь. Торч учил? Код диффузионок читал? Историю, эволюцию моделей, папиры где делают разную хуйню и предполагают, почему она работает/неработает? Градиентный спуск как работает? Как ты собрался учить свою модель, если даже базы не знаешь?
>>1052179 >Лол, ну и когда там от тебя новую модель ждать? Можешь не ждать, я разрешаю. >Кластер с h100 не забыл купить только? Это дело арендуется. >не совершать XY-проблему Было бы уместно, если бы мне ещё отвечали так, чтобы я понимал. Просто задав вопрос я ничего не теряю, потому что это ничего и не стоит. Более того, возможно приобретаю. Или ты скажешь, что знать как не надо делать не нужно? Ошибка выжившего тогда, мне нужно. >Торч учил? Поверхностно, пришлось частично разбираться, когда что-то полетело. Но если тебе не_интересно, в целом считаю хуйнёй, что это дело всё на питоне пишется. "Питон кал" by раст-прогер. >Код диффузионок читал? Пока нет, но вот-вот сложу крайние пазлы и начну лезть в середину. >Историю, эволюцию моделей, папиры где делают разную хуйню и предполагают, почему она работает/неработает? Любую историю считаю так же калом, но архитектуры и принципы работы предшественников знаю. Типа чистых MLP, RNN, AE, GRU. Глубже пока не нашёл смысла лезть. Как найду - залезу. >Градиентный спуск как работает? "Вычисляет" градиент функции потерь и обновляет модель на его основе. Спуск определяет какие производные будут у градиента, которые уменьшат влияние функции потерь, а сам градиент является вектором этих производных. Удивлён, что ты "стохастический" не добавил самоутверждения ради. Боялся, что я ахуею от такого большого количества новых слов или сам не шаришь, что это топ? Из такого, что ещё в процессе изучения - вихрь Мерсенна.
>Как ты собрался учить свою модель, если даже базы не знаешь? Как видишь, как-то собрался. Сомневаюсь, что ты тоже сразу умачём стал. А я ведь и не претендую на умачество, наоборот только спрашиваю, что да как.
>>1052170 > всё равно это дело тренировать на картинках Да. Разумеется, ты можешь тренировать текстовый энкодер отдельно в составе самого клипа сравнивая с готовыми эмбедингами, или пытаться тренировать полный т5 на текстовых парах. Но диффузия не обязательно будет готова к полученным изменениям. > Кто проконсультировать сможет Тебе просто интересно, или что-то делать задумал? >>1052179 > Настолько же гиблый как присрать ллм вместо энкодера > хайнань: существует Охлади траханье, агрессиор. То что ты отмечаешь детали - хорошо, и был бы даже молодцом, если бы не пытался разжигать срач и выставлять себя суперумником, подразумевая невежество остальных. > Я про т5 в хуйняне ничего не писал. Ты по сути то ничего нового не написал, уточнил и со слюнями и оскорблениями, имплая срыв покровов, от чего преисполнился выебонами. > Шиз: рвоньк Бедняга, зашивайся.
>>1052674 >Тебе просто интересно, или что-то делать задумал? В идеале "делать", но до этого пока слишком далеко. Я всё ещё почву прощупываю. А так, естественно делать. Какой смысл знаниям простаивать, если они есть?
Ктонибудь знает точно количество линейных и точное количество конволюшн модулей в сдхл? Интересует в том числе то, что считается как группы из модулей, где не входят только конволюшены например. Нигде не могу найти инфу, а скрипты показывают тупа разные значения с разной суммой, которые трудно правильно отфильтровать.
>>974163 (OP) Подскажите сейчас нейронки работают на чипах любого производителя Просто я до недавнего времени слышал что только нвидию нужно брать? Если возьму интел arc проблем не будет?
Технари-обучаторы, подскажите за kohyass, где я могу указать параметры для LoRa в webui? >enable_blocks=10-14 >disable_blocks=OUTALL,IND >conv_dim=0 Я нашел вроде бы нужный параметр с блоками (слоями), идущими через запятую, но в примере забито что-то вроде >2,2,2,2,5,5,7,8,8,8,8,2,2,2,2 Я правильно понимаю что это сила (коэффицент) каждого блока (слоя)? То есть для enable_blocks=10-14 и disable_blocks=OUTALL,IND мне нужно задать что-то вроде >0,0,0,0,0,0,0,0,0,0,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0 Или мне лучше преднастроить модель, сохранить в json/toml параметры, отредактировать их вставив то что мне нужно и запускать через соснольку?
>>1054069 Можно подумать что нейрообсосы сами в курсе для чего нужны эти параметры. Методом тыка все сам подбирай пока не будет сносно. Тут как на самом деле работает хайрезфикс в автоматике никто не знает.
>>1054069 >Я правильно понимаю что это сила (коэффицент) каждого блока (слоя)? да, у каждого блока еще есть сабслои, если тебе нужно еще более тоньше конкретные модули тренить (зачем неясно), через томл оно пишется типа как (щас форматирование поедет и символы потеряются вероятно): "^(?!.(ff\\.net|proj)).input_blocks\\.8\\.1\\..*$"
>мне лучше преднастроить модель, сохранить в json/toml параметры, отредактировать их вставив то что мне нужно и запускать через соснольку? ну это более читаемо так скажем, проще, чем в уи сидеть с разбегающимися глазами лично мне
>>1054073 >что нейрообсосы сами в курсе для чего нужны эти параметры за себя говори >Методом тыка все сам подбирай пока не будет сносно вредные советы, учитывая сколько параметров можно настроить, брутфорс будет длиться вечность, лучше мануальчики почитать и гпт поспрашивать >Тут как на самом деле работает хайрезфикс в автоматике никто не знает. генерит низкое разрешение через forward-pass для получения скрытых признаков, применяет апскейл, применяет методы (шринк например) для фильтрации шумов, увеличивает внимание, ослабляет/увеличивает влияние слоев, второй проход корректирует детали на основе полученного шума в начале и заново использует выбранные слои
>>1054069 >Я правильно понимаю что это сила (коэффицент) каждого блока (слоя)? >0,0,0,0,0,0,0,0,0,0,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0 Небольшое уточнение, это ранк каждого модуля прописываеется, поэтому твой пример с единичкой немного некорректен, так вроде только для фуловой тренировки нужно указывать т.к. там нет сниженных дименшенов для уменьшения веса. То есть ты можешь отдельный ранк для каждого блока прописать. То же самое для альфы и конволюшена, если надо.
Пиздос только сегодня понял что конволюшн напрямую влияет на диверсити токенизейшен (когда изменение токена или добавление нового полностью перестраивает картинку).
>>1054108 >генерит низкое разрешение через forward-pass для получения скрытых признаков Ну видишь ли, это твои личные предположения. А в палате по соседству считают что оно латент апскейлит например. И так про все. Единственный в итоге критерий - дает результат или нет.
>>1054369 >Ну видишь ли, это твои личные предположения в смысле? это по паперу >А в палате по соседству считают что оно латент апскейлит например у тебя контекст маленький? перечитал еще раз пост
Сап, аноны. Мне нужно обработать ДЖВЕСТИ МИЛЛИАРДОВ изображений, нужно сделать небольшой аутпэйнтинг процентов 5% от границ изображения влево, вправо и вверх. Освоился с интерфейсом AUTO1111, но его аутпэйнтинг слишком... целевой, чтоли, делается долго, серьезно и там всегда нужен промпт оригинала. Это не подходит для массовой задачи.
Есть ли какой-нибудь метод для того чтобы такую задачу на поток поставить и без промпта тонну изображений обработать? В идеале какое-нибудь расширение для AUTO1111 ?
>>1057072 > умный Судя по твоим пикам как всегда несёт хуйню. И это судя по тупости на скринах всратый 4о, он особенно на русском любит нести "логичную" хуйню с умным видом, основываясь на фантазиях. А если по теме, то лоры мы треним в первую очередь на линейных слоях, а там градиенты зависят только от количества каналов, которые фиксированные.
Нейрачи подскажите, пожалуйста, какие вообще есть варианты по генерации своего персонажа? Сделать что-то на подобии character sheet и пытаться вытянуть из него пак для тренировки лоры?
А IPadapter вообще не для этого всего?
Или уже существуют отдельные инструменты для таких задач?
>>1057697 > character sheet Не нужен. Просто генеришь побольше картинок с персом, желательно в разных стилях/позах/костюмах, и тренируешь лору.
В самом ленивом варианте хватит вообще одной картинки. На цивите были туторы по тренировке с одного файла, с настройками и примерами. Но гибкость у такого похуже, чем у тренировки с полноценным датасетом.
>>1056739 Что-то я там такого не заметил, ну ладно спасибо анон, перепроверю всю искаропку.
>>1056729 Некоторые текстуры делаю. И твой вопрос не "закономерный". Я спрашиваю "как выполнить определенную задачу", ты отвечаешь "а что это у тебя за задача". Нахуя тебе эта информация? Она же тебе не нужна и ты и я это знаем. Твой вопрос это просто флуд, который никому не нужен и ни куда не ведет и главное переводит нить обсуждения в нерилейтед, что вредит изначальному вопросы.
>>1057975 >И твой вопрос не "закономерный". Я спрашиваю "как выполнить определенную задачу", ты отвечаешь "а что это у тебя за задача". Нахуя тебе эта информация? Она же тебе не нужна и ты и я это знаем. Еще один дегрод блядь который сам не знает чё ему надо. https://ru.wikipedia.org/wiki/Проблема_XY >Твой вопрос это просто флуд, который никому не нужен и ни куда не ведет и главное переводит нить обсуждения в нерилейтед, что вредит изначальному вопросы. ОРУ НАХУЙ >Некоторые текстуры делаю. С АУТПЕИНТА ТЕКСТУР ЕЩЕ БОЛЬШЕ ОРУ
>wiki Проблема_XY Я же задал конкретный вопрос по инструменту, на который можно так же конкретно ответить, а ты не служба поддержки и это не твоя забота подвергать сомнению целесообразность моих задач.
>ОРУ НАХУЙ С АУТПЕИНТА ТЕКСТУР ЕЩЕ БОЛЬШЕ ОРУ Ты орешь что я сам не знаю что мне нужно, но ты конечно же не можешь быть объективен в этом, потому что ты не знаешь что это за текстуры, что на них, для чего они будут использоваться и весь стек причин, который привел меня к этой задаче. А меня в свою очередь конечно не интересует мнение орущего школьника, у которого при малейшей критике рвется жопа и он начинает визжать выпучив глаза.
>>1058527 Ты попробовал сначала хотя бы посчитать сколько лет твоя обработка займет? Лол, сам так и не ответил на вопрос но начал гореть и срать не по теме, нахуя тебе аутпеинтинг, ты там на курсе машоба обучаешь говносетку, но у тебя чет не работает, а тему про паддинг вы еще не проходили? Или нахуя еще тебе столько текстурок, которые не склеятся после аутпеинта?
Идея выкинуть энкодер и по типу контролнетов сделать "копию" модели через лору, только еще реверснуть кросатеншн и заставить его генерить эмбединги по исходной картинке, потом ее денойзить уже как обычно с этими эмбединграми вместо энкодера, таки насколько плоха? Сами эмбединги мы конечно же потом будем получать при помощи ллмки как-нибудь в рамках отдельной тренировки.
Там sd3 ветка сдскриптов обновилась оказца, теперь есть валидейшен лосс искаропки и даже все шедулерфри лицокниги работают нормально https://github.com/facebookresearch/schedule_free Перекатился на адамв оттуда, кайф.
>>1076005 Для функции из двух параметров очевидно, а для сети из лярда параметров - нет. Это во первых. Во вторых, в реальной сети нет локальных минимумов, или их число минимально, нас больше волнуют седловые точки. В третьих, оптимайзеру надо не минимумы уметь хорошо проходить, это обеспечит стохастика и те самые седловые точки, что есть расширение минимума дополнительными обходными пространствами-путями, а надо уметь правильно учитывать второю производную, которой тоже не существует, но мы делаем вид что она есть. Так как есть что-то как минимум похожее на нее. А если в нейросетках есть какая-то метрика, которая может давать нам предсказание чуть более точное, чем случайное, то мы используем её.
>>1076478 >Во вторых, в реальной сети нет локальных минимумов А как так выходит? Мне чисто умозрительно кажется, что как раз в реальности всё в локальных минимумах. Иначе гроккинг не требовал бы тренировки за пределами оптимума в тысячи раз.
>>1076670 Что в одном разрезе минимум, в другом - нет. А измерений у нас дохуя разных, так что вероятность просто обойти минимум довольно велика. >Иначе гроккинг не требовал бы тренировки за пределами оптимума в тысячи раз. Это не так работает. При грокинге как бы сначала попадает в минимум, но этот минимум не надо преодолевать, он так и остается. Там проблема в том что пока нейронка сидит в переобученности, она естественным образом учится все лучше и уверенно извлекать тупо запомненные знания. "Умный" градиент из-за этого очень слабо идет по сети.
Анончики, подскажите. Есть одна тян, не особо популярная. Хочу нагенерить с её лицом всякого. Есть ртх четвёртой серии, что почитать новенького, чтобы особо не погружаться, но добиться приемлимого результата? Спасибо большое всем кто ответит.
>>1079061 Ну давай я попытюась сжать вкатоинфу, мне все равно нехуй делать.
Берешь модель с голыми бабами, допустим натвис 2.7. Берешь собираешь датасет (если есть фулбади фотки то их тоже можешь в сет пихать, сетка еще допом и комплекцию схватит), генерируя описания например через это с токеном который будет вызывать листо бабы https://github.com/EvilBT/ComfyUI_SLK_joy_caption_two Качаешь крайнюю версию https://github.com/kohya-ss/sd-scripts/tree/sd3 (именно sd3, это бранч со всем новым)
Выбираешь алгоритм модуля для ликориса, самый быстросчитаемый и при этом похожий на фул файнтюн это локр, самый похожий на фул файнтюн но считаемый значительно дольше и точнее/более флекси это глора, локон это классическая узконаправленная лора плюс конволшены, диагофт и бофт прикольные но у них не везде поддержка для применения в UI есть. Я бы начал с дрочения локра, и потом переключился на глору. По алго тут https://github.com/KohakuBlueleaf/LyCORIS/blob/dev/docs/Algo-List.md , по нетворк аргсам тут https://github.com/KohakuBlueleaf/LyCORIS/blob/dev/docs/Network-Args.md
Далее тебе нужно выбрать оптимайзер. Их три вида: классические неадаптивные с шедулером лернинг рейта (AdamW, Lion), адаптивные с шедулером/без шедулера (Prodigy, ProdigyPlusScheduleFree), и неадаптивные бесшедулерные (AdamWScheduleFree,RAdamScheduleFree). Адаптивные не требуют побирать LR юнета и текст энкодера. В примере ниже будет радам шедфри, но если будешь крутить шедулерный оптимайзер то cosine_with_restarts наверно самое мощное будет указать, либо просто cosine, либо constant в некоторых случаях если это адаптивный продижи.
Делаешь конфиг в бат файл в папке сдскриптс, создавая там же папку logs и output_dir и кидая папку с датасетом рядом в формате иерархии папка/числоитераций_класс/картинки (govno/1_woman/картинки)
Ранк дропаут и общий дропаут не работает с локром, только модульный, увеличивает отвязку финальной модели от датасета более гибко встраивая себя в фул модель. rs_lora это https://huggingface.co/blog/damjan-k/rslora небольшая матанская мокропися увеличивающая стабильность и точность рангов, чем выше ранг тем выше точность конволюшен огромный потому что локр все равно декомпозится, но в принципе можно и любое стандартное значение уровня 8-256 всунуть с соответствующей альфой, по дефолту альфа не учитывается фактор - фактор декомпоза, чем меньше значение тем больше параметров в конечной лоре, чем выше значение тем меньше параметров, самый маленький вариант локра это значение -1, делающее локр вообще не переносимой на другие модели но зато максимальная выжимка для модели получается на которой тренируешь размером в пару мегабайт дора - вариант декомпоза весов который похож по структуре на полноценный файнтюн https://civitai.com/articles/4139/the-differences-between-lora-and-fine-tune-as-well-as-nvidias-newly-released-dora-technology preset=full это тренировка всех модулей, но есть другие варианты пикрел нормы тренировать не надо обычно, но в принципе если позволяет память то можно и их включить, но нинужно
--network_dim=10240 ^ --network_alpha=10240 ^
Требования для локра для корректных вычислений, нетворк альфа не учитывается. Любые другие алгоритмы требуют точного указания размерности: допустим 64/32, сама альфа по дефолту это делитель, указывающая масштаб весов при сохранении, т.е. чтобы узнать влияние надо 32 поделить на 64 - 0.5, именно с таким коэффициентом будут обновляться веса модели весами лоры. Хочешь фул экспириенс - указываешь одинаковую размерность или 0 в альфе. Хочешь аккуратненький точечный тренинг - указываешь 1 в альфе или меньше, но длительность тренировки будет многократно увеличена. Тот же принцип для конволюшен слоев.
--unet_lr=0.00001 ^ --text_encoder_lr=0.00001 ^
Скорости обучения, принцип примерно такой: хочешь больше инфы оставить от изначальной модели - ставить TE lr ниже, чем UNET lr (вообще модулей в TE меньше в три раза, и он и так хорошо предобучен, так что соотношение 3 к 1, 2 к 1, 4 к 1 это база, но можно и 10 к 1 если прям тонкий файнтюнчик будет), хочешь добавить больше инфы из датасета - ставишь равный лр, но есть вероятнсоть пережарить te, особенно с адаптивными оптимайзерами - у продижи оригинального нельзя распараллелить лры и коэффициент на юнете и те одинаковый, у шедулер фри можно разные выставлять скорости. Тот же принцип визуально https://imgur.com/ksnip-screenshot-dktVoXThttps://imgur.com/OFanVlM
--loss_type="l2" ^ функция оценки потерь, классическая четкая и агрессивная, есть другие --max_grad_norm=1 ^ клиппер, не везде требуется, например в шедулер фри продижи есть свой клиппер --scale_weight_norms=1 ^ скейлит обосравшиеся веса и показывает по факту что юнет начинает гореть, если ниче не скейлится по логу то обучения ок идет --debiased_estimation_loss ^ понижает влияние нижних таймстепов (шум), повышает влияние верхних таймстепов (читаемая картиночка), есть еще одна штука min_snr_gamma с возможностью настройки - повышает полезный сигнал за счет понижения влияния нижних таймстепов, но она скорее для очень говеных датасетов, выбирай либо одно либо другое
--validation_split=0.1 ^ --validate_every_n_epochs=1 ^ очень удобная штука из разряда "как я без нее раньше жил", высчитывает метрику которая показывает грубо гря насколько обученная модель близка к валидационной части датасета, следовательно показывает доучилась ли модель или нет: если валидация падает - все хорошо, начался разворот и несколько эпох идет повышение - модель по факту обучилась и начала переобучаться первый прааметр указывает часть которая отщипывается от датасета и не участвует в обучения а только в валидации
еще есть аргумент --optimizer_args который управляет аргументами оптимайзера, если они требуют настройки, допустим у прдижей сф дофига аргументов и выглядеть конструция будет ну примерно так --optimizer_args "d0=4e-5" "prodigy_steps=0" "eps=1e-8" "d_coef=1.0" "use_bias_correction=False" "factored=True" "factored_fp32=True" "use_adopt=False" "weight_decay=0.01" "weight_decay_by_lr=False" "use_cautious=False" "use_orthograd=False" "use_speed=False" "use_grams=False" "fused_back_pass=False" "split_groups=True" "split_groups_mean=False" "use_stableadamw=True" "use_muon_pp=False" "use_adopt=False" "stochastic_rounding=True" ^
не забудь поставить тензорборду и отслеживать графики в ней
>>1079219 Я не он, но вот искренне интересно, ты вот веришь во всю эту магию идеальных параметров? Спустя столько времени и тренировок просто уже настолько всё это заебало, что приходит по тихоньку осознание что хоть ты там идеальные параметры подбери, будет минимальный сдвиг в плане качества на уровне плацебо особо не отличающийся от обычного дефолта после появление кохи с адамом. Но вот что реально влияет это три, описанных ещё давным давно, закона масштабирования https://arxiv.org/abs/2001.08361 и ведь по факту, файнтюн вс лора охуеть какая разница порой со сложными стилями бывает, это грубо говоря число параметров, размер датасета, где какая то хуйня низачто не натренится если модели сложно в это, какие бы параметры не выставил, только ты её пихаешь в биг дату (относительно, сам стиль типо 150, а так около 10к) оно делает идеальную копию, или тупо закидывание компьютом на похуй как делали с той же наив3, с лорой наверное тоже бы вышло, не 75к гпу часов конечно, но эквивалентное
>>1075399 > валидейшен лосс искаропки Он такой же пососный как и все прототипы? Расскажи насколько полезен/информативен по опыту, интересно. > шедулерфри лицокниги работают нормально Вроде и раньше работали, просто прописываешь полностью оптимайзер. Поделись впечатлением с адама без шедулера. > sd3 ветка Раньше там кеширование было поломано и что-то еще, починили? >>1079289 > хоть ты там идеальные параметры подбери Параметры - лишь часть результата, необходимая но не достаточная. Датасет и подбор всего с учетом его и желаемого результата - первичны, все верно. > файнтюн вс лора охуеть какая разница порой со сложными стилями бывает Местами лора может давать даже более удачный и приятный результат, как раз за счет сокращения эффективных параметров или большой скореллированности всех. Полный файнтюн весов чрезвычайно малым датасетом - не самая хорошая идея, просто все убьешь. Хотя офк никто не мешает, можно зажарить а потом извлечь лору для другого результата относительно исходной лоры. > какая то хуйня низачто не натренится если модели сложно в это, какие бы параметры не выставил В целом узкий файнтюн типа стиля или персонажа - натягивание совы на глобус (модели на аутпут), лоры здесь почти всегда хватает. Даже если пытаешься сделать сразу много стилей/персонажей - тоже спокойно прокатывает, хотя вот там уже эффект от повышения ранга начинает становиться заметным. > закона масштабирования > ты её пихаешь в биг дату > сам стиль типо 150, а так около 10к > тупо закидывание компьютом на похуй как делали с той же наив3 Натащил говна и рад, что сказать хотел в итоге?
>>1079289 >ты вот веришь во всю эту магию идеальных параметров? Ну тут нет идеальных параметров, просто общая инфа.
Вообще все параметры можно разделить на три группы 1. системные для в принципе работоспособности тренировки, их подбирать не надо 2. оптимайзерские, в основном теребится только вейт дикей пенальти и лернинги 3. сафети дампнеры, которые ограничиваю взрыв градиентов и сигнализирует о говне в штанах Я сам против вот этих всех "выбирайте дименшен под датасет и выдрачивайте альфу при польной луне", а всякие ограничители даже подбирать не нужно в 80% случаев.
>будет минимальный сдвиг в плане качества на уровне плацебо особо не отличающийся от обычного дефолта после появление кохи с адамом. Основное влияние на квалити оказывает реализация алгоритма и скорость/сходимость у оптимайзера, тут уже кому что надо выбирают - или быстрый результат или высокая точность.
>>1079324 >Он такой же пососный как и все прототипы? Я ток в еверидриме валидейшен юзал, не сказал бы что он пососный, принцип точно такой же как в скриптах https://github.com/victorchall/EveryDream2trainer/blob/main/doc/VALIDATION.md >Расскажи насколько полезен/информативен по опыту Ну вот графеки, пик1 показывает что вообще не туда ушла тренировка поэтому я ерли стопнул и поменля параметры. Пик2 в красной точке лучшая модель. Удобно кароче, не надо по лоссам гадать где не обосралось. Там еще есть метрика epoch_divergence, согласно автора
Added divergence value for step and epoch, indicating the difference between training and validation.
Вот допустим в модели с пика 2 отклонение всего минус 0.004, типа наверно нужно чтобы в идеале близко к нулевому значению было кароч.
>Вроде и раньше работали, просто прописываешь полностью оптимайзер. Там какая-то хуйня была на мейн ветке типа в самих скриптах кои с шедфри логикой пыталось сохранять каждый шаг, вместо каждой эпохи, и вылетало, а самому фиксить говнокод трудно. На сд3 ветке все ок.
>Поделись впечатлением с адама без шедулера. Ну адам как адам, такой же точный, быстрее сходится из-за того что нет расписания через заранее заданную кривую. Можно чуть более агрессивно тренировать, т.к. стабилизация внутри есть. Кароче шедулерфри просто более эффективны по сравнению с классическими версиями.
>Раньше там кеширование было поломано и что-то еще, починили? Не юзаю кеш, а ломают обычно чето в дев ветке.
>>1079324 > Местами лора может давать даже более удачный и приятный результат А местами наоборот будет выглядеть будто и не тренил вовсе, как повезёт с основной моделью и её реакцией на датасет > Натащил говна и рад, что сказать хотел в итоге? То что твиканье гиперпараметров имеет незначительный импакт по сравнению с фундаментальными вещами описанными в том древнем пейпере, которые на удивление работают, в отличии от очередного прорывного пр притащенного в кохью, который благополучно забывается через неделю >>1079357 > Основное влияние на квалити оказывает реализация алгоритма и скорость/сходимость у оптимайзера, тут уже кому что надо выбирают - или быстрый результат или высокая точность. Да, наверное ты прав насчёт этого, но они всё равно по сути приводят к одному результату, просто какие то по лабиринту, а какие то более напрямую. Не всегда этот результат является тем, чего ожидаешь от датасета, нету каких то серьёзных прямо изменений от того что их крутишь, подбираешь, а всё определяется другими вещами, в основном моделью, ведь если бы они давали больший импакт, не надо было бы разделять модели на реалистик/фурри/аниме вообще
>>1079505 >нету каких то серьёзных прямо изменений от того что их крутишь, подбираешь если ты хочешь на основе модели через лору занулить знания основной модели и сделать датасет и описательную часть превалирующими на 100%, то надо нулить текстовый енкодер, а не обучать веса, то есть делать его лернинг безопасным, но выше 2-4 раза, чем скорость тренировки юнета, ты как бы ломаешь текстенкодер делая его уникальным >ведь если бы они давали больший импакт, не надо было бы разделять модели на реалистик/фурри/аниме вообще у них зануленые разные текстовые енкодеры несовместимые, там физически нельзя их совмещать никак, кроме как через DARE костыль
>>1079578 > если ты хочешь на основе модели через лору занулить знания основной модели и сделать датасет и описательную часть превалирующими на 100%, то надо нулить текстовый енкодер, а не обучать веса, то есть делать его лернинг безопасным, но выше 2-4 раза, чем скорость тренировки юнета, ты как бы ломаешь текстенкодер делая его уникальным Ты имеешь ввиду юнет онли, но с повышенным лр на те? А смысл, он же не тренится? > х зануленые разные текстовые енкодеры несовместимые, там физически нельзя их совмещать никак, кроме как через DARE костыль Просто даже если взять две относительно одинаковые модели с базовыми знаниями о концептах, пусть даже описанных по разному в клипе, тренируемые стили которые лежат в другом реалме от них сработают ужасно, аниме и реалистик тот же, несмотря на то как в действительности выглядит датасет. Кстати про dare, может знаешь какой самый успешный франкенштейн с максимальной совместимость акросс олл чекпоинтс, пони, люстра, что там ещё натвиз чтобы намешаны были в один чан прямо, существуют такие вообще?
>>1079500 > не сказал бы что он пососный Ну оно норм только для простых вариантов, и даже там амплитуда изменений просто смехотворная и может даже оказаться лучше на поджаренных вариантах, которые потом вообще не управляются и проблемные. Насколько помню, аналогичная имплементация была и в симплтюнере, там если тренить на разнообразном датасете чара, чтобы ловить меньше байасов и легко управлять им потом, эта штука вообще не показательной оказалась, только совсем общие и грубые вещи может идентифицировать. Хотя если именно это и нужно то норм. Может как-то дойдут руки эту затестить, как вариант неофитам точно полезно будет сразу плохие параметры отсечь. > шедулерфри просто более эффективны по сравнению с классическими версиями По ощущениям как реализуется в том что тренишь, или еще не распробовал? >>1079505 > будет выглядеть будто и не тренил вовсе, как повезёт с основной моделью и её реакцией на датасет В таких случаях и тюн не поможет а больше сломает. > твиканье гиперпараметров имеет незначительный импакт Ну да, датасет в целом первичен. Тут еще играет что типичные задачи тренировки что у обычных инджоеров типа лоры на чара, стиль, еот - это вообще другая тема относительно классического файнтюна ввиду чрезвычайной узости. > в основном моделью Только если пытаться обучить совсем радикально другому, очевидно что на модели что знает основы это сработает лучше, чем на той, которой обучаемый материал будет чужероден. Это из разряда очевидного какбы. > не надо было бы разделять модели на реалистик/фурри/аниме вообще Что? Совершенно разные вещи. Из анимца в реалистик можно перевести но сохранится только анатомия, а общие знания, всякое окружение и многие вещи останутся проебанными. Из (настоящего) реалистика анимцо сделать - земля пухом, нужна оче серьезная тренировка. Фурри стабильно дает свой налет и особенности, с которых плюются, хотя технически близко к анимцу и как-то может уживаться.
>>1079578 > надо нулить текстовый енкодер > зануленые разные текстовые енкодеры Что значит зануленный энкодер? >>1079736 > юнет онли > но с повышенным лр на те Это уровня "убить но чтобы остался живым".
>>1079818 >Что значит зануленный энкодер? когда текстовый енкодер теряет/ломает предыдущие знания и перезаписывает все связи токенов с новыми весами, теряя связь с базовой частью модели, у пони нуленый енкодер например
>>1079831 Какой-то странный жаргон. На пони энкодер действительно полумертвый, а который clip-l там вообще все плохо. Но без изменения связей не получить другую модель, потому что нужно как ввести туда новые понятия, так и адаптировать к другому типу капшнов, отличия неизбежны. Единственное что можно минимизировать побочный урон и постараться максимально сохранить основные возможности.
>>1079807 > В таких случаях и тюн не поможет а больше сломает. Вообще должен, если совсем не учится, с понями помню вытягивалось сложное для неё анонимными исследователями > Ну да, датасет в целом первичен Не только он, ещё количество параметров и гпу тайм > Что? Ну хуйню уже фантазирую, как было бы прекрасно переносить любой стиль на любую модель, если бы оно работало идеально вне зависимости от байасов модели и определялось лишь тем что модель может делать из концептов >>1079831 Это типо с шума тренить? Не в домашних условиях явно
>>1079942 > и гпу тайм Для малых датасетов его нужны крохи. Ну, только если ты не какой-нибудь счастливый обладатель 3060, тогда будет тяжело. В переносе, если там не проблемная поломанная херь типа поней могут быть две сложности. Первая - на каждую придется переобучать из-за разного представления клипа и отличий в юнете. Вторая - некоторые стили совсем радикально могут не подходить для исходного стиля и ориентации модели и быть слишком однообразным, из-за чего будет хуже результат и/или не получится хорошо отделить сам стиль от прочего в датасете. А так, конечно, пофантазировать об суперуниверсальной модели было бы неплохо.
PyTorch: новые инструменты для для экономии памяти при обучении моделей.
PyTorch представил усовершенствованные методы Activation Checkpointing (AC), цель которых - снижение потребления памяти при обучении.
Традиционный подход в eager mode сохраняет промежуточные активации для обратного прохода, что зачастую приводит к значительному расходу ресурсов. AC позволяет не сохранять эти тензоры, а вычислять их заново при необходимости, тем самым жертвуя вычислительным временем ради экономии памяти.
Новая техника – Selective Activation Checkpoint (SAC). В отличие от обычного AC, который затрагивает всю выбранную область, SAC дает гранулярный контроль над тем, какие операции следует пересчитывать, а какие – сохранять. Это достигается за счет использования policy_fn, определяющей, нужно ли сохранять результаты конкретной операции. SAC будет полезен для избегания перевычисления ресурсоемких операций, например, матричных умножений.
Для torch.compile стала доступна Memory Budget API. Эта функция автоматически применяет SAC с оптимальной политикой, исходя из заданного пользователем бюджета памяти (от 0 до 1). Бюджет 0 соответствует обычному AC, а 1 – поведению torch.compile по умолчанию.
Нужно программа для тестов. Ну или хотя бы как это называется. Есть несколько переменных и мне надо каждый пункт каждой одной переменной прогнать по очереди с всеми другими пунктами каждой переменной.
Какие есть программы для этого? Как эти методы называются?
>>1085846 Ну тоесть, прямоугольники - это переменные, цифры внутри них - это варианты переменных. Каждый вариант нужно прогнать с другими вариантами в других прямоугольниках.
Кароче запустил тестовый ран на 10 епох, отключил на первой, передернул на 30 эпох, включил и получил другой график, ничего кроме эпох не менял. Почему так?
>>1086125 Потому что датасет рандомится. Алсо, что за пиздец на графике у тебя? Хуй с ним что loss не падает, но расти точно не должен. Вот пикрил как должно примерно выглядеть.
>>1079807 >По ощущениям как реализуется в том что тренишь, или еще не распробовал? По ощущениям очень хорошо.
Гонял RAdamScheduleFree и AdamWScheduleFreeReference с LoKR и GLoRA (с дорой обе). Датасет из 100 картинок, содержит в основном общий концепт знаний.
Уточню почему именно локр и глора, если кто не в курсе. Локр влияет на всю модель целиком делая результат сорт оф фул файнтюн как если бы тебе нужно было тренить стилистику по токену, но стилистика будет даже не по токену а вообще адаптируется везде; путь каждого токена меняется согласно данным датасета, то есть я не получаю выдачу без стилистических данных из датасета даже если использовал описательную часть не относящуюся к кепшенам датасета, при этом сохраняется вся структура оригинальной модели, если это не прямо новые знания, с новыми знаниями идет их добавление как стандартное дообучение. Плюс достаточная гибкость декомпозиции. Из минусов что он очень капризный по лр и может в нан улетать без сафети говнин на сверхвысоких скоростях и без поджимания градиентов.
У глоры более так скажем целенаправленный тюнинг части модели относящейся к датасету, который сохраняет всю инфу основной модели, стилистику и меняет связи только в части кепшенов датасета, таким образом получается что если я не использую класс или токены из датасета то изображение относительно оригинальной модели меняется минимально на уровне погрешности сида. Ну и глора как бы более натурально вписывается в основную модель и из-за доп модуля подсказок адаптирует модель под себя как бы во время гена. Ну и превосходно управляет большим количеством параметров и вообще чем больше тем лучше.
Ни базовая лора, ни лора с конволюшенами таких эффектов не дают в моих юзкейсах.
Олсо на локре при отключении декомпоза второго блока результирующая лора имеет ультранизкие веса, и эту финальную лору надо буквально увеличивать x20-x25 по юнету и те чтобы давало результат (ну или через питорч умножать значения), если скорость обучения слишком низкая. Не то чтоб это минус, скорее даже плюс, т.к. ну прям силкисмус результат влияния получается в таком использовании.
Из того что можно отметить конкретно у шедфри с данными алго:
- Смысла ставить скорость по тренировке текстового енкодера ниже юнета практически нет, на обоих вариантах сниженный TE (в 2 или 10 раз) дает артефакты контуров (и в принципе артефакты) в основном, что особо заметно на глоре, как будто ей требуется в разы больше времени до схождения и это схождение никогда не происходит. Когда тренил 1 к 10 по итогу приходилось тестовые прогоны финальной лоры увеличивать чтобы было отношение 1 к 1. Так как смысла ставишь ниже нет, то и отпадает нужда в подборе лров раздельных, что очень хорошо. Почти как адаптив, только на продижи d0 floor надо подбирать вместо базового лр.
- Так как это шедфри, то там по паперу базовая скорость указана 0.0025, я сначала думал что это для гигантских тестов лицокниги в целом и выставил 0.0005 - так оно там настолько медленно сходилось что просто капец. Выставил 0.002 и заебись стало. В принципе даже на 0.003 будет стабильно, но если надо чуть безопаснее то 0.001-0.0015 наверно идеальный вариант если никуда не торопишься.
- Моментальное схождение на батче 1. Уже на первой эпохе стабильные результаты и дальше только улучшается. Из минусов непонятно когда свитспот, можно было бы использовать график max_key_norm но он не работает просто на бранче сд3 скриптов, как должен был работать судя по обсуждениям из 2023. Поэтому ручками все эпохи прогонять приходится. Значение лосса вообще ни на что не влияет.
- С продижами на локре было быстрее, чем на глоре. С шедфри почему-то наоборот, различие в скорости в два раза. На рам вроде ниче не течет.
>>1086146 >Потому что датасет рандомится. Так сид фиксированный. Если не смузить (пик1) то он имеет форму такую же. Надо попробовать еще раз запустить, я вспомнил что у меня был подобный баг когда после экстренной остановки был перезапуск и у лосса был сдвиг по оси Y, что на третий запуск исчезло.
> что за пиздец на графике у тебя? Хуй с ним что loss не падает, но расти точно не должен. Вот пикрил как должно примерно выглядеть. Это на дедовых козинах он падать должен т.к. косинус функция, на шедулерфри форма лосса не имеет значения.
>>1086214 >Надо попробовать еще раз запустить, я вспомнил что у меня был подобный баг Да, это был баг. Перезапуск вернул исходный шейп при смузинге (пик1). Видимо ерли стоппинг во время обучения оставил говняк в памяти карты который повлиял.
>>1086206 > Локр влияет Чел, локр это способ декомпозиции весов, какие именно веса тренируется не зависит от него. > тренить стилистику Просто по рецепту b-lora отдели стиль от концепта, можешь выходные feed forward ещё добавить, если надо прям совсем стиль 1 в 1 сделать. > свитспот Лучше дампинг делай, чем ловить пережарки.
>>1086214 Пиздос, это у тебя значит этот кал так долго ищет потолок lr. Алсо, schedule-free после потолка всё так же как косинус вниз опускает lr, разница лишь в том что ты ничего не контролируешь.
>>1086338 > Пиздос, это у тебя значит этот кал так долго ищет потолок lr. В смысле долго, ты не видел значения
>Алсо, schedule-free после потолка всё так же как косинус вниз опускает lr, разница лишь в том что ты ничего не контролируешь. Он ездит туда сюда, опускание видно только на аверйдж лоссе (на 30-40 эпохах причем, когда уже и так все обучено) и 100 процентов смузинге графика, а смузинг это не показатель.
>>1086326 > > Локр влияет > Чел, локр это способ декомпозиции весов, какие именно веса тренируется не зависит от него. Зависит, лекомпозиция через факторизацию полной матрицы или вообще отключение второго блока это фича локра, благодаря этому он влияет цельно на все веса как будто у тебя есть полный доступ к полным параметрам при фул тренировке. > > тренить стилистику > Просто по рецепту b-lora отдели стиль от концепта, можешь выходные feed forward ещё добавить, если надо прям совсем стиль 1 в 1 сделать. У меня задача другая, блора слишком узкобьющая. > > свитспот > Лучше дампинг делай, чем ловить пережарки. Пережарок кстати нет, не по ним ищется.
> Зависит, лекомпозиция через факторизацию полной матрицы или вообще отключение второго блока это фича локра, благодаря этому он влияет цельно на все веса как будто у тебя есть полный доступ к полным параметрам при фул тренировке. Кстати именно поэтому локр не умет в нетворк дропаут и ранк дропаут, только в модуль дропауты.
>>1086206 > непонятно когда свитспот В чём проблема делать тестовые генерации при тренировке, а не пытаться по ничего не значащему графику что-то высмотреть? Я каждые 100 шагов генерю тестовые пикчи чтоб видеть что там по итогу и не сломалась ли композиция. Пикрил для примера, прекрасно видно как в середине пидорасит, а к концу в норму приходит.
О, наконец-то понял что такое SVD, охуенный видос https://www.youtube.com/watch?v=DG7YTlGnCEo По сути это как пачка одноранковых лор, в количестве полного ранга, каждая со своим весом, и все это складывается вместе, чтобы получилась исходная матрица.
>>1098802 >flux тоже тут обсуждается? да, ток тут большинство дрочит сдхл >Я правильно понимаю, что у него нет вообще негативного промта вообще нет, т.к. другой тип трансформеров с возможностью воспринимать хуман лангвиж ллм модель и взаимодействия токенов внутри негативный промт вообще в целом не нужен нигде, негативный промт в сверточных моделях стабили до третьей это костыль обусловленный начальными условиями тренировки и ранней остановкой (ну по факту базовая сдхл это бета, стабилити вполне могли бы бесконечно улучшать ее квалити вплоть до состояния дистиллированной модели) обучения моделей стабили, в идеальном состоянии дообученной модели он также и на свертках не требуется, т.к. свертки дистиллируются спокойно, лорами к слову суппресируется шумные веса как раз, что частично похоже на дистилляцию; в ллм тоже негативов нет, есть инструкции которые косвенно можно использовать как "не делай то-то", но это не негатив в смысле "не активируй нейроны содержащие токен", чем является негатив в сд; при этом негатив в сд это неполное выключение/вычитание и гораздо точнее было бы сделать реализацию минусовых значений в позитивном (основном) промте, такое есть в каком-то экстеншене, оно работает, т.к. позитив имеет огромную силу в отличие от негатива, но нативно было бы лутше
>>1101720 > вообще нет, т.к. другой тип трансформеров с возможностью воспринимать хуман лангвиж > в ллм тоже негативов нет Обоссы нейронку, которая тебе это написала, а потом попроси ее объяснить что такое cfg и как идет семплинг в моделях. > дистиллированной > дистиллируются > дистилляцию Пут буль, значение знаешь? > и гораздо точнее было бы Не точнее и все искажает, уже изучалось. Смещение в латентном пространстве там идет не туда куда нужно, только на "малых весах" уводит примерно в том направлении. Делать это можно без каких-либо экстеншнов.
Тут кто-нибудь шарит, как сделать распознавалку простенькой капчи? Кучу гайдов перерыл, но либо не работал, либо скилл ишью. Есть у кого что-то годное?
я использую сервис krea ai для тренировки и затем генерации иллюстраций с помощью flux dev проблема в том, что на изображении я могу сгенерить только одного персонажа, если добавить стиль с еще одним персонажем, то модель просто выдаст двух персонажей с одинаковой смешанной внешностью, даже если в промте четко указать тег для каждого персонажа в отдельности я так понимаю это фундаментальная проблема всех моделей, есть ли какой-то work around? до я этого походу задал этот вопрос в неверном треде, поэтому пришлось продублировать здесь, сорри))
>>1108540 ты используешь две лоры, две лоры плюсуются и конкатируются до среднего значения как по текстовом енкодеру так и по весам, две лоры и далее никогда раздельно работать не смогут полноценно
как выйти 1. если нет возможности тренировать с нуля мультиконцепт, то только региональный промтинг и инпеинтинг 2. тренировать мультиконцепт, а именно - сабсет на 1 персону и на 2 персону, опцонально третий концепт на понятие о количестве персон (сабсет допстим в котором содержатся примеры композиций из двух и более разных персон), но даже в случае корректной тренировки вероятность несрабатывания достаточно большая на конкретном сиде, с флухом будет проще так как он знает про взаимодействия и количество изначально
>>1108734 а да еще метод 3 есть, но он для сдхл, во флухах хз как реализовать: тренировать конкретный слой юнета и те на 1 одного персонажа, и другую комбинацию слоев на другого, тогда слои применятся вместе без конката
>>1108540 Брать лоры без оверфита. >>1108734 > плюсуются > конкатируются до среднего значения Это совершенно разные вещи. Лоры всегда плюсуются. Если два раза применишь одну и туже лору с весом 1, то это будет тоже самое что применить лору один раз с весом 2. Никакого усреднения нет.
>>1108776 >Если два раза применишь одну и туже лору с весом 1, то это будет тоже самое что применить лору один раз с весом 2. Никакого усреднения нет. Потому что у тебя полный вес и та же лора с одинаковыми данными и структурой, а если разные то, емкость весов не безгранична и управление векторами пересекается, вполне возможно в одной лоре вектор 1 идет вверх с фикс длиной 1, а во второй этот же вектор идет вниз с фикс длиной 2, в инференс тайме невозможно обработать два значения сразу т.к. они противоположны, следовательно они усредняются показывая длину 1.5 куда-то влево. Это не учитывая, что у тебя сила применения 1 на обеих стоит что неверно, т.к. это эквивалент стандартной полной емкости матриц, корректнее применять 0.5 (50% емкость) на двух лорах чтобы получить новую полную матрицу эквивалентную размерам обеих (данный эффект хорошо наблюдается при смешивании лор через свд, но при вейтед суме обычном не настолько очевиден).
>>1108776 > тренировать мультиконцепт идея интересная, если я правильно понял но тут понадобится большое количество данных пока, что лучшее решение это импейнт, но качество сильно падает при взаимодействии персонажей: объятий, поцелуев и т.д.
Это Нормальный тред без нсфв? Продублирую тут: Как сделать https://www.krea.ai/feed?style=v5hi9pj01& стиль? Очень зашло, это лора типо какая-то? И как такое повторить в обычных условиях без привязки к сервису?
>>1109358 > Это Нормальный тред без нсфв? Тут вообще картинок нет
> Как сделать https://www.krea.ai/feed?style=v5hi9pj01& стиль? Очень зашло, это лора типо какая-то? И как такое повторить в обычных условиях без привязки к сервису? Это лора на концепт. Чтобы повторить нужен датасет с файлами описаний и скрипт тренинга. Сети по дефолту знают что такое прозрачность объектов в принципе, поэтому задача просто найти достаточное количество разных картинок транспарент продукт дезайн концепт бесплатно без смс и сделать норм дескриптивное описание (или ручками или мокрописями автоматом) под т5. Особого токена под такое тренить не надо, достаточно чтобы описании было "концепт прозрачного объекта/прозрачный дизайн/дезайн траспарент продакт" и тд в вариациях + детальное описание того что на пикче. Не знаю какая у тебя видяха но флух тренить на 12 гигах или меньше очень больно, так что если тебе нужен аналог мультимодального флюха но не такой монструозный по требованиям к железу, то можешь потрогать сд 3.5 медиум, он и быстрее, и тренится на малом количестве памяти нормально. Гуи для тренинга не советую пользоваться, если ни разу ничего не тренил, лучше классический метод со скриптами и росписью батника тренировки через вот эту ветку https://github.com/kohya-ss/sd-scripts/tree/sd3 (на то что сд3 называется не смотри, оно и длч стейблдифуженов и флюхоа). Как вариант можно потренить сдхл, тем более там есть отдельные фуловые чекпоинты для продукт дезайна тип дроида https://civitai.com/models/566601?modelVersionId=1147975 так что будет еще проще натренить, но на сдхл чуть сложнее подобрать параметры и оптимайзеры чтобы и быстро и эффективно тренилось, тут кто во что горазд.
>>974163 (OP) На какие настройки следует обратить внимание если на разных датасетах и чекпоинтах график loss абсолютно одинаковый? На Prodigy с разными настройками warmup, schedule и др. И всегда после 30 шага стабильно поднимается loss. Ta же херня с первыми 10 оптимайзерами AdamW, ADAGRAD, ADAM, AdEMAMix, ADOPT, Lamb, LION, RMSPROP. Использую 32бит т.к. GTX карта.
>>1110762 >На какие настройки следует обратить внимание если на разных датасетах и чекпоинтах график loss абсолютно одинаковый? 1. Лосс это не график качества или обучения, лосс это суррогатный график ошибки в конкретный момент времени, ошибка показывает насколько далеко предсказание от датасета, здоровое значение корректного обобщения находится примерно от 0.05 до 0.15; чем ниже лосс, тем ближе результат предсказания по мнению сети к изображению из датасета (но это не значит что если ты укатаешь в 0.01 ошибку, то сеть станет топ, скорее наоборот она будет говном, которое обучилось воспроизводить датасет, а не обучилось обобщать). 2. Лосс будет уменьшаться в основном при долгом времени обучения только если у тебя идеальные настройки, есть настройки снижения влияния обновлений, снижения скорости и настроен нисходящий шедулер (косинус, полином) 3. Лосс может быть одинаковым или быть похожим друг на друга на разных данных если размерность сети, скорость обучения и сид фиксированы 4. Есть два лайфхака которые могут прямо показать насколько успешна адаптация - валидейшен лосс и график регуляризации нормы через флаг scale_weight_norms, первый сравнивает результат предсказания с частью датасета которая выбирается и не используется в обучении, вторая опция скалирует нормы весов до поставленного значения, что имеет разные косвенные интерпретации и влияет на обучение напрямую при этом: и как переобучение, и как момент когда сеть на самом деле начинает обучение, а когда его заканчивает. Могу ссылок накидать почитать как это выглядит, но на самом деле ни то ни другое особо нинужно - первое относительный эффект обучения показывает, а не реальную адаптацию, примерно можно понять где стопать тренировку ток. Второе буквально сдерживает обновление и ломает веса, но зато показывает происходит ли вообще стабилизация адпатции или нет (допустим вот на моем пике эта самая фича, что по ней можно сказать? а в целом ничего - обучение новым данным это огромная гребенка, далее стабилизация, веса на всем протяжении тренировки находятся вне единичной нормы веса и ужимаются вот тем флагом выше (что кстати негативно влияет по итогу и ломают адаптацию))
>На Prodigy с разными настройками warmup, schedule и др. Продижи вообще адаптивный, он может гулять сам по себе вверх-вниз по лоссу. Кароче лосс это не показатель. Есть только один вариант когда лосс показывает что-то корректное - он начинает улетать в пизду, то есть когда происходит взрыв градиентов и обучение максимально дестабилизируется и сеть начинает запоминать размеры ключей гигантических размеров, которые неээфективны, неверны и не работают. >И всегда после 30 шага стабильно поднимается loss. Опять же обучение очень тонкая штука. 30 шагов это очень мало чтобы о чем-то говорить. Вообще тебе надо понять принцип работы самого процесса обучения: вот ты запустил тренинг, далее сеть каждый шаг выбирает рандомный таймстеп от 0 до 1000 (если нет ограничителей), где полный шум это 0 и расшумленная картинка 1000 и проводит процесс предсказания. Из шумных таймстепов трудно вытаскивать полезные точные данные (из 0-50 практически невозможно, накинь на любую картинку 95% шума в фотошопе и попробуй понять что на ней изображено), поэтому лосс выше, из более "четких" таймстепов полезные данные и закономерности вытаскиваются проще, поэтому предсказание (его лосс) в этот момент будет относительно ниже. Вот о графике в этом >>1110763 посте что можно сказать: обучение в целом выглядит как здоровое, градиентарного взрыва нет, единственное что в определенные моменты на рандомных таймстепах (высоких) предсказание оказывается очень близко к датасету, что может влиять на процесс обобщения негативно.
Плюс учитывай что оптимайзеры разные и принципы математические и возможности у них тоже разные, следовательно и поведение. Вот допустим продиги оригинальные не умеют распараллеливать обучение текстового енкодера и весов, соотвественно процес обновления будет и там и там одинаков, что может переобучить либо одно, либо другое (хочешь раздельный lr - есть Prodigy Plus Schedule Free, который позволяет разделять лернинги). При этом у продижи есть куча своих внутренних настроек, допустим d0, который является floor скоростью обучения ниже которой оптимайзер не будет падать, в продижи он по дефолту на 1e-6, что очень низкая скорость и ее стоит повышать до 1e-5 или 1e-4 чтобы обновления были существенными, в противном случае процесс тренинга будет гигантским по времени и различия между эпохами незначительными.
Кароче слишком общирная тема чтобы расписывать, лучше задавай конкретные вопросы и какие у етбя задачи.
>>1110934 Спасибо анон, вот это реально очень редкая инфа. Нигде толком не рассказывают хотя это самые важные знания для понимания процесса. В civitai+youtube очень поверхностно рассказывают зарываясь в детали и не получается единую картину сложить. Вот это: >2. Лосс будет уменьшаться в основном при долгом времени обучения только если у тебя идеальные настройки, есть настройки снижения влияния обновлений, снижения скорости и настроен нисходящий шедулер (косинус, полином) на 180 поменяло мое представление о тренировке. Это получается loss график в виде кривой в форме гаммы это уже последняя - предпоследняя версия настроек обучения. >Лосс может быть одинаковым или быть похожим друг на друга на разных данных если размерность сети, скорость обучения и сид фиксированы Я ожидал что должна была быть хотя бы погрешность в миллиметр, а оно всегда одно и то же повторяло (рил). Вот тогда уже руки и опустил, но после того как прочитал решил поставить дурацкие значения ЛР и да, лосс вверх улетело - значит таки работает.
Тут много о чем подумать, мне нужно переспать с этой информацией. Завтра еще пару раз перечитаю твой ответ.
>>1111530 >Это получается loss график в виде кривой в форме гаммы это уже последняя - предпоследняя версия настроек обучения. Если ты про U-shape лосса и его популярность в коммьюнити лородрочеров, то это частичное перенесение принципов тренировки полноценных чекпоинтов на лоры с некоторыми но. При обучении больших моделей loss обычно снижается и выходит на плато за сотни тысяч шагов и там остается (в большинстве случаев, но не всегда, тоже бывают моменты когда в фулл обучении лосс начинает обратно расти), но в лорах ситуация другая: из-за малого количества параметров и быстрого обучения переобучение наступает гораздо раньше. Поэтому в лорах используют дополнительные механизмы стабилизации, например множитель alpha. Косинусный шедулер (или любой нисходящий) помогает снижать скорость обновлений, но на больших лернингах в лорах переобучение все равно рано или поздно наступает, и лосс начинает расти обратно. Поэтому на практике лору можно тренировать с разными шедулями или вообще без них и даже не смотреть на график лосса как таковой ибо лора спокойно обучается даже без снижения лосса во времени, а U-shape просто устоялся как удобный способ отслеживания переобучения, но опять же он не всегда точен, так как переобучение может зависеть от множества говен, включая выбор оптимизатора, качество датасета и даже конкретный ранг лоры. Короче в лорах важно не минимизировать лосс, а сохранить полезную информацию, избегая переобучения, лосс просто должен быть в стабильном диапазоне эффективного запоминания закономерностей.
А можно объединять лоры? Или смысла в этом не больше чем если в комфи соединить лоры в цепочку? И кстати имеет ли значение порядок их соединения, или они просто складываются?
>>1112575 >А можно объединять лоры? Можно >Или смысла в этом не больше чем если в комфи соединить лоры в цепочку? Обычной суммой да, а вот если через SVD, то это расчет новых весов с самым соком от каждой так скажем и имеет смысол. >И кстати имеет ли значение порядок их соединения, или они просто складываются? Порядок не имеет значения
>>1112693 Да, оно. Еще есть mecha пак нод там с кучей методов смешивания, есть ротейшен (другое название свд) но он считается как-то хуево на цопе похоже долго и надо соблюдать логику нод для смешивания лор https://github.com/ljleb/comfy-mecha/
>>1110934 >здоровое значение корректного обобщения находится примерно от 0.05 до 0.15 важное уточнение забыл, что на отображение лосса влияет сама функция потерь и усилители/дамперы таймстепов используемые вместе
то есть допустим если использовать квадрат L2 (Mean Squared Error) с debiased_estimation_loss, то лосс будет в указанных значениях, а если сменить L2 на абсолютные линейные значения L1 вместе с debiased_estimation_loss, то лосс будет на монструозных 0.4-0.3 лосса, на качестве обучения это никак не отразится за исключением того что L1 линейный и штрафует все ошибки и устойчив к выбросам градиентарным сильнее а значит стабильнее график будет
Возникла мысль попытаться написать скрипт, который бы брал видео-файл, раскладывал на кадры и выбирал 200-500 изображений, наиболее подходящих для тренировки стилевой лоры.
Фильм 100 мин. - это 144к кадров, можно сперва без анализа сократить датасет до, скажем, 10к кадров неким осмысленным с т.з. статистики образом, потом выбирать из 10к, переходя от вычислительно дешевых методов к более затратным и сокращая датасет на каждом шаге.
Выбор осуществлять на основе анализа разнообразия (по гистограмме и т.п., но можно и по содержанию тоже на каком-то этапе), качества (уровень четкости и т.д.), эстетической оценки (NIMA или что-то подобное).
Собственно, вопросы:
1. Наверняка я не один такой выдумщик, и кто-то уже в такое пытался. Известны ли примеры? 2. Каковы подводные камни, и не гиблое ли это дело?
Бля, пиздец, нахуй в Sage attention работает обратный проход, если оно не юзабельно для тренировки? Впердолил его и пол дня искал где насрано, пока не понял что эта параша при тренировке шакалит дико.
Почему весам нейрокалов придумали дименщен и альфу, а весам клипа не придумали? С одной стороны либо жаришь ТЕ чтобы эффективно, четко, быстро сходилось, но потом приходится вес клипа в лоре прямо уменьшать. С другой стороны занижаешь ТЕ и оно сходится вечность и результаты вообще не такие крутые как лернинги 1 к 1/1 к 2. По итогу сидишь дрочишь ТЕ в тщетных попытках перебора для нахождения когда там и быстро и не говно, вместо того чтоб просто задать эффективный дименшен и альфой примешивание к оригинальному клипу все задать. В чем проблема реализации не пойму, если спокойно можно силу клипа постфактум менять. Прям зла нехватает.
>>1116938 Попробуй моментум клипу накинуть щедро в х10 раз так. Может быть и его биасам и нормализациям тоже сверху еще навалить. Клип же не на свертках, ему плохо без больших батчей.
>>1110934 В SD loss по больше части вниз летит у любителей ставить фиксированный сид говнокоха, да. В SDXL диапазон латента на выходе из UNET меньше чем на входе. Когда сид фиксированный, соответственно и целевой шум фиксированный. И первым делом оптимизация пытается сбалансировать выхлоп модели, как итог loss летит вниз, а мы получаем "пережарку" - просто значения на выходе становится больше. Опять же я отчасти понимаю почему они так делают - они попытались с рандомным сидом потренить и получили такой себе результат. Но ведь это крайности. Просто делаешь диапазон сидов размером с датасет и больше никогда не наблюдаешь летящего loss вниз с пережарками. >>1113181 > на качестве обучения это никак не отразится Потому что это попытки лечит симптомы т.е. loss, а не причину.
>>1117209 Ну фикс сид в основном для повторяемости результатов чтобы сранивать как срало на разных настройках, это удобно. >диапазон сидов размером с датасет Ну звучит логично, но это же просто стохастику увеличивает, тип дополнительный метод регуляризации, как выключать описание каждый шаг с вероятностью 50% чтобы симулировать эффект дримбудки. Есть сравнения результов?
>>1117209 >Когда сид фиксированный, соответственно и целевой шум фиксированный. И первым делом оптимизация пытается сбалансировать выхлоп модели, как итог loss летит вниз, а мы получаем "пережарку" - просто значения на выходе становится больше. Опять же я отчасти понимаю почему они так делают - они попытались с рандомным сидом потренить и получили такой себе результат. Но ведь это крайности. Просто делаешь диапазон сидов размером с датасет и больше никогда не наблюдаешь летящего loss вниз с пережарками.
Погоди, но ведь генератор случайных чисел инициализируется случайным значением один раз в начале тренировки и не меняется во время нее. То есть сид не меняется допустим каждый шаг/эпоху. В чем смысл тогда, если вручную выставленный сид эквивалентен выставленному на основе условного системного времени на рандоме?
>>1117998 >Beta1: Отвечает за то, как сильно учитываются предыдущие градиенты (направление изменений). Чем выше (ближе к 1, например, 0.9), тем больше "память" о прошлом, и шаги получаются плавнее. Если меньше (например, 0.5), то оптимизатор быстрее реагирует на новые данные, но может быть менее стабильным.
>Beta2: Контролирует, как сильно учитываются прошлые значения квадратов градиентов (величина изменений). Высокое значение (например, 0.999) делает обучение более устойчивым к шумным данным, а низкое (например, 0.9) ускоряет реакцию на изменения, но может добавить нестабильности.
бета1 же и так 0.9, как в 10 раз увеличить если макс 1, и если 1 оно тупа новые градиенты не учитывает а ток старые
>>1118119 >как в 10 раз увеличить если макс 1, и если 1 оно тупа новые градиенты не учитывает а ток старые 0.99
По дефолту если 0.9, значит у тебя параметр каждый раз обновляется на 0.9 по старому градиенту и на 0.1 по новому.
Вторая бета уменьшает лр по параметру если на него стабильно приходится большой либо шумный градиент. Например отчасти решает проблему затухающих градиентов, если у тебя до слоев доходит мало градиента, то адам поднимет им лр чтобы они все равно учились.