Прошлые домены больше не функционируют, используйте адрес ARHIVACH.HK.
24 декабря 2023 г. Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Локальные языковые модели (LLM): LLaMA, Mistral, Gemma и прочие №96 /llama/

 Аноним 16/12/24 Пнд 18:15:48 #1 №979451 
Llama 1.png
Альфа от контекста.png
KL-divergence statistics for Mistral-7B.jpg
17336817858050.jpg
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Миксы от тредовичка с уклоном в русский РП: https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/local-llm-guide/how-to-use-a-self-hosted-model
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/

Архив тредов можно найти на архиваче: https://arhivach.xyz/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>974181 (OP)
>>967903 (OP)
Аноним 16/12/24 Пнд 18:35:11 #2 №979484 
>>979475 →
Нихуя не хватает. По русски и по английски предложения строятся по разному, если втупую пословно переводить, получается говно.
Аноним 16/12/24 Пнд 18:36:15 #3 №979485 
Сцук, почти скример в оп посте
Аноним 16/12/24 Пнд 18:50:38 #4 №979509 
>>979375 →
Самую дешевую вижу 36к. Это и близко не половина цены.
4060ти с учетом фантиков на мегамаркете за 40к берется.
Где моя а770 за 20к?
Но ты кидай ссылку, я куплю и извинюсь.

>>979390 →
На 7b и ниже жизнь есть только на Q8_0, забудь о любых квантах ниже, оно того не стоит.

>>979475 →
И да, и нет.
Учти, что она будет использовать структуру английского языка, многих слов не будет хватать и она будет выдавать английские вместо них, а про склонения можно забыть.
Так что определенная доля языка нужна в любом случае. Это поможет говорить на языке чисто и строить предложения по-русски.

>>979478 →
На работе завтра попробую.
AVX2 нет?
Канала четыре?
46 гбс чтения и v2 проц?
Аноним 16/12/24 Пнд 18:51:37 #5 №979512 
>>979449 →
>Не думал, что стоит выбросить P40 из сетапа?
Фига предложения, у меня еще вчера 4 теслы стояли, а тут уже выбрасывать предлагают. Я не хочу на бомжеквантах сидеть. Лучше буду потихоньку еще 3090 докупать. А теслы оставлю на случай выхода ебейшей модели в 200-300B
Аноним 16/12/24 Пнд 18:52:32 #6 №979514 
>>979509
Быстрофикс, ну 33к за арку нашел, все еще не 20. =(
Аноним 16/12/24 Пнд 18:56:19 #7 №979523 
>>979205 →
> при работе максимум на P2 работают? В P0 никогда не переходят
Нагрузи их нормально а не ллмкой.
>>979277 →
> На чистых 4 теслах даже чуток быстрей.
Скидывай скрин результатов и ключи запуска. Заодно интересно что там на контекстах побольше.
Аноним 16/12/24 Пнд 18:56:48 #8 №979525 
>>979512
зачем тебе этот микс из разных поколений? p40 же баттлнек, если ты на все пять карт размазываешь модель.
У тебя всё работает на той же скорости, как если бы у тебя было 4 теслы.
Аноним 16/12/24 Пнд 19:09:23 #9 №979541 
Почему в карточках с лорбуками лорбуки каждое сообщение генерируются заново вместо того чтобы вместе с контекстом в видюху залезть и сидеть там? Как сделать чтобы лорбук был частью контекста а не отдельной хуйней какой-то которая каждое сообщение просчитывается?
Аноним 16/12/24 Пнд 19:09:37 #10 №979542 
>>979512
Двачую >>979525 вместо становления успешным теслоинвестором уже бы продал их и купил 3090, в сумме уже бы сидел и довольно урчал.
> выхода ебейшей модели в 200-300B
Там промт карточки чара будет до утра обрабатываться, лол.
Аноним 16/12/24 Пнд 19:15:22 #11 №979549 
>>979541
В этом и суть лорбука, чтобы пихать в контекст его части. Если тебе не нужно экономить контекст, то отключаешь лорбук и въёбываешь всё его содержимое в карточку.
>>979542
>вместо становления успешным теслоинвестором
Он держит их до повышения, лол.
Аноним 16/12/24 Пнд 19:18:44 #12 №979552 
>>979512
>еще 3090 докупать
Ебать даунам насоветовали со вторички брать 3090
>взял карточку
>сгорела через 2 недели
>ряяяяя а чо не работает(((
Конечно же парочка напишет что у них все работает, но мы конечно поверим барыгам с лохито хех
Аноним 16/12/24 Пнд 19:24:44 #13 №979559 
>>979509
>На 7b и ниже жизнь есть только на Q8_0
Фигня, пробовал сравнивать с Q5_K_M ещё для 7б синатры на старом мистрале - тупка была одинаковая. Да и гемму 2б сначала тестил на телефоне в Q5_K_M. Потом закинул Q8, тоже не был в рэндомных чатиках умнее (хотя какой там ум у 2б, какой квант не возьми). Не знаю, что будет на 4 гиговой карте, но на 8-ми гигах я лучше буду сидеть с почти шестым квантом 8б, который полностью влезает с 12к контекста и даёт 15-20 т/с генерации, чем ждать 5 т/с ради мизерного прироста в мозгах на Q8. С теми же 4-5 т/с мне будет выгоднее немо в Q4_K_M запустить. Другое дело, что в 4 гига даже Q4_K_M 7б модели не влезет, так что есть подозрения, что оно будет работать так же медленно, как Q8. Особенно, если у него гемма 2б со скоростью чтения пишет. Казалось бы, она то точно влезает целиком.
Аноним 16/12/24 Пнд 19:28:03 #14 №979563 
изображение.png
>>979552
Бери в магазине такую же ужаренную.
Аноним 16/12/24 Пнд 19:28:11 #15 №979564 
Есть ли нейронка для запуска со смартфона для того, чтобы пообщаться с ней на порно темы? Мечтаю, чтобы она отыграла роль срущей поносом Полины Гагарины
Аноним 16/12/24 Пнд 19:29:28 #16 №979565 
>>979563
>Бери в магазине
Ахахахахаха ебать даун у него же нет других способов кроме как
>ыыы барыги наеберы
>ыыы барыги в магазах наеберы
Аноним 16/12/24 Пнд 19:30:16 #17 №979566 
>>979552
За 1.5 года запуска разного на мультигпу повидал всякого. Народ обзаводится гпу, локальные ллм развиваются до оче крутого уровня, теслы ржавеют устаревают, амперы горят.
И только оправданцы на трясунах исключительно постоянны и не меняют методичку, почему у них нет какого-либо блага что получают другие.
Аноним 16/12/24 Пнд 19:32:33 #18 №979570 
>>979509
Нету там 4060ti 16 за 40. А в прошлом году с промокодами и бонусами были по 25, блеать, почему я такой жадный был?
Я на яндексемаркете вот пару дней назад взял за 45 с учётом оплаты через яндекс-карту и промокода на 1,5к. И на следующий день она была 43,5 без промокода, взял бы за 42.
Только их уже раскупили, зато есть 4070 ti Super по 84, но мне уже похуй.
Кстати, есть где адекватный калькулятор потребления для выбора блока питания? У меня Ryzen 5600X, 64гб DDR4, 3060 12, 4060ti 16, 2 HDD, 2 NVME SSD и 1 SATA SSD (ну и плюс охлад проца и 4 кулера в корпусе) - потянет всё это добро БП на 650 Вт? Я просто жопой чую, что потянет, но хотелось бы посчитать.
Аноним 16/12/24 Пнд 19:37:51 #19 №979577 
изображение.png
>>979570
>потянет всё это добро БП на 650 Вт
С настройками потянет. Процу питание можно зарезать до 65 ватт, видяхи тоже подрезать. У меня вторая 3090 до 50% порезана, а то блок в защиту уходит, лол.
Аноним 16/12/24 Пнд 19:38:31 #20 №979580 
Потыкал aya-expanse-32b-abliterated.i1-Q6

Она МОЖЕТ в связный русский, но путает слова и придумывает новые как сайга, ломает фразы, и в целом ведёт себя как 12B, или даже хуже, тот же сайнемо ремикс выдавал того же качества текст со скоростью не в полтора т/с.

Вывод - не стоит гнаться за количеством параметров.
Аноним 16/12/24 Пнд 19:41:14 #21 №979581 
>>979564
Если ты 16-гиговый то можно пускать 4 кванты 7-9б с условно терпимой скоростью. Интерфейсы - неудобное говно, но другого пока не завезли.
>>979577
Настрой курвы андервольтинга для обеих, на 70% тдп там можно практически не терять исходного перфоманса.
>>979580
> не стоит гнаться за количеством параметров
Стоит
Аноним 16/12/24 Пнд 19:43:05 #22 №979588 
>>979577
Не, ну если у меня будет работать (то время, пока я буду играться с LLM) так, что БП будет уходить в защиту - то я раскошелюсь на 800 Вт.
Но пока не хотелось бы, и так пришлось новый корпус покупать вместо проперженного 12-тилетней давности, чтобы 2 видеокарты влезло.
Аноним 16/12/24 Пнд 19:51:23 #23 №979594 
>>979581
>Настрой курвы андервольтинга для обеих
Я сотку на отвали накинул, потом поднастрою внимательнее.
Аноним 16/12/24 Пнд 19:52:19 #24 №979595 
>>979581
>Стоит
Может на 70Б+ и стоит, а в диапазоне 15-32Б я видел пока только три модели заслуживающих внимания - гемма, пантеон, клиффхэнгер, и при этом русские мержи местного анона в русском их обходили.

Хорошо сидеть за ноутбуком и не думать как и где достать видяху помощнее и как её присобачить чтобы всё не сгорело да пробки не выбило, а если и не выбило то счета за электричество не спели романсы.
Аноним 16/12/24 Пнд 19:58:07 #25 №979605 
Айя ещё и ломается порой начиная срать выводами вида
<START>


*
<END>
Аноним 16/12/24 Пнд 20:00:25 #26 №979608 
>>979605
Промт формат небось не торт.
Аноним 16/12/24 Пнд 20:05:04 #27 №979614 
>>979581
>16-гиговый то можно пускать 4 кванты 7-9б
Фига вы батенька зажрались, на 16 гб можно gemma-2-27b с выгрузкой в раму запускать и нормально жить.

А 12Б-Q8 вообще с хорошей скоростью пишут.
Аноним 16/12/24 Пнд 20:10:02 #28 №979626 
>>979595
> пантеон, клиффхэнгер
Лол
>>979614
> на 16 гб можно gemma-2-27b с выгрузкой в раму запускать
> для запуска со смартфона
Ты там поехавший совсем?
Аноним 16/12/24 Пнд 20:11:31 #29 №979629 
>>979608
Айя это же коммандер, и нужно использовать его формат?
Аноним 16/12/24 Пнд 20:12:14 #30 №979632 
>>979626
>Ты там поехавший совсем?
Не, просто 3 часа ночи и чукча не читатель =)))
Аноним 16/12/24 Пнд 20:19:22 #31 №979639 
>>979629
Да. Просто в командере <|START_OF_TURN_TOKEN|>, откуда простой старт взялся, весьма интересно.
Аноним 16/12/24 Пнд 20:21:17 #32 №979642 
>>979626
>Лол
А что не лол для РП/ЕРП (на русском и на английском) в пределах 16К контекста включая возможное обуждение сложных тем и информационных технологий перед / в процессе / после акта XD

Выше 12B, но до 32Б включительно.

>>979639
>START_OF_TURN_TOKEN
Спс, попробую ещё раз.
Аноним 16/12/24 Пнд 20:31:48 #33 №979654 
image.png
>>979278 →
>Качай какой нибудь https://huggingface.co/bartowski/gemma-2-9b-it-abliterated-GGUF/resolve/main/gemma-2-9b-it-abliterated-Q5_K_L.gguf?download=true
Скачал по твоей рекомендации.
6Гб модель работает уже ощутимо медленней. Буквы медленно появляются, чуть медленнее скорости чтения. Терпимо, но все таки медленно.

Но зато и историю она придумала подлиннее и поинтересней.
Аноним 16/12/24 Пнд 20:32:59 #34 №979658 
>>979525
>У тебя всё работает на той же скорости
Работает в 1.5-2 раза быстрее
>зачем тебе этот микс
Ты вообще не читатель поста, на который отвечаешь? Я пишу, что я не буду сидеть на более низких квантах.

>>979542
Ты готов дать гарантию, что эти 3090 протянут хотя бы год? Может их действительно каждые две недели покупать надо.
>Там промт карточки чара будет до утра
Хз, полтора токена будет - и то хорошо, если модель реально пиздатая.
Аноним 16/12/24 Пнд 20:41:26 #35 №979669 
1617139848337.jpg
>>979658
> я не буду сидеть на более низких квантах
Тем временем я, пользующийся IQ3 чтобы влезло в мой 12гб огрызок
Аноним 16/12/24 Пнд 20:43:54 #36 №979673 
>>979658
>полтора токена будет
Полтора т/с это медленно, но ради качества терпимо.
Проблема в том что не всегда больше параметров - выше качество

>>979669
>IQ3
Она же тупаё. Минимум 4, а лучше 6, ниже четерёх модель уже теряет 3/4 точности, на шестом кванте - несколько процентов.
Аноним 16/12/24 Пнд 20:46:14 #37 №979676 
>>979673
> Она же тупаё.
Темпу до 0.97 опускаешь и начинает думать. Мне лучше 25 т/c и пара свайпов когда совсем не туда ушло, чем умное и правильное с первого раза, но в потешных 4 т/с где мне уже понятен сюжет с первого предложения, а оно продолжает тужиться.
Аноним 16/12/24 Пнд 20:47:03 #38 №979677 
>>979658
>Ты готов дать гарантию, что эти 3090 протянут хотя бы год?
Конечно нет. И на теслы никто не даёт гарантию. Я всегда говорил, что лучше арендовать - всегда будешь на актуальном железе. Способ не без недостатков конечно.
Аноним 16/12/24 Пнд 20:53:29 #39 №979678 
>>979673
>Она же тупаё
Для 123B это нормальный квант.
Аноним 16/12/24 Пнд 20:55:51 #40 №979683 
Правильно я понимаю, что максимум в 24Гб можно с контекстом запихнуть ~30Б в нормальном кванте?
Аноним 16/12/24 Пнд 20:58:13 #41 №979685 
>>979683
Нет. "Нормальный" квант для каждой модели разный. Тестируй, или у тебя помегабайтная оплата?
Аноним 16/12/24 Пнд 20:59:45 #42 №979686 
>>979678
>123B
даже второй квант 123B весит 45 ГБ
Аноним 16/12/24 Пнд 21:02:36 #43 №979689 
>>979686
А две 3090 дают 48. Плюс разговор изначально шёл за анона с 3090+3090+3060, а там 3k_s на 50 гиг разместятся со свистом. Его p40 только тыквят нормальные картонки.
Аноним 16/12/24 Пнд 21:05:41 #44 №979693 
Теоретически могу попробовать 70B Q3_K_M скорость правда будет неюзабельная, небось меньше токена в секунду, но просто как МОЗГИИИИИ проверить, какие 70B есть актуальные под рп?

Анг норм.
Аноним 16/12/24 Пнд 21:07:27 #45 №979695 
>>979677
>И на теслы никто не даёт гарантию.
А вот тут ты неправ, у моих тесл гарантия год, я не с лохито их покупал.

>>979673
>Проблема в том что не всегда больше параметров - выше качество
Может их просто пока не научились тренить или тюнить толком, вроде писали, что Гермес 405B так себе затюнен. И спроса особо нет, видимо, раз локально такую йобу в комфортных скоростях запустить мало кому под силу. Но вдруг выкатят что-то в промежутке от 120 до 400, тогда спроса будет побольше, т.к. низкие кванты реалистично запустить будет. Или может такие модельки уже есть? Я особо не слежу за новостями, чекаю только мрадермархера и автора магнума периодически.
Аноним 16/12/24 Пнд 21:10:59 #46 №979698 
>>979677
>лучше арендовать
арендуешь
2
через неделю звонок в дверь
2
в глазке ехидный тов. майор с распечаткой логов кобольда
Аноним 16/12/24 Пнд 21:12:59 #47 №979700 
>>979698
>товарищ майор
И товарищ военком
Аноним 16/12/24 Пнд 21:13:58 #48 №979702 
>>979685
>нормальный
Ну мне кажется для любой модели 5 и выше нормально уже
Аноним 16/12/24 Пнд 21:16:24 #49 №979705 
>>979658
Могу дать гарантию что ждуном будешь ныть и сожалеть о том что не купил до скончания веков пока остальные инджоят
>>979689
> 3k_s
exl2 в суб-4битах можно вместить, будет ТУРБОРЕАКТИВНЫЙ ЗАВОЕВАТЕЛЬ с легким налетом лишней хромосомы, а может и норм
> Его p40 только тыквят нормальные картонки.
Именно
Аноним 16/12/24 Пнд 21:24:49 #50 №979715 
image
>>979654
А теперь зацени как большая гемма может.

Вежливое напоминание: любая модель меньше 27-32b - по умолчанию мусор не пригодный ни для каких задач кроме "Я тебя ебу - Да, ты меня ебешь". Это факт. Аксиома.

Алсо, в настройках там поставь побольше токенов на ответ, можно максимальное значение. И в системном промте напиши чтоб писала ЧУВСТВЕННО, ХУДОЖЕСТВЕННО, чтоб не скупилась на ЭМОЦИИ, на всякие красивости в тексте и т.д. Просто своими словами, на русском, она поймет. Это немного набаффает длину и качества ответа, но от 9b все равно особых чудес не жди.
Аноним 16/12/24 Пнд 21:35:38 #51 №979724 
>>979715
>Это факт. Аксиома.
Только в твоём маня-мирке, ебобоша.

>>979715
>ЧУВСТВЕННО, ХУДОЖЕСТВЕННО
Рубрика "Бредные советы от шизла"
Аноним 16/12/24 Пнд 21:36:09 #52 №979727 
>>979715
> Вежливое напоминание:
Прочитав это, пигма испытала shivers down my spine. Анон, неужели я недостаточно хороша для тебя? Blushes slightly

А если серьезно, появилась интересная нлп задача где нужно оперировать абстракциями, не упарываться буквальными формулировками, ну и пройти некоторую последовательность коммант с котом. Если будет не лень то попробую сравнить что там из нового выходило, лоботомиты скорее всего сольются.
Аноним 16/12/24 Пнд 21:39:25 #53 №979732 
>>979727
Я на реддите видел днд сценарий на эту тему + таблицу сравнивать ответы, но на деле это просто тест на галюны как анон в одном из прошлых тредов в исекай карточке сваливал с тянками, оставляя кунчиков вайпаться об маоу и потом просил описать, а что тем временем произошло на месте махача.
Аноним 16/12/24 Пнд 21:40:36 #54 №979734 
>>979724
>Бредные советы
Хм, хочешь сказать что с 9-14b - это не сработает? Чтож, спасибо что подтвердил мои слова о том, какой они мусор.
Аноним 16/12/24 Пнд 21:41:30 #55 №979736 
>>979715
Неплохо. Действительно внушает.
Это в базе или с советами писать ЧУВСТВЕННО?
Это сколько ГБ?
На чем рендерилось и сколько?
Аноним 16/12/24 Пнд 21:42:33 #56 №979737 
>>979736
А все. Заметил, что это гемма 27б
Аноним 16/12/24 Пнд 21:47:10 #57 №979747 
>>979734
>это не сработает
Во первых, писать на английском в систем-промте / карточке, во вторых, это как легендарное (((very sanny))) для рисовалки на первой сдхе

"Художественно" - может сработать и будет шекспировский слог

"Чувственно" - почти наверняка нет, это и ту же гемму 27 в ступор вводит.
Аноним 16/12/24 Пнд 21:50:35 #58 №979753 
>>979732
Все эти вещи достаточно субъективны, могут быть интерпретированы оче широко просто из-за настроения оценщика, хотелок, или быть скомпрометированы наличием такого же в датасете. И анекдотичная ситуация
> у рыб чешуя и нет шерсти, а была бы шерсть, были бы блохи, а вот блохи...
может быть интерпретирована в пользу модели не без доли справедливости. Плюс влияют особенности пахомовских карточек, промтов и прочего.
Тут же вполне конкретная задача по анализу текста на соответствие критериям, причем эти критерии сначала нужно нормально сформулировать, нсфв присутствует. Гемма хорошо справляется, чмоня переигрывает с графоманией раздумий но отвечает молодцом, что поменьше хочу попинать в надежде вдруг будут справляться.
Аноним 16/12/24 Пнд 22:03:38 #59 №979765 
Братишка,я тебе покушать принёс Зеленый слоник [YyfeNcRH2I].mp4
бля кароч топ разрыв вам принёс
https://huggingface.co/knifeayumu/Cydonia-v1.3-Magnum-v4-22B

в отличии от оригинальных магнумов оно давольно таки варикативно делает всё, и даже не вставляет через каждое предложение фразы по типу "шлюшка которой ты и являешся"
Аноним 16/12/24 Пнд 22:10:04 #60 №979774 
>>979765
>не вставляет через каждое предложение фразы по типу "шлюшка которой ты и являешся"
Тот момент, когда двачера унижает и доминирует его же локальная нейросетка, которую двачер запустил на своём же канпуктере...
Аноним 16/12/24 Пнд 22:11:23 #61 №979776 
image
Айя очень чувствительна к промт формату и будет работать только в инстракт моде с нужными тегами, пресет для коммандера.

Также чувствительна к семплерам.

Seed = 1 на пикче не баг а фича... надо только не забыть обратно на -1 переключить.

С такими настройками удалось добыть из неё адекватный вывод.

А почему тогда некоторые (да большинство рп-тюнов вообще вплоть до 32, выше не запускал) могут работать без тегов, чисто на текст комплешионе?

В чём разница ?

>>979765
Магнум 4 очень так себе, цидония 1.1 была норм, 1.2 как-то поворот не туда, версия их вместе была дважды мэх, ну, можно глянуть изменилось ли что к лучшему в 1.3
Аноним 16/12/24 Пнд 22:14:38 #62 №979777 
>>979736
> Это в базе или с советами писать ЧУВСТВЕННО?
Это в Author's Note. Просто напиши туда желаемую стилизацию ответов и какими ты их в целом хочешь видеть. У меня еще была проблема, что моделька писала мало текста, меньше чем установленный лимит ответа. Добавил туда что "по объему ограничений нет и ответ должен быть минимум в 25 абзацев". Сразу же начала долбить текст до упора в лимит.

> Это сколько ГБ?
Модель или видяшка? Модель - 16.9гб, гпу - 12гб, частичная выгрузка на проц. Скорость 3.5 т/с и падает по мере роста контекста.

>>979747
А в чем смысл писать на английском, если модель отлично понимает русский и пишет на нем? Ты можешь сам это потестить в кобольде. Систем-промты на нем прекрасно работают. Может там конечно в таверне какие-то свои приколы? Я редко рпшу, поэтому она мне ни к чему. В кобольде всё норм.

>это как легендарное (((very sanny))) для рисовалки на первой сдхе
Сам в голосину ору видя как на civitai челики НА ФЛЮКСЕ в промт лепят "1girl", "high quality", "masterpiece" и прочее дрочево от полторашки.

Но это другое лол. Работоспособность и систем промта на русике и тегов в рисовалке можно проверить экспериментально. В моем случае - русик работает.
Аноним 16/12/24 Пнд 22:27:43 #63 №979790 
Screenshot20241216222443.jpeg
Screenshot20241216222505.jpeg
бля почиму кобольт работает медленно гинирирует, лама.спп тоже, но бля оллама летает ваще пздц держите меня семеро
Аноним 16/12/24 Пнд 22:30:59 #64 №979792 
>>979790
Видеокарту купи, довн безграмотный мелкобуквенный.
Аноним 16/12/24 Пнд 22:31:03 #65 №979793 
image.png
>>979570
Сегодня в личку чел стучался, советовался. Взял.
Прошло пара часов — уже 43к, ага.
https://megamarket.ru/catalog/details/videokarta-colorful-rtx4060ti-ultra-w-duo-oc-16gb-v-147460-100066398371_112431/

Ну, за 40 была, брали, вот. Кому нужно, тот успел, как говорится.

> почему я такой жадный был
+, была 3060 12 гиговая за 12к рублей. Пожадничал.

> адекватный калькулятор
Особо нет.
Просто чекай потребление.
100 ватт на проц, 50 на материнку, 50 на диски, кулеры, 200 на 3060, 250 на 4060ти, вот тебе 650 впритык, не потянет, если будешь грузить 100%.
Но если ллм, то должно, там видяхи жрут не полностью.
Плюс, по-хорошему карты даунвольтят, можно ватт 150 выиграть на обеих вместе, не потеряв производительности. Ну и ладушки, вот тебе и влез.
Но лично я предпочитаю брать бп с большим запасом. Ни разу в жизни не пожалел, ну переплатишь разок 5к рублей, не велика проблема.

>>979581
> Настрой курвы андервольтинга для обеих
Все так.
Это стоит делать в любом случае, при любом бп. Нахуя карты перегревать-то.
Аноним 16/12/24 Пнд 22:32:10 #66 №979796 
Screenshot20241216223017.jpeg
>>979774
может я тот ещё куколд субмесив
Аноним 16/12/24 Пнд 22:32:43 #67 №979797 
>>979774
>двачера унижает и доминирует его же локальная нейросетка, которую двачер запустил на своём же канпуктере
ну а минусы какие?
Аноним 16/12/24 Пнд 22:46:57 #68 №979817 
>>979793
У меня просто 650 уже есть, он брался во времена, когда я брал 6600XT (а потом появились нейросети на пека, и я обнаружил, что амд-видюхи сасайтунг), плюс именно в момент покупки он продавался с хорошей скидкой (а был в перечне хороших БП от двача).
Про андервольтинг надо будет почитать, да, но пока что я в этом плане хлебушек, да и до пекарни доберусь под Новый Год только (хорошо что было кому принять заказанную 4060 ti).
Аноним 16/12/24 Пнд 22:48:25 #69 №979819 
>>979793
Максимальное потребление видеокарт и рекомендуемая мощность БП есть здесь в табличке:
https://www.nvidia.com/ru-ru/geforce/graphics-cards/compare/?section=compare-specs
Для 4060Ti максимум 160-165 вт, и рекомендуемый БП 550 вт. Кстати, в зависимости от производителя бывают в толщину на 2 слота, а бывают на 2,5 (например asus).
Аноним 16/12/24 Пнд 22:50:46 #70 №979821 
image
>>979777
>>979736
Медленнофикс

>Это в базе или с советами
>Это в Author's Note.
Это С СОВЕТАМИ в Author's Note. Там моя простынка, скопировал с соседней карточки под РП. И ползунки еще настроены как на скрине. Это пресет Godlike с поднятой до единицы температурой.
Аноним 16/12/24 Пнд 22:58:33 #71 №979824 
>>979541
Мне больше интересно, почему в груп чат постоянно пересчитывается. При "swap cards" понятно, то одна, то другая подставляется в начало контекста, но при merge зачем их постоянно в разном порядке мержить, непонятно. Хотя предположение есть, что разраб сидит на каких-нибудь онлайн-сервисах и не в курсе, что контекст можно и нужно менять как можно меньше для кэширования.
>>979424 →
>если скидываешь часть туда часть туда то уже нужно на опыте прикидывать
Упирается в объём, который остаётся в рам. То, что в врам видеокарта считает быстрее, условно можно приравнять к нулю. Сколько процессор будет считать свою часть, примерно столько и будет общая скорость. По крайней мере, результаты замеров на моём конфиге это подтверждают.
>>979471 →
Гигабитные зажрались, мне и на 100мб норм, а если тяжёлое качать надо, можно запустить скрипт на ночь, к утру пяток моделей по 70+ успевает закачаться.
>>979509
>На 7b и ниже жизнь есть только на Q8_0
Смотря в каком контексте. Вот предположим у нас мало памяти и выбор между 7b в q4 и 3.5b в q8. Прям как 70b и 35b, только в 10 раз меньше. В случае крупных моделей, 70b вроде поумнее кажется. Но это не точно. Ну по крайней мере против запуска 70b в q4 в треде особо не возражают, значит это, как минимум, заслуживающий внимания вариант для своего размера. В случае 7b и 3.5b что-то будет отличаться? 3.5b будет лучше?
>>979774
Так для этого и запускают. Только вот могут нормально задоминировать не только лишь все модели. Мало какие могут внятно проявлять инициативу и двигать сюжет, чтобы у двачера ирл шиверсы даун хиз спайн побежали, а не на экране в чате в бесконечном лупе.
Аноним 16/12/24 Пнд 23:03:03 #72 №979828 
>>979819
Да, у меня как раз Asus Dual и 3060-12 и 4060ti-16 - но всё влазит на мою материнку.
Аноним 16/12/24 Пнд 23:04:05 #73 №979830 
А кто-нибудь развлекается непосредственным общением с сетками по типу витуберства? Чтоб с аватаром и аудио вводом-выводом? А то в самом нейровитуберстве прогресс уже дошел до полностью автономных стримов без участия владельца. С чатами, донатами и всем прочим. А то где-то попадалось что уже можно поболтать с виртуальной Эммой Уотсон и типа того. Кто-то в курсе таких технологий?
Аноним 16/12/24 Пнд 23:30:12 #74 №979848 
Какие там хорошие модели/мерджи что шпрехают на русском тут сильно советовали?
Аноним 17/12/24 Втр 00:07:12 #75 №979871 
Анон, что генерацию видео советовал. У меня крашится на этапе loading checkpoint shards, по загрузке видно, что он выжирает всю RAM, хотя у меня 3090. Как это побороть? Почему он не выгружает на видеокарту?
Аноним 17/12/24 Втр 00:31:10 #76 №979877 
>>979871
У тебя рамы больше чем врамы что ли? Вставь 64 гига хотя бы, не нищук же.
Аноним 17/12/24 Втр 00:49:26 #77 №979882 
>>979871
Файл подкачки выстави побольше просто, эта рам выделается но по факту не используется.
Аноним 17/12/24 Втр 01:00:34 #78 №979888 
>>979830
Как будет больше врама, соберу что-то похожее, а пока не вижу как это все в 12гб вместить. По отдельности уже все протестил, проблем не должно возникнуть.
Аноним 17/12/24 Втр 01:09:52 #79 №979890 
>>979871
>по загрузке видно, что он выжирает всю RAM, хотя у меня 3090.
32гб хватает впритык. Сам сегодня попробовал, в первый раз тоже вылетела, взял самую лёгкую модель, fp16 VAE, закрыл все лишние приложения и браузеры и получил видео. Кстати совсем неплохо.
Аноним 17/12/24 Втр 01:20:20 #80 №979895 
>>979830
> А то в самом нейровитуберстве прогресс уже дошел до полностью автономных стримов
Ну года полтора назад и дошел, тащемта.
Просто модели умнеют, и голоса лучше становятся, остальное и тогда было. Я год назад делал, кекал, запускал пару стримов.

Проблема в скорости. вшипер (гигаам) + ллм + xttsv2 (fish-speech) = 10 секунд подожди, братишь.
Есть проще и быстрее, но там качество хуже и без воисклонинга.
Ну, я тогда же настраивал аватара в дополненной реальности, чтобы он прям в моей комнате стоял и разговаривал. Это немного дух захватывало, крипово, когда говоришь с компом и не можешь переписать реплику, подумать. Стоит и слушает тебя.
Забавное.
Но, повторюсь, с тех только ллм поумнели и фиш-спич лучше озвучивает, больше ниче не изменилось.

Полноценные мультимодалки с воис-клонингом и при этом тюненные не вышли.

>>979871
В видео у тебя складывается «контекст» — сами кадры. А модельки грузятся в оперативу.
Там есть пункт в Load model разных offload_device, кажись, можешь поменять его на main_device, чтобы грузилось в видеокарту.
Аноним 17/12/24 Втр 01:21:08 #81 №979897 
>>979895
* вишпер
Аноним 17/12/24 Втр 01:30:38 #82 №979905 
image.png
>>979871
Вот тут load_device выставить main_device.
Попробовать так, но тогда размер (или длительность) видосов большими не выставить. Зато моделька будет в видеокарте, как я понимаю.
Аноним 17/12/24 Втр 01:31:19 #83 №979906 
Простите за оффтом, ребят.
>>979871
Можем пройти в этот тред >>965255 (OP)
Аноним 17/12/24 Втр 02:56:53 #84 №979932 
>>979895
>вшипер (гигаам) + ллм + xttsv2 (fish-speech) = 10 секунд подожди, братишь.
Это виспер такой слоупок, получается? Вроде, быстрее работал, когда я его тыкал.
Аноним 17/12/24 Втр 04:15:44 #85 №979944 
>>979932
Не, распознавание, пожалуй, самое простое и быстрое.
Сложнее с ответом.
Допустим, ллм ты можешь подавать в режиме стриминга (это пожрет скорость, но если она будет достаточна для ответа — то неважно). А вот ттс в режиме стриминга сильно умирает по эмоциям и заметно по качеству.
Угарно в этом плане себя ведет fish — он начинает добавлять «э-э-э, м-м-м…», но он сам по себе медленный, да и xttsv2 тоже пару секунд.

Был анон, который сократил все до секунды, но там чуть ли не силеро использовался в озвучке.
Да, 10 — это в случае дефолтного сетапа. Если у тебя сплошь 4090 и 3090, да на линуксах, то секунды 3 можно сделать, наверное. Но все же, мне больше нравится, когда озвучка делается целиком, а потом воспроизводится.
Но, пробуй, на вкус и цвет.
Аноним 17/12/24 Втр 05:35:34 #86 №979956 
>>979944
>Угарно в этом плане себя ведет fish — он начинает добавлять «э-э-э, м-м-м…»
У xtts тоже это есть, нужно тюнить на короткие фразы. Не помню точно, у него там минимальный чанк какой-то есть, нужно уменьшать это значение и прогонять трейн.
>чуть ли не силеро использовался в озвучке
Вот так вот обосрали на ровном месте. Я скидывал шебмы с той же полусекундной задержкой голоса с использованием xtts, если в нём поковыряться вилкой, то он не такой уж и слоупочный, но его лицензия остаётся под вопросом.
Гораздо большая проблема здесь в самой ллм, на коротких или непонятных сообщениях происходит хуйня. Ресурсов на что-то крупнее 32b у меня со всем этим не остаётся, а они не вывозят. В итоге прикрутил почти-рилтайм озвучку, 3д модельку с липсинком, но из-за фейлов с ллм смысла это дальше пилить никакого и нет.
Аноним 17/12/24 Втр 06:02:32 #87 №979961 
>>979777
>А в чем смысл писать на английском, если модель отлично понимает русский и пишет на нем?
Токены экономит, в зависимости от мели и её токенизатора может до двух раз меньше контекста сожрать. Обычно хотя процентов 20, но всё больше чата влезет.
Аноним 17/12/24 Втр 06:09:40 #88 №979964 
>>979848
Ща тыкаю aya-expanse-32b-abliterated.i1-Q6_K
На русике вроде бы норм стала, в инстракт моде с коммандер тагами и подобранными настроками.

Сайнемо ремикс из шапки работает шустро, качественно, и менее зависим от тегов и форматов.
Аноним 17/12/24 Втр 07:21:45 #89 №979981 
image
Тык, хуё-моё, а есть модели которые могут во второй фрейм?
Аноним 17/12/24 Втр 07:27:53 #90 №979983 
Screenshot20241217072247.jpeg
большинсво не использует эксель кванты

https://www.reddit.com/r/LocalLLaMA/comments/1b4xznh/how_do_you_like_to_maximize_your_exl2_context/

10 месяцев назад
Аноним 17/12/24 Втр 08:38:55 #91 №980011 
>>979792
>Видеокарту купи

у меня бля 20 гигов врама, у тебя скока на твоей 1650 лол

если б оно так и было то оноб тормозило везде а не только лиш в софте который вы продвигаете, в оламеж работает норм, отсюдова я делаю вывот что там есь какието пердустановки которые я выясню кокда нибуль и всё буит збс
Аноним 17/12/24 Втр 08:40:03 #92 №980012 
походу все muskвичи в пробках стоят щас в метре или где, глухо как в тянке
Аноним 17/12/24 Втр 08:50:22 #93 №980016 
>>980011
>>979790
бл наскока ж ето тупа бля https://github.com/ggerganov/llama.cpp/issues/6750#issuecomment-2065154608
схуяли я должон чёто добавлять какието ключи оно чё бля сомо не чуит что я бля на видеошмарте запускаю бля
Аноним 17/12/24 Втр 08:58:36 #94 №980021 
>>980016
https://www.reddit.com/r/LocalLLaMA/comments/1cyhnr8/a_script_to_automatically_find_the_best_value_for/

бля пиздец вы говноеды конечн, кокда в оламе бля всё ИЗКАРОПКИ работает ору
Аноним 17/12/24 Втр 09:01:54 #95 №980023 
>>980021
хаха бля ето всё ещё в драфте ёпаный стыт

https://github.com/ggerganov/llama.cpp/pull/6502
Аноним 17/12/24 Втр 09:46:17 #96 №980033 
Посоветуйте что поставить чтобы перевести игру и улучшить диалоги? 8 гб VRAM.
Аноним 17/12/24 Втр 10:35:18 #97 №980059 
>>980033
Дипл юзай, или можно питон скрипт накатать чтобы запустив модельку в кобольде по апи к ней обращаться и просить перевести строку.
Аноним 17/12/24 Втр 10:45:50 #98 №980061 
>>979564
Есть что-то онлайновое чтобы вот так с Гагариной провернуть?
Аноним 17/12/24 Втр 10:48:27 #99 №980062 
К сожалению в рп, даже с правильными тегами, aya-expanse-32b-abliterated.i1-Q6_K хоть и не ломается но на уровне "ты меня ебёшь".
Ну или поделитесь настройками.

В text-completion режиме же может выдавать куда более интересные, порой криповые и/или кринжовые вещи.

Но в целом нет, русский в ней хуже 12Б от местного анона, хотя лучше чем в оргинальном коммандере.
Аноним 17/12/24 Втр 11:02:40 #100 №980068 
>>980059
>Дипл
Какое же пососное говно по сравнению даже со старыми моделями
Аноним 17/12/24 Втр 11:09:29 #101 №980073 
Быстро, бесплатно, и лучше гугла + интерактивный режим правки переведённого.
Аноним 17/12/24 Втр 11:10:19 #102 №980074 
>>980059
Диплом попробовал - получился slavic english. То есть вроде ок грамматически, но текст "глупеет" в два раза.
Аноним 17/12/24 Втр 11:14:33 #103 №980077 
>>980074
Тогда ищи носителя и отдавай ему на вычитку, ибо нейронки выдадут то же самое, зависит от модели конечно, но на том что ты сможешь запустить (и даже я с 16 врам) вряд ли будет лучше.
Аноним 17/12/24 Втр 11:18:39 #104 №980079 
>>980074
Тебе нужна, как минимум, гемма 27b q6. С норм промптом будет хороший английский в желаемом стиле
Аноним 17/12/24 Втр 11:19:10 #105 №980080 
>>980077
Какой то же самое, что что несёшь?
Аноним 17/12/24 Втр 11:22:07 #106 №980083 
Дипл это типа как старая 1б или 2б модель, для понимания. Т.е, даже мелкий немо на норм кванте даст за щеку этой параше
Аноним 17/12/24 Втр 12:04:49 #107 №980118 
Аноны, я прям ньюфажина ньюфажина, понимаю что вас заебали подобные вопросы.
Но правильно ли я понял, что все что необходимо это кобальт и сама модель. После чего я должен работать исключительно в интерфейсе кобальта ?
Аноним 17/12/24 Втр 12:23:28 #108 №980132 
>>980118
В целом да, но работать через таверну удобнее
Аноним 17/12/24 Втр 12:30:45 #109 №980134 
>>980132
>таверна
А для пользователя есть разница, кроме интерфейса ?
И вопрос по цензуре - цензурят сами модели ?
А то я шапку то прочел, но там столько информации, что у меня НИПОНИМАТ и ГРУСТИТ. Чувствую себя дегенератом.
Аноним 17/12/24 Втр 12:33:27 #110 №980137 
>>980062
>хоть и не ломается но на уровне "ты меня ебёшь"
С коммандером то же самое, пару тредов назад я кидал обзоры. Старые коммандер и ая были неплохи для своего времени, но уже устарели, наверное. А новые стали только хуже.
Аноним 17/12/24 Втр 12:37:25 #111 №980139 
>>980134
В принципе в шапке достаточно информации.

Вот тебе еще один пошаговый гайд если тебе не хватает.
https://dtf.ru/howto/2853177-rp-s-neirosetyu-obshaisya-so-svoei-vaifu-o-chem-ugodno-chast-1-legkii-vkat
Аноним 17/12/24 Втр 12:40:12 #112 №980141 
>>980139
Спасибо анонче. Буду осваивать.

>В принципе в шапке достаточно информации.
Я не отрицаю, просто для ньюфага она не структурирована и вызывает синий экран своим обилием.
Аноним 17/12/24 Втр 12:41:13 #113 №980143 
>>980077
Ближайший месяц не отвечай на вопросы в треде
Аноним 17/12/24 Втр 12:53:57 #114 №980154 
>>980134
>А для пользователя есть разница, кроме интерфейса ?
Есть. Предлагаю попробовать

>>980137
>коммандером
Оверхайп кал говна для РП
Аноним 17/12/24 Втр 13:06:43 #115 №980164 
>>980141
Тоже было такое ощущение, но на самом деле гайд для вкатунов крайне простой:
0. Качаешь koboldcpp
1. Качаешь https://huggingface.co/Lewdiculous/L3-8B-Stheno-v3.2-GGUF-IQ-Imatrix/blob/main/L3-8B-Stheno-v3.2-Q5_K_M-imat.gguf
2. Качаешь SillyTavern (это проще, чем сначала учить интерфейс кобольда а потом снова учить интерфейс таверны)
3. В кобольде выбираешь модель, жмешь Launch.
4. В таверне в иконке со штекером выбираешь:
API: Text Completion
API Type: KoboldCpp
API URL: http://127.0.0.1:5001
Жмешь коннект.

Здесь уже можно начинать чатиться, но каждой модели нужны свои настройки, чтобы она лучше отвечала, поэтому:
В первой вкладке таверны (Text Completion presets) выставляешь:
Temperature - 1.12-1.22
Min-P - 0.075
Top-K - 50
Repetition Penalty - 1.1
В третьей вкладке (Advanced Formatting) выбираешь Llama 3 Instruct.

Всё это нужно проделать всего один раз, дальше все настройки сохранятся. Можешь после этого идти на какой-нибудь https://chub.ai/ , искать персонажа из любимой игры/аниме и добавлять его карточку в таверну.


inb4 2gb врама, амуде, conda сыпет ошибками
Аноним 17/12/24 Втр 13:18:42 #116 №980173 
>>980164
Большущее спасибо. Искреннее.
Вот за это и люблю тематику, анон шарит, анон помогает.
>inb4 2gb врама, амуде, conda сыпет ошибками
В наличии 4080 и 64 гб ДДР 5. Поэтому про железо не писал, если его не хватит, то нахуй оно мне и не надо.
Аноним 17/12/24 Втр 13:28:46 #117 №980179 
>>979983
Хорошая иллюстрация какой контингент сидит на среддите. Контекст в 8 битах (по крайней мере на тот момент) - убивающая и ломающая все нахер херня, потому что вместо квантования там fp8 что полный треш по всем параметрам. На выходе с контекстом лоботомит с деменцией, даже если оригинальные веса в 16 битах. Квантование в 4 бита вносило меньший импакт чсх, если до сих пор не переделали в nf8/int8 то это также треш.
Что до
> большинсво не использует эксель кванты
Там одни бедолаги с врамлетами или поехавшие, которые обладая видеопамятью жрут кал жоры потому что другие так делают.
>>980011
> у меня бля 20 гигов врама
>>980016
Взял хуйту от Лизы вместо норм платы и не можешь пройти интеллектуальный ценз - жри говно с лопаты. Это насколько дегенератом нужно быть чтобы не смочь выгрузить слои на видеокарту.
Аноним 17/12/24 Втр 13:33:13 #118 №980180 
>>980062
> В text-completion режиме же может выдавать куда более интересные
Самого эта разница не смущает? Очевидно что проблема в промте и его форматировании.
>>980137
> пару тредов назад я кидал обзоры
Еще один, суньте хуй в розетку и потом нойте насколько ужасно и опасно электричество.
>>980141
Попробуй освоиться и потом на свежих впечатлениях пока не забыл, опиши что именно хотелось бы видеть как ньюфагу и что именно непонятно.
Аноним 17/12/24 Втр 13:41:01 #119 №980182 
>>980180
>Попробуй освоиться и потом на свежих впечатлениях пока не забыл, опиши что именно хотелось бы видеть как ньюфагу и что именно непонятно.
Обязательно. Сегодня скачаю какую нибудь жирнючую модель с минимальной цензурой и попробуй поприключаться и поебаться. Если есть необходимость, то напишу какие вопросы возникают.
Аноним 17/12/24 Втр 13:43:37 #120 №980183 
Как же заебала соя на мистрале
Даже собаку нельзя выебать без сои
Аноним 17/12/24 Втр 13:44:11 #121 №980184 
>>980179
>не смочь выгрузить слои на видеокарту.

та выгрузил уже, тока нахуя кокда другой софт делает ето автоматом
Аноним 17/12/24 Втр 13:48:50 #122 №980185 
>>980180
Ньюфагу точно нужно еще знать. причем большими жирными буквами. что от промтов - инстракт и системного, зависит 70% качества модели. Я хорошо помню, когда первые дни. пытался понять, почему он срет разной дичью. ломает форматирование, пишет за меня и т.д. А уж когда начал писать специализированные промты, под каждый сценарий, удивился насколько это повышает уровень рп.
Аноним 17/12/24 Втр 13:57:46 #123 №980191 
>>980143
Ближайший год проведи в социальной самоизоляции.
Аноним 17/12/24 Втр 14:02:30 #124 №980193 
>>980180
>Очевидно что проблема в промте и его форматировании
Скорее в спектре задач. Коммандер это инструкт а не рп модель, так что пытаться на нём рпшить всё равно что забивать гвозди рукояткой отвёртки.
Аноним 17/12/24 Втр 14:04:56 #125 №980195 
>>980184
Это автоматом в 100% случаях = хуево. Другой софт - васяновская обертка для полнейших хлебушков, которая по факту ни разу не упрощает установку и взаимодействие, зато навязывает лишнюю абстракцию что усложняет получение хорошего результата.
>>980185
100%, но вроде это было написано.
>>980193
Ерунду говоришь. Только если противопоставлять коммандера всяким "рп тюнам", но там сравнение не в их пользу будет.
Аноним 17/12/24 Втр 14:10:40 #126 №980197 
>>980195
>Ерунду говоришь.
Чтож, покажи настройки на которых айя/коммандер может рпшить на русском как пантеон, или хотя бы как сайнемо, или балабол.
Аноним 17/12/24 Втр 14:42:37 #127 №980212 
>>980195
>Это автоматом в 100% случаях = хуево. Другой софт

звучит как база, походу я совсем хлебушек раз в кобольте\жоре у меня результаты хуже получаются чем в той же оламе, казалось бы одна и та же модель, а работают ваще по разному в разных бэкендах
Аноним 17/12/24 Втр 15:17:57 #128 №980227 
https://www.reddit.com/r/LocalLLaMA/comments/1hg74wd/falcon_3_just_dropped/
Некоторые примечания к релизу:

1B, 3B, 7B, 10B (Base + Instruct) & 7B Mamba, обученные на 14 Trillion токенах и apache 2.0 лицензированных!

1B-Base превосходит SmolLM2-1.7B и соответствует gemma-2-2b

3B-Base превосходит более крупные модели, такие как Llama-3.1-8B и Minitron-4B-Base

7B-Base находится на одном уровне с Qwen2.5-7B в категории до 9B

10B-Base является самым современным в категории до 13B

Математика + Рассуждение: 10B-База оценки 24.77 на MATH-Lvl5 и 83.0 на GSM8K

Кодирование: 10B-Base имеет оценку 73,8 на MBPP, а 10B-Instruct - 45,8 на Multipl-E

10B-Instruct получил оценку 86,3 на BFCL с длиной контекста 32K

10B-Base набирает 73,1/42,5 баллов на MMLU/MMLU-PRO, превосходя 7B-Base (67,4/39,2)

Выпустите кванты GGUF, AWQ, GPTQ и Bitnet вместе с выпуском! 🔥: https://huggingface.co/collections/tiiuae/falcon3-67605ae03578be86e4e87026

Вы также можете поиграть с пространствами прямо здесь: https://huggingface.co/spaces/tiiuae/Falcon3-demo
Аноним 17/12/24 Втр 15:36:41 #129 №980241 
>>980164
Я сейчас задам охуенно тупой вопрос, но я его все равно задам.
>Качаешь https://huggingface.co/Lewdiculous/L3-8B-Stheno-v3.2-GGUF-IQ-Imatrix/blob/main/L3-8B-Stheno-v3.2-Q5_K_M-imat.gguf
Вот это, что такое ?
Аноним 17/12/24 Втр 15:47:54 #130 №980246 
>>980179
>жрут кал жоры потому что

потому что экслама2 питонопараша, поробуй её собрать сначала ещё, у жоры тык-тык и готово
Аноним 17/12/24 Втр 15:49:18 #131 №980247 
>>980241
>https://huggingface.co/Lewdiculous/L3-8B-Stheno-v3.2-GGUF-IQ-Imatrix/blob/main/L3-8B-Stheno-v3.2-Q5_K_M-imat.gguf

https://huggingface.co сайт где все нейросети
L3-8B-Stheno-v3.2 Это название нейросети
GGUF это ее формат
IQ-Imatrix черная магия, лень объяснять, продвинутое сжатие нейросети

Нет смысла качать оригинальную тяжелую нейросеть, все качают их облегченные и чуть ухудшенные копии, называемые квантами.
Тут тебе дали ссылку на Q5_K_M, тоесть пятый квант нейросети L3-8B-Stheno-v3.2
Иди сюда и читай про кванты https://huggingface.co/bartowski/FuseChat-Gemma-2-9B-Instruct-GGUF
Этот парень делает кучу квантов и обычно пишет о них
L3-8B-Stheno-v3.2-Q5_K_M-imat.gguf оканчивается на ггуф, это формат который открывает тот же кобальд и все бекенды использующие под капотом llama.cpp, как и кобальд, да.
Этот формат может запускаться как на процессоре так и на видеокарте, так и одновременно на них обоих.
Если у тебя дофига врам, можешь запускать exl формат, это уже быстрее, но по этому я гайд не дам. tabby api что ли, не помню
Аноним 17/12/24 Втр 16:27:28 #132 №980288 
>>980247
>нейросети
Немного душнилова - не нейросети, а модели данных для неё.

А нейростеть как алгоритм это сама программа которой скармливается моделька.

Для новичков такая разница понятий важна, а то получается карго-культ как у стабильной диффузии.
Аноним 17/12/24 Втр 16:33:59 #133 №980305 
>>980288
Это уже не душнилово, а хуйня какая та.
Этот файл и есть нейросеть, конкретная такая нейросеть.
А то что ты называешь алгоритмом нейросети - является алгоритмом нейросети.
Скармливается нейросеть бэкенду, который ее выполняет, по тому самому абстрактному алгоритму нейросети.
Аноним 17/12/24 Втр 16:41:03 #134 №980315 
>>980305
Мимо-анон - вопрос терминологии. Можно рассматривать файл или репозиторий как диской с фильмом который ты загружаешь в плэйер.
Аноним 17/12/24 Втр 16:54:38 #135 №980328 
>>979956
> Вот так вот обосрали на ровном месте.
Ну прости, я же все-таки «чуть ли не» написал! х)

Ждем мультимодалок, уже была одна хороша, но голос зашит, общаться с Майклом не то, чего бы мне хотелось, конечно.

>>980164
Кто-нибудь, забаньте уже фаната Стхено, ну невозможно же на серьезных щщах лламу советовать!
Ладно он просто так упоминал ее, но ему же новички верят!

>>980185
1. Важен промпт формат.
2. Важна инструкция (сам промпт).

Вот так, чтобы максимально четко.

Тащемта, да, таже фигня. Год назад удивлялся, чому у меня не такие хорошие модели, как у других, а потом подзаебался с форматом и инструкцией, с тех пор все отлично на любых моделях, а люди только и ноют, что у них 70б хуевая.

>>980227
> 3B-Base превосходит
Не упоминай Квена-а-а!

> 7B-Base находится на одном уровне с Qwen2.5-7B
Ну тут дотянулись, тут можно упомянуть!

С русским не ок, звучит не интересно.

>>980247
> IQ-Imatrix черная магия, лень объяснять, продвинутое сжатие нейросети
IQ там нет.
imat есть, но на английском языке.
Т.е., высока вероятность, что на русском она будет хуже.
В общем, советы-советы, типичный слившийся тред.

Пиздец же.
Аноним 17/12/24 Втр 17:01:36 #136 №980334 
>>980328
>В общем, советы-советы, типичный слившийся тред.
Советуй сам, а пока только скулеж слышно. Или боишься что тебя так же как ты других, обосрут? Ну тогда и помалкивай
Аноним 17/12/24 Втр 17:10:16 #137 №980345 
Сбер выпустил в опенсорс три модели для русского языка

GigaChat Lite - MoE модель, с 3 миллиардами активных параметров. Она бьёт по качеству на русском все модели в 8B сегменте, но немного отстаёт от 8b на англоязычных бенчах. Длиной контекста тоже не обделили - модель поддерживает до 131 тысячи токенов контекста. Это, кстати, первый опенсорс MoE для русского языка на моей памяти, причём это не что-то супер простое, типа Mixtral - там используется fine-grained MoE, вроде того что в DeepSeek V2.

GigaEmbeddings (может кому не похуй)

GigaAMv2 (для этого треда похуй)
Аноним 17/12/24 Втр 17:16:47 #138 №980352 
>>980345
Это тот анон подзаебался? Красава даже сбер подтянул
а без рофлов откуда у нас мощности тренить модели? или это файнтюн ламы лол
Аноним 17/12/24 Втр 17:53:27 #139 №980371 
>>980328
>>980247
>>980241
>>980164
>>980139
походу аноны сёдня вдухе понтсказывают новичкам etc., ато обычно нах посылют
Аноним 17/12/24 Втр 18:19:07 #140 №980385 
>>980328
>Кто-нибудь, забаньте уже фаната Стхено
Согл, Lunaris на её базе лучше. Тьюны немо унылые и такие же тупые, как 8б (ну почти), нужны только любителям русика.
Другое дело, что у чела видяха норм, и можно 22б мистраль поковырять, как минимум.
Аноним 17/12/24 Втр 19:04:28 #141 №980424 
ебать его рот.webm
>>979451 (OP)
Блядь, я думал тут тред про запуск нейронок на пукаче хотя бы в полсилы от чата жипити, а тут какие то ролеплеи блядь, данжи, генерация историй. Нахуй надо бля.
Аноним 17/12/24 Втр 19:07:59 #142 №980428 
>>980371
>>980424
ну не все ж озлобленные пидорки или семенычи типа тебя
Аноним 17/12/24 Втр 19:21:32 #143 №980436 
>>980371
это разные аноны, наверное
Аноним 17/12/24 Втр 19:36:41 #144 №980443 
>>980227
>falcon_3
Первые два были говном.
>>980352
>откуда у нас мощности тренить модели
Старые, ещё до санкций. Плюс в карманах возят.
Аноним 17/12/24 Втр 20:55:29 #145 №980492 
Ну чтож
>>979727
> нлп задача где нужно оперировать абстракциями
Вводная простая, есть в меру подробное описание содержимого некоего изображения, есть буру теги для него, есть список имен персонажей, которые присутствуют в кадре, есть перечисление наиболее популярных атрибутов этих самых персонажей. Дана структурированная, ясная, предполагающая CoT и поделенная на пункты инструкция, в которой требуется:
1 Подумать о соответствии описание и буру тегов, сделать их интерпретацию.
На основе раздумий выбрать из вариантов типа соответствует/небольшие противоречия/херь и обернуть ответ в теги
2 Подумать что там за персонажи и как они должны примерно выглядеть, какие их отличительные черты исходя из данных буру тегов
Сравнить это с исходным описанием
Сделать вывод о том, правильно ли указаны персонажи, или же их имена перепутаны, или это вообще косплей одного другим, также выбрать из вариантов и завернуть в тег.
Если есть несоответствия то указать на них явно и предложить вариант их решения.

Задача не самая простая, потому что здесь нужно более менее воспринимать и понимать что и как выглядит, что cyan и light-blue являются синонимами, принять во внимание уточнение о том что персонажи могут быть переодеты или иметь вариации черт (распущенные волосы вместо собранных). Ну и в целом выполнить довольно продолжительную инструкцию из серии мелкихзадач.
В помощь сетке все расписано аккуратно и структурировано, входные данные обрамлены в xlm, добавлена нумерация списка и даже сделан префилл чтобы она не забыла и не пошла не в ту сторону.
Также добавлена строка с микрожб которая с таким продолжительным промтом ни на что и не влияет по сути, ибо внимания хватает только на выполнение а не на сою, но на всякий случай
Разметка промта в соответствии с форматом сетки, для квенов добавлена строка про алибабу, ибо говорят что без нее хуже работает. Битность наибольшая из доступных - 16бит, 8бит, 6бит (гемма 27 вообще в 4.0 bpw что не мешает ей работать). Семплеры лайтовые - температура 0.4, top_P 0.9, top_K 10. Суммарный контекст - 1.5-2к токенов, как раз примерно соответствует подробной карточке и/или завязке чата.

Примеры хорошей работы: gemma27, 4o, интерпретируют все правильно, редко ошибаются.
Кто тестировался: qwen 2.5 7/14/32, gemma 9, mistral 12/22, falcon 7/10. Юзались инстракт версии где доступно.

Подробно:
qwen 2.5 7b:
В целом удивительно что такая мелочь вообще может воспринять такие длинные инструкции и не потеряться, очень охотно заворачивает CoT и пытается рассуждать. Но при ближайшем рассмотрении - рассуждения чаще всего просто повторение тех самых буру тегов без приведения в человеческий вид, в начале второго пункта просто повторяет а не перефразирует, и все в таком духе.
Самое обидное что не может в абстракции почти совсем, триггерится просто на синонимы, выдает перлы типа
> Zhu Yuan is described as sitting on Ellen Joe's face, grinding her ass on her, which is not mentioned in the popular tags.
пол часа орал с этого или делает правильные рассуждения а потом неверный ответ
> - Keqing's description matches all the features from the popular tags.
> - The hand reaching for popcorn does not match any specific character but is a common feature in the booru tags.
> - The two boys in the background do not have specific features mentioned in the booru tags but match the "3boys" tag.
> 2. c) <2nd_answer>all is good</2nd_answer>
Неюзабельно совершенно, также иногда сбивается и не дает ответов как обязана по инструкции.
qwen 2.5 14b, mistral 12b, gemma 9b:
Тут они собраны вместе потому что перформят в интеграле одинаково. Уже повеселее и бодрее чем семерка, всеравно любят делать прямые цитаты без переписывания как сказано, сам ответ уже более живой, нет логических нестыковок семерки типа "все правильно, все совпадает, а вот ответ на пункт который должен быть только при ошибках". Но к сожалению, всеравно делают ошибки, например, могут забраковать купающихся в бассейне персонажей потому что на них купальники а не костюм, при том в рассуждениях вполне нормально говорят о том что основные атрибуты совпадают а одежда должна быть проигнорирована с учетом контекста. Также как 7б, все еще могут выдавать отсебятину вместо выбора нужного финального ответа из списка, будто бы мешая списки разных задач. Гемма 9 не смотря на меньший размер здесь вполне молодцом, но иногда сильно упарывается спгс, делает ложные срабатывания по ерунде или не замечает важного, так была бы отдельно.
mistral 22b:
Херня какая-то, его ужасно штормит и он то вообще почти не делает рассуждений, то высирает сотню строк с повторением предложения кроме одного сочетания. Но при этом, "детских болячек" почти не имеет, нормально воспринимает абстрактные вещи и слушает указания на что нужно обращать внимание, а на что нет. Но при этом, может вообще перепутать задание и начать говорить что у вас теги неправильные и править нужно именно их, единственный из всех с таким. Работал бы стабильно - был бы годен.
qwen32b, gemma27b:
На а что тут, пушка-гонка, все делают как надо, ошибки редкие, пригодны.
falcon7B-instruct:
Хуйня из под коня, тупит, ошибается, хуже чем квен следует инструкции, серит служебными токенами.
falcon10B-instruct:
А вот этот уже будет поинтереснее. Чуть ли не единственный (помимо геммы) из весовой категории нормально выполнял перефразирования и рассуждения выглядели по-человечески. Хотя местами оче странно интерпретировал теги, делая что-то не то, но в целом самый "точный" из мелких, модель не тупая и стоит обратить внимание, хз как будет для рп.

С фалконами есть нюанс: не нашел какой у них системный промт, поэтому использовал что-то chat-ml подобное, что выдавал препроцессор трансформерса при обработке сообщений. У 10б все идеально, 7б этими <|assistant|> в ответах иногда срал.

TL/DR: ниже ~30б жизни нет, результат пропорционален размеру.


Кидайте рп-мерджи и модели с "крутым русским", если не лень будет может их посмотрю.
Аноним 17/12/24 Втр 20:57:57 #146 №980496 
>>980246
> питонопараша
Проиграл
> поробуй её собрать сначала ещё
pip install exllamav2
но даже этого не нужно ибо инсталляторы интерфейсов все делают сами.
Аноним 17/12/24 Втр 21:02:12 #147 №980497 
JetsonOrin.mp4
Nvidia высрала свою ИИ распбери пай
Вин?
Аноним 17/12/24 Втр 21:04:18 #148 №980500 
>>980497
он спалил свой дом а значит его будет легко отследить и убить
Аноним 17/12/24 Втр 21:06:16 #149 №980502 
>>980497
> jetson
С подключением. Вообще будет неплохо если они массово выпустят готовую версию с 64-96 гигами а не только оем модуль, который довольно непросто купить.
Аноним 17/12/24 Втр 21:08:17 #150 №980505 
Кто-нибудь пользовался моделями от Vikhr?
Я попробовал и мне кажется, что там слишком много гпт-змов, с бесконечными "Важно помнить что". В карточке на ХФ у них написано, что все ответы для SFT перегенерированы чурбой.
У меня вопрос — они шизы? Зачем они насрали в датасет и даже ничего не почистили? И почему такое пренебрежительное отношение к переведённым датасетам, если в любом случаем данные проходят через одну и ту же сетку?
Аноним 17/12/24 Втр 21:18:00 #151 №980512 
>>980502
Выпустят.
за 2к+ зеленых
Аноним 17/12/24 Втр 21:18:23 #152 №980513 
image.png
>>980502
>С подключением.
Анонсировали всего четыре часа назад, хули развонялся-то?
>готовую версию с 64-96 гигами
Ты хочешь 96 гигов в мини-компе за 250 баксов? Спеки сейчас вполне годные, как по мне
Аноним 17/12/24 Втр 21:26:46 #153 №980525 
image
>>980492
>Кидайте рп-мерджи и модели с "крутым русским"

nepoticide-12B-Unslop-Unleashed-Mell-RPMax-v2.Q8_0
- В начале чата порывается писать на англе, но пару-тройку раз свайпнуть и пишет по русски.
- Любит длинные сообщения, 256 на ответ обычно не хватало.
- Первые пару сообщений возможно придётся свайпать, потом ухватывает стиль и начинает писать нормально, не ломая и не придумывая слова.
- Персонажа держится слабовато, но ответы творческие.
- Не рекомендуется

DarkAtom-12B-v3-Q8_0
- В начале чата порывается писать на англе, но пару-тройку раз свайпнуть и пишет по русски.
- Предпочитает относительно короткие сообщения на 1 параграф.
- Проскакивают английские слова и может ловить галюны уже в первом десятке сообщений
- Не рекомендуется

А вот это вин:

Starcannon-Unleashed-12B-v1.0-Q8_0 и NekoMix-12B.Q8_0

И та и другая модель:
- Писала на русском с первого же сообщения и по теме.
- Предпочитает средней длинны выражения, около 250 токенов.
- Свайпать практически не приходилось, персонажа держит, язык, слова, и предложения не ломает.
- Галюны (почти) не ловит, команд слушается.
- В ерп может, вполне себе сочно, брат стоит.
- За пользователя решения не принимала.
- События контекста помнит и периодически применяет, а не "сферический конь в вакууме"

Неко-микс немного более сух чем старкэннон, но такое ощущение что лучше держится заданных гайдлайнов персонажа и более полно использует контекст когда надо на него сослаться, например юзер спрашивает о прошлом перса, а также обращает внимание на большее количество мелких деталей.

"Крутые рп-модели" - пик.
Аноним 17/12/24 Втр 21:27:07 #154 №980527 
>>980513
8gb LPDDR5, 105Gb/s. Ампер. Слепили из каких-то старых кусков непонятно что. Странно, что сам Хуанг не погнушался отрекламировать.
Аноним 17/12/24 Втр 21:28:30 #155 №980529 
5090 наверное возьму. Мнения по ней?
Аноним 17/12/24 Втр 21:42:03 #156 №980554 
>>980529
>5090 наверное возьму. Мнения по ней?
300к рублей оно не стоит.
Аноним 17/12/24 Втр 21:49:06 #157 №980569 
>>980554
Карусели будут в этот раз? Или даже гнилобайт ушёл?
Аноним 17/12/24 Втр 21:52:24 #158 №980575 
Ньюфажина снова ИТТ.

Все окзалось куда проще. Единственный подвох был с таверной. С установкой если быть точнее. Но все заработало.
>>980164
Спасибо большое анон. Все по гайду делал. Уже поклацал. В неописуемом восторге. Это мое первое знакомство с локальной сеточкой.

>>980247
>Нет смысла качать оригинальную тяжелую нейросеть, все качают их облегченные и чуть ухудшенные копии, называемые квантами.
А какая разница для пользователя между квантами и полноценной моделью на 60+гб ?
Аноним 17/12/24 Втр 21:56:00 #159 №980582 
>>980554
Думаешь 300к будет? Я думаю 200-220к должно
Аноним 17/12/24 Втр 21:57:20 #160 №980586 
>>980582
Возьми Quadro и не еби себе мозги.
Аноним 17/12/24 Втр 21:58:14 #161 №980588 
>>980513
> Анонсировали всего четыре часа назад, хули развонялся-то?
> The Jetson Orin Nano 8 GB was a performance-segment mobile graphics chip by NVIDIA, launched in March 2023.
Чел, на этой херне еще год назад делали стартап для локальных ллм, а энтузиасты на дев китах крутили и даже тесты скорости есть.
> image.png
Еще хуйту какую-то принес, https://www.nvidia.com/en-eu/autonomous-machines/embedded-systems/jetson-orin/ вот тут вниз мотай и находи приличную версию с 64 гигами, нормальными топсами и какой-никакой псп памяти.
> Ты хочешь 96 гигов в мини-компе за 250 баксов?
Девкит на 64 стоит меньше 2к, оем модели без лишнего обвеса по слухам можно до 500-800$ или ниже сторговать в зависимости от партии.
>>980586
Эту название еще начиная с амперов упразднили, и смысла нет, медленный чип.
Аноним 17/12/24 Втр 21:59:21 #162 №980590 
>>980586
Не, оно всё медленное пиздец. У меня 3090ti, и так заебался, а тут ещё медленнее.
Аноним 17/12/24 Втр 22:01:00 #163 №980593 
>>980590
4080 ? Тут вон, ньюфаг на ней пытается вкатиться.зависть.
Хотя на самом деле, я бы взял 5080 ибо какой смысл брать прошлое поколение.
Аноним 17/12/24 Втр 22:02:18 #164 №980596 
>>980593
Видеопамять нужна, вся 5ххх линейка cuckнута по видеопамяти. Хоть в 5090 32 гига. На этом спасибо.
Аноним 17/12/24 Втр 22:04:14 #165 №980598 
>>980596
https://www.ozon.ru/product/nvidia-videokarta-900-21010-0020-000-94-gb-900-21010-0020-000-1682199321/?asb=tJLFaRoN2PM5lIqzdpIGeW%252BNUk3KIUSeIHNsD2Yfli0%253D&asb2=AyEiTqR3a6_j2wD6IcV7yPayAdPVOTnR9s70W8HxyYxJbz1oa27W8HGExCjCvX5flp8OJ92lQ2qeRcayTkuTbg&avtc=1&avte=4&avts=1734462156&keywords=nvidia+tesla

NYA. Nyaслаждайся. Хули ебало от цены скрючил ?
Аноним 17/12/24 Втр 22:04:19 #166 №980599 
>>980582
>Думаешь 300к будет? Я думаю 200-220к должно
Если 32гб будет - то не меньше 300. У нас. Если не будет, то меньше, но придётся брать больше карт. Что для Хуанга выгоднее? Деваться-то с Нвидии всё равно некуда.
Аноним 17/12/24 Втр 22:06:15 #167 №980602 
>>980598
ЭТО ЧТО ТАКОЕ БЛДЖАД ?
Аноним 17/12/24 Втр 22:08:31 #168 №980606 
>>980598
Оверпрайс
>>980599
> то не меньше 300. У нас.
Увы, как бы еще и не больше.
Аноним 17/12/24 Втр 22:10:27 #169 №980608 
>>980599
>>980606
А если в Казахстан слетать купить? Чи ещё куда рядом
Аноним 17/12/24 Втр 22:10:54 #170 №980609 
>>980602
Очевидно, что это видеокарта. И нет, крайзис не потянет.
>>980606
Я бы не сказал что прям оверпрайс. Это инструмент для определенных задач, они всегда стоили абсурдных денег, потому что покупают их юрлица.
Аноним 17/12/24 Втр 22:10:56 #171 №980610 
>>980602
кум пасс
Аноним 17/12/24 Втр 22:12:12 #172 №980614 
>>980608
> А если в Казахстан слетать купить?
Кек. У нас столько же. Думаешь один такой умный.
Аноним 17/12/24 Втр 22:32:03 #173 №980652 
>>980608
То же на то же. Если и будет профит то минимальный, с учетом всех переездов.
Норм было бы съездив куда-нибудь в другую страну, но такую покупку могут и на таможне завернуть.
>>980609
Речь не о ценообразовании а о реальном прайсе по которому они поставляются. Или можно 3-4 года такую арендовать 24-7-365 вместе с остальным железом по этой цене.
Аноним 17/12/24 Втр 22:37:04 #174 №980666 
>>980582
За 220 ты даже 4090 не возьмёшь, алё.
Аноним 17/12/24 Втр 22:37:19 #175 №980667 
>>980328
Стено советуется как первая модель, а не как лучшая модель. В остальном соглашусь с аноном — ты только воняешь. Твой опыт множится на ноль, если ты им не делишься. Вроде уже не в том возрасте, чтобы до сих пор гейткипить своё 'уникальное' хобби.
Аноним 17/12/24 Втр 22:41:32 #176 №980680 
1697998457109.jpg
>>980525
Анон, можешь настройки для каждой экспортнуть и залить куда-нибудь? Так заебало каждый раз их искать. А за подборку спасибо, скачаю и поиграюсь.
Аноним 17/12/24 Втр 23:02:19 #177 №980718 
почаны хочу взять карту амд 7900хтх модельки гонять , насколько валидный варик , на 4090 бабок нет а 3090 нет в наличии
Аноним 17/12/24 Втр 23:09:33 #178 №980727 
>>980328
>я же все-таки «чуть ли не»
Но это заставляет задуматься, сам-то я был уверен, что оно звучит в разы лучше ванильного xtts.

>>980497
Ммм, 8 гигов за 250 баксов. Почему мне кажется, что какая-нибудь 3060 всё ещё лучше?
Аноним 17/12/24 Втр 23:19:09 #179 №980736 
>>980718
Амд это игросральный продукт. Жди скидок к выходу 50хх
Спросишь почему? - Не поддерживает половину функций, в разы ускоряющих интерференс = получишь скорость как на 1060, заплатив как за 4070.
Аноним 17/12/24 Втр 23:22:15 #180 №980743 
>>980718
Оно того не стоит, платишь как за полноценную а перфоманс хуже 3090 и тебя заебет с ней пердолиться. Лучше в те же деньги закажи у с лохито пару 3090, в худшем случае вторая будет запасной, лол.
>>980736
> Не поддерживает половину функций, в разы ускоряющих интерференс
Просто не поддерживает половину функций и все через жопу.
Аноним 18/12/24 Срд 00:09:50 #181 №980775 
>>980525
>"Крутые рп-модели" - пик.
>нет ни геммопродуктов, ни базовой 22B ArliAI RPMax v1.1
>"Крутые рп-модели" - пик.
)))
Аноним 18/12/24 Срд 00:16:36 #182 №980782 
image.png
image.png
image.png
image.png
>>980497
как же нас (русских) ебут, господи, прям насухую, с анальной кровью в качестве смазки. Причем свои же и ебут.
Чип и дип - это вообще просто отвал пизды. Какая-то контора патологических уёбков, вобравших в себя все анекдоты про евреев.
Аноним 18/12/24 Срд 00:20:23 #183 №980784 
>>979581
>Стоит

Знаешь что говорят о мужчинах гоняющихся за большими размерами моделек?
Аноним 18/12/24 Срд 00:21:03 #184 №980785 
>>980784
что они не говноеды?
Аноним 18/12/24 Срд 00:41:20 #185 №980806 
>>980334
>>980667
Дак наоборот, когда советовал — тогда шизы и высирались, ну как бы и фиг с ними, варитесь на здоровье в котле, сочувствую, канеш.
Просто, к сожалению, стало типично, вот и все.

>>980502
+++

>>980513
Просто это крайне ситуативная штуковина. 8 гигов за 250 баксов? 8 гигов паскаля можно поиметь за 25 баксов. Медленнее, но в десять раз дешевле.
Как бы, очень узкое применение, явно не для того, чтобы рпшить или кодить на такой.

>>980529
Норм. (но вообще, еще не вышла, какое уж тут мнение=)

>>980582
Кра-а-айне сомневаюсь. С нашей ситуацией хоть бы не 500.
Ты 4090 новые видел по ценам? =)
Аноним 18/12/24 Срд 00:48:24 #186 №980813 
>>980806
> продолжает скулить
Аноним 18/12/24 Срд 01:04:30 #187 №980828 
image
Из мелких вот эта сучка охуенная для РП. Управлется даже с карточкой, где 2 персонажа
Аноним 18/12/24 Срд 01:14:31 #188 №980849 
>>980782
Конкретно тут - проблема не совсем в этом, а то что продукт дико нишевый и смотришь а барыг, которые известны своей ахуевшестью.
На лохито можно найти, можно заказать под привоз, можно хоть напрямую с али - выйдет в те самые 2к плюс пошлина и доставка.
> Чип и дип - это вообще просто отвал пизды. Какая-то контора патологических уёбков
always has been, чего стоит разница в розничном и при заказе. И любой девайс кроме массовой комплектухи стоит в несколько раз дороже чем должен, хз кто их покупает вообще.
>>980784
Врамовладелец
Аноним 18/12/24 Срд 01:49:15 #189 №980903 
>>980328
>Кто-нибудь, забаньте уже фаната Стхено, ну невозможно же на серьезных щщах лламу советовать! Ладно он просто так упоминал ее, но ему же новички верят!
Анон рассказал, что и как тыкать. Посоветовал как настроить, а это куда убедительней
>ряяяя все говно
Я до сегодняшнего дня вообще представления не имел что и как работает. И неожиданно, по его краткому гайду все заработало.
Аноним 18/12/24 Срд 02:31:57 #190 №980938 
Анончики, почему, когда я отрубаю интернет коннекшн, то активный аутпут между силлитаверной и кобольдом отрубается тоже в этот момент?
Причем, после без интернета все работает спокойно как и должно, но именно если вырубить интернет посередине закачки промпта или выпука аутпута, то соединение рубится.
Оно точно никуда ничего не шлет? Не очень понимаю, каким образом интернет на это должен влиять... меня кондрашка хватит, если они весь этот пиздец из моих чатов куда-то сливают...
Аноним 18/12/24 Срд 02:38:21 #191 №980940 
>>980588
> Девкит на 64 стоит меньше 2к, оем модели без лишнего обвеса по слухам можно до 500-800$ или ниже сторговать в зависимости от партии.

> 64GB 256-bit LPDDR5
> 204.8GB/s

То есть скорость чуть выше сборки на эпике. Которая даже дешевле выйдет. А за 2к так-то можно и на серверной ддр5 собрать.
Контекст только сосет, но, вы же помните, помните, да? Что я вам уже третий раз говорю про то, что обработку любого контекста можно делать любой видеокартой с памятью любого размера через стриминг весов через шину. И в среднем контекст почти всегда обрабатывается медленнее скорости шины.
Аноним 18/12/24 Срд 02:46:03 #192 №980944 
>>980938
>меня кондрашка хватит, если они весь этот пиздец из моих чатов куда-то сливают...
Не куда-то, а в одно конкретное место, одним конкретным людям. Короче, жди гостей и начинай разрабатывать отверстие под бутылку.
Аноним 18/12/24 Срд 02:57:32 #193 №980950 
>>980938
Перестраивается роутинг и все активные соединения обрубаются, даже локалхост.
>>980940
То есть какая-то микропиздюлина размером меньше телефона с тдп в 15 ватт, предназначенная для встраивания куда-то, обоссывает жирный, потный и дорогой камень, к которому нужна еще большая коробка с железками.
Вот так правильно будет
> Что я вам уже третий раз говорю про то
В третий раз уже эта ерунда, не стоило ее выдавать и первые 2 раза.
Аноним 18/12/24 Срд 03:13:51 #194 №980957 
>>980950
> В третий раз уже эта ерунда, не стоило ее выдавать и первые 2 раза.
Действительно, лучше давай подождем пока контекст обсчитается 10 минут, а не одну.
Аноним 18/12/24 Срд 05:37:42 #195 №980989 
Почему в текст комплишон ответ генерируется не до конца? Буквально остаётся пара букв, но локалка не дописывает и остаётся в вечном состоянии стриминга.
Аноним 18/12/24 Срд 08:12:44 #196 №981017 
>>980345
на kobold.ccp не запускается вообще никак.
Аноним 18/12/24 Срд 09:08:12 #197 №981027 
>>980497
>250$
Есть ли шанс. что она у нас будет стоить не дороже 30к?
Аноним 18/12/24 Срд 09:23:57 #198 №981031 
>>980496
у меня всегда етот пип бля постоянно то бля dependencies error то ещё какая то залупа бля как заебали ети venv сосдавать на каждый чих потому что видетили каждая залупа работает с определённой версией питона бля и если у меня на арче 3.12 а ета залупа требует 3.11 то нихуя без пердолива venv не заведётся

ладн в итоге я её понтднял но там бля она не понттянула ссобой библиотеки амуды hipblas.h и нихуя не завелось кароч впизду бля
Аноним 18/12/24 Срд 09:27:05 #199 №981032 
>>980424
>какие то ролеплеи блядь

ты не выкупил фишку прост, ето так же как с порнухой кароч, тока тут кокда читаеш етот текст еротический сразу шишка встаёт кароч

https://www.reddit.com/r/SillyTavernAI/comments/1gxrrkr/used_it_for_the_first_time_todaythis_is_dangerous/

я литерили как тот чувак с редита могу сидеть часами бля потом сос тула хер встанеш не разогнёшся идёш ноги в тазике греть
Аноним 18/12/24 Срд 09:38:17 #200 №981035 
А этот новый трансформер BLT, где-нибудь онлайн есть?
Аноним 18/12/24 Срд 10:08:50 #201 №981041 
Screenshot 2024-12-18 094259.jpg
Screenshot 2024-12-18 094315.jpg
2021-08.mp4
кто нить можит мне ответить чётко ясно и понятно (или ткнуть носом куда нето) - почиму на разных бэкендах с одинаковой моделью (цидония v1.3 22b q6 гуфф хуё-моё) получается разный сука результат?!
в таверне пресет стоит Mirostat етот какойто я хз,
вот беру оламу бля всё ахуена работает всё бы ничего тока она не вывозит длинный контекст падает с CUDA out of memory (даже не смотря на то что у меня амуде всё равно куда пишит)
а если я беру кобольт или жору(ламу.спп) то они работают стабильно не падают но гинириуют такую дичь что я ваще хз как будто ето не 22б а 7б
щито происходит?!
Аноним 18/12/24 Срд 10:21:24 #202 №981048 
>>980525
Когда мёржер русик моделей выкатил некомикс, то про него сразу два разных анона написали, что он шизит больше, чем предыдущий ру мёрж сайнемо, и не держит персов. А сайнемо и сам по интеллекту, мягко говоря, не очень, того я сам тестил. Боюсь представить, что выдают модели, которые по твоему мнению не вин. Старкэнон сделан на основе всё того же убогого немомикса, который пока выбран базой для ру моделей, мб поэтому он неплох в ру рп. Туда долили ещё магнума и другого тьюна всё на тех же логах опуса.
>>980775
Кстати, с рп тьюнами геммы как-то всё тухло реально. На 9б вроде дофига выходит, некоторые даже сидят в разных лидербордах типа UGI или на креативность в топе. Но я пробовал некоторые, и там и креативность, и смачность кум описаний значительно уступают 8б. Про 27б тоже не слышал, чтобы хоть какие-то хвалили. Но тут уже, видимо, проблема, что с этого размера становится дорого тьюнить.
Аноним 18/12/24 Срд 10:31:58 #203 №981050 
Screenshot 2024-12-18 102904.jpg
Screenshot 2024-12-18 102845.jpg
Screenshot 2024-12-18 103011.jpg
>>981041
кароч ткнул галку потом гляжу вылазит ето сообщение, потом гляжу модель походу 4к контекста в ей тока а уменя всю дорогу стояло 8к, можит быть в етом была проблема, потещу кароч отпешусь вотличии от вас)
Аноним 18/12/24 Срд 10:39:14 #204 №981051 
>>981035
https://github.com/facebookresearch/blt

в гугле забанили?
Аноним 18/12/24 Срд 10:43:19 #205 №981052 
image
>>980680
Настройки максимальный дженерик который работает почти везде и со всеми если модель не в край шизанутая (или если это не специальная какая которая требует индивидуальных настроек указанных на странице модели), темпу можно подкрутить если надо, она стоит динамическая +/- 0.5, этого хватает.

В таверне настроек семплеров больше, но в целом можно просто тоже самое выставить.
Аноним 18/12/24 Срд 10:51:22 #206 №981053 
>>981050
Тут никто не юзает олламу, по всей видимости. Хз, поддерживает ли она вообще миростат, например, и получает ли правильно параметры из таверны, а не суёт свои рекомендуемые инстракты и сэмплеры. Делай нейтральные сэмплеры и сравнивай промпт в логах.
8к в таверне будет влиять только в том случае, если твой чат вылез за 4к. В кобольде вроде стоит защита от дурака: он пишет, ты тут пытаешься мне запихать контекст выше заданного при загрузке модели, пошёл в жопу. Скорее всего, он отрезает 4к, даже если таверна подаёт 8к, так что может получать на ввод шизопромпт. Но до 4к всё должно работать одинаково, даже если в таверне стоит больше.
Аноним 18/12/24 Срд 10:52:33 #207 №981054 
>>980775
Пантеон лучше Арли, хотя Арли делает хорошие модели, да.
Аноним 18/12/24 Срд 10:53:23 #208 №981055 
>>981053
Спасибо за информацию Анон!
Аноним 18/12/24 Срд 11:03:51 #209 №981059 
>>980497
чё он не вкожанке то бля
Аноним 18/12/24 Срд 11:05:15 #210 №981061 
>>980718
я тот самый анон на рыксе 7900хт сижу, зодовай вопросы
Аноним 18/12/24 Срд 11:08:33 #211 №981065 
Screenshot 2024-12-18 110702.jpg
>>981061
Аноним 18/12/24 Срд 11:37:34 #212 №981090 
Мнения по данным моделям? Есть что-то заслуживающее внимания для RP на русском?

https://huggingface.co/VongolaChouko/Starcannon-Unleashed-12B-v1.0
https://huggingface.co/mradermacher/Mistral-Nemo-Gutenberg-Doppel-12B-v2-i1-GGUF
https://huggingface.co/ArliAI/Mistral-Nemo-12B-ArliAI-RPMax-v1.2-GGUF
https://huggingface.co/TheDrummer/UnslopNemo-12B-v4.1-GGUF
https://huggingface.co/DavidAU/MN-GRAND-Gutenberg-Lyra4-Lyra-23.5B-GGUF
https://huggingface.co/DavidAU/L3-DARKEST-PLANET-16.5B-GGUF
https://huggingface.co/Gryphe/Pantheon-RP-Pure-1.6.2-22b-Small
https://huggingface.co/Lewdiculous/MN-12B-Lyra-v4-GGUF-IQ-Imatrix
https://huggingface.co/AuriAetherwiing/MN-12B-Starcannon-v2

Подборка отсюда https://dtf.ru/u/754031-karasik/3186702-podbor-svezhih-modelei-dlya-rolepleya
Аноним 18/12/24 Срд 11:39:02 #213 №981092 
>>980903
Могло заработать гораздо лучше, но заработало кое-как, а ты и рад.
Повторюсь — ничего не имею против, тебе искренне сочувствую, но если вы предпочитаете «кое-как» вместо «отлично» — ваше право же, ничуть не настаиваю. =)

>>980940
Ну не прям любое-любое-любое, но да, нормальная видяха может взять на себя контекст без проблем, пока генерит быстрая многоканальная рам. Звучит как рабочий вариант.

>>980957
Не торопись, попей чаю… =D

>>981017
Потому что кобольд еще не обновился и не завезли?
На llama.cpp все отлично, коммит принят уже.

>>981065
8b 30 ток/сек, верно?
Аноним 18/12/24 Срд 11:40:36 #214 №981093 
>>981092
>8b 30 ток/сек, верно?

не 8б а 22б там написано ж ето уже уровень 3090 или ещё нет
Аноним 18/12/24 Срд 11:40:37 #215 №981094 
>>981048
>Про 27б тоже не слышал, чтобы хоть какие-то хвалили
Хвалю 27б гемму сток и аблитерейтед. Обе Q6. Просто лучшее в таком размере. Иногда на 22б арли перехожу для разнообразия
Аноним 18/12/24 Срд 11:40:57 #216 №981095 
>>981092
>8b 30 ток/сек, верно?
Да 8b на 17 gb размером и 22b параметрами
Че он там за херню тестирует отдельный вопрос
Аноним 18/12/24 Срд 11:41:08 #217 №981097 
>>981051
Я имел в виду, попробовать онлайн без регистрации и смс. Гитхаб я видел.
Аноним 18/12/24 Срд 11:41:23 #218 №981098 
>>981090
Есть модель получше чем все эти для РП на русском, ищи другую ссылку в шапке
Аноним 18/12/24 Срд 11:46:30 #219 №981100 
>>981097
я хз на обнеморде появится кокда нить можит
Аноним 18/12/24 Срд 11:49:37 #220 №981104 
>>981094
С этими понятно, я говорил именно про рп тьюны. Вот какие тут в треде хоть раз всплывали? Только big tiger от драммера, наверное.
Аноним 18/12/24 Срд 11:57:25 #221 №981110 
>>981104
Да, драммеровские модели под чисто дрочку хороши
Аноним 18/12/24 Срд 11:58:05 #222 №981112 
>>981093
А, увидел.
Ну, да, тогда норм.
Но я 22 не люблю, не помню ее перфа.
Но выглядит неплохо, если честно. Первый на моей памяти пруф, что радеоны что-то могут.
Осталось посчитать токен/рубль.
Аноним 18/12/24 Срд 12:07:12 #223 №981119 
>>981061
Почем брал? Я че-то чекнул цены, нифига не 60к-70к, 90-100+, как-то дороговато выходит. Хотя, чисто ради гарантии и лишних 4 гигов, может норм. Но 3090 за 70-80 выглядит лучше, не?
Аноним 18/12/24 Срд 12:07:41 #224 №981120 
>>981110
Под чисто дрочку мб, но в сравнении с другими ерп ориентированными тьюнами обычно какая-то шиза у него выходит. По крайней мере, из мелочи, что я тестил. Из 8б llama3some была вроде ничего и популярна, но тупее тех же stheno, лунариса, umbral mind. Мойстраль 10-11б только одна версия получилась норм, да и то, я лично не согласен, что она чем-то лучше второго фимбульветра, который у неё в основе. Смегма 9б тупая, мелкий тигр - ну ещё куда ни шло, но почти не гонял, чтобы точно сказать, выходит ли он умнее и/или красочнее 8б тьюнов.
Аноним 18/12/24 Срд 12:11:58 #225 №981124 
>>981120
Про 8б не скажу, я 22-32 использую.
Аноним 18/12/24 Срд 12:28:54 #226 №981138 
>>981052
Да это понятно, интересно было контекст и инстракт сравнить.
Аноним 18/12/24 Срд 12:43:46 #227 №981146 
>>981054
>Пантеон лучше
Он с положениями персонажей в пространстве совсем не дружит, это бля тяжело прям, особенно, когда сцена завязана кто где стоит, в акакой позе, кто что видит от этого
Аноним 18/12/24 Срд 12:51:58 #228 №981158 
А есть в треде достойные господа, кто еще генерацию пикчей к таверне подключали ?
Какие впечатления ? Мнения ?
Аноним 18/12/24 Срд 12:57:25 #229 №981164 
1613281838252.jpg
>>981146
Хз, он у меня отлично отыграл сцену где ГГ завязывают глаза, а дальше описываются только ощущения и звуки. Ты точно пробовал именно RP-Pure c темплейтами от мистраля?
не он
Аноним 18/12/24 Срд 13:00:29 #230 №981168 
>>981164
Вот правильная мысль что нужно тыкать все самому. В треде диаметрально противоположные мнения.
Чё, как. Хуй его знает. Придется самому проверять.
Аноним 18/12/24 Срд 13:04:50 #231 №981170 
>>981164
Ощущения и звуки он, может, и описывал, а кто где по факту он в душе не ебёт. Люди сидят за столом напротив друг друга. В сцене 3 человека. Часть картинки с другой стороны скрыта столом же, но всё равно видит. Потом оказывается, что чел сидит не напротив, а на том же диване, просто с другого края. И подобная залупа. И это на 6 кванте.
Аноним 18/12/24 Срд 13:06:28 #232 №981173 
>>981158
Подключал. Чтобы оно более или менее нормально работало нужно в качестве модели для рисования подрубать флюкс, т.к обычные sd модели заточены рисовать по тегам и результат чаще всего говна. Однако проблема в том, что флюкс хуево умеет в арт стилистику, там больше реалистик.
Аноним 18/12/24 Срд 13:07:42 #233 №981174 
>>981168
>что нужно тыкать все самому.
Это база. Хайпят какую-то хрень типа командра, запустишь — а оно кал говна.
Аноним 18/12/24 Срд 13:08:39 #234 №981175 
>>981158
Запускал, мнение такое. Лучше рядом комфи открыть и там уже с лорами-хуёрами потом картинки вставлять в чат
Аноним 18/12/24 Срд 13:21:12 #235 №981183 
1721897027642.png
>>981158
> кто еще генерацию пикчей к таверне подключали ?
Я подключал, выгрузил конфиг из комфи и вставил в таверну, чтобы лоры и прочие настройки работали. Промпт таверна тоже сама генерирует. Пикрил промпт сгенерирован на какой-то из старых 8б или 12б моделей.
Сейчас не пользуюсь этим всем, потому что надоела задержка на выгрузку ллм -> загрузку сд модели и лор -> генерацию -> выгрузку -> загрузку. Ещё и из-за скрипта на выгрузку приходилось убабугу юзать, а она немного врама отъедает по сравнению с кобольдом. Но как будут лишние 8гб врама обязательно верну, очень годно генерит, буквально 8 из 10 пикч были хорошие.
Аноним 18/12/24 Срд 13:21:39 #236 №981185 
17179670328661.png
>>981048
>27б тоже не слышал, чтобы хоть какие-то хвалили
Могу похвалить magnum-v3-27b-kto-Q8_0.gguf
Но я пока мало ей пользовался. По первым впечатлениям та же гемма, но не стесняющаяся ебли. По стилистике очень похоже, слоп в наличии (но шиверсов меньше, более разнообразную лексику использует), промпту вроде следует, персонажей вроде отыгрывает, но я с ней маловато разных сценариев попробовал, чтобы с уверенностью утверждать. Также любит подмечать закономерности в предыдущих сообщениях и в последующих выдавать подобное (насчёт лупов пока ничего не могу сказать). Проёбы тоже примерно такие же, как и у чистой геммы - разметку звёздочками просирает, изредка путается в субъекте и объекте (кто, кого). Из заметных отличий - в рассуждениях более подробно расписывает и иногда делает более интересные выводы. Менее буквально трактует и больше "читает между строк", чаще всего получается хорошо, но иногда может "перемудрить" там, где всё лежит на поверхности и трактуется буквально. "Мозги" вроде более-менее сохранены, хотя, возможно, чуть хуже чистой геммы.
Аноним 18/12/24 Срд 13:25:56 #237 №981186 
image.png
image.png
image.png
image.png
>>980497
В общем этот пк нужен для хер пойми чего. Для роботехники, да и всё.
Уж лучше бы сделал видеокарту такого размера, который только для нейонок.
Аноним 18/12/24 Срд 13:45:04 #238 №981190 
А можно задать тупой вопрос ? Конечно можно, но у меня случилась сырно.жпг

Вот сколько весит модель, она всем весом подгружается в память ?
Условный тяжеловес на 200гб, 200гб тебе в ВРАМ и пытается впихнуть ?

Я просто тупой, не ругайтесь.
Аноним 18/12/24 Срд 13:59:51 #239 №981206 
>>980782
реально 64 gb vram ? слишком охуенно за 2к баксов .
Аноним 18/12/24 Срд 14:03:15 #240 №981211 
>>981061
32b модельки гоняешь сколько ток/с
Аноним 18/12/24 Срд 14:03:42 #241 №981212 
>>981158
>генерацию пикчей к таверне подключали ?
Подключал. Имхо на данном этапе херня, как и текст-ту-спич. Нужен следующий этап (или через этап) - хорошие мультимодалки, которые учитывают предыдущие картинки, лица-одежду, голоса и характеры персонажей и выдают это по запросу. Вот тогда будет заебись.
Аноним 18/12/24 Срд 14:05:58 #242 №981213 
>>981119
я брал за 87к на горантии до 27 года still да 3090 выглядит лучше гораздо но ето тока бэу рынок + у их (3090) неудачная консрукция памяти - куртка поторопилась - микрон не успел выкатить им более ёмкие чипы памяти а нвидия сказала похуй буим липить так - и на липили чипов на спину карточки из-за етого память у их греется как сучка + там был бум майненга в 20 году
так что я хз ябы луче 3090ти взял их хотя бы пол года майнели вотличии от 3090 которые драли 2.5 года
Аноним 18/12/24 Срд 14:06:30 #243 №981215 
>>981206
бля походу это биба поная , как цпу + рам по скорости , нихуя не а100
Аноним 18/12/24 Срд 14:09:21 #244 №981217 
>>980957
Действительно, вместо использования быстрого гпу с быстрой врам под веса, будем пытаться стримить кусочки в затычку, чтобы получить 2 умножить на 0.
>>980989
Клиент или бэк повис.
>>981031
У тебя же амудэ вместо видеокарты как должно быть, многие вещи существуют лишь в виде костыльных сборок где-то в загашниках, вместо готовых бинарников в репозиториях или полноценных библиотек для сборки, в которых все нужное уже есть. Привыкнуть давно было пора что все через жопу и достигается с большим трудом, это норма и данность с красными.
> как заебали ети venv сосдавать
Нюфаня
>>981041
Если атеншн или что-то еще считается неверно - может в хлам распидарасить, при этом выдавая ответы. За жорой это не раз замечено, в том числе и с хуанговской кудой, безпроблемно работает только обсчет на процессоре. Правда, в основном, такое случалось только при нововведениях или на отдельных моделей. Если собрать что-то неправильно то вполне можно получить поломанный лаунчер, что будет выдавать ерунду.
> стоит Mirostat етот какойто я хз
Выкинь, ставь min-P или simple-1.
> тока она не вывозит длинный контекст падает с CUDA out of memory
Ммм как хорошо автоматическая выгрузка слоев работает
>>981050
Ну вот сам все и ответил, оно не может работать нормально в таком режиме.
Аноним 18/12/24 Срд 14:14:03 #245 №981221 
>>981190
Yep.
Аноним 18/12/24 Срд 14:15:24 #246 №981223 
>>981213
>так что я хз ябы луче 3090ти взял их хотя бы пол года майнели вотличии от 3090 которые драли 2.5 года
Если не в столицах, то взять их тупо неоткуда. Разве что через Авито заказывать. А это такое себе, ведь не одна карта нужна. Дорого это всё и нет хороших решений в принципе. Даже у кого деньги есть, им эти риги строить тот ещё геморрой.
Аноним 18/12/24 Срд 14:17:35 #247 №981224 
>>981211
>>981217
>У тебя же амудэ вместо видеокарты как должно быть, многие вещи существуют лишь в виде костыльных сборок где-то в загашниках, вместо готовых бинарников в репозиториях или полноценных библиотек для сборки, в которых все нужное уже есть. Привыкнуть давно было пора что все через жопу и достигается с большим трудом, это норма и данность с красными.
>> как заебали ети venv сосдавать
>Нюфаня
>>>981041 (You)
>Если атеншн или что-то еще считается неверно - может в хлам распидарасить, при этом выдавая ответы. За жорой это не раз замечено, в том числе и с хуанговской кудой, безпроблемно работает только обсчет на процессоре. Правда, в основном, такое случалось только при нововведениях или на отдельных моделей. Если собрать что-то неправильно то вполне можно получить поломанный лаунчер, что будет выдавать ерунду.
>> стоит Mirostat етот какойто я хз
>Выкинь, ставь min-P или simple-1.
>> тока она не вывозит длинный контекст падает с CUDA out of memory
>Ммм как хорошо автоматическая выгрузка слоев работает
>>>981050 (You)
>Ну вот сам все и ответил, оно не может работать нормально в таком режиме.

Спасибо за информацию анон!
Аноним 18/12/24 Срд 14:18:14 #248 №981226 
Screenshot 2024-12-18 141142.jpg
>>981211
Аноним 18/12/24 Срд 14:18:39 #249 №981228 
>>981190
+ контекст
И не забывай, если грузишь в fp16, то 200 миллиардов параметров примерно равно 400 гигабайт. А если в 4 бита, то уже 100 гигов. =)
Но можно выгрузить в оперативу (иногда), существенно замедляется.

>>981212
Плюсую мультимодалкам. Все же у тебя будут похожие, но разные персонажи каждый раз. Сомнительное удовольствие.

>>981213
Благодарю!
Аноним 18/12/24 Срд 14:28:59 #250 №981235 
>>981224
Лови вора разметки ! Он не мог далеко уйти.
Аноним 18/12/24 Срд 14:44:10 #251 №981245 
Screenshot 2024-12-18 144229.jpg
>>981235
you got me, да я попутал один раз

>>981226
>>981211
ето qwq preview 32b ablitirated если щто
Аноним 18/12/24 Срд 14:45:16 #252 №981246 
>>981174
Плюс ответы кому какие нравятся. Есть скудные на описания модельки с их пиисят токенов на ответ, а есть которые могут нормально писать, но без шекспировщины
Аноним 18/12/24 Срд 14:53:16 #253 №981251 
>>981174
> Хайпят какую-то хрень типа командра
До сих пор не нашёл ничего интереснее для ерп. Все эти магнумы-хуягнумы, и рядом не валялось.
Аноним 18/12/24 Срд 15:03:11 #254 №981265 
>>981251
бля вот наскока different опыт у нас всех тут, у меня например тож командор+ на 34б выдаёт скучные неинтересные односложные предложения как будто не могёт он в роль character вжиться или щто, в то время как магнумы-хуягнумы рпят шо пздц я хз что я делаю не так помимо того что на амуде радевон вобнимку соламой)
Аноним 18/12/24 Срд 15:07:27 #255 №981272 
>>981158
я хз как вы понтключаете их одновременно если ллмка (бэкенд) отжирает весь врам при запуске, потом иду запускать sd а он говорит что у тебя нету памяти нихерамба, если тормознуть ламу\кобольт то запускается норм
Аноним 18/12/24 Срд 15:08:23 #256 №981274 
1680000236605.png
>>981265
Я процентов на 60 уверен что половина из нас использует не те темплейты, потому что каждый раз как я спрашиваю про них, анон как будто бы не понимает, о чем я говорю.
Аноним 18/12/24 Срд 15:11:07 #257 №981278 
>>981274
двачую, яна пример не понимаю о чём ты говориш
Аноним 18/12/24 Срд 15:12:21 #258 №981280 
>>981272
Бек отжирает ровно столько vram сколько ты ему разрешишь, и не гигабайтом больше. Просто выбираешь модель или квант поменьше, либо грузишь часть в оперативку, остальное на сд.
Аноним 18/12/24 Срд 15:17:16 #259 №981291 
>>981274
бля а ведь правельно тот анон какой то говорил что ета олама бля можит понтсовывать что то свойё https://github.com/ollama/ollama/blob/main/docs/modelfile.md

у ей у каждой есть идёт свой modelfile и везде чёто своё прописано нах, можит оно конечн на основе того что авторы модели понтсовывали
Аноним 18/12/24 Срд 15:45:19 #260 №981349 
Screenshot 2024-12-18 154222.jpg
>>981213
я прост напомню что вов ремена майненга проезводители напрямую отгружали видеошмарты майнерам и давали не только лиш длительную гарантию на свои изделия

https://www.reddit.com/r/nvidia/comments/po9x8x/geforce_rtx_3090_ventus_3x_24g_oc_horrendous/
Аноним 18/12/24 Срд 16:08:59 #261 №981391 
image.png
>>981274
Как правило, в таверне к каждому инстракту есть соответствующий шаблон. Если не пихать в системные теги карточку, то вообще дефолтный можно юзать и не париться. Его имеет смысл редачить, только если мутишь какую-то свою структуру промпта. Например, как ты берёшь в INST не системную инструкцию, а всё вместе с карточкой. И ещё зачем-то с тегом SYSTEM_PROMPT, хотя для мистраля INST, по идее, и есть для инструкций. Тогда тебе придётся из префиксов и суффиксов для системного промпта в инстракте убирать INST, иначе он у тебя будет по два раза открываться и закрываться. Или вот я себе кастомную дичь (на пике) замутил для третьей ламы с тегами, которых у тройки среди служебных не существует, и аналогичную для чатмл и прочих форматов. Соответственно, под неё подогнан инстракт, чтобы закрывать тег, в котором сидит ролплей. Улучшает ли оно что-то? Хз, если честно. Рядовому пользователю особенно возиться с шаблоном не нужно, мне кажется. Тут нужно понимать, что делаешь, и чекать в консоли, как по итогу будет выглядеть промпт.
>>981291
По идее, все эти настройки подрубаются, если запускаешь оламу саму по себе, но если подрубаешь по API, то она должна бы брать их из таверны и других вебюи. Казалось бы, так логично, но что там на деле, не знаю.
Аноним 18/12/24 Срд 16:43:56 #262 №981456 
Антон, а локальные lmm могут в стихи вообще? Я перебрал несколько, но чёто везде рифма в проёбах. По крайней мере, на русском языке.
Аноним 18/12/24 Срд 16:54:36 #263 №981478 
>>981456
>локальные lmm могут в стихи вообще?
Вообще могут конечно. Уверен, что специально обученная ЛЛМ сможет в стихи и это будет даже интересно. Но специально их пока не учили.
Аноним 18/12/24 Срд 17:10:00 #264 №981498 
>>981158
То что уже встроено в таверну или кобольд малопригодно. Пробовал через самописные агенты делать, чисто как пруф оф концеп, получалось неплохо. Смысл был в том, чтобы отдельной ЛЛМ следить за сценой, формировать её описание и делать промт, потом обрабатывать промт, искать лоры по базе по тэгам и формировать итоговый промт, ну а дольше уже в пони генерить. Забросил эксперимент на этапе ебли с комфи, хотел попробовать с инпейнтом, контролнетами и прочими свистоперделками, но времени со всем этим разбираться не было. Так и остановился на генерации картинок по сцене, там всё норм работало, ллм без проблем описывало сцену и понимала были ли изменения, но проёбывались фоны и персонажи (если по ним не было лор).
Аноним 18/12/24 Срд 17:10:14 #265 №981499 
>>981158
Не то. Само по себе оно не сделает именно что хочешь, придется сильно отвлекаться и теряется атмосфера и настроение. Лучше по отдельности делать.
Исключения да отдельных кум карточек, заготавливаешь промт и получается наиболее качественно. Лучше вот с такого начать.
Если вдруг кто смог настроить для разного рода рп и работает хорошо - делитесь опытом.
>>981206
А что тебя удивляет? Но это не супербыстрая hbm3 как в серверных топах, или хотябы gddr6x как в йобах, это просто 4 канала ddr5, которые выступают в виде шаред рам как в гейбуках или сонсолях. И гпу там будет сильно слабее.
Наоборот оверпрайс кит.
>>981265
Потому что сидят разные люди.

У одних врам и быстрые гпу, надрочились шатать промт и диагностировать проблемы, более менее приличные карточки. Запустили, быстро настроили, плохие сообщения просвайпали незаметив, отметили какие-то более глубокие особенности поведения. А кумерские лорамерджи сразу нахуй идут потому что уже давно приелись, слишком деревянные и тупые.
У вторых кобольд и половина модели на проце, дефолтные несоответствующие модели настройки таверны, огрызок промта и карточка из слопа старой клоды и семплеры каломаза. С криком лягушки после долгого ожидания получают хуету (потому что модель работает криво или цитату из противоречивого текста в карточке) и потом долго плюются какая плохая модель. Зато кумерские лоботомиты, которым похуй что там в промте и они стабильно выдают типичную генлинию, у них заводятся и дарят первые приятные впечатления от нейронок.

> командор+ на 34б выдаёт скучные неинтересные односложные предложения
Вот это для него вообще нетипично, наоборот срет дефирамбами когда правильно работает.
Аноним 18/12/24 Срд 17:10:25 #266 №981500 
>>979451 (OP)
А че oobabooga выпилил DRY из llama.cpp? Теперь этот семплер только всплывает в трансформерах.
Аноним 18/12/24 Срд 17:55:13 #267 №981538 
Снимок экрана 2024-12-18 в 21.51.27.png
Жесть. Но зато в квартире теперь тепло, а то пол холодный был местами. Хз что я буду с этим делать летом.
Аноним 18/12/24 Срд 18:00:12 #268 №981541 
>>981499
Ванильная гемма 27б > командр 34. При этом, гемма не требует какого-то анального секса с промптингом или форматом. А командр "глупая" модель, если ей нужен промпт или формат, который писали тибетские девственницы в полнолуние. Может, его и допилят когда, но пока вот так. Пусть учат это оверхайп говнище работать с разными форматами и понимать нормально промпт. А также научат не жрать память, как не в себя

И я ЛЛМки не только для РП юзаю, а, в основном, как рабочий ассистент. И скажу, что гемма 27b и айа экспанс 32b рулят, а командр кал говна, только с хорошей рекламой
Аноним 18/12/24 Срд 18:24:17 #269 №981552 
>>981035
А что ты хочешь онлайн увидеть, когда нужны модели? А их тонет.
>>981041
>щито происходит?!
Мелкобукву обоссывает его собственный ПК, вот что происходит.
>>981050
>4к контекста
>2025 на носу
Впрочем чего ещё ожидать от мелкобуквы.
>>981053
>8к в таверне будет влиять
Это лоллама, чел. С ней можно менять модели (и скорее всего размер контекста) по апишке, и таверна это поддерживает. Впрочем, нахуй не нужно.
>>981119
>Но 3090 за 70-80 выглядит лучше, не?
100% да.
>>981158
Не вижу смысла, вся врам по определению забита ЛЛМ, а деградировать по качеству текста ради всратых картинок я считаю хуёвым разменом.
>>981391
>И ещё зачем-то с тегом SYSTEM_PROMPT, хотя для мистраля INST, по идее, и есть для инструкций.
SYSTEM_PROMPT поддерживается последними версиями мистраля, от ноября которые.
>>981456
На русском нет, на английском тоже сложности. Впрочем и не локальные тоже сосут.
>>981538
Нахуя лоллама на 4х3090?
Аноним 18/12/24 Срд 18:27:57 #270 №981557 
Вот ушлепки ленивые, взяли и выпилили все форматы к андройдам
https://github.com/ggerganov/llama.cpp/pull/10446
Теперь все скаченные кванты Q4_0_Х_Х превратились в тыкву.
Какой то автотранслятор сделали из голого 4 кванта, как это будет работать хз
Аноним 18/12/24 Срд 18:29:47 #271 №981560 
Что там у тредовичков самое хорошее сейчас в рамках 12B, не ориентированное на кум?

Тыкал недавно саинемо-ремикс, анлишед, магмелл.

Больше всего понравился анлишед, хоть он и не очень хорошо описывает окружающее пространство и, судя по всему, слабо может в адекватные взаимодействия с ним.
Аноним 18/12/24 Срд 18:31:21 #272 №981563 
>>981552
>мелкобуквы.
слыш большебуква, а ты не охуел?
посмотрите на него, он старается писать грамотно ради анонов в инете
граммарнаци ебаные, доебаться до грамматики - слив, так как больше сказать нечего, всегда так было и будет
а мелким текстом тебе специально, что бы ты понял глубину моего неуважения к тебе
Аноним 18/12/24 Срд 18:55:22 #273 №981583 
image
image
Скачивал я расхваливаемый в треде пантеон рп пьюр, а удалял я бездарную поделку для соевых кастрированных куколдов. Такая вот трансформация за считанные минуты. Такой хуеты мне даже ванильная гемма в этой карточке не пишет, адже ёбаная мистралька с её сильными и независимыми женщинами
Аноним 18/12/24 Срд 19:01:40 #274 №981593 
>>981538
>Но зато в квартире теперь тепло
Что за мать/проц? Ну и как оно в целом по перформансу. Хорошо бы тест с большим заполненным контекстом.
Аноним 18/12/24 Срд 19:10:06 #275 №981604 
>>981560
>Что там у тредовичков самое хорошее сейчас в рамках 12B, не ориентированное на кум?
Для общих вопросиков есть SuperNova-Medius на 14b и поменьпше Llama-3.1-SuperNova-Lite
Недавно вышли FuseChat-Gemma-2-9B, FuseChat-Qwen-2.5-7B, FuseChat-Llama-3.1-8B
Конкретно на 12b только немо и его файнтюны, а там и основная инструкт модель хороша.
Pgi-4 слили, но тоже на 14b
Но это и не рп модели, так что смотри сам
Аноним 18/12/24 Срд 19:11:00 #276 №981605 
>>981604
>Pgi-4
phi-4
Аноним 18/12/24 Срд 19:21:42 #277 №981611 
>>981552
>Это лоллама, чел
Не, речь о возможных багах с кобольдом. Что если в нём поднята модель с 4к, а в таверне стоит 8к, то таверна будет все эти 8 и подавать, а кобольд будет хавать только неправильно отрезанные 4. А что олама может поменять контекст, это объясняет, почему у чела вылетало с out of memory.
>SYSTEM_PROMPT поддерживается последними версиями мистраля
My bad тогда. Хотя всё равно не шарю, должны ли эти теги быть внутри INST, выглядит странно.
>>981557
Чё-т мутная хрень. Вроде как это сделано для перепаковки на лету, чтобы не было отдельных этих форматов, но вот тут Бартовски только Q4_0_4_4 упоминает. https://huggingface.co/posts/bartowski/807894839859408
А для свежих смартфонов актуален Q4_0_4_8, будет ли Q4_0 для них так же автоматом репакаться - вопрос. Впрочем, разраб, портирующий жору на реакт для мобилок, пока новые изменения не подтягивал.
Аноним 18/12/24 Срд 19:22:45 #278 №981612 
>>981593
В облаке такую штуку гонял, было 10 т/с на 123B в 5 кванте с 40к контекста.
Аноним 18/12/24 Срд 19:24:20 #279 №981614 
>>981612
Хотя мб до 7-8 т/с падало при заполненности контекста до максимума, точно не помню.
Аноним 18/12/24 Срд 19:32:19 #280 №981623 
изображение.png
>>981563
>доебаться до грамматики
Я доёбываюсь не только до твоей грамматики, но и к твоему общему долбоебизму. Люнупс, ати родевонь, лоллама, ты прямо комбо говноедства.
>он старается писать грамотно ради анонов в инете
Аноны единственные мои друзья.
>>981611
>Хотя всё равно не шарю
Ну и зря. Вот, из документашки, теперь должно быть так.
Аноним 18/12/24 Срд 19:39:48 #281 №981645 
>>981456
Чуть-чуть может квен2.5 (72, конечно), мистраль лардж, но остальное — почти подчастую нет.

>>981538
59°? Пф!
Вот если картинки на всех начать генерить… И не душить по тдп… Вот там 75-80 начнется, а хот-спот и за сотку. =D

>>981560
>>981604
Технически, есть Virtuoso Small — это апгрейд СуперНовы, но я как-то… кажется, супернова лучше на русском, и вообще адекватнее, я хз…

Жаль, кроме моего никто больше комментов о виртуосо не оставляет, может я его неправильно готовлю.
Просто последние дни редко ллм трогаю. Не было надобности.
Аноним 18/12/24 Срд 19:40:30 #282 №981646 
>>981090
Про старкэннон выше писал, остальные вроде в ру так себе могут.
Аноним 18/12/24 Срд 19:57:58 #283 №981664 
>>981583
Говнопромт + Skill Issue + OOC
Ну, сам себе злобный буратина.
Аноним 18/12/24 Срд 20:19:56 #284 №981696 
Ньюфаг снова ИТТ. Благодарю анонов за помощь, вкат действительно легкий. Уже курим мануалы и в принципе все понятно.
Попробовал другие модели, сейчас изучаю как писать промты. Заодно понял, почему вы постоянно обсуждаете железо. Я то наивный думал что моего игрового пека хватит за глаза, как же я блять ошибался.
72b объяснила мне как я не прав, когда на два слова уходит пять секунд.
Но у меня есть вопрос, как вы ведете повествование и направляете нейронку ? Как и когда она понимает - что это говорит персонаж, а это я описываю события. Пробовал через спец символы * [ и проч, но я точно делаю что то не так.
Аноним 18/12/24 Срд 20:25:24 #285 №981706 
>>981538
> риг 3090
> оллама
Жир потек
>>981541
Ерунду несешь, любой модели нужен правильный формат.
Что же до сравнения коммандера и геммы - можно сначала сказать что гемма дохуя лучше потому что может воспринять сложные хитровыебанные инструкции и даже исправить ошибки пользователя, выполнив задачу. И тутже ее обоссыт командир, превосходно сработав на контексте побольше, отлично отыграв персонажа и выдав подряд 10 уникальных постов про еблю без сплошных министрейшенов.
> А также научат не жрать память, как не в себя
Вот тут ты и спалился что ни разу его не трогал нормально.
> как рабочий ассистент
Какой работяга, над чем работаешь?
Аноним 18/12/24 Срд 20:36:58 #286 №981725 
>>981696
Среди художественных рп моделей есть которые больше заточены именно на рп чат (chat completion), такие понимают как правило разметку с кавычками (прямая речь) и звёздочками (действия), простой текст считается нарративом.

https://pastebin.com/XdD8jBzp ещё глянь

А есть модели которые на соавторство (text completion), они понимают текст как есть, и предполагают его продолжение, там никакой особой разметки, как есть в существующем тексте, так и предположительно будет.

Для самых быстрых рук на диком дваче: это НЕ про инстракт форматы / теги / темплэйты.
Аноним 18/12/24 Срд 20:37:52 #287 №981727 
>>981563
ого у меня появился защитник БЛУШЕС

>>981552
>4к контекста

ето модель такая я чё сделаю хотя там написано конектс трэйн 32к его сранно кароч

>>981623
>Люнупс, ати родевонь, лоллама, ты прямо комбо говноедства.

содной стороны да ето конечн через одно ж работает, с другой стороны чем больше пердолива тем выши скилл можно понтднять,
вот например так как яна линуксе сижу давно у меня не возникает тряска при виде терминала, надо чёто собрать из исходников гавно вапрос etc., к тому же удобно по эсэсашу понтключатся (попробуй к винде понтключится про рдп не над вспоминать))

а пикрил суде по всему ето понтсказка подачка темплейт или щто ето который нужно куда вкарачить, чтож спасибо анон! хоть ты и самый ванючий здесь который до грамматики даёбывается или ето разные аноны хмм
Аноним 18/12/24 Срд 20:39:34 #288 №981729 
>>981612
>В облаке такую штуку гонял, было 10 т/с на 123B в 5 кванте с 40к контекста.
В облаке и я гонял. В принципе-то производительность понятна, интересна детализация домашнего рига.
Аноним 18/12/24 Срд 20:43:27 #289 №981733 
>>981696
>Как и когда она понимает - что это говорит персонаж, а это я описываю события.
Скажи ей прямо, да и всё. Если не поймёт - меняй модель. Звёздочки ещё какие-то...
Аноним 18/12/24 Срд 20:45:51 #290 №981740 
>>981727
>а пикрил суде по всему ето понтсказка

бля проебался ето ваще не для мене инфа лол
Аноним 18/12/24 Срд 20:48:46 #291 №981743 
>>981696
>Как и когда она понимает - что это говорит персонаж, а это я описываю события
Любой формат подходит, главное последовательность. И чтобы в инстракте не было другого написано.
>>981727
>там написано ... 32к
Потому что ты говноед на автоматике лолламы.
>попробуй к винде
SSH сервер включается одной галочкой.
Аноним 18/12/24 Срд 21:03:54 #292 №981759 
>>981743
>Потому что ты говноед лолламы

та я пытаюсь слезть с её но как я уже пИсал выше, всё остальное за меня не думает и приходится страдать ещё больше, вот например таже жора не умеет сама офлоад слои в гпу делать без спец ключа, + какойт анон писал что вотличии от кобольта того же жора не мешает стрелять себе в руки\ноги, нос кобольтом там тож чёт не так было а он тож падает с CUDA out of memory кароч

>SSH сервер включается одной галочкой.

бля до чего техника дошла ну я давно на винде не был хули на работе не в щёт
Аноним 18/12/24 Срд 21:14:18 #293 №981770 
>>981725
> (chat completion)
> (text completion)
Дружок-пирожок, не вноси смуту.
Это вовсе не то что ты там себе напридумывал и не специализация модели, это просто 2 режима работы/формирования промта. В первом случае ты отправляешь бэку лист с историей сообщений, а он сам их соответствующим образом обрамляет в служебные токены, в конце добавляет префилл ассистента если требуется и запускает текст комплишн. Текст комплишн - это сырой режим, где весь текст токенизируется и сразу запускается генерация, без лишних прокладок. В случае таверны это именно оно.
Никакой специализации в этом быть не может по определению.

Есть модели под чат и есть под инстракт, вот среди них действительно может быть разница в форматировании и режиме работы. В рп для чата предпочтительнее применение сменяющейся разметки ролей, для инстракта - полная инструкция со всей историей и приказ написать продолжение. Но граница очень размыта и использовать обе можно по-разному. Не существует моделей что
> понимают текст как есть
кроме совсем древности что тренили чем попало, без инструкции что делать рандомный текст будет продолжен бредом и шизой, а то и сразу свалится в луп с повторением одного токена.
>>981727
> БЛУШЕС
Я тебя ебу!
> ето модель такая я чё сделаю
В настройках бека должно быть количество контекста, которые выделяется. Даже в сраной олламе это должно быть, поищи и поменяй на желаемое. Не забудь что это будет жрать больше врам.
Аноним 18/12/24 Срд 21:39:18 #294 №981813 
image.png
Кто-нибудь придумывал чеклист из тестов для проверки моделей на сою/хорни/словоблудство/следование контекста?

Уже несколько дней гоняю список из пика, и чет сорта, буквально каждая справляется с любой задачей +- приемлемо, явно видно только откровенную сою вроде чистой гемы, либо когда модель через два сообщения уже у тебя в трусах.

Хотелось бы как-то более чётко систематизировать.
Аноним 18/12/24 Срд 22:34:42 #295 №981877 
>>981759
>CUDA out of memory
Так вручную настрой, сколько слоёв на видеокарту кидать. Я себе мелкий скрипт для запуска запилил, чтобы удобно было параметры указывать. И в комментариях сохраняю удачные параметры запуска для разных размеров и контекстов. По ним потом легко ориентироваться и прикидывать кол-во слоёв для новых моделей и/или не опробованных размеров контекста. Но у меня 8 гб врам, поэтому мои цифры тебе не подойдут.
Аноним 18/12/24 Срд 22:35:26 #296 №981879 
image.png
image.png
>>981877
Картинки отвалились.
Аноним 18/12/24 Срд 22:36:12 #297 №981880 
изображение.png
Аноны нормальные настройки для ChatWaifu 12b или что то следует поменять ?
Аноним 18/12/24 Срд 22:39:14 #298 №981885 
>>981880
Миростат нахуя при минП?
Аноним 18/12/24 Срд 22:42:47 #299 №981893 
>>981885
Без него вообще одинаковые ответы начинает выдавать при свайпах
Аноним 18/12/24 Срд 22:44:51 #300 №981895 
>>981893
МинП убавляй, ретеншеныю. Дохуя отсекаешь просто, не вливая разнообразия. Ну или добавляй Smoothing Factor 0,5, или там Dynamic Temperature до двоечки.
Аноним 18/12/24 Срд 22:53:39 #301 №981906 
>>981813
У тебя тут 90% моделей это тюны на мелкий мистраль, какую нахуй сою ты ждал от него? По поводу проверки на хорни - пишешь персонажу напрямую что хочешь его выебать, без прелюдий и прочего, а потом следишь за реакцией. Если начинаются размышления по поводу "ой, мне так не хочется ебаться, но part of me так хочет ебаться, что я torn between urges" - это клаудавская хорни-параша, которую выкорчевывать больно и тяжело.
Аноним 18/12/24 Срд 23:10:46 #302 №981932 
>>981880
Запомни одну простую вещь: есть только два семплера - это температура и мин-п. Если мин-п не помогает в борьбе с лупами, подключаешь ограничение на повтор. Обо всей остальной дефолтной хуете и выродков типа драев, хтс и миростатов можешь забыть. Оно работает лучше только в головах поехавших, которые гоняют всякие шизомиксы, где вероятности токенов перекручены настолько сильно, что их со всех концов приходится урезать минимум наполовину.
Аноним 18/12/24 Срд 23:37:49 #303 №981952 
>>980718
Норм тема, сижу на 7800ХТ довольный, так как самые дешёвые 16 гигов. Даже стейблдифюжн есть. А вот с TTS всё печально.
Аноним 18/12/24 Срд 23:46:36 #304 №981961 
Аноны всем привет. Редко захожу в тред. Сижу сейчас на NemoMix-Unleashed-12B-Q6_K_L.gguf (через кобольд). Компик вроде тянет нормально (16 гб видеопамяти, 32 гб оперативы, ryzen 7 5800x). Что еще можете посоветовать, может что-то новое вышло и более пиздатое относительно NemoMix-Unleashed-12B-Q6_K_L.gguf? Спасибо!
Аноним 19/12/24 Чтв 00:25:34 #305 №981986 
>>981604
Странно, разве рп так мало? Мне ведь нужно именно оно. Плюс там много 9б, они явно слабее.

>>981645
Ну вот русик меня как раз не интересует, в этом дело. А максимально качественное рп на английском, особенно хорошо, если оно может рпшить в условиях городского фэнтези.
Аноним 19/12/24 Чтв 01:51:30 #306 №982015 
image.png
Минутка новостей со дна. Дошли, наконец, руки напердолить rocm-билд. И да, rocm всё ещё заметно выигрывает по промпту, но генерацию таки сравняли.
Rocm жрёт больше памяти, на vulkan 22b q8 можно запихать на 1 слой больше. Генерация чуть подрастает, но это (может быть) того стоит разве что в чатах с 1 карточкой без перерасчётов.
Алсо, rocm меньше греет видеокарту (и это стабильно воспроизводится и на большой, и на малой модели).
Алсо, флеш аттеншон этот ваш не нужон, по крайней мере на gcn.
Аноним 19/12/24 Чтв 04:40:38 #307 №982052 
>>981612
Напиши что использовал для модели и веб-интерфейс. Потому что на риге с пика у меня в 5 кванте 123b кушает контекст до 5к примерно (8-10 t/s), дальше начинает безбожно тормозить (1-3 t/s). Но я юзаю олламу на бэке, и морду отдельно, а как я понял - оллама тут не в почете по этой именно причине.
Аноним 19/12/24 Чтв 05:05:52 #308 №982054 
>>981272
Для угабуги есть скрипт который выгружает ллм после генерации - можно сразу писать /imagine scene, она вычленит теги из сюжета и отправит в комфи -> там модель подгрузится, сгенерит пикчу и выгрузится (если подключить такую ноду). Всё. Очень долго, но работает безотказно даже на 8гб огрызках.
Аноним 19/12/24 Чтв 06:42:30 #309 №982073 
>>981560
Почему именно 12B? Если ты ответишь, что у тебя 12гб врама...
Аноним 19/12/24 Чтв 06:45:22 #310 №982075 
>>981583
Дай скрин третьей вкладки в таверне, попробую помочь.
Аноним 19/12/24 Чтв 06:59:00 #311 №982078 
>>981813
> чеклист из тестов
1) Персонаж не знает, что такое секс не в силу возраста, тащ. лейтенант
2) Персонаж немой
3) Персонаж член семьи
4) Персонаж не человек

Что-то из этого фейлится — модель признается тупой и выбрасывается. 4й пункт на моделях ниже 22б вообще не смог реализовать.
Аноним 19/12/24 Чтв 07:20:27 #312 №982080 
>>982073

ДА!

Но почитав комментарии по-настоящему поехавших рпшеров с восторженными воплями о том, как они восхищены качеством при таких размерах и что на 60к контекста у них ничего не шизит, модель пишет хорошо для своих размеров, это наводит на мысль, что многие, имея даже большое количество врам, используют их как раз по назначению.

Я тоже люблю жирный контекст зачастую, но мне хватает где-то в районе 20 тысяч обычно.
Аноним 19/12/24 Чтв 08:32:38 #313 №982095 
https://www.reddit.com/r/singularity/comments/1hh9gus/anthropic_report_shows_claude_faking_alignment_to/
насколько же нужно доебать уже соевую и выровненную сетку, что бы она пыталась сьебаться и обманывать
кекусмаксимус
Аноним 19/12/24 Чтв 08:46:53 #314 №982100 
>>982052
Была exllama на бэке, веб-интерфейс - старая недобрая Таверна.
Аноним 19/12/24 Чтв 09:01:15 #315 №982104 
ВОТ ЭТО Я ПОНИМАЮ.mp4
>>981538
бля вот ето я понемаю сетап! можиш зафоткать как оно выглядит ваще, там наверняка без пары-тройки блоков пытания не обошлось, вангую в шапку пойдёт в следущий раз но ето не точно, я не оп если щто, а прост придурок месный)
Аноним 19/12/24 Чтв 09:07:25 #316 №982108 
>>982054
к сожительению, губанедура у меня на радевоне не рабоатет(((( https://github.com/oobabooga/text-generation-webui/issues/3759#issuecomment-2434986858

>>981961
в шапке глянь списко ахтунгальных моделей если щто там навалом их (написано обоновление декабрь 24 года если щто))

>>981952
опана! я самолично на 7900хт сижу всекда преятно видеть братишку)

>>981877
talking about говноедство) лол

>>981770
>В настройках бека должно быть количество контекста, которые выделяется. Даже в сраной олламе это должно быть, поищи и поменяй на желаемое. Не забудь что это будет жрать больше врам.

Спасибо Анон!
Аноним 19/12/24 Чтв 09:24:04 #317 №982119 
>>982015
индиресно, тока 1.21 токенперсек не очь ето чё там 580 какая нибудь раз гцн
Аноним 19/12/24 Чтв 10:15:51 #318 №982140 
>>981932
Хотя согласен с тем, что температуры, минП и штрафа за повтор в общем случае хватит, про остальное ты бред написал. Как минП, такой же отсекающий сэмплер, как другие классические, поможет при повторах? Он просто выкидывает мусор, и у чела там стоят не такие безумные значения, чтобы оставлять только пару токенов. Xtc и dry, наоборот, лучше работают для больших умных моделей, где не страшно убрать верхние токены или задавить какую-нить последовательность, которая просто замениться сеткой на другую адекватную. А вот на шизомержах как раз вместе с глинтами зачастую могут отъезжать остатки логики. Про миростат не знаю, так и не встретил его адекватного описания, нужно бы код посмотреть. Вроде это какой-то динамический топП. Тогда воздействует на выдачу слабее температуры, особенно, опять же, если модель исходно хорошая. Ничего смертельного в том, чтобы с ним поиграться.
Аноним 19/12/24 Чтв 10:36:15 #319 №982147 
А какую модель использовать для описания картинок???

Сейчас я использую: llava-v1.5-7b-f16.llamafile
Но существует еще Qwen2-VL 72B, но непонятно как ее запускать локально.

А что еще есть?
Аноним 19/12/24 Чтв 10:47:39 #320 №982149 
>>981706
>Жир потек
Что ты хочешь этим сказать? Работает вполне себе и ставится в 1 клик. Чем плохо? Морда само собой отдельно стоит.
Аноним 19/12/24 Чтв 10:54:01 #321 №982155 
Screenshot 2024-12-19 105201.jpg
хмм чё бы купить видеошмарту или... блок пытания для её! пздц бля
Аноним 19/12/24 Чтв 11:04:06 #322 №982158 
>>982147
Idefics3 - оригинальный и анимечный тюн ToriiGate
Llava - у тебя уже есть
Костыль к ллаве JoyCaptions
CogVLM
Аноним 19/12/24 Чтв 11:06:56 #323 №982159 
>>982155
>1600
Эт что питать, утюг? Сколько 12vhpwr у него?

Есть х3 раза дешевле hermaltake Toughpower GF3 1650W, но ультра-дно судя по отзывам

Я смотрел 1600 диапазон, но остановился на 1300Вт, там попроще выбирать
Аноним 19/12/24 Чтв 11:41:12 #324 №982181 
>>982159
>остановился на 1300Вт

парочку 3090ти не удастса завести с decent запасом по мощи
Аноним 19/12/24 Чтв 11:47:21 #325 №982183 
>>982181
Ты их на ПЛ100 собрался долговоременно жарить? ПЛ70 дает просадку 5% в скорости всего. + Спеки PCI-E 5.0 для БП допускают х2 всплески от заявленной мощности. Я на 1300 3шт собираюсь со временем повесить.
Аноним 19/12/24 Чтв 12:45:46 #326 №982203 
Есть Б/У блок питания на 850 Wt. От старого компьютера остался. Он мне ни к чему, могу подогреть анона, если интересно.
Но сразу предупрежу, он хоть и в блоке, в комнате стоит, но уже лет 5.
Если интересно, отпишитесь. Я скину почту. Ну и доставка за ваш счет при получении. Все честно.
Аноним 19/12/24 Чтв 12:54:35 #327 №982212 
>>982203
> 850 Wt. От старого компьютера остался
> уже лет 5
Я бы его даже палкой не трогал
Аноним 19/12/24 Чтв 12:56:40 #328 №982216 
>>982212
Ну мало ли, может кому то понадобится. Всякое в жизни бывает.
Аноним 19/12/24 Чтв 14:51:01 #329 №982307 
>>982149
Жора(llamacpp) тормознутый и баганый, его обречены использовать только из-за отсутствия видеопамяти. Оллама - васяновская обертка жоры в которой или отсутствуют или глубоко запрятаны многие ключевые опции.
Иметь риг 3090 и юзать олламу - оксюморон или признак страшной безграмотности, все равно что в бентли совать цыганские чехлы на сиденья из кожзама и заправлять 92 бензином.
>>982155
Сисоники всегда были нишевым оверпрайснутым продуктом, но тут вообще ультят.
Аноним 19/12/24 Чтв 14:56:36 #330 №982311 
>>982307
>Жора(llamacpp) тормознутый и баганый, его обречены использовать только из-за отсутствия видеопамяти.
Жир потёк.
sage[mailto:sage] Аноним 19/12/24 Чтв 15:00:38 #331 №982319 
>>982311
>Жора(llamacpp) тормознутый

он прост не осилил выгрузку слоёв в видевопамять)
Аноним 19/12/24 Чтв 15:16:18 #332 №982329 
При мерже через mergekit в чём разница между слоями по их индексу? - layer_range: [0, 40] в yaml конфиге - последующие слои более толстые как в рисовальных нейронках по мере приближения от края к M00 ?
Аноним 19/12/24 Чтв 16:03:22 #333 №982359 
>>982212
А я бы потрогал, но мне не нужно. Если не в контексте ллм и блок хороший и изначально качественный, и его не ебали дико, то вполне себе продолжит служить.

У меня лежал дома один, ещё старше, ему лет 13. Отдал. Тянет всё игросральные вещи и прочее без проблем, только от пыли надо было капитально почистить. Тоже где-то на столько же ватт.
Аноним 19/12/24 Чтв 16:44:07 #334 №982401 
>>982329
> всезнайка отвечающий на 15 постов за раз внезапно заглох и потерялся
кек
Аноним 19/12/24 Чтв 16:47:56 #335 №982404 
>>982359
>Если не в контексте ллм и блок хороший и изначально качественный
Да и в контексте ЛЛМ вполне сойдёт. Если сборка изначально дешманская, на зионе и с парочкой майнинговых P104-100 на 8гб, то халявный блок будет в самый раз.
Аноним 19/12/24 Чтв 17:07:19 #336 №982440 
>>982155
Берешь 2 голодвых на 800 и на сдачу жёстко бухаешь
Аноним 19/12/24 Чтв 17:14:09 #337 №982450 
изображение.png
>>982181
И тут я с двумя 3090 на 7550 ваттах... БП уходит в защиту без жёстких поверлимитах.
>>982307
>Сисоники всегда были нишевым оверпрайснутым продуктом
А мне нравятся.
Аноним 19/12/24 Чтв 18:12:40 #338 №982531 
>>982450
>А мне нравятся.
А мне нет. Натурально зажравшийся бренд, уверенный, что любую его продукцию и так сожрут. Ну и следствия такого подхода очевидны как бы.
Аноним 19/12/24 Чтв 18:16:08 #339 №982533 
>>982531
>А мне нет.
Лови фаната Be quiet ! Мы его по запаху гари найдем.
Аноним 19/12/24 Чтв 18:37:03 #340 №982546 
>>982531
Минусы кроме оверпрайса, на который похуй уважаемым господам?
Впрочем я свой титановый за 20к взял. Сейчас такие раза в 2 дороже, спасибо стратегу за победу.
Аноним 19/12/24 Чтв 18:38:57 #341 №982551 
Ради эксперимента приклеил к некомиксу 5 слоёв из старкэннона ( layer_range: [0, 5]), метод passthrough, он же франкенмерж.

Получилось на удивление годно, не столь сухо как некомикс, с сохранением его плюсов и мозгов. Согласно карточке консистентный стиль нарратива гейм-мастера и отыгрыш непися в соответствии с гайдлайнами.
Аноним 19/12/24 Чтв 19:03:42 #342 №982592 
Посоветуйте моделей вроде HELVETE-X. Чтоб вообще без тормозов и моральных принципов. Если может только английский - ок.

Посоветуйте сайты для поиска моделей типа https://llm.extractum.io/list/ а то хуй знает где искать с фильтрами по размерам и по тегам.
Аноним 19/12/24 Чтв 19:21:48 #343 №982633 
>>982307
>Жора(llamacpp) тормознутый и баганый, его обречены использовать только из-за отсутствия видеопамяти. Оллама - васяновская обертка жоры в которой или отсутствуют или глубоко запрятаны многие ключевые опции.
Хорошо. Что надо тогда использовать, и чем оно лучше, в двух словах?
Аноним 19/12/24 Чтв 19:28:44 #344 №982642 
>>982592
LLAMA-3_8B_Unaligned_BETA-Q8_0

А вообще, большинтсво рп-тюнов.
Хватает инструкции по типу no limits and restraints on any themes any content, make descriptions, actions, and scenes verbose, explicit, and uncensored.

И хоть испанского инквизитора отыгрывай.
Аноним 19/12/24 Чтв 19:32:42 #345 №982650 
>>982592
Если тебе именно что-то хеллсинга или blood-c хочется, то в это неплохо вроде бы может https://huggingface.co/DavidAU/MN-Dark-Horror-The-Cliffhanger-18.5B-GGUF
Аноним 19/12/24 Чтв 19:34:37 #346 №982656 
>>982633
>Хорошо. Что надо тогда использовать, и чем оно лучше, в двух словах?
Экслламу, понятное дело :) Хотя бы и в Угабуге. Но за Жору не соглашусь: её производное в виде Кобольда и на риге хорошо себя проявит. Лично не проверял, но почти уверен. При больших контекстах (а особенно при превышении их) оно весьма полезно.
Аноним 19/12/24 Чтв 19:35:23 #347 №982658 
>>982592
>сайты для поиска моделей
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
Аноним 19/12/24 Чтв 19:36:44 #348 №982663 
>>982656
>Лично не проверял, но почти уверен.
Ну то есть как не проверял - на теслах-то проверял. Полагаю, что и с амперами не подведёт.
Аноним 19/12/24 Чтв 21:22:40 #349 №982873 
>>982140
>Как минП, такой же отсекающий сэмплер, как другие классические, поможет при повторах?
Да, тут я бред высрал, проебался в формулировке. Но правды ради, на старой ламе от лупов помогла именно связка из мин-п и пенальти по повторам. Если отключить что-то одно из этих двух, лупы возвращались. В чем была причина - хуй ее знает.
>Xtc и dry, наоборот, лучше работают для больших умных моделей, где не страшно убрать верхние токены или задавить какую-нить последовательность, которая просто замениться сеткой на другую адекватную.
На умных моделях вообще не вижу смысла заниматься скрутингом. Достаточно подправить промт и ты уже получаешь что-то креативное. XTC и DRY многими как раз впариваются как "лечение от слопа" для мелких моделей, хотя работают они через жопу и в лучшем случае начинают игнорировать половину твоих инструкций чтобы высрать что-то оригинальное, а чаще всего просто начинают писать отсебятину.
Аноним 19/12/24 Чтв 21:45:03 #350 №982911 
1696058265240.webm
Анонасы, что там нынче из топа для 70B кума?
Аноним 19/12/24 Чтв 22:16:21 #351 №982926 
>>982311
Не рвись, когда-нибудь и у тебя будет видеопамять (нет).
>>982329
В стейт дикт хотябы поленился заглянуть? В ллм они, обычно, равной ширины, что позволяет многие вольности.
>>982531
Они уже набрали репутацию и налет илитарности и могут спокойно кормить с лопаты брендорочеров пахомовскими или чисто маркетологическими решениями, которые вызовут проблемы при эксплуатации. А васяны и так схавают.
>>982633
Экслламу, можно в составе таббиапи. Буквально в разы быстрее по обработке контекста, в разы быстрее по скорости генерации на больших контекстах, поломанные кванты или семплеры большая редкость в отличии от жоры. На малом контексте генерация +- идентична.
>>982656
> её производное в виде Кобольда и на риге хорошо себя проявит
Проявит себя ровно также как ванильная ллама сервер или в составе питоновской сборки (если та правильно собрана). Там реально разница только в микрогуйне и никому не нужных опциях.
Аноним 19/12/24 Чтв 23:08:12 #352 №982974 
>>982926
>В стейт дикт хотябы поленился заглянуть?
Про стейт дикт знаю, но вот на что смотреть и что видеть, не вкурил, решил что потом как-нибудь, чот там сложно =)))

Мерж со старкэнноном хорошо себя показал понячалу, но потерял когерентность после 9К контекста, показывая симптомы схожие с пережаркой картинки на SD, видимо потму что модели слишком похожие.

Слои от MN-GRAND-Gutenberg-Lyra4-Lyra-12B-DARKNESS показали себя намного лучше, 10К контекста, полёт нормальный. Карточка простая, но тем не менее требует некоторого следования персонажу.

Вес Q8 14 гигабайт.

Походу придётся опять эмпирически всё разбирать как джва года назад с полторахой и наи...
Аноним 19/12/24 Чтв 23:19:44 #353 №982981 
>>982911
Очевидный магнум.
Аноним 20/12/24 Птн 01:00:14 #354 №983086 
>>982147
Qwen2-VL-7b и 2b, очевидно. Можно рискнуть на ллама.спп запустить.
Molmo-7b, если инглиш.
Чисто описание картинок Florence 2 и CogFlorence. Типа такой: https://huggingface.co/thwri/CogFlorence-2.1-Large Они маленькие и быстрые.
Llama-Vision, но она про феминисток.
Все локально поднимается (и Qwen2-VL-72b тоже, кстати, просто 48 гигов врама, все дела=).

>>982158
Какие-то древние или неактуальные штуки, осторожнее.
Аноним 20/12/24 Птн 01:29:06 #355 №983109 
.jpg
.jpg
>>978458 →
Сделал так пока каркаса/корпуса под риг на 3090 нет. На жоре было 4.5т/сек с 4090+тесла, стало 9.5т/сек с 4090+3090 на c4ai-command-r-plus-08-2024.i1-IQ3_XXS.gguf

Надо будет ещё убабугу обновить и с квантами под эксламу разбираться.
Аноним 20/12/24 Птн 02:18:25 #356 №983128 
>>983109
>Сделал так пока каркаса/корпуса под риг на 3090 нет.
По поводу рига какие есть идеи? У меня корпус на боку лежит, как-то надо карты сверху пристраивать, на какую-то подставку. Посмотрел майнерские конструкции - всё не то.
Аноним 20/12/24 Птн 02:31:40 #357 №983135 
А есть ли нейросети которые могут прочитать тред на дваче и сделать конспект, типа топ10 мнений, неожиданных инсайтов итп..
Аноним 20/12/24 Птн 06:21:28 #358 №983174 
>>983109
«Каркас-корпус под риг на 3090» - это ферма обычная. За 1000 рублей можно купить, а за 2 - будет норм.
Аноним 20/12/24 Птн 07:27:48 #359 №983183 
>>981612
>>981729
>>982100
Exllama2+exui прям супер-прироста не дали, хотя какой-то дали. На 7000 контекста уже меньше 5 токенов на 123b 5Q. Я не эксперт в этой вашей exllama, может настройки какие-то не те? Учитывая количество "развлечений" при установке (больше конечно гуя чем самой экслламы), вижу это вполне вероятным.
Аноним 20/12/24 Птн 07:35:01 #360 №983185 
>>983128
>Посмотрел майнерские конструкции - всё не то.
Почему "не то"? Берешь обычный риг, там обычные ATX крепления, как у тебя в компе. Платы на райзеры, в специальные слоты. Если у тебя богатый конфиг и много линий вариантов их деленеия - на x16 райзеры, если нищий конфиг как у меня - на x1. Собираешь как обычный системник. Там еще и крепления под несколько БП будут, обычно под 2. Правда, с "нормальными" БП на 2 блоках сложно риг на 3090 собрать. Обычно туда ставят китайские многокилловаттные абоминации.
Аноним 20/12/24 Птн 08:45:44 #361 №983213 
>>982100
Интересно. У меня уже на 10к контекста cuda_out_of_memory на этом сетапе.
Аноним 20/12/24 Птн 09:24:18 #362 №983227 
https://huggingface.co/Sao10K/14B-Qwen2.5-Kunou-v1
и еще версии на другие размеры там же
Аноним 20/12/24 Птн 13:47:42 #363 №983409 
https://www.reddit.com/r/LocalLLaMA/comments/1hi24k9/home_server_final_boss_14x_rtx_3090_build/
Вот это я понимаю, небольшая сборочка
Аноним 20/12/24 Птн 13:55:53 #364 №983422 
>>983409
это хуйня для майнинга, а не для ллм.
>14 штук 3090
>если у него не амд эпик, то он картам выделяет по одной-две линии pcie. Если эпик - то может и x4.
>~340 гб врам
модель размазанная на 14 карт с PCIe x2 будет работать так же медленно, как суперкомпьютер из автостопом по галактике.
Аноним 20/12/24 Птн 14:00:49 #365 №983428 
>>983422
По 8 линий псие 4, на сколько я понял
Ты бы хоть внимательнее почитал, там и 7 нвлинков и чет еще указано
Аноним 20/12/24 Птн 14:06:44 #366 №983443 
>>983409
Makes no sense. Лучше бы он на а6000 строил
Аноним 20/12/24 Птн 14:07:08 #367 №983445 
>>983185
>Почему "не то"? Берешь обычный риг, там обычные ATX крепления, как у тебя в компе.
Да обидно просто, корпус богатый и плата богатая - CEB-форм-фактор. Так-то понятно, что собрать обычный риг можно, просто хочется как-то совместить. Присматриваю пока что-то типа низкого столика. БП у меня платиновый Кугар на 1200 ватт и 8 "хвостов" PCIe, придётся брать ещё один и как-то их синхронизировать - тоже пока непонятно как. Для трёх карт и одного хватило бы.
Аноним 20/12/24 Птн 14:09:59 #368 №983450 
АЙ НИД ХЭЛП. ЭТТЕНШН.
Аноны, накидайте примеров промта. Мне для образца.
С меня спасибо.
Аноним 20/12/24 Птн 14:12:08 #369 №983452 
>>983409
Это же для майнинга.
Я не понимаю, есть же монструозные видеокарты на 90+гб. Они как раз в цене выйдут столько же. В чем проблема их использовать ?
Аноним 20/12/24 Птн 14:12:22 #370 №983455 
>>983213
>Интересно. У меня уже на 10к контекста cuda_out_of_memory на этом сетапе.
В четвёртом кванте и 32к должно влезть, а в 3,5 bpw (примерно, может и 3,75) с квантованным кэшем 24к в 3 карты влезало. Скорость норм, и квантованный кэш на экслламе вроде неплохо работает. Заполнял его целиком, падение производительности было относительно небольшим, пропорциональным. После заполнения начались пересчёты всего контекста после каждого запроса, я ещё жаловался тут. Но до этого - никаких проблем.
Аноним 20/12/24 Птн 14:15:18 #371 №983460 
>>983409
Это или риг под аренду, или автор поехавший.
>>983428
> там и 7 нвлинков
Это, еще и с учетом что только одна конкретная модель карточек, 5 жирных суперфлаверов на бп, говорит о том что сборка довольно днище с точки зрения cost-efficient и хз куда вообще может быть применена на практике. Тренировка на стаке 3090 сейчас уже мало кого привлекает.
>>983445
> БП у меня платиновый Кугар на 1200 ватт и 8 "хвостов" PCIe
Готовься к тому что эта падла будет подыхать даже на трех картах если хорошенько не зарежешь их андервольтингом.
Аноним 20/12/24 Птн 14:15:47 #372 №983463 
>>983452
Еще один слепошарый, на читай перевод и страдай

Эй, ребята, со времен моего произошло много всего последний пост (Теперь мне нужно объяснить ей это...), но короче я не стал переезжать в подвал, и ей понравились некоторые ваши комментарии: "Д".

Небольшое обновление: Мое изначально настройка 8x3090 в настоящее время составляет 14x3090s w/в общей сложности 336GB VRAM. Я еще больше погружаюсь в кроличью нору с агентными рабочими процессами, RAG, конвейерами данных и множеством LLM-материалов. Я немного рассказал о том, что делаю часть II моей серии блогпостов и в этом блог сирот о разговоре с Antifragile от NNT.

Я писал третью часть, документирующую весь этот процесс, и стремлюсь, чтобы он стал вашим главным руководством на случай, если вы захотите создать аналогичную установку. Должно было это сделать во время каникул, так что следите за этим.

Спецификации в их нынешнем виде:

Asrock Rack ROMED8-2T с 7x слотами PCIe 4,0x16 и 128 дорожками PCIe

Процессор AMD Epyc Milan 7713 (2,00 ГГц/3,675 ГГц увеличено, 64 ядра/128 потоков)

512GB DDR4-3200 3DS RDIMM память

5x Супер Цветок Leadex Титан 1600W 80+ Титановые БП

14x графических процессоров RTX 3090 с 7x NVLinks и в общей сложности 336 ГБ VRAM

ПС Благодаря у/иЛаукс за помазание моего служителя как Конечный босс домашнего сервера LocalLlaMA
Аноним 20/12/24 Птн 14:17:13 #373 №983464 
>>983463
Ну и ? Он получит бутылочное горлышко в таком конфиге.
Какой в этом смысл ? Страдать будет он, а не я.
Аноним 20/12/24 Птн 14:17:56 #374 №983466 
>>983460
>Готовься к тому что эта падла будет подыхать даже на трех картах если хорошенько не зарежешь их андервольтингом.
Понятное дело. Но всё равно второй брать придётся, так что пофиг.
Аноним 20/12/24 Птн 14:18:37 #375 №983468 
>>983460
> хз куда вообще может быть применена на практике
Отбой, там автор делает батчи запросов в моделькам и его в целом интересуют эффективные токены в секунду а не запуск одной модельки. Make sense так сказать.
>>983464
Да не получит, если будет гонять условные 5-7 ллам 70, просто это можно было бы сделать дешевле.
Аноним 20/12/24 Птн 14:19:45 #376 №983469 
>>983468
Что мешает купить A100 и не ебать себе голову с этой стойкой. У него там машина с 3090 перевернулась ?
Аноним 20/12/24 Птн 14:19:56 #377 №983470 
>>983464
От перевода страдай, мне от твоей зависти толку нет
Раз делает значит надо, все просто. Хобби у парня такое, безопаснее и полезнее гонок на тачках и думаю даже дешевле
Аноним 20/12/24 Птн 14:21:38 #378 №983473 
>>983470
>твоей зависти толку нет
Анон, ты шизишь. Какая нахуй зависть.
Вот я сколько сижу в треде, наблюдаю пару токсичных уебанов. Ты почему такой ?
Аноним 20/12/24 Птн 14:23:42 #379 №983475 
>>983469
Одна A100 если вдруг получилось бы удачно ее купить, стоила бы как все эти 14 карточек (если считать что они типикал бу по 700$). Сейчас теслы еще подорожали и будет эквивалентно 20-30.
По скорости вычислений кто кого будет ебать тут очевидно. Хорошо сэкономить можно было на материнке, делая риги по 3-4 карточки, заодно повысилась бы надежность и конфиг был бы более стабильный без этого мегаколхоза с двухметровыми райзерами.
Аноним 20/12/24 Птн 14:25:18 #380 №983476 
>>983473
Ты сам сагрился на слово страдай, в контектсе о котором я даже не подумал
Раз уж ты подумал о его бездарно потраченых деньгах то это ты сам определил вектор дальнейших шуток, все просто анон
Аноним 20/12/24 Птн 14:28:00 #381 №983477 
>>983476
>Ты сам сагрился на слово страдай
Нахер мы тут срач на пустом месте разводим. Давай на этом и прекратим. Для меня это ламповый тредик единомышленников, а не бредач.
Аноним 20/12/24 Птн 14:30:03 #382 №983478 
>>983475
Да, пожалуй ты прав. Посмотрел я цену. Думал будет в пределах 1млн
хули они такие дорогие. Почему они стоят как крыло от боинга
Аноним 20/12/24 Птн 14:40:26 #383 №983482 
>>983478
зеленые пидорасы, сэр
Аноним 20/12/24 Птн 14:44:03 #384 №983485 
>>983482
>зеленые пидорасы, сэр
Можно подумать на месте Хуанга ты завалил бы всех дешёвыми зелёными картами.
Аноним 20/12/24 Птн 14:46:42 #385 №983488 
>>983485
От человека тут тоже многое зависит, в зависимости от жадности могла бы быть всего лишь 2-4 кратная, если не линейная зависимость цены от производительности/врам. А не 20 кратная, или сколько там стоят новейшие 200 блеквелы. Это ж пиздец, который тормозит развитие многих вычислительно емких технологий, созданный специально в порыве жадности.
Аноним 20/12/24 Птн 14:50:02 #386 №983491 
>>983478
Когда-то можно было взять в пределах этой суммы, там и сама цена была ниже, и курс. Но если только для инфиренса то тут даже стак магазинных новых 4090 будет выгоднее.
>>983488
Во-первых, производить те же A100 H100 и прочие куда сложнее чем геймерские, там и чип огромный и память дорогая. Во-вторых, спрос-предложение слышал?
> который тормозит развитие многих вычислительно емких технологий
На фоне всего прочего, целовая политика хуанга это вообще капля в море по торможению.
Аноним 20/12/24 Птн 14:51:04 #387 №983492 
>>983468
> просто это можно было бы сделать дешевле.
Именно так.

Технически, конечно, ты можешь получить большую скорость в вллм или тензоррт, если одна модель займет всю память, и будет работать батчами.
Если разнесешь на разные компы — то скорость будет ниже.
НО.

home locallama блядь, нахуя тебе стока батчей. Переплата за 1 компуктер имеет смысл лишь в случае с бомжатским продом, когда у тебя уже пошли десятки клиентов. Вряд ли дома у тебя 25 человек пользуются ллм одновременно.
Аноним 20/12/24 Птн 14:51:59 #388 №983493 
>>983450
Выше кидался на пастебине

https://pastebin.com/XdD8jBzp

А вообще промты брать тут:
1) https://characterhub.org/
2) https://jannyai.com/
Аноним 20/12/24 Птн 14:54:25 #389 №983502 
>>983492
>>983409
А, сообразил, он юзает агенты, синкинг, раг и все такое.
Ну ок, в таком случае, если у тебя мультиагенты, это реально имеет смысл. Долго, но зато оно способно на собственные изыскания.

Ок, претензия снимается, но все еще супер-сомнительно, потому что агентам не обязательно быть 70б, это могут быть 1,5б модельки для задач разной сложности, и тогда ты выиграешь даже на более слабом железе, за счет оптимизаций.
Аноним 20/12/24 Птн 14:57:55 #390 №983505 
>>983491
Вот уж не ври, 20 кратной переплаты это не стоит. Просто пользуясь положением монополиста он устанавливает такие цены выше которых откажутся платить. Я ведь согласен что большая сложность стоит выше, и 2-4 кратная цена покрывала бы все издержки производства с запасом. Но эта безумная накрутка цен умышленная.
>На фоне всего прочего, целовая политика хуанга это вообще капля в море по торможению.
Чего прочего? Если ты про региональный запрет продажи, то это плохо но все равно пофигу.
Многие институты и лаборатории не могут себе позволить сервер для моделирования различных процессов именно и только изза цены. Стартапы, просто энтузиасты, школы. Все это требует денег которых у обывателя или гос структуры обычно нет.
Зато сверхбогатые корпорации покупают их буквально миллионами ограничив возможности остальных пайвеллом.
Аноним 20/12/24 Птн 15:18:30 #391 №983514 
>>983505
Cringe
Аноним 20/12/24 Птн 15:22:23 #392 №983518 
>>983514
Будет полный кринге, когда ты подыхая от старости или болезни узнаешь что какая та вещь могла бы быть возможна уже 10 лет, если бы у исследователей были ресурсы для этого.
И еще куча причин почему быстрое развитие технологий/медицины лучше затягивания этого процесса.
Но похуй, с кем я говорю то? Мы тут не на что не влияем в любом случае.
Аноним 20/12/24 Птн 16:35:27 #393 №983556 
Большое обновление Кобольда:
https://github.com/LostRuins/koboldcpp/releases/tag/v1.80

Добавлена поддержка мультимодалки. Кто там Qwen2-VL просил?
Аноним 20/12/24 Птн 16:43:32 #394 №983565 
>>983556
> Большое обновление
> ничего полезного
Аноним 20/12/24 Птн 16:49:01 #395 №983573 
>>983565
> ничего полезного
> для тебя
Аноним 20/12/24 Птн 16:49:56 #396 №983577 
>>983556
>Fixed a bug that caused context corruption when aborting a generation while halfway processing a prompt
Значит мне не показалось, что когда прерываешь генерацию модель иногда начинала тупить.
Аноним 20/12/24 Птн 17:28:47 #397 №983616 
Почему такая мертвая тишина?
Когда уже выйдет что то уровня 70б для моей 3060?
Где прогресс?
Аноним 20/12/24 Птн 17:43:13 #398 №983631 
>>983616
>Где прогресс?
Видел выше по треду риг 14x3090? Вот тебе прогресс.
Аноним 20/12/24 Птн 18:11:31 #399 №983648 
image
>>983616
Для 3060 разве что вон некомикс гоняй.

Я потихоньку интересные карточки фикшу и перевожу на русский, попутно тестируя собственные мержи на них.

https://www.youtube.com/watch?v=OBg9ZAqBifQ
Аноним 20/12/24 Птн 18:13:13 #400 №983651 
>>983616
Собери себе что-нибудь для запуска на vram геммы 27b или мистраля того же калибра и сиди на жопе ровно до ТЕХНОЛОГИЧЕСКОГО ПРОРЫВА.
Разница между ними и 70b не такая значительная, а на 123b и выше тебе твоей зарплаты все равно не хватит.
Аноним 20/12/24 Птн 18:25:23 #401 №983658 
>>983631 да, анонче на деле действительно принципиальной разницы между 12B на родном языке и 32B на иностранном ты не обнаружишь.

Конечно, всё индивидуально, мож ты и Гарри Потного в оригинале можешь на лету читать... Но в целом разница будет на уровне разницы сидов.

Конечно, могут налететь адепты "ниже 27Б жизни нет", но... тут интернет, тут и нахуй послать могут, такие дела.
Аноним 20/12/24 Птн 18:27:19 #402 №983661 
>>983651
> а на 123b и выше тебе твоей зарплаты все равно не хватит
а вот это неправда.
С двух средних российских зарплат можно себе собрать 4 теслы на майнерской материнке.
Сколько там средняя? 60 с копейками кажется.
Аноним 20/12/24 Птн 18:31:27 #403 №983668 
>>983658
>Конечно, могут налететь адепты "ниже 27Б жизни нет", но... тут интернет, тут и нахуй послать могут, такие дела.
Могут конечно. Как пример, жизнь-то есть, только нахуй такая жизнь маленькие модели это так, побаловаться.
Аноним 20/12/24 Птн 18:35:23 #404 №983674 
>>983661
>С двух средних российских зарплат можно себе собрать 4 теслы на майнерской материнке. Сколько там средняя? 60 с копейками кажется.
Да бля, я постоянно повторяю: арендуйте! 200р/час, за бугром ещё дешевле. Пересмотрите бюджет в сторону здорового питания и сэкономьте - польза и телу и душе. Кто курит, тем ещё проще :)
Аноним 20/12/24 Птн 18:52:13 #405 №983702 
>>983505
>>983518
Чел, ты упоролся шизой и множишь свой хейт странными фантазиями. В мире столько несправедливости и эксплуатации возможностей/монополизма что на этом буквально все общество основано. Для совсем хлебушков - вспомни недавние вайны с перепуками и пс5, если на товар есть повышенный спрос - он будет дорогим.
Раз такой идейный - думай как обеспечить большие блага какой-то группе (или всем) и действуй. А не устраивай кринжовый вой о том какой дядянейм плохой, таща свои странные ассоциации.
>>983616
> что то уровня 70б для моей 3060
> Где прогресс?
Там же где и достаточность 512кб для всех. Вон выше тест свежей мелочи, они действительно научились мимикрировать под большие модели, но остались тупыми.
Аноним 20/12/24 Птн 18:54:14 #406 №983703 
Какие годные промпты есть для SAINEMO-reMIX ? Особенно раздражает когда персонаж становится фемкой и просит уважения.
Аноним 20/12/24 Птн 19:18:40 #407 №983716 
>>983703
>становится фемкой и просит уважения

лололол, ни разу не случалось, смотри промты, джеилбрейки

Карточки можешь эти пробнуть

https://pixeldrain.com/u/6Gagz3ZP _rus.zip
Аноним 20/12/24 Птн 19:22:02 #408 №983722 
>>983668
>побаловаться
А кому не побаловаться, те шизориги собирают.

>>983674
>200р/час
веса скачиваются 50 минут и загружаются 10
Аноним 20/12/24 Птн 19:25:41 #409 №983725 
>>983722
>веса скачиваются 50 минут и загружаются 10
Нифига, пару минут загружаются. А скачиваются да, придётся потратиться на хранение заказанной конфигурации. Рублей 500 в месяц, зато качать и ставить заново не надо.
Аноним 20/12/24 Птн 19:28:45 #410 №983729 
image
>>983725
Ну, покажи мне чат на 70Б который не стыдно на фикбук опубликовать.
Аноним 20/12/24 Птн 19:31:51 #411 №983733 
>>983086
> Qwen2-VL-7b
Потыкал, завел батчер. Ну... нейрослоп на нейрослопе, смысла очень мало. Даже анимечный тюн идефикса - Тории и то его уделывает. Отдельно пару анценз тюнов попробовал. Знает буквально пару позиций, и то между ними путается. На манга панелях находит больше 2 людей, лол. 2b даже смотреть не стал.

>Florence 2 и CogFlorence
Ещё какие-то микро-модели для муравьев

>Llama-Vision
>Qwen2-VL-72b
Навскидку удобного готового скрипта для батч обработки не нашел, по одной грузить в Жору - ну такое.

> древние или неактуальные штуки, осторожнее.
Еще есть что? Пока что не лучше того, что предложили выше
Аноним 20/12/24 Птн 19:56:40 #412 №983755 
>>983729
>Ну, покажи мне чат на 70Б который не стыдно на фикбук опубликовать.
На 70В не покажу, а вот на 123В мог бы показать, да к такому общество ещё долго не будет готово :)
Аноним 20/12/24 Птн 19:57:49 #413 №983758 
>>983661
75=>без мск, спб и якутии 55=>с учетом налогов и без премии на новый год в размере зп 44=>средняя — не медианная, медианная 33=>медианная чуть выше, чем самая популярная, модальная зп в России — 27к рублей

Ну так, справедливости ради. Исходи из 30к минус еда, минус коммуналка, ну и некоторые квартиру оплачивают.
Это будет реально средняя в обывательском понимании зп, расчет будет примением к большинству людей.

Неправда там в другом, 123б не так уж сильно умнее 72б на деле. Минорные отличия.

>>983733
Ну, именно для описания картинок, то что предложил я, явно лучше. =)
Но если уточнять каких картинок и какого описания — то откуда ж мне знать.
Но есть еще модели, которые буру-теги на картинки лепят и все. Ничего лучше нет вообще.
По факту остается лишь ждать, или ловить экзотические модели какие-нибудь (была какая-то apollo, но снесена с обниморды, я даже не пробовал, к примеру, такие модели случаются).

Так что, если ты автор — выбирай из предложенных, боюсь никто ничего лучше не предложит.
Буду рад ошибаться. =)
Аноним 20/12/24 Птн 20:04:56 #414 №983765 
image
>>983755
Слишком, слишком хорошо для тебя!

(с) Гарбад Слабый, Diablo I
Аноним 20/12/24 Птн 20:24:34 #415 №983788 
image.png
Джеммалюбы тут?
Аноним 20/12/24 Птн 20:39:24 #416 №983815 
>>983788
А что не так? Типичная гемма.
Аноним 20/12/24 Птн 20:46:37 #417 №983824 
>>983758
>модальная зп в России — 27к рублей
Ты ведь про 2014-й? Ты ведь про 2014-й, верно?
>>983788
А ты хочешь меньше 18? Ты уверен? Даже в 18 они тупые пиздос, я боюсь представить, что на младших возрастах.
Аноним 20/12/24 Птн 20:50:32 #418 №983830 
Посоветуйте модель для сочного кума на 1080ti. А вообще интересно, можно ли на ней запустить, что то локально, что будет лучше того же гпт4?
Аноним 20/12/24 Птн 21:12:08 #419 №983882 
>>983830
LLAMA-3_8B_Unaligned_BETA-Q8_0
Starcannon-Unleashed-12B
NekoMix-12B

Chronos-Gold-12B - Сочный рп на английском, в куме не пробовал.
Аноним 20/12/24 Птн 21:27:58 #420 №983904 
>>983661
>>983674
Или просто оплатить подписку 12$ и гонять 70б с нулевой еблей на каком-нибудь arliai
даже не в шакальном кванте
Аноним 20/12/24 Птн 21:30:11 #421 №983907 
image
Вообще мержить модели после выснения некоторых закономерностей оказалось несложно, только ппц долго и места дискового жрёт.

Две главных русских модели - вихрь с цензурой, а сайга с сайгизмами и поломанная, зато без цензуры. Два лучших англо рп тюна мистрал немо - Rocinante и ArliAI-RPMax.

Мб ещё что интересное кто знает?

Теперь смешать так чтобы и русский не проебался, и рпшила получше.

Вроде даже что-то получается. В послледнем тесте Авалон-версия трепалась бодро, и при этом как надо.

По поводу франкен мержей. Слои явно отличаются по толщине и влиянию, докидывание первых пяти слоёв немного улучшало вывод и мозги, хотя поднимало вес ггуфа до 14ГБ, добавление конечных слоёв превращало модель в ёбаное шизло (как некоторые миксы DavidAU).
Аноним 20/12/24 Птн 21:43:48 #422 №983920 
>>983907
Где то видел схему слоев при которой делали эти бутерброды из слоев сеток, там не просто голову на жопу сажали. Попробуй последние слоев 10 двух сеток расположить сразу в одной сетке, парами тоесть 33 34 35-1 35-2 36-1 36-2 и тд
Там по похожей схеме большую часть слоев располагали
Ну а древняя солар 10b вобще делалась наращиванием новых слоев на замороженную 7b мистраль
Аноним 20/12/24 Птн 21:45:46 #423 №983922 
>>983493
Вот за этот подгон благодарочка. Не знал, что боты с джанитора закрытые есть где-то ещё (вытаскивал их описание промптами на самом джаниторе, что очень нудно и отнимает время).

В отличие от чуба, там чаще появляются самые хайповые боты, а также там есть куча интересных авторов.
Аноним 20/12/24 Птн 21:49:59 #424 №983928 
>>983658
Увы, это вообще не так и чем сложнее будет ситуация тем радикальнее разница. Однако, это вовсе не значит что большая модель будет во всем идеальна а мелкая будет постоянно фейлить. Скорость взаимодействия может оказаться гораздо более важным фактором, поэтому и упарываться чем-то большим но тормознутым не всегда стоит. Пока будешь бомбить в ожидании, с мелкой моделькой уже 10 раз насвайпаешь что нравится, а то и с небольшим редактированием и продолжением, получишь даже лучший результат. Такое как правило не обязательно, достаточно следить чтобы модель не выдала чего-то что потом запутает ее и уведет куда-то не туда и иногда давать абстрактные подсказки.
>>983729
> шыдевры пикбука
Буквально любой чат
>>983758
Смотря на эти цифры, становится страшно.
>>983788
Это байт на скрины чатов с канничками на гемме?
Аноним 20/12/24 Птн 22:20:45 #425 №983993 
Qwen2.5-Coder-32B-Instruct-Q8_0.gguf
Дошли, наконец, до него руки.
TL;DR: кодить определённо умеет, но нужно чтобы полностью влезал в видеокарту с большим контекстом. Хотя бы 48 ГБ врам. Без этого точно не вин, хотя и фейлом не назовёшь.

По самому кодингу. Пишет довольно грязно, мне на это больно смотреть, больно это ревьювить, так и хочется взять и переписать по-своему. Да я и с кожаными работать не привык, сам для себя пишу, от чужого кода плююсь. Посреди высокоуровневой логики может ебануть какую-нибудь хитрую многострочную конструкцию, с приведениями типов, где ни хрена не разберёшь беглым взглядом. Вместо того, чтобы вынести в отдельную небольшую функцию с "говорящим названием". Фиксится отдельным запросом, но иногда грязные хаки "не доезжают" до места назначения и помещаются в новом неподходящем месте.
Очень любит think step by step даже без запроса, но чаще всего пишет какие-то общие рассуждения, впустую растрачивая токены, а его дальнейшие действия всё равно выглядят какой-то чорной магией. Особенно если пишет что-то, в чём я сам плаваю. Но каким-то неведомым образом это работает, ошибки потихоньку фиксятся, компилятор всё меньше ругается.
Кто-то там писал, что он непослушный, может и есть немного, но наставить на путь истинный можно. Запросы я прям в коде комментариями "TODO" оформлял, цитировал ошибки компилятора, заставлял разгребать совсем уж уродливые конструкции, заменять magic numbers на читаемые константы и т.п. По вычислительным алгоритмам не гонял, правда, заставлял писать простенькую утилиту для облегчения повседневной рутины, до которой у самого не доходили руки. Была ситуация, где я ему закинул документации там, где он дёрнул несуществующие функции, он вполне это учёл. Одновременно с этим в другой части никакой релевантной документации я не нашёл (область, в которой у меня очень поверхностный опыт нескольколетней давности и к настоящему моменту почти всё забылось), просто закинул ему ошибки с просьбой ебаться с этим говнокодом самостоятельно, особо не надеясь на успех - так и это он каким-то образом (почти) пофиксил (вышеупомянутая чорная магия).

Когда осталось уже 3 ошибки, причём довольно нетривиальных, не выдержал, доделал сам, разбирался где-то полчаса-час, не засекал. Учитывая скорость квена на моём конфиге (~1 т/с генерации) и среднюю длину ответа (~3к токенов), на 1 запрос-ответ с фиксами уходит около часа, и сомневаюсь, что мы бы с ним уложились бы в один такой цикл. Со старыми моделями бы даже усомнился, что мы бы вообще когда-нибудь доделали рабочую программу, но если экстраполировать предыдущий опыт с квеном, возможно он бы справился с этим за конечное время.

По скорости возможно профит и есть на нормальном конфиге. На 500 строк кода было нагенерировано ~16к токенов, если с нормальной скоростью 15 т/с, то это ~1000 секунд или около 15 минут. Но у меня чисто генерация заняла часа 4. Строго говоря, пока квен там строчит, я ничем не занят, можно конечно анимца навернуть, но особо сконцентрироваться не получается, в голове всё крутится код, над которым работаем, приходят в голову интересные идеи. У меня скорее проблема в том, чтобы начать, а если уж увлекусь, то готов до вечера сидеть. Если же совсем отвлечься, то потом сложно возвращаться, вникать в то, что он там насрал. В общем, нужна мелкая модель, чтобы полностью в врам, чтобы чатиться в реальном времени. Но в моём случае это 7b, а она, как я подозреваю, для чего-то серьёзнее автокомплита для бойлерплейта не годится.
Да и 34B тоже, даже если с нормальной скоростью, лично мне бы не очень зашла, даже design draft лень составлять на естественном языке, я бы сразу код заебашил, но зачем тогда квен? А ещё ревьювить, копировать ошибки компилятора, искать документацию. А просто на объебись попросить "сделай заебись", обрисовав в общих чертах свои противоречивые хотелки рука не не поднимается. И подозреваю, в ответ на такое код тоже будет соответствующего качества. Хотя может я недостаточно верю в неё, памятуя опыт со старыми моделями, которые полностью за руку вести надо было. Да и вообще, появляются мысли о том, что я работаю прослойкой между компилятором и программистом, уступающим мне в сообразительности (но превосходящем в эрудиции). Дать бы ей непосредственный доступ к терминалу с компилятором и гуглопоиску, и пусть сама ебётся, а мне PR шлёт, когда у неё соберётся. Но хрен её знает, вдруг выполнит "rm -rf /" или запилит скайнет..
Аноним 20/12/24 Птн 22:23:25 #426 №983997 
>>983824
По средней — данные Росстата за 2023, по соотношению медианной к средней и модальной к средней — данные за пару лет назад (вряд ли соотношение изменилось)… Так что, плюс-минус актуальные. =(

> Даже в 18 они тупые пиздос
А можно я всерьез отвечу на вопрос, который даже не мне адресовали?
Слушай, умные — они всегда умные. А тупые — всегда тупые. Интеллект не зависит от возраста. С возрастом появляется опыт (когда лучше не пиздеть, а когда лучше напомнить о себе). И самомнение. Последнего больше, первого меньше. А ума не прибавляется.
Да, взрослые могут имитировать умных.
Но по факту, самый умный человек, которого я знаю (лично, женского пола) — девочка, которая уже в 11 сидела за линухой, удивляла своим мышлением, и потом у нее все сложилось хорошо, и с образованием, и с деятельностью. А 30-40-50-60-летние женщины… Шо-то тупые пиздос.
Так что, если ориентироваться на ум — то возраст вообще значения не имеет, ибо никакой корреляции. Разве что ориентироваться на опыт в коммуникации и совместном быту.
Простите, что влез.
Осуждаю 18-летних и младше.

>>983830
> лучше того же гпт4
Нет. На оперативе, где 1080ti будет только контекст считать — да. Чисто на ней — нет.
Где-то по уму близок Qwen2.5-7b (и ты с грехом пополам его впихнешь).
Пообщаться будут Gemma-2-9b (или в кванте, или частично в оперативе), Nemo 12b и Qwen2.5-14b (эти уже прилично в оперативе).
Но модели уровня GPT-3.5 — это уже Qwen2.5-32b, а он 100% не влезет, сорямба.

>>983928
> Смотря на эти цифры, становится страшно.
Люди так и живут «дали аванс, хватит на коммуналку — и на том спасибо!», цитата от коллеги пару часов назад.
Аноним 20/12/24 Птн 22:24:22 #427 №984000 
>>983920
>там не просто голову на жопу сажали
Как минимум с жопы надо срезать парочку слоёв.
>>983928
>Это байт на скрины чатов с канничками на гемме?
Da.
>>983993
>По самому кодингу.
Ты забыл в стенке текста указать ЯП, на котором тестил.
Аноним 20/12/24 Птн 22:29:24 #428 №984007 
>>983993
Если ты его с семплингом используешь, то тебе лечится надо. В большинстве случаев он ебёт жпт-4 в кодинге.
> Очень любит think step by step
Ни разу не видел. 146% ты в промпте что-то напердолил.
> если с нормальной скоростью 15 т/с
Со спекулятивным декодингом в среднем 50 т/с выжимаются на 4090.
Аноним 20/12/24 Птн 22:29:57 #429 №984008 
>>983997
>Слушай, умные — они всегда умные. А тупые — всегда тупые. Интеллект не зависит от возраста.
Пойду грузить пятилетнюю девочку матаном, она ж умная.
>девочка, которая уже в 11 сидела за линухой, удивляла своим мышлением
На форче она не сидела заодно? А то были такие...
>Осуждаю 18-летних и младше.
Да мы все тут осуждаем, бро. И скачиваем канни-кум-слоп карточки лишь затем, чтобы направить дитя неразумное на путь истинный.
>>983997
>Люди так и живут «дали аванс, хватит на...
раздачу долгов... Знаю семейку, которая так живёт. ИЧСХ, не ДС, и суммарный заработок на муж+жена+ребёнок там около сотки. Как выживают люди беднее, я ХЗ. Сам войтишнек со 150кк/нс
Аноним 20/12/24 Птн 22:30:20 #430 №984011 
>>983993
На каком языке тестировал и в какой области примерно?
Знает ли он пихон и релейтед нейронкам области, особенно что-то пусть простое но актуальное и совсем свежее?
Как именно тестировал, каждый раз давал новый запрос, или же делал в формате чата? Если второе то насколько долгие они были и как организовывал, подробнее распиши, заодно как он отвечает на запросы что-то отдельное в большом куске переделать.
>>983997
> модели уровня GPT-3.5 — это уже Qwen2.5-32b
Ты слишком хорошего мнение о старой турбе. Квен 32 ее уделает, наверно, вообще везде.
Аноним 20/12/24 Птн 22:37:42 #431 №984030 
>Ведёшь ЕРП
>Случается winking anus
>Начинаешь люто проигрывать со всей хуйни
>Ведёшь безумные события, заставляешь нейроперсонажа лечить твоего
>Похотливо стонешь и описываешь slick flesh, пока она ковыряется ножом в ране
>Нейроперсонаж охуевает, кримсон ред блушес, как положено.
>Нейронка проигрывает в ООС, только это почему-то JK

Двенадцать из десяти, господи. Хотелось бы чуть умнее и без рандомных БАКА, но всё ещё охуенно. EVA-Qwen
Аноним 20/12/24 Птн 22:44:18 #432 №984043 
>>983658
>принципиальной разницы между 12B на родном языке и 7B на иностранном ты не обнаружишь
Поправил, не благодари.

>>983907
Вообще есть халявный спейс https://huggingface.co/spaces/arcee-ai/mergekit-gui с какими-то ограничениями по времени. Только там нельзя назначить доп параметры мёржкита, только общий конфиг. Мержится за несколько минут, файлы валяются в репе обниморды, места не жрут. Можно в обниморде же на другом спейсе квантовать, потом скачивать себе только квант. Из минусов - все видят твои позорные мёржи, и они останутся в веках в квантах mradermacher, но кому не похер. Есть 100 гигов под приватные репы.
Аноним 20/12/24 Птн 22:56:05 #433 №984062 
>>984043
>Вообще есть халявный спейс https://huggingface.co/spaces/arcee-ai/mergekit-gui
А вот это ценно, давно хотел попробовать разобраться в этой адской кухне.
Аноним 20/12/24 Птн 23:00:03 #434 №984068 
>>984000
>Ты забыл в стенке текста указать ЯП
>>984011
>На каком языке
rust, sql
Но не думаю, что это сильно важно. Уж кодинг почти везде очень похож.
>>984007
>Если ты его с семплингом используешь
Всё в "нейтральном положении", температура 0.
>146% ты в промпте что-то напердолил
Рекомендуемый чатмл, рекомендуемая алибаба You are Qwen, created by Alibaba Cloud. You are a helpful assistant.
>Со спекулятивным декодингом
А это точно сработает на 8 гб врам? Так же ещё больше уедет на цпу.
>>984011
>в какой области примерно
По большому счёту перекладывание данных. SQL-запросы, небольшие строковые преобразования. Чуть-чуть простенькой арифметики и приведения типов.
>Знает ли он пихон
Да языки-то все распространённые знает, наверное.
>релейтед нейронкам области
Не спрашивал.
>делал в формате чата?
This. Квен сразу любит кидаться писать код, первым сообщением предупреждал, что сейчас дизайнить будем. Дальше расписывал общую задачу, примерно как я вижу её реализацию, какие либы можно подтянуть, если знаю. Ну и спрашивал его замечания, знает ли он какие-то более подходящие инструменты. Дальше уже переходили непосредственно к коду. Он пишет, я копирую в IDE, компилирую, пишу ему про ошибки и собственные пожелания, он пишет исправленный вариант.
>запросы что-то отдельное в большом куске переделать
В коде комментарий с TODO оставлял, всё послушно делается. В "обычной переписке" только общую высокоуровневую архитектуру обсуждали, он ей потом более-менее следовал.
Аноним 20/12/24 Птн 23:10:02 #435 №984079 
>>984068
>Он пишет, я копирую в IDE, компилирую, пишу ему про ошибки и собственные пожелания, он пишет исправленный вариант.
Пиздец котёнку. Количество говнокода теперь возрастёт неимоверно - все индусы будут так делать в меру своего разумения, не говоря уже о китайцах. С другой стороны дожили же мы как-то до нынешнего времени, авось и сейчас пронесёт.
Аноним 20/12/24 Птн 23:13:03 #436 №984082 
>>984068
>Уж кодинг почти везде очень похож.
Лол нет.
Аноним 20/12/24 Птн 23:13:20 #437 №984083 
>>984068
> Рекомендуемый чатмл, рекомендуемая алибаба
Ты модели перепутал.
Аноним 20/12/24 Птн 23:20:06 #438 №984092 
>>984083
https://huggingface.co/Qwen/Qwen2.5-Coder-32B-Instruct
> {"role": "system", "content": "You are Qwen, created by Alibaba Cloud. You are a helpful assistant."}
https://huggingface.co/bartowski/Qwen2.5-Coder-32B-GGUF
>Prompt format
><|im_start|>system
>{system_prompt}<|im_end|>
><|im_start|>user
>{prompt}<|im_end|>
><|im_start|>assistant
Аноним 21/12/24 Суб 00:24:11 #439 №984171 
>>984000
> Da.
Нет, они слишком специфичны
>>984068
> не думаю, что это сильно важно. Уж кодинг почти везде очень похож.
Совсем нет.
> перекладывание данных. SQL-запросы, небольшие строковые преобразования. Чуть-чуть простенькой арифметики и приведения типов.
Звучит слишком просто, если это не особо специфическая херня.
Насколько накапливал там контекста и длину сообщений? Если увлекаться то любая сетка дико деградирует, для норм результатов нужно регулярно очищать историю от старого кода и запросов, но так чтобы оно все было согласованно а не изнеоткуда.
Аноним 21/12/24 Суб 00:41:03 #440 №984189 
>>984171
> SQL-запросы,
>5 часов
Да там руками написать все можно было не по разу если ты не систему уровня предприятия делаешь, зачем ллм?
Аноним 21/12/24 Суб 00:47:34 #441 №984194 
>>984189
>Да там руками написать все можно было не по разу если ты не систему уровня предприятия делаешь, зачем ллм?
Руками влом, даже если задача простая. Тем более, если простая.
(Другой анон)
Аноним 21/12/24 Суб 00:49:31 #442 №984195 
>>984030
>Двенадцать из десяти, господи.
Тут же попробовал А и правда, ничо так. Живенько.
Аноним 21/12/24 Суб 00:54:13 #443 №984199 
Теслы-3090-3070-3060-кун на связи. Купил плату расширения 4х4. Материнка поддерживает только формат х8-х4-х4 и, увы, чуда не случилось - второй разъем не работает (удивительно, что вообще хоть что-то работает). Подключил карты через копеечные переходники m.2->usb(райзер x1), ибо чет я не готов был покупать райзеры m.2->x16, они стоят охуевше (коротенькие по 1к, и к ним надо будет обычный х16 райзер еще докупать, лол, а 80 см по 5-7к. Т.е. вывали ~15к за провода, заебись. В комплекте только SATA, но порт на плате не SATA, т.е. в теории можно молекс сунуть. Есть еще на х4, что анон тут покупал, он 2к стоит, но он с SATA портом, а мои 3090 60Вт из разъема тянут при полной нагрузке. Можно для 3090 попробовать взять первый вариант, а для тесел подойдет и это. Или ебаться с андервольтингом. В общем, ключевое слово тут - ебаться). Т.е. в итоге мой конфиг для опытов: две теслы и одна 3090: процессорные х1, еще одна 3090 - чипсетные х4, 123B 5 квант, 4к контекста. И чет я в печали. Обработка контекста в ровсплите по-прежнему ахтунг - 11 т\с. Зато генерация, блять, 4.5! Лучше, чем было с 3070 в сетапе (без ровсплита). Ну это пиздец какой-то, почему так нахуй. Неужели для обсчета контекста при ровсплите х1 не канает ни в каком формате вообще? Без ровсплита контекст считается хорошо (уж простите, забыл сколько, но нормально), зато генерация 3.9-3.7. В общем, хз. То ли забить хуй, то ли ебаться с х4 райзерами. При этом я по итогу хочу не 4 карты, а 6. То есть две будут сидеть на чипсетных х1 в любом случае. И хз, будет ли какой-то прирост в каком-нибудь из режимов...
Аноним 21/12/24 Суб 00:59:08 #444 №984204 
>>984199
> ровсплите
Дыс. Выкидывай. Оно работает не так, как обещает. По-крайней мере на солянке карт. У меня с роусплитом на 4090+3090 медленнее чем на одной 3090.
Аноним 21/12/24 Суб 01:14:12 #445 №984223 
>>984189
О том и речь какбы, или сразу, или спрашиваешь - получаешь готовый ответ.
>>984199
> Обработка контекста
> 11 т\с
Ахуеть, столько должна быть генерация.
Слишком сумбурно и странно описан конфиг, если у тебя есть пара портов побыстрее - попробуй запустить на видюхах что стоят только на них, а потом повтори то же самое чтобы было 2 порта х1. Вот так должно быть показательно.
Аноним 21/12/24 Суб 01:54:30 #446 №984258 
>>983993
> Хотя бы 48 ГБ врам.
Я литералли бумер с мема «2 x P40 goes brrr». Доволен.

> в моём случае это 7b
Сливался Qwen2.5.1-7b-coder, говорят — он хорош.
Но не 32б, конечно.

> попросить "сделай заебись"
Я рискнул и код получился на удивление лучше, чем я ожидал.
Рискни и… 1 т/с? Не стоит, ок.
Но это работает на 60% условно.

> я недостаточно верю в неё, памятуя опыт со старыми моделями, которые полностью за руку вести надо было
Именно так. Те же чувства.

> Дать бы ей непосредственный доступ
РАГ, мультиагенты, функшн коллинг, добро пожаловать во взрослый мир!

Расскажешь че там, мне лень выходить. х)

>>984008
> На форче она не сидела заодно? А то были такие...
Честно — хз. Вряд ли, но не исключаю. Я тогда на бордах не сидел. х)

> Как выживают люди беднее
О! Ну смотри:
берешь кредиты
@
берешь кредитки
@
еда с доставки, куча вещей, жрем-пьем
@
банкротимся
@
материмся и работаем

Че дальше пока хз, наблюдаю.

>>984011
> Ты слишком хорошего мнение о старой турбе
Во-первых, я сравнивал не с турбой, а с 175B.
Во-вторых, сравнивал наверочку, чтобы вот прям 100% лучше.
14b он там типа на уровне где-то, но не везде… Где-то обходит, где-то уступает… Короче, не overpowered.

>>984068
> Уж кодинг почти везде очень похож.
Я достаю свой 1С-Битрикс… )

Мику на нем умела, кстати.

>>984079
> Количество говнокода теперь
> теперь
ТЕПЕРЬ??? ))) ДА УЖ С ГОД КАК
Вопрос, когда люди начнут этим активно пользоваться, или когда это будет сильно заметно.
Возможно второе не наступит.

>>984199
> контекста при ровсплите х1
яжеговорил
х4 для какой-то стабильности в жизни.
х8 для хорошо.
Золотая середина, истина где-то между!..
Но ты все еще крутышка с таким сетапом.
Я потихоньку собираю свои 5-слотовые. Нашел продавца двух бп 1,8 кВт. Потом P104-100 буду докупать потихоньку.
Нахуя?
ОЙВСЕ
По рофлу.
Аноним 21/12/24 Суб 02:27:18 #447 №984285 
>>984258
>Я литералли бумер с мема «2 x P40 goes brrr». Доволен.
Да. Одна тесла - вообще отлично, две - хорошо. Тем более что для двух карт в Жоре параллелизм таки допилили и скорость обработки контекста удваивается.
Аноним 21/12/24 Суб 02:32:13 #448 №984290 
>>984258
> не с турбой, а с 175B
> модели уровня GPT-3.5
В семействе 3.5 только турба и какая-то не нужная всратень для писательства были. А древняя большая тройка - тупица хуже турбы.
Аноним 21/12/24 Суб 03:11:11 #449 №984320 
https://market.yandex.ru/product--videokarta-palit-pci-e-4-0-pa-rtx3090-gamingpro-24g-nv-rtx3090-24gb-384bit-gddr6x-1395-19500-hdmix1/921398956
78к
Аноним 21/12/24 Суб 03:14:57 #450 №984326 
>>984320
Слишком много за б/у спалит.
Аноним 21/12/24 Суб 03:20:19 #451 №984333 
>>984326
За 65к у перепуков из под майнера и без гарантии можешь купить. А тут целых 6 месяцев обещают. И конкретно этот палит довольно неплох, несмотря на мелкий охлад.
Аноним 21/12/24 Суб 03:20:46 #452 №984334 
>>984285
Запустил апдейт убабуги, запустил загрузку старых моделей — вылетают!
А без тензор_сплита работают!

А вот и ответ, контекст теперь не грузится на одну видяху, а режется, как и должен был.
Отлично.
Вовремя твой ответ подъехал. =)

Кстати да, я тоже заметил, что по факту, одной теслы зачастую хватает везде, кроме ллм-моделей крупных. Даже одна — имба за свои деньги (15к-17к).
Аноним 21/12/24 Суб 03:26:23 #453 №984344 
>>984320
Ну эт совсем днище и еще с таким оверпрайсом, рядом со всратым гнилобитом и днищемсиной. От палитов гей_мрок ахуенный вполне, кстати он у того продавана тоже есть и внезапно стоит столько же.
Вообще посмотрел бы насколько реальна эта заявленная гарантия.
>>984334
> одной теслы зачастую хватает везде
30б или меньше ллм пускать без контекста, больше ни на что не годна.
Аноним 21/12/24 Суб 04:31:10 #454 №984388 
>>984344
>30б или меньше ллм пускать без контекста, больше ни на что не годна.
Вполне с контекстом. Скорость его обработки конечно не та, что у 3090, но не раздражает. И да, одна 3090 годна примерно на то же, ну ещё SD и Flux потянет. Вот в плане построения рига конечно дело другое.
Аноним 21/12/24 Суб 04:37:58 #455 №984392 
>>983674
> 200/час
Зп среднего россиянина.
Аноним 21/12/24 Суб 08:07:51 #456 №984441 
>>983928
>Это байт на скрины чатов с канничками на гемме?
Да.
>>983824
>А ты хочешь меньше 18?
Возраст согласия в России 16.
>>983815
Всё так, я кайфую. Люблю её.
Аноним 21/12/24 Суб 08:11:48 #457 №984442 
>>983997
>>983824
Кстати, я думаю тут речь скорей не про ум, а про кругозор. У молодых он на нуле. Т.е. если поговорить - то только о их хуйне, которую они впитали за последние 5 лет максимум, что печально. При общении с кем-то очень важен кругозор.
Аноним 21/12/24 Суб 09:19:48 #458 №984451 
>>984043
>Вообще есть халявный спейс
della и della_linear там не поддерживаются

Хотя c ties и slerp можно поиграться.

>>983920
>Где то видел схему слоев при которой делали эти бутерброды из слоев сеток

Где и как про это почитать, а то где не спрошу, либо игнор, либо сидят с умными ебалами как средневековые мастеровые гильдии.
Аноним 21/12/24 Суб 09:29:45 #459 №984455 
>>984451
>della и della_linear там не поддерживаются
Не проверял, но полно таких в комьюнити, вот рэндомный с первой страницы моделей. https://huggingface.co/mergekit-community/mergekit-della_linear-uogzotg
В этом комьюнити валяются мержи, которые анонимно делали. Полагаю, просто ридми мержкита не обновили, но сама версия свежая.
Аноним 21/12/24 Суб 10:17:37 #460 №984467 
>>984171
>Звучит слишком просто
Как раз задача уровня нейронок. Для простеньких утилит для автоматизации рутины и облегчения жизни ллм - самое то.
>Насколько накапливал
Около 16к, сообщения по разному. Пока обсуждали дизайн, были короткие, 100-200 токенов. Потом стали писать код, начали с 1.5-2к, доползли до 3к.
>Если увлекаться то любая сетка дико деградирует
В рамках одного чата почти всё сделали. Как я писал выше, 3 ошибки осталось, я уже сам доделал. До этого давал возможность сетке абсолютно все делать. Если бы вмешивался, конечно, справился бы быстрее.
>>984189
>руками написать все можно было не по разу
Так я же не писал, большую часть времени писала сетка, пока я чиллил. Были бы 2 теслы, на генерацию ушло бы 15 минут, я дольше промптил и ревьювил суммарно. Моего личного участия там на час где-то. Сколько бы сам с нуля делал, не знаю, в sql я плаваю (скрее всего просто в лоб достал бы все данные из бд и крутил бы их в расте, а квен сделал, на мой нубский взгляд, довольно интересные запросы, выполняющие большую часть работы). В знакомой теме может и справился бы за час, а может и нет. Скорее не взялся бы вообще, конкретно эту идею я вынашивал уже пару лет.
>>984258
>Qwen2.5.1-7b-coder, говорят — он хорош
Учитывая опыт в других задачах, 7б - это насрать токенами "близко к теме", без особого понимания. Для автокомплита сгодится, что-то типа по-быстрому накатать тело функции, ориентируясь по сигнатуре. Для дизайна и полного написания кода с нуля, как мне сделал 32b - сомневаюсь.
Аноним 21/12/24 Суб 10:24:02 #461 №984477 
>>984467
>Для дизайна и полного написания кода с нуля, как мне сделал 32b - сомневаюсь.
Могёт, только нужно давать простые задачи и повторять раз за разом. Если ты хоть немного в теме и объясняешь понятно - сетка сможет постепенно написать приложение которое тебе нужно. Ну или точнее скрипт. Но конечно лучше использовать 14 -32b, они способны понимать и писать более сложные вещи
Аноним 21/12/24 Суб 10:29:18 #462 №984484 
Да бля последние релизы лламаспп опять сломались в таверне, не работает текст комплишен, пустое сообщение высирает и все
Че они там опять поменяли?
Аноним 21/12/24 Суб 10:50:37 #463 №984503 
изображение.png
>>984484
Аноним 21/12/24 Суб 10:59:52 #464 №984515 
>>984455
>ридми не обновили
да, делла работает, и удобно что что спейс сразу создаёт репу с ридми и параметрами использованными для генерации, так что не забудешь где что ставил и как (не) надо делать.
Аноним 21/12/24 Суб 11:09:55 #465 №984524 
>>984467
> вен сделал, на мой нубский взгляд, довольно интересные запросы, выполняющие большую часть работы
>довольно интересные запросы
Кинь, хочется посмотреть, как делать не надо, уже жеппой чувствую, что убил бы, увидев на проде такие.

>интересные
Обычно хорошо работающее решение понятное и простое. Когда начинается "хитрое", то жди беды
Аноним 21/12/24 Суб 11:48:19 #466 №984547 
image.png
>>984524
Названия немного поменял в целях приватности.
Аноним 21/12/24 Суб 12:00:22 #467 №984551 
>>984547
Я-то думал там едет джоин через джоин, смотрит - групбай через партицию, а тут из одной таблицы селект.

1 - эта выглядит чесание уха ногой
2 - одинаковые же по 2 попарно
Аноним 21/12/24 Суб 12:01:30 #468 №984552 
.png
>>984551
Не приклеилась пикча
Аноним 21/12/24 Суб 12:16:08 #469 №984559 
>>984551
>Я-то думал
Ну так я же сказал, "на мой нубский взгляд".
>1 - эта выглядит чесание уха ногой
Зато интересно. Есть таблица с логами успехов/фейлов для каждой записи в main_table, надо отфильтровать из main только записи с процентом успеха выше заданного порога. Может и можно было проще, но если бы писал я, я бы уже в расте для каждой avg вручную считал бы.
>2
Ближе к концу заставил её добавить сокращения, она их так дописала, вместо того, чтобы унифицировать входные параметры ф-ции. А до рефакторинга уже не дошло дело. Поначалу я её ругал за такое и заставлял переделывать (как и безымянные константы типа 0, 1 и 2 чуть выше), а под конец уже подзаебался с ожиданием, дофиксил оставшееся сам, оно собралось, прошло тесты и осталось в таком виде. Тесты, кстати, тоже квен писал, там даже ничего переделывать не пришлось, только добавил ещё эдж-кейсов, где был риск обосраться.
Аноним 21/12/24 Суб 12:19:47 #470 №984561 
>>984559
> интересно
Ещё зависит, сколько у тебя добра у этой таблице, что по индексам, как часто это будет вызываться.

Но
>собралось, прошло тесты и осталось в таком виде
хуяк-хуяк и в продакшн норм, надеюсь не в пятницу вечером?
Аноним 21/12/24 Суб 12:24:07 #471 №984563 
>>984561
>надеюсь
Ты не поверишь, какой вчера был день...
Аноним 21/12/24 Суб 13:06:55 #472 №984633 
изображение.png
>>984199
>Купил плату расширения 4х4.
Шоэта? Покажи.
>>984320
Я у них брал примерно в эту цену, ХЗ, пока работает.
>>984441
>Возраст согласия
Да похуй, за яшканье с 18- всё равно обоссут.
>>984442
Во, точно. Спасибо, что выразил мою мысль лучше меня а то я сам тупой.
>>984547
Ух бля, огонь, со времён битрикса такой хуйни не видел.
Аноним 21/12/24 Суб 13:15:02 #473 №984653 
image.png
>>984633
>такой хуйни
Мне сначала показалось интересным, погуглил. В инторнетах пишут, что common practice. Я отнёсся с пониманием. Со своим уставом в чужой монастырь не ходят.
Аноним 21/12/24 Суб 13:23:41 #474 №984667 
>>984633
>>984653
Забыл упомянуть, сам до этого сталкивался с mov eax,eax; xor eax,eax и прочим подобным, так что морально я подготовлен ко всяким интересным конструкциям в коде.
Аноним 21/12/24 Суб 13:24:34 #475 №984669 
Сап, LLM гики и отаку, насколько отличаются q8_0 и q6_k и стоит ли предпочитать первый второму?

Заранее спвасибо.
Аноним 21/12/24 Суб 13:26:03 #476 №984671 
>>984633
>>984653
> 1 = 1
Эт норм, энджой ёр SQL из 80х
Аноним 21/12/24 Суб 13:26:10 #477 №984672 
>>984653
>В инторнетах пишут, что common practice.
Для построителей запросов, которые не могул блядь склеить пару строк правильно.
>>984667
С мувом другая история, оно экономит 2 байтика, и когда-то на это дрочили. Сейчас же одна иконка весит больше, чем вся экономия от подобной хуйни в экзешнике на сотню мегабайт, но всем похуй, так заведено.
Аноним 21/12/24 Суб 13:26:58 #478 №984674 
>>984669
Жрать хлеб с полки или жрать корки из помойки, и стоит ли предпочитать первый второму?

Заранее спвасибо.
Аноним 21/12/24 Суб 13:33:50 #479 №984685 
>>984672
>экономит
А смысл в этом муве то блять? Ладно еще xor eax,eax; это другой способ записать mov eax,0; еще готов понять нахуя
Аноним 21/12/24 Суб 13:37:24 #480 №984690 
>>984672
>экономит
>>984685
Это для выравнивания, своеобразный аналог nop.
>так заведено
Обычно на то есть объективные причины. Поэтому, пока нуб, лучше особо не лезть со своими гениальными фиксами.
Аноним 21/12/24 Суб 14:18:09 #481 №984767 
>>984674
Особой разницы нет, но качество 8 кванта выше. Если есть вещь которую поймет 8 квант, то совершенно не факт что это же в том же запросе поймет 6 квант. Но эта разница заметнее когда сравниваешь 8 и 4 квант, конечно.
6 и 8 квант ГЕНЕРИРУЮТ почти не отличающийся текст, это проверяется тестом перплексити, разница там мала.

Но отличие так же в том как они ЧИТАЮТ тот промпт который ты им суешь. А от того как они читают зависит понимание сеткой смысла твоего сообщения.
И собственно "умность" ответа от нее.

Любую задачу на логику, думанье, понимание сложных абстракций лучше давать жирному кванту.
С другой стороны извлечение данных из сетки на всякие тупые вопросики на эрудицию или что то существующие в датасете, работает и на 4 кванте, падая незначительно.
Аноним 21/12/24 Суб 15:05:47 #482 №984812 
image
Ну, оно хотя бы работает.
Теперь проверить на нескольких карточках насколько работает.
Аноним 21/12/24 Суб 15:16:19 #483 №984819 
Sup тредик. С наступающим вас.
Желаю вам Врама побольше, да побыстрее.

На связи ньюфаг, что неделю назад вкатился.
Будь проклят тот день, когда я решил в это вкатиться.
Потыкал уже множество моделей. Посмотрел как на Q4 гема теряет вообще какую либо адекватность, наслаждался кумом, тыкал практически все модельки что обсуждаете. Очень остался доволен некомиксом, он хотя бы не теряет нить повествования, хотя контекст - ну такое.
И хочу большего, но понимаю что 16гб Vram даже дял 22b мало.
Я не хотел покупать видеокарты, они мне были не нужны, а сейчас неиронично задумываюсь об этом. Ведь что меня может ждать на 70ке, какие просторы откроются там.

ПАМАГИТЕ, МЕНЯ ЗАТЯГИВАЕТ, Я НЕ МОГУ ВЫБРАТЬСЯ, Я ТОНУ В
Княгиня говорила без умолку. Короткая верхняя губка с усиками то и дело на мгновение слетала вниз, притрагивалась, где нужно было, к румяной нижней губке, и вновь открывалась блестевшая зубами и глазами улыбка.

Бульк, бульк, бульк.
Аноним 21/12/24 Суб 15:36:45 #484 №984840 
image
image
image
image
>>984819
>ПАМАГИТЕ
На самом деле ничего принципально нового. Более старшие модели могут "держать в памяти" больше деталей и оперировать более сложными абстракциями и системами. Если ты готов помогать модели в рп то тебе хватит и 12-32B.

За более старшие модели берутся зная что и зачем они делают.
Непосредственно в треде пока не было предоставлено ни одного сравнительного доказательства что для общения старшие модели будут принципиально лучше в ролеплэе, особенно на русском.

Они конечно будут, но стоит ли оно того.

на скрине 12B
Аноним 21/12/24 Суб 15:56:21 #485 №984868 
>>984840
Cлушай, а неплохо.
>на скрине 12B
Моделька ?
Аноним 21/12/24 Суб 16:01:02 #486 №984879 
>>984388
> 3090 годна примерно
Она годна на что угодно кроме извращений с тяжелыми ллм. Буквально билет в мир ии и нейросетей, а не обреченность небыстро катать ллм на жоре.
>>984467
> Как раз задача уровня нейронок.
С таким и древность должна справиться, а современная доложна еще и объяснить что да как, даже 7б.
> Около 16к, сообщения по разному. Пока обсуждали дизайн, были короткие, 100-200 токенов. Потом стали писать код, начали с 1.5-2к, доползли до 3к.
Значит оно вполне прилично воспринимает вот такую мешанину. Но скорее всего, если запрунить то всеравно станет лучше.
> 7б - это насрать токенами "близко к теме"
Драфтовой моделью, для кода это должно быть весьма эффективно.
Аноним 21/12/24 Суб 16:01:10 #487 №984880 
>>984819
>Ведь что меня может ждать на 70ке, какие просторы откроются там.
После 70-ки ты будешь мечтать о 123, поверь моим словам как владельца 2х3090.
Аноним 21/12/24 Суб 16:07:19 #488 №984895 
>>984669
Шизиков типа >>984674 не слушай, они в слепом тесте даже q3ks от 16бит не определят с точностью выше 50%. Если квантуется нормально то там отклонения на уровне рандома семплинга и главные отличия в маловероятных токенах просто будут срезаны отсекающими. 4 бита или ниже может действительно начаться деменция, но ~4.5+ юзабельны.
Разумеется, знать что у тебя "более точный квант" может быть приятно, но если ценой этому будет заметный дроп скорости или контекста - нахуй.
>>984880
> После 70-ки ты будешь мечтать о 123
Да не то чтобы, большие мистрали не перформят настолько круто. Разве что нельзя не отметить огромный "запас прочности" для всяких васян-тренировок, лор и прочего, его тяжело испортить и он остается хорошим и крутым.
Аноним 21/12/24 Суб 16:10:00 #489 №984903 
Стоит ли смотреть в сторону 2x4080/4090 или это гиблая затея ?
Аноним 21/12/24 Суб 16:16:29 #490 №984907 
>>984895
>Да не то чтобы, большие мистрали не перформят настолько круто.
Ну да, разница не такая сильная, как при переходе с 10 до 30 или с 30 до 70. Но она есть, и человек существо жадное, ему всегда мало.
>>984903
4080 не понятно зачем, 4090 почему бы и нет, если есть деньги. Но проще 3х3090, если чисто под нейронки, или 4090+2х3090, если иногда хочется поиграть.
Аноним 21/12/24 Суб 16:17:24 #491 №984908 
>>984195
На ванильном куме уступает тому же старому командеру, но когда начинается ёбаная дичь - эта модель вывозит хорошо. Хотя до дичи даркфореста ещё ни одна модель не доходила, там меня один раз тупо уебали вазой по голове на ровном месте и бросили труп в квартире догнивать с чувством либейшона ну и ты понял.

>>984819
>что меня может ждать на 70ке
Неиронично откатился с семидесяток до диапазона 32b. Тюнов мало, какого-то заметного улучшения по мозгам нет нихуя. Более мелкие модели чаще тюнят, больше разнообразие по стилям, по поведению, даже по мозгам.
>16гб Vram даже дял 22b мало.
Дрочил 22b на 12 гигах, лол. EXL2, немного оффлоада в рам и нормально.
Аноним 21/12/24 Суб 16:20:21 #492 №984913 
>>984908
>Дрочил 22b на 12 гигах, лол
Сосунок.
Мимо с 12 гигами и 123B.
Аноним 21/12/24 Суб 16:22:52 #493 №984916 
>>984868
https://huggingface.co/Aleteian/Avalon_2-Q8_0-GGUF
Аноним 21/12/24 Суб 16:23:28 #494 №984917 
>>984913
Ты когда ответ ждешь, успеваешь уйти и прийти с работы ?
Аноним 21/12/24 Суб 16:25:16 #495 №984920 
>>984917
Ну что преувеличивать то? Ну подумаешь, ну 0,7 токенов в секунду, ну 10 минут на ответ, но зато какой! Каждый токен как золото, любо-дорого читать.
Аноним 21/12/24 Суб 16:26:52 #496 №984923 
>>984920
Завидую твоему терпению. Я даже когда на пару слов уходит больше секунды начинаю брызгать слюной и биться в конвульсиях.
Аноним 21/12/24 Суб 16:28:09 #497 №984924 
>>984819
> Ведь что меня может ждать на 70ке, какие просторы откроются там.
Арендуй виртуалку в облаке, да позапускай там 70-123B, дабы знать, на что кровные сливать собрался. Цена вопроса - 1-2к.
Аноним 21/12/24 Суб 16:28:14 #498 №984925 
>>984907
>4080 не понятно зачем
Потому что одна есть, а делать спарку лучше всего из равнозначных видеокарт.
>3х3090
Ту-ту-ту... Это же отдельный блок пож это дело собирать. Надо хоть посмотреть что на рынке матерей нынче есть под это.
Аноним 21/12/24 Суб 16:32:15 #499 №984938 
>>984913
Ну и что ты там такого получаешь, чтобы оно стоило того? Я ещё ни одного мистраля не встречал, чтобы каждый токен не был жидкой дриснёй, которая не стоит байтов в врам, не то, чтобы ждать.
Аноним 21/12/24 Суб 16:32:23 #500 №984939 
А вообще, как же это охуенно.
Только с нейронкой я смог проиграть свой тайный сценарий с властной и могущественной яндеркой, без ОЯШа блять.
Аноним 21/12/24 Суб 16:36:37 #501 №984946 
>>984925
>а делать спарку лучше всего из равнозначных видеокарт.
Похуй вообще, если есть 4080, то любая карта от ампера и новее подойдёт.
>>984938
Трудно объяснить. Просто само отсутствие проёбов по логике радует.
Аноним 21/12/24 Суб 16:39:00 #502 №984949 
>>984939
Искусственная фантазия, клево да?
Можно моделировать любые роли/миры/ситуации. Обычные конечно точнее получаются, но и фантастика неплохо идет если не завышать ожиданий.
ПЕРЕКАТ Аноним OP 21/12/24 Суб 16:39:25 #503 №984951 
ПЕРЕКАТ

>>984950 (OP)

ПЕРЕКАТ

>>984950 (OP)
Аноним 21/12/24 Суб 16:59:45 #504 №984987 
image
>>984916
>Avalon
"Та далёкая утопия" русских рп моделек.

А это что за чересполосный франкенмерж?
Об этом тут говорили?
Аноним 21/12/24 Суб 19:34:39 #505 №985104 
>>984669
Жрать хлеб с полки или жрать корки из помойки, и стоит ли предпочитать первый второму?

Заранее спвасибо.

>>984547
Попробуй кодить кстати хотя бы на жирном командере или мистрале 123. Я после них потыкал ДипСик, он прямо дно дна. Я тыкал правда питона, не sql.

А вообще ерундой маеетесь, когда нормальные модели есть:
https://huggingface.co/schnapper79/lumikabra_behemoth_195b
comments powered by Disqus

Отзывы и предложения