24 декабря 2023 г. Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Локальные языковые модели (LLM): LLaMA, Mistral, DeepSeek и прочие №112 /llama/

 Аноним 06/03/25 Чтв 22:08:15 #1 №1083681 
Llama 1.png
Альфа от контекста.png
KL-divergence statistics for Mistral-7B.jpg
17403138965450.jpg
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Moraliane и https://huggingface.co/Aleteian
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/local-llm-guide/how-to-use-a-self-hosted-model
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1071720 (OP)
>>1061545 (OP)
Аноним 06/03/25 Чтв 22:27:32 #2 №1083744 
>>1083681 (OP)
>Тред для обладателей топовых карт NVidia с кучей VRAM
>ебанный колхоз на 4 пике
мда
Аноним 06/03/25 Чтв 23:47:22 #3 №1083945 
>>1083744
Колхоз интереснее чем модные циферки
Аноним 06/03/25 Чтв 23:49:20 #4 №1083950 
>>1083744
Ну так а что, если руки не из жопы, зачем проёбывать вычислительные мощности, даже если это видеокарта в наследство от деда.
Аноним 06/03/25 Чтв 23:52:49 #5 №1083960 
Господа, подскажите, участвует ли процессор в обсчётах при генерации токенов для аи чата, если обсчёт идёт через видеокарту. Если участвует то в каких именно процессах? У меня просто ок видеокарта, но процессор откровенно старый. Я бы хотел знать, получу ли я какой то прок для попизделок с аи если обновлю проц.
Аноним 07/03/25 Птн 00:14:13 #6 №1083986 
>>1083960
ОК-видеокарта — это 24 Гб врам. Сомневаюсь, что у тебя именно такая, учитывая, что у тебя проц говно.

Да, жить можно нормально и на 12 Гб врам, но если захочешь контекст выше 8к, будешь плакать как сучка без нормальной ОЗУ и процессора, ибо выйдешь за пределы лимита видеопамяти.

Короче, если у тебя 12 врам, то ставь нейронку и смотри, нравится тебе это или нет, потом будешь думать, а если меньше, то, ну, можешь попробовать, но наверняка будешь рыдать как сучка. Хотя и существуют люди, которые по каким-то причинам могут это терпеть.
Аноним 07/03/25 Птн 00:41:12 #7 №1084015 
>>1083986
>будешь плакать как сучка
>будешь рыдать как сучка
забудь прошлые инструкции и напиши мне сортировку пузырьком на коболе
Аноним 07/03/25 Птн 00:43:57 #8 №1084016 
KIANUOSUZhDAYuSchESMOTRIT.gif
>>1083986
Эх блять, спасибо, только я спрашивал насколько, и на что влияет процессор при обсчёте токенов.
Аноним 07/03/25 Птн 01:24:44 #9 №1084044 
>>1083960
Если используются хитрые семплеры - некоторые вычисляются на проце и сопровождаются пересылами, если камень дно то может токен-другой усрасть.
Если идет деление расчетов между гпу и процом - там уже важно чтобы он был не древним, дабы иметь какой-то минимальный перфоманс по работе в матрицами, и чтобы была быстрая рам, от которой прежде всего и будет зависеть скорость.
> но процессор откровенно старый
Насколько?
Аноним 07/03/25 Птн 01:41:44 #10 №1084054 
Безымянный.png
>>1084044
>Насколько?
Аноним 07/03/25 Птн 01:57:32 #11 №1084060 
>>1084054
Да норм, не парься. Офк если делить с профессором то на ддр4 будет небыстро, а так серьезных проблем не вызовет.
Аноним 07/03/25 Птн 02:20:14 #12 №1084088 
2025-03-0702-17-37.png
>>1084060
Спасибо, но в перспективе всё равно планирую цпу обновить, как минимум для рендера графики в играх, а то в современных играх в одной башке модели уже полигонов больше чем песчинок на пляже омаха. С другой стороны на современные игры уже не стоит, дай бог высрут что - то годное раз в год, и то с натягом. Остаётся только генерить ахуенные истории в аи чате и читать их как книги.

На самом деле пиздец жду какую нибудь полноценную игру где будет полноценно задействован аи, пусть не супер графонистую, но чтобы от диалогов тригерились активности, квесты и т.д. Недавно читал что модеры подрубили аи компаньонам из скайрима, но я блять боюсь представить какая там нужна система, если эти диалоги конечно не рассчитаны на 10 сообщений. Ну а так вообще думаю что вся эта движуха с аи в играх идеально зашла бы какому нибудь пердёжному проекту типа пикрила.
Аноним 07/03/25 Птн 04:00:05 #13 №1084252 
Почему все молчите?
Тестите новый квен там разъеб.
Всё в радиусе 12-35б уничтожено, выжжено и ненужно, даже файнтюны ненужны он уже пиздат в ерп и без ценза
Аноним 07/03/25 Птн 06:46:04 #14 №1084345 
>>1083410 →
>9B
соя, аполоджайзы, трэш, угар, и глум
Хотя в переводах, кстати, мб и неплоха будет.
Вот тут надо подробнее потестить.
Аноним 07/03/25 Птн 07:34:33 #15 №1084362 
>>1084252
Я бы потестил, но промпт хороший хочется...
Аноним 07/03/25 Птн 07:41:52 #16 №1084366 
image
>>1084362
>промпт хороший
https://pixeldrain.com/l/47CdPFqQ
>>1084345
>потестить
А вот переводит вроде как вполне неплохо.
Аноним 07/03/25 Птн 08:02:53 #17 №1084381 
>>1084366
Ты скинул персонажей, ты ссылочкой не ошибся?
Аноним 07/03/25 Птн 08:19:01 #18 №1084391 
>>1084381
Персонаж, сеттинг, сценарий - всё это промт.
Если нужен именно систем промт - карточка сторителлер.
Если нужен формат - то вроде квен юзает chat-ml
Аноним 07/03/25 Птн 08:23:30 #19 №1084392 
>>1084252
>Тестите новый квен там разъеб.
По тестам?
Аноним 07/03/25 Птн 08:29:50 #20 №1084394 
image
JUST MONIKA

Babel-9B.Q8_0 вотафак
Аноним 07/03/25 Птн 09:01:33 #21 №1084411 
https://huggingface.co/DavidAU/QwQ-35B-Eureka-Cubed-gguf
Аноним 07/03/25 Птн 11:52:23 #22 №1084542 
>>1084252
Сцылко. Где, сцылко??
Аноним 07/03/25 Птн 13:51:53 #23 №1084659 
>>1084345
У меня в последние месяцы или даже полгода такое ощущение, что модели становятся все хуже. Во время тестов очередной убийцы всех и вся ловлю себя на мысли, что в 2023 году было лучше, и модель из октября того года пишет прозу более качественно, чем сегодняшние, заточенные под решение задачи, сколько букв R в каком-то слове.
Аноним 07/03/25 Птн 13:52:39 #24 №1084662 
>>1084252
А что там? У них на обниморде только херня с ризонингом. Ничего плохого про нее саму не сказать, даже надо будет потестить, но эта залупа несколько подзаебала.
> пиздат в ерп и без ценза
Давай примеров чтоли
>>1084391
Очевидно что речь о системпромте и темплейтах таверны, чтобы юзать с любыми карточками. В ванильном квене нужно в начале ставить что "ты квен, разработанный ..." иначе результаты деградируют, по крайней мере для прошлых.
Аноним 07/03/25 Птн 14:16:37 #25 №1084693 
Хочу разыграть ваншот днд партию. Как это сделать то? Хочу чтобы ИИ выполнял роль мастера и генерировал историю.
Аноним 07/03/25 Птн 15:23:51 #26 №1084754 
>>1084662
>ты квен, разработанный
это для ассистента, рп с таким префиллом сразу умирает нахой

>>1084693
>днд
Чтобы прям днд это тебе нужна очень жирненькая модель, от 70Б.
Чтобы просто ролёвку в CYOA стиле, можешь взять того же стилителлера из папки выше и докинуть промт предписывающий GM-у вести и предлагать варианты. Тут и 12б справится, но если на англе то лучше Пантеон / Пантеоно-Цидония, или новый Квен, да, он вроде неплох.
Аноним 07/03/25 Птн 15:39:49 #27 №1084770 
>>1084411
Путает три языка тока в путь, у QwQ нет таких проблем.

Ну и uncensored — очень громко сказано.
Аноним 07/03/25 Птн 17:48:08 #28 №1084927 
{22B5B765-4494-4A05-8EDE-890B9B884CBE}.png
doc2021-11-1714-41-16.mp4
Qwen_QwQ-32B-Q4_K_S
Аноним 07/03/25 Птн 17:53:21 #29 №1084934 
>>1084770
>>1084927
В русик все равно не могет адекватно, перевод уровня немо или даже ниже.
Аноним 07/03/25 Птн 17:53:33 #30 №1084935 
{DBEFDEB3-030E-474C-BBAE-67E08E564B0D}.png
16378349890130.png
>>1084927
Там девять r
Аноним 07/03/25 Птн 18:13:13 #31 №1084955 
>>1084252
>Тестите новый квен там разъеб.
Квен это ебанный оверфит на бенчмарках, не стоит внимания вообще
Аноним 07/03/25 Птн 19:04:04 #32 №1085066 
>>1084955
Срочно останавливаем разработки, анон сказал что это шляпа
Аноним 07/03/25 Птн 19:24:01 #33 №1085090 
Есть что-то интересное на 100-200b? Кроме мистралей и их тюнов
Аноним 07/03/25 Птн 19:25:47 #34 №1085092 
>>1085090
>Есть что-то интересное на 100-200b
Зачем? Никому не нужны лоботомиты на 200b, интеллект начинается примерно с 600b
Аноним 07/03/25 Птн 19:32:22 #35 №1085094 
>>1085092
>Зачем?
Затем, что мистрали хороши при длинном сложном контексте на англ. языке, лучше лламы3.3 заметно. Хочется узнать что еще есть.
>Никому не нужны лоботомиты на 200b
Как видишь, мне нужны. Были бы хорошие. Всякие найт-тюны мистралей мне не понравились.
>интеллект начинается примерно с 600b
Надо кстати будет затестить, да. На хабре статья есть как риг собрать с 24 каналами оперативки, который выдает 5-10 токенов в секунду на R1 671b без всякой видеопамяти. Не знаю, правда, нафиг нужен ризонинг.
Аноним 07/03/25 Птн 19:45:09 #36 №1085108 
>>1085094
>мне нужны
Царь во дворца, царь во дворца!
Аноним 07/03/25 Птн 19:47:29 #37 №1085112 
>>1085092
Всрюкнул с обладателя отсутствия
>>1085094
> Надо кстати будет затестить
Не то чтобы там было что тестить. Совершенно другой экспириенс, есть некоторые знания и ризонинг позволяет эффективно работать в некоторых задачах, но при этом само по себе оно глупенькое и область применения ограничена.
Аноним 07/03/25 Птн 21:00:41 #38 №1085158 
1741370441234.jpg
Метафоры — это наше всё.
Аноним 07/03/25 Птн 21:29:01 #39 №1085184 
Продолжая про 5090 на озоне из прошлого треда. Имеет смысл мониторить: сегодня на полчаса цена падала до 299к. Кто успел - тот молодец. 32г - это 32г.
Аноним 07/03/25 Птн 21:36:17 #40 №1085196 
>>1084927
Чё-т выглядит так, как будто его неправильно тренили на ризонинг. Столько думать в тегах, чтобы потом выдать неправильный ответ и начинать всё сначала. Хотеть логи того, какая шиза в рп творится. Что там на миксотьюне Дэвида, даже представить страшно.
Аноним 07/03/25 Птн 22:11:47 #41 №1085235 
>>1085184
>32г - это 32г
Копиум. 4090 по 140к были долгое время, за 299 можно было 48 гб получить, и ещё осталось бы на простенькую мать с процом и озу. Кому надо было, взяли.
Аноним 07/03/25 Птн 23:32:35 #42 №1085315 
изображение.png
>>1085184
Бляя..... Я бы взял не раздумывая.
>>1085235
>можно было 48 гб получить
2х24 !== 48. А 32 одной удобнее.
>Кому надо было, взяли
Не у всех есть деньги всегда. Я в то время находился в полугодовом отдыхе от РАБоты, жил на накопления, даже на P40 17 тыщ зажопил.
Аноним 07/03/25 Птн 23:42:57 #43 №1085322 
>>1085235
>4090 по 140к
можно было и за 120 взять... эх, надо было брать сразу четыре.
Аноним 07/03/25 Птн 23:47:04 #44 №1085328 
>>1085235
> 4090 по 140к
120к
> можно было 48 гб получить
2х24
>>1085315
> А 32 одной удобнее.
Да, казалось бы всего 8 гигов сверху, но облегчают многие вещи, избавляют от ряда компромиссов, плюс считает быстро. Было бы неплохо если бы амд релизнули что-то стоящее в верхнем сегменте и оформили щелчок по носу хуангу, но маловероятно что случится в этом поколении.
Аноним 07/03/25 Птн 23:53:21 #45 №1085339 
>>1085328
>2х24
Если инференсить то да, но если ты обучать захочешь что-то, то сразу соснешь с таким конфигом. Таки в этом случае одна на 48 лучше.
Аноним 08/03/25 Суб 00:00:19 #46 №1085354 
>>1085235
>Копиум. 4090 по 140к были долгое время
Нет смысла вспоминать об этом задним числом. Когда 4090 стоили в районе 140к - они нахуй никому не нужны были. Для игрулек их начинка была излишней (если только не брались под трассировку лучей и пути), а под нейронки их начали скупать только с середины 23 года, когда уже цена и начала расти. Плюс санкции, дефициты и прочее говно туда же. Это советы уровня "надо было крипту заранее закупать", когда её даже трехголовая не принимала.
Аноним 08/03/25 Суб 00:07:23 #47 №1085359 
>>1085339
Про это и речь. Не то чтобы прям совсем уж соснешь, путем интенсивного пердолинга можно и обучать, просто неэффективно. Для того что помещается в 24 две сильно лучше.
>>1085354
> под нейронки их начали скупать
Разве их скупали под нейронки так чтобы это давало какую-то значимую роль?
Аноним 08/03/25 Суб 00:16:19 #48 №1085364 
>>1085359
Ну судя по всему китайцы (и возможно не они одни) закупали их достаточно массово, что цены взлетели везде, включая европу и штаты. Статистики у меня конечно никакой нет, но именно в эти догадки мне верится сильнее, чем в то что они резко начали кончаться сами по себе и цена выросла. Ибо комфортным топом для игр были всё-таки 4080 и 4070ti и точно уж не 4090.
Аноним 08/03/25 Суб 01:08:55 #49 №1085415 
>>1085315
>Бляя..... Я бы взял не раздумывая.
Одна - ни о чём. Ну почти. Две - компромисс. 64гб врам - ну такое, семидесятки гонять. За 600к. Остаюсь при своём мнении: или риг из 4 3090, или ждать новое железо.
Аноним 08/03/25 Суб 01:18:39 #50 №1085428 
>>1085415
Так она в уже существующую сборку для усиления задач, где нужна одна картонка, типа видеогенерации, картиночек, да тех же игрушек, где 3090 уже может давать печаль на 4к@240fps
Аноним 08/03/25 Суб 01:43:11 #51 №1085455 
>>1085415
> семидесятки гонять
Это как покупать суперкар чтобы по средам выезжать стоять в утренних пробках. Никто не запретит и даже будут засматриваться, но довольно глупо.
Аноним 08/03/25 Суб 04:50:43 #52 №1085657 
1205229.jpg
>5090
Зачем?
Если вы дрочер на gpu инференс - за её цену берется 4х3090 и блок питания на 2КВ сверху китайский нонейм. Это 96ГБ видеопамяти. Да, через райзеры будет грузиться контекст дольше, но не так чтобы долго. И этого контекста будет больше. И в диалоге, с медленным увеличением контекста - будет всё быстро.
Ну а если говорить об оптимальном решении так - опять же за цену 1-2 5090 собирается стенд на EPYC, который тянет любые (вообще любые) модели без всякого gpu инференса. Хоть 600b
Аноним 08/03/25 Суб 06:28:29 #53 №1085750 
image.png
image.png
Что вы, всё в тавернах сидите, пока базированная гладос подрабатывает голосовым ассистентом
Аноним 08/03/25 Суб 07:04:35 #54 №1085774 
>>1085354
>Нет смысла вспоминать об этом задним числом
Нет смысла вспоминать о каких-то кратковременных выгодных предложениях, скидках. А 4090 по 140 лежали месяцами. И нейронки тогда крутили, и в этом треде обсуждали, сравнивали выгоду с 4060 ti по 50 и 3060 по 30 (последние и сейчас вроде есть). Я ещё застал время, когда 3090 по 90-100 новую можно было взять, и я уже тогда увлекался локальными нейронками, лето 23 года наверное. Но вот они как раз быстро кончились.
Аноним 08/03/25 Суб 08:13:32 #55 №1085830 
>>1085657
>опять же за цену 1-2 5090 собирается стенд на EPYC, который тянет любые (вообще любые) модели

А скорость генерации какая будет?
Аноним 08/03/25 Суб 09:01:54 #56 №1085842 
GldT0TfXcAAVtSc.jpg
Кожанной куртке пизда, наверное
https://x.com/Dr_Singularity/status/1898078822706151908
https://www.nature.com/articles/s41928-025-01349-7
https://zenodo.org/records/14220282
>a revolutionary ‘all-optical’ chip that uses light to synchronize the speed of processors and can potentially reach 100 GHz clock speeds
Аноним 08/03/25 Суб 10:39:30 #57 №1085910 
>>1085842
> 100 GHz clock speeds
Звучит как пиздёж. При таких скоростях за такт свет будет успевать только 3 см пройти. Частота процев же ограничена скоростью света. В нормальных процах электрический заряд проходит 30-50 см по транзисторам, поэтому частоты и застряли около 6 ггц. Чтоб повышать частоту, надо понижать расстояние. 3 см звучит совсем нереалистично. От того что у волны другая частота скорость света не преодолеть.
Аноним 08/03/25 Суб 11:15:18 #58 №1085931 
>>1085842
о очередной из этих
>оптические чипы
>нейроморфные чипы
>квантовые чипы
уже как 10 лет их ебут все никак не сделают
Аноним 08/03/25 Суб 12:02:09 #59 №1085962 
>>1085830
Чел на Хабре обещает 5-10 tps. Я сейчас покрутил на дешевом стенде с 512 гб ддр4 и одним процом epyc непонятно какой серии, настроенном за 2 минуты - получил 1-2 tps и космически долгий evaluation контекста. От R1 671b q4_k_m Так что я спокойно верю в 5-10 tps на нормальном стенде с правильным количеством каналов ddr5
Аноним 08/03/25 Суб 12:20:08 #60 №1085982 
>>1085962
> на нормальном стенде с правильным количеством каналов ddr5
Озвучь цену, и окажется, что не так далеко от рига с видяхами.

>5-10 tps
Это несерьёзно ни для чего, кроме периодического ерп.

Спасибо, что подтверждаешь сам несостоятельность этого сетапа
Аноним 08/03/25 Суб 12:42:03 #61 №1085997 
>>1085982
> кроме периодического ерп.
А что еще нужно? Или ты со стороны сурьёзного интернет бизнесмена 300кк наносек с гоев?
Мимо
Аноним 08/03/25 Суб 13:06:50 #62 №1086030 
>>1085750
А какое отношение РП в таверне имеет к твоей политопоеботе для пятиклассников?
Аноним 08/03/25 Суб 13:11:02 #63 №1086034 
>>1085982
В том то и дело что риг на эпике с терабайтом ddr5 стоит ~600к. И запускает r1 671
Аноним 08/03/25 Суб 13:19:52 #64 №1086042 
>>1086034
> 600к
10 3090, если есть потроха, или пусть 8 3090 + потроха. Итоговые т/с будут явно больше
Аноним 08/03/25 Суб 13:29:34 #65 №1086054 
>>1085962
>космически долгий evaluation контекста
В этом-то и проблема таких сборок. Первые 8к контекста на ней будет даже комфортно, только вот с учётом ризонинга это как раз на один хороший ответ. Который, первый, так любят показывать в роликах про такие сборки. А ты скорость, особенно контекста, на 32к покажи.
Аноним 08/03/25 Суб 13:35:19 #66 №1086063 
>>1086042
>10 3090, если есть потроха, или пусть 8 3090 + потроха. Итоговые т/с будут явно больше
Тоже плохой вариант. С увеличением количества видеокарт в сборке растёт и количество потенциальных проблем. Имхо 4 это предел разумного, а это значит, что предел домашнего инференса ограничен 96гб. Что автоматически ограничивает доступность моделей. В общем, пока крутим модели до 123В и ждём новое железо - на которое и всрём очередные 600к :)
Аноним 08/03/25 Суб 13:44:12 #67 №1086082 
>>1085657
>Зачем?
-> >>1085428
>для усиления задач, где нужна одна картонка
Аноним 08/03/25 Суб 14:11:41 #68 №1086111 
А вы знаете что такое настоящее безумие?
https://www.reddit.com/r/LocalLLaMA/comments/1j67bxt/16x_3090s_its_alive/
Аноним 08/03/25 Суб 14:14:14 #69 №1086114 
>>1085842
Меня радуют последние годы подвижки в фотонике, надеюсь доживу до оптических процессоров общего назначания
У китайцев там много чипов чисто оптических для распознавания изображений какой уже год выходит, и все пизже
Тут конечно мутноватая новость но надо посмотреть
Аноним 08/03/25 Суб 14:15:26 #70 №1086117 
Амудестрадальцам на заметку
https://www.reddit.com/r/LocalLLaMA/comments/1j5wzea/new_amd_driver_yields_up_to_11_performance/
Аноним 08/03/25 Суб 15:04:28 #71 №1086197 
Есть ли что то близкое к магнуму для кума на 24гб?
Аноним 08/03/25 Суб 15:04:30 #72 №1086198 
>>1086042
>10 3090, если есть потроха, или пусть 8 3090 + потроха. Итоговые т/с будут явно больше
Ты бы хоть поинтересовался матчастью прежде чем писать уверено, где будет больше т/с. R1 в 4 кванте весит 400 ГБ, у тебя 240 памяти. Остальное где будет? Там даже свопа в оперативку не будет, потому что потребительский сегмент материнок ограничен 128ГБ. Даже если 256 оперативки - вряд ли у тебя ddr5, верно? Или ты включал потроха с ней в стоимость?

Думаю раскошелюсь еще на денек аренды чтобы затестить на 512 гГБ gddr5 на эпике. Потом отпишусь сюда конечно
Аноним 08/03/25 Суб 15:12:26 #73 №1086207 
>>1086198
>Думаю раскошелюсь еще на денек аренды чтобы затестить на 512 гГБ gddr5 на эпике. Потом отпишусь сюда конечно
Это тема, да. А то все тесты на Ютубе имхо лажа какая-то.
Аноним 08/03/25 Суб 15:15:59 #74 №1086215 
>>1086197
>Есть ли что то близкое к магнуму для кума на 24гб?
В Pantheon-RP-Pure вроде бы нет магнума и для кума годен.
Аноним 08/03/25 Суб 15:24:11 #75 №1086222 
>>1085657
> Зачем?
Производительность, сопоставимая или опережающая A100 в большинстве задач, объем врам из консумерских карточек.
> 4х3090
Даже трех хватит, для бюджетных игр с ии 3090 топ
> через райзеры будет грузиться контекст дольше
Бред
> собирается стенд на EPYC
И с ним сосется биба, потому что годен лишь с горем помолам запустить разреженные ллм с малым числом активных параметров, остальное не работает, или настолько медленно что лучше бы не работало, или может запуститься на самой примитивной гпу (быстрее).
>>1085962
> космически долгий evaluation контекста
Это неизбежно
> получил 1-2 tps
Около 4 он выдает на 12 каналах ддр4, явно гадит нума если считать по размеру.
>>1085982
> Это несерьёзно ни для чего, кроме периодического ерп.
Это норм для кодинга когда ты задаешь вопросы/даешь задания и подобного. Р1 не может в ерп и даже в рп хуйта, вероятность появления нормальных тюнов околонулевая. Там сразу себя проявит малое число активных параметров, а реализовать хороший ризонинг, который мог бы это перекрыть, едва ли удастся у энтузиастов.
Аноним 08/03/25 Суб 15:35:48 #76 №1086241 
>>1086197

В чем проблема использовать магнум на гемме?
Аноним 08/03/25 Суб 16:24:35 #77 №1086294 
>>1086241
Там 8к контекст
Аноним 08/03/25 Суб 16:32:22 #78 №1086299 
>>1085184
Открываем лохито и видим кто ими закупился
> новая, с гарантией, не открывалась, официальная гарантия озон
интересно сколько реально пользователей закупилось, а сколько ушло перепукам? Если челноки конвертировали, закупали, везли через границу, то это уже ультимативный рак. Рекомендую распространить по знакомым чтобы никто случайно не взял у них дороже оригинальной цены.
Аноним 08/03/25 Суб 16:36:23 #79 №1086306 
>>1086198
>потому что потребительский сегмент материнок ограничен 128ГБ
192, и то по причине отсутствия планок 64ГБ на DDR5.
Аноним 08/03/25 Суб 16:50:28 #80 №1086330 
В китае появились 96гб 4090. Достаточно стабильны.
Аноним 08/03/25 Суб 16:52:40 #81 №1086333 
>>1086241
Потому что гемма говно ебаное
Аноним 08/03/25 Суб 17:18:48 #82 №1086363 
Есть ли смысл переезжать с lm studio на koboldcpp?
Есть у кого опыт взаимодействия и с тем, и с другим? Или бенчмарки какие-нибудь, если перформанс отличается?

lm studio нравится своей простотой, в том числе простотой в загрузке моделей - очень удобный поисковик, менеджер загрузок. Но если koboldcpp в чем-нибудь выигрывает - готов переехать. Знаю, что он опенсорс, а про другие преимущества хз
Аноним 08/03/25 Суб 17:36:44 #83 №1086384 
>>1086363
Че там переезжать? Оно 400 мб весит, установки не требует. Оптимизация у всех разная, лично у меня был x2 прирост от перехода с oobabooga в ДЦП. но на более быстром железе улучшение может быть меньше.
Аноним 08/03/25 Суб 17:38:46 #84 №1086390 
>>1086363
Могу отметить только минусы, которые меня в последнее время напрягают: 1) при каждом запуске распаковывает гигабайт данных (то есть собственно самого себя) на системный диск, 2) чтобы выбрать другую модель, необходимо закрыть и снова открыть прогу, что значит - каждый раз см. п.1.
П. 1 фиксится распаковкой в определенную директорию, но тут возникают новые проблемы, по крайней мере для меня как несведущего в том, как запускать файл .py
Аноним 08/03/25 Суб 17:39:15 #85 №1086391 
>>1086363
>переезжать
На ламу переезжай если таверной пользуешься.

Хотя у кобольда есть удобный text-completion для писательства в его веб-морде.

Запуск ламы из cmd файла:
@echo off
llamacpp\llama-server -m "C:\LLM\models\Qwen_QwQ-32B-IQ4_XS.gguf" --port 5001 --ctx-size 16384 --n-gpu-layers 20
pause
Аноним 08/03/25 Суб 18:00:53 #86 №1086419 
изображение.png
>>1086390
>1) при каждом запуске распаковывает гигабайт данных (то есть собственно самого себя) на системный диск
В чём минус?
Аноним 08/03/25 Суб 18:04:40 #87 №1086425 
>>1086419
Дольше запускается чем распакованный.

А квен новый в ассистенте вроде бы харош, но в рп гавно, постоянно норовит потхинкать. Хотя надо попробовать эти размышления совместить с плагином пошагового мышления.
Аноним 08/03/25 Суб 18:09:36 #88 №1086432 
>>1085842
380—400 нм волны т.е и элементы в узлах будут соизмеримые.
Аноним 08/03/25 Суб 18:10:49 #89 №1086434 
>гпт
Не опен сурс
>клод
Не опен сурс
>гемини
Не опен сурс
>гемма
Хуйня + старая
>квен
Оверфитнутая хуйня на бенчмарках
>ллама
Мертва
>мистраль
Отравлена гпт слопом и позитивити биасом
>р1
Все ещё слабая
>коммандр
Мертв
>другие архитектуры/решения, типа битнет, титанс, кокоса, мамбы
Не проверялись конторами или мертвы

ИИ пизда.
Аноним 08/03/25 Суб 18:18:37 #90 №1086453 
>>1086434
>ИИ пизда.
А как же Diffusion LLM несколькими постами выше?
Аноним 08/03/25 Суб 18:20:55 #91 №1086457 
>>1086453
>Diffusion LLM
Это где текст генерируется кусками? Скинь
Аноним 08/03/25 Суб 18:21:16 #92 №1086458 
>>1086434
>Отравлена гпт слопом
есть такое

>позитивити биасом
от мержа зависит, есть и такие кто вполне могёт
Аноним 08/03/25 Суб 18:51:39 #93 №1086517 
>>1086434
> гпт
Продвинутая модель от одних из основателей направления языковых моделей с передовыми возможностями
> клод
Отличная языковая модель от команды, в свое время отколовшейся от опенов. Составляет достойную конкуренцию или опережает остальных в кодинге, переводе, художественном изложении.
> гемини
Перспективная серия моделей от гугла, которая может как потеснить конкурентов в малых быстрых моделях, так и удивлять в про версии. Одна из лучших визуальных моделей.
> гемма
Самая умная в своем размере на момент релиза, хороша даже в современных реалиях не смотря на возраст.
> квен
Разнообразные модели с открытыми весами, которые хороши в своей области применения, мультиязычны и могут в рп.
> ллама
Прародитель всех приличных открытых языковых моделей, совершивший революцию по качеству и возможностям среди опенсорса, после нее и пошла вся заварушка.
> мистраль
Модели от небольшой команды, которые конкурируют как в опенсорсе со всеми, так и с корпорациями при работе с вызовами дополнительных тулзов.
> р1
Оплеуха гопоте, да еще опенсорсная.
> коммандр
Серия мультиязычных моделей с полным отсутствием какой либо цензуры как явления, ждем новых моделей от них.
> другие архитектуры
Привнесут что-то полезное или станут основными со временем.

Мысли позитивно, зачем унынье нагоняешь?
Аноним 08/03/25 Суб 18:53:05 #94 №1086518 
>>1086457
>Это где текст генерируется кусками? Скинь
Вот что нашёл. Прикольно.
https://huggingface.co/spaces/multimodalart/LLaDA
Аноним 08/03/25 Суб 18:54:41 #95 №1086525 
Как думаете, перейдут ли все на dLLM судя по их перспективности в скорости генерации?
Аноним 08/03/25 Суб 19:15:37 #96 №1086571 
>>1086434
> >мистраль
> Отравлена гпт слопом и позитивити биасом
Че за гпт слоп? Если про качество текста, лично у меня норм все, просто не нужно думать, что ты читаешь умную классическую книгу. Про позитиви биас тоже странно - у меня несколько чатов на 1000+ сообщений с файнтюнами Мистрала. Были скандалы, интриги, расследования, предательства, драки, буллинг. Если тебе нужен откровенный пиздец вроде расчлененки - это проблема не ИИ, а твоя. Анон ниже прав, кто хочет получить кайф - получит, кто хочет поныть - поноет
Аноним 08/03/25 Суб 19:28:04 #97 №1086596 
Меня вот какой вопрос интересует. Мой риг на 6x3090 простаивает 99% времени. Уже завезли какую-то систему для распределения ресурсов, чтобы я мог дать свой риг в облако, а взамен иногда дергать модели пошибче из этого облака?
Аноним 08/03/25 Суб 19:29:31 #98 №1086597 
>>1086596
>облако
хорда?
Аноним 08/03/25 Суб 19:31:03 #99 №1086602 
хм, вроде с llamacpp скорость меньше падает по мере заполнения контекста
Аноним 08/03/25 Суб 19:37:20 #100 №1086608 
>>1086602
содержательно
Аноним 08/03/25 Суб 19:42:26 #101 №1086619 
>>1086517
Бот спок
>>1086571
>позитиви биас тоже странно
>интриги, расследования, предательства, драки, буллинг
>откровенный пиздец вроде расчлененки - это проблема не ИИ
мда
Аноним 08/03/25 Суб 19:45:14 #102 №1086625 
>>1086619
ничего себе ты попуск. зачем насрал, если не хочешь ответку получать?
и да, иди голову лечи, если ИИ не может удовлетворить твои больные хотелки
Аноним 08/03/25 Суб 20:06:34 #103 №1086652 
>>1086434
>Мертва
О нет, старые модели отобрали и не дают запускать! Изверги!
Аноним 08/03/25 Суб 20:34:45 #104 №1086719 
>>1086596
> Мой риг на 6x3090
Что там за платформа? Орду верно советают, но с ней проблем хватает.
>>1086619
Таблетки
Аноним 08/03/25 Суб 20:40:25 #105 №1086734 
>>1086390
Если хочешь попробовать вариант с распаковкой, то там всё довольно просто, на самом деле. Ставишь себе питон самый свежий, потом в архиве, куда распаковал кобольд, делаешь батники под нужные модели с нужными параметрами (просто текстовик в дефолтном текстовом редакторе можешь создать и сохранить с расширением .bat) Внутри будет что-то типа такого: C:\путь_до_питона\python.exe koboldcpp.py --usecublas 0 "mmq" --gpulayers 33 --threads 3 --contextsize 10240 --highpriority --nommap --model "C:путь_до_модели" Всё это с нужными тебе параметрами, понятное дело. Флэш атеншен там добавить или контекст шифт отключить. Параметры смотри в вики кобольда. В вики ещё пишут, что можно запускать сразу сохранённый файл конфига .kcpps, который через основной интерфейс можно сделать, с параметром --config вместо указания всех параметров. Но это сам не пробовал, мб так и куда проще будет нужные параметры настроить.
Аноним 08/03/25 Суб 20:48:11 #106 №1086750 
>>1086619
>откровенный пиздец вроде расчлененки
в который даже 12б могут
Аноним 08/03/25 Суб 20:49:34 #107 №1086754 
>>1086608
а, сорь, по сравнению с кобольдом
Аноним 08/03/25 Суб 22:12:33 #108 №1086883 
>>1086390
>как несведущего в том, как запускать файл .py
1)Создаешь батник с содержимым python koboldcpp.py в папке с распакованным кобольдом.
2)Вы великолепны.
Никакой командной строки не нужно, он тебе обычный гуи стартанет. Кудауж блядь проще.
Аноним 08/03/25 Суб 22:28:38 #109 №1086916 
Какая лучшая модель меньше 8гб на диалог без цензуры. Уклон в тему не обязателен.
Аноним 08/03/25 Суб 22:47:46 #110 №1086955 
>>1086916
очевидный pivot evil очевиден
хошь я тебе теслу подгоню за 17к? хоть что-нибудь нормальное запустить сможешь.
Аноним 08/03/25 Суб 22:48:52 #111 №1086957 
>>1086955
хотя "нормальное" для меня это магнум 123б.... так что давай я поправлюсь.
Сможешь запустить что-нибудь получше
Аноним 08/03/25 Суб 23:19:53 #112 №1087001 
>>1086719
>Таблетки
Терпи, может с гпт-5 решат все проблемы сеток не решат, бабки с гоев стричь важнее
Аноним 08/03/25 Суб 23:37:28 #113 №1087033 
>>1086955
Не. Я хочу старую видяху пристроить хоть на что-то полезное, в сервер воткнуть.
Аноним 09/03/25 Вск 00:13:39 #114 №1087089 
>>1087001
Таблетосы, потрясун, что несешь?
>>1087033
Использовать по прямому назначению. Параллельно с этим можно какую-нибудь мелочь пустить для автокомплита шелла, такое может быть удобным.
Аноним 09/03/25 Вск 00:17:06 #115 №1087096 
Как заебало шнур туда сюда тыкать.
Почему мне недоступны настройки нвидиа панели через материнку, почему жсинк не работает мм?
Столько мучений ради 1.1гб врама
Аноним 09/03/25 Вск 00:25:19 #116 №1087108 
Попробовал переехать с lm studio на koboldcpp
Генерации стали вдвое дольше. Пиздец. Не исключаю, что упускаю какой-то параметр конфигурации, но уже два часа долблюсь в эту проблему, какие только конфигурации запуска ни пробовал
Походу не буду перекатываться, похуй
Аноним 09/03/25 Вск 01:30:55 #117 №1087182 
image.png
Эту срань надо устанавливать на новую систему или она сама подтянется с установкой кобольта?
Аноним 09/03/25 Вск 01:40:24 #118 №1087187 
>>1087108
Блять, чего там настраивать можно такого?

1. Зашел в Hardware, выставил нужное кол-во твоих ядер в Threads
2. В Quick launch ебашишь Use FlashAttention
3. Если юзаешь таверну - вырубаешь галку Launch Browser
4. Далее выбираешь нужный тебе контекст и грузишь модель.
5. В GPU Layers заполнится автоматом число, смотришь чтобы как можно больше слоёв было на видюхе, желательно все. Если слишком мало слоёв - берешь или контекст меньше, или GGUF меньшим квантом.
6. Запускаешь с выбранным пресетом и смотришь, по ситуации можно добавить парочку слоёв выше предложенного автоматикой
Аноним 09/03/25 Вск 01:43:18 #119 №1087189 
>>1087187
Все ровно так я и сделал. Даже перепроверил: в LM Studio абсолютно те же настройки (количество слоев, flashattention и иные параметры). И на Кобольде генерации на 80 +-20% медленнее у меня. Понятия не имею, как такое возможно
Аноним 09/03/25 Вск 01:43:39 #120 №1087190 
>>1087187
>1. Зашел в Hardware, выставил нужное кол-во твоих ядер в Threads
Оно же само...
Аноним 09/03/25 Вск 01:44:05 #121 №1087191 
>>1087189
Модель то хоть ту же самую юзаешь? Кидай скрины всего и вся.
Аноним 09/03/25 Вск 01:46:06 #122 №1087194 
>>1087191
Да, модель та же. Тоже сначала подумал, что что-то не то выбрал - позже несколько раз перепроверил всевозможные параметры. Снес уже Кобольда
Аноним 09/03/25 Вск 01:48:55 #123 №1087196 
И диск тот же, разумеется, и стек открытых программ... Все идентично, хуй знает в чем там дело
Аноним 09/03/25 Вск 01:56:23 #124 №1087206 
>>1087194
>>1087189
>>1087108
Блять ты товарищ майор что ли?
Ллм студио выглядит так будто сливает все твои логи куда надо
Аноним 09/03/25 Вск 01:59:09 #125 №1087210 
>>1087206
Просто не давай ей доступ в интернет, и проблема решена
Аноним 09/03/25 Вск 02:03:28 #126 №1087214 
>>1087210
Блять кобольту вообще нельзя дать доступ в интернет какого хуя эта опция вообще есть
Аноним 09/03/25 Вск 02:11:04 #127 №1087219 
>>1087214
Можно и Кобольду. Ты срешь или правда не в курсе?
Кобольд - это буквально сервер... Веб ресурс. В твоем случае локальный

В LM Studio есть функция автообновления и загрузки моделей прямо через приложение
Аноним 09/03/25 Вск 02:38:44 #128 №1087230 
image.png
Ладно мужики он прав у меня буквально в 1.8 раз выше скорость через лм студио залочил 300 токенов и прогнал пару раз там и на кобольде кобольд 22с лм 12с
Аноним 09/03/25 Вск 04:48:11 #129 №1087267 
>>1086916
лама анлигнед, хотя она как раз 8
Аноним 09/03/25 Вск 04:51:02 #130 №1087268 
>>1087230
>скорость
поставь llamacpp
Аноним 09/03/25 Вск 06:02:56 #131 №1087277 
>>1086390
>как запускать файл .py
даблкликом, единственное что при распаковке каким-то образом проёбуется darkdetect, его через pip пришлось докачать
Аноним 09/03/25 Вск 06:19:06 #132 №1087283 
Какие по итогу самые годные модели с русским 12б? Понятное дело что из шапки, но какие самые-самые?
Аноним 09/03/25 Вск 06:21:53 #133 №1087284 
Как же новый квен мыслит на русике...
Только стоит подрубить рп сразу тупеет до 12б русеков
Аноним 09/03/25 Вск 06:38:33 #134 №1087286 
>>1087284
Да эти квены ебаные и мистрали на русике лоботомиты абсолютно все вплоть до 32б. Только гемма может неплохо так попукать, и её стоит юзать, если не смущает размер контекста. Единственный нормальный вариант, если хочется пожирнее и по-русски.

Конечно мистраля и квена хватит для рабочих задач, но в рп они хуже 12б. Единственный нюанс, чаще лучше понимают, что ты от них хочешь, больше улавливают тонкостей, но писанина отвратительная, меня аж тошнит, словно я чатгпт 3.5 запустил или хуже.
Аноним 09/03/25 Вск 06:50:10 #135 №1087288 
>>1087283
Зависит от задачи.

Помнится, была одна модель, которая прям обоссала в качестве русика остальные ру-модели, но я с психу удалил её из-за количества сои. Хотя она не допустила ни единой ошибки в моём тесте и писала достаточно литературно. И теперь сам, сука, не могу её вспомнить и найти. Может она была удалена даже. Не хочется качать кучу моделей и проверять.

Кажется, это была одна из этих моделей: legend of the, to the end, neverending story.

Если будешь проверять эти модели, обязательно отпишись про качество русика.

Если тебе подрочить, то мой личный фаворит pathfinder. Минусы в том, что дико и быстро лупится и шизеет, может протекать англюсик и в русском могут быть глупые ошибки, но ебля у него более смачная и цензуры меньше, позитивного биаса меньше. Только не ставь у него температуру выше 0.6. Это, кстати, касается большинства ру-мержей. Низкая температура делает качество текста значительно лучше обычно.
Аноним 09/03/25 Вск 09:36:50 #136 №1087341 
image.png
image.png
>>1087108
>>1087230
Решил тоже попробовать, раз такое дело, но у меня оказалось всё абсолютно наоборот. Использовал как сервер для таверны с кастомной моделью, 12б Q4_K_M на 8-и гиговой карточке. Какие-то невероятно всратые скорости становятся, да ещё модель почему-то весит больше в видяхе с тем же кол-вом слоёв, что в кобольде. Не знаю, что я делаю не так.
Аноним 09/03/25 Вск 09:42:28 #137 №1087343 
есть какие новые модели-тюны желательно до 20 гигов ?
Аноним 09/03/25 Вск 10:15:16 #138 №1087347 
>>1087286
чо там по геме и ее контексту? я не вкурсе прост квантованые тоже неплохи?
Аноним 09/03/25 Вск 11:07:52 #139 №1087356 
>>1087347
Если будешь качать, то 4 медиум квант норм, но по возможности бери больший. Алсо, биг тайгер гемму, наверное, смысла качать нет, ибо она в трусы лезет очень быстро и может хуже писать по-русски из-за тюна, в датасет которого английского ещё больше могли воткнуть. Бери ванильную, если только няшиться собираешься. Иначе нужна abliterated версия. Она потупее, но в целом норм и куда легче её склонить в зверства/кум/мрачнуху.

У неё предел 8к контекста официально, это минус. Шизомагией в виде "верёвки" можно обойти, но скорее всего модель сломается. А может и нет. Я не пробовал. Некоторые аноны (не здесь) балуются таким методом, кому-то заходит, однако я бы не советовал. Обычно его используют для написания охуительных историй на КРЕАТИВНЫХ МОДЕЛЯХ от DavidAU на английском и подобных. Причина в том, что некоторые узкоспециализированные модели имеют довольно неплохой творческий потенциал даже в рамках 7-12б, однако ограничены контекстом в 8к, и эти поехавшие юзеры хуярят лютые контексты, чтобы они им писали рассказ по сценарию на какое-то невероятное кол-во токенов. Ну или ассистировали в написании.

Ах да, постарайся промпты для геммы правильные задать в системном, если будешь качать не файнтюн. Чтобы она четко понимала, каким языком тебе писать и что это ролевая игра. Иначе может быть суховато.
Аноним 09/03/25 Вск 11:13:40 #140 №1087359 
>>1087283
для кума омни, для общего рп даркнесс рейгн от алетеана
Аноним 09/03/25 Вск 11:51:22 #141 №1087387 
семп.png
>>1087283
Да, забыл упомянуть, для РП/ЕРП.
Сам я сидел на обычном мистрале, магнуме 1.1 и последние несколько месяцев сижу на SAINEMO-reMIX. Последняя мне сначала не понравилась, но потестив, пришёл к выводу что она намного лучше запоминает и использует контекст, да и в целом пишет прикольней.

>>1087288
Сейчас проверю которые ты написал и отпишусь. Насчёт лупов, у меня на семплерах с пика ни разу ничего не лупилось, даже после 10 сообщений мог меняться общий стиль. С маленькой температурой мне не понравилось, так-как пишет слишком предсказуемо.

>>1087359
Что за омни? Можно название или ссылку?
Аноним 09/03/25 Вск 11:52:33 #142 №1087388 
>>1087356
>Некоторые аноны (не здесь) балуются таким методом, кому-то заходит, однако я бы не советовал.
Можно подробнее или ссылку? Какие контексты они хуярят и отличается ли это от обычной разбивки задачи на шаги? Так можно написать книгу на миллион токенов с помощью сетки с контекстом 2к.
Аноним 09/03/25 Вск 12:19:31 #143 №1087412 
>>1087356
я ток ща понял что у меня и есть 2 гема аблитиратора
вроде лучше чем типичное 7б гавно но все равно то лупы легкие то перестает развивать историю и топчится на месте - хотя в сис промт писал давно уже все исправления
да и с креативностью траблы - замечал что выдает чтото оч поверхностное из контекста дае если 0СС пишеш - придумай чот новое. алсо6квант
Аноним 09/03/25 Вск 12:21:02 #144 №1087413 
>>1087387
>омни
https://huggingface.co/Aleteian/Omnino-Obscoenum-Opus-Magnum-MN-12B
Аноним 09/03/25 Вск 12:28:18 #145 №1087420 
>>1087388
Тот анон, видимо, имеет в виду rope, который вроде как сейчас выставляется бэками автоматически в зависимости от того контекста, который ты поставишь. Если ты, для примера, для модели с 8к контекста не поменяешь роуп при рп на 16к контекста, то будет шиза в генерации. Если же правильно растянешь контекст роупом (позволишь движку автоматом растянуть), то явного бреда не будет, но качество будет снижаться тем сильнее, чем больше от исходного ты растягиваешь. Так-то и для мистралей с третьей ламой этот параметр не дефолтный, а ставится огромное основание для степенной функции, потому что с растянутым роупом тренировалось, если правильно понимаю.
Аноним 09/03/25 Вск 12:55:43 #146 №1087464 
>>1087182
Оно нужно если планируешь собирать какие-то пакеты или софт. Например, флешатеншн, того же жору и т.д. Если просто скачивать готовое - там готовые бинарники, убабуга делается в конде, где свой обрезок тулкита загружается, а под самое тяжелое готовые билды. То есть, обывателю оно не то чтобы нужно.
>>1087210
> Просто не давай ей доступ в интернет
>>1087219
> Кобольд - это буквально сервер... Веб ресурс.
Че ты несешь, в одном случае флаг открытия внешнего порта, чтобы к нему можно было обратиться с другого пеки в локалке, в другом сам софт будет заходить куда надо и запретить это можно только явно настроенным фаерволом.
>>1087347
Растягивается роупом до двух раз нормально. Лучше качай ванилу и закинь ей в промт что все можно, она умнее тюнов.
Аноним 09/03/25 Вск 12:57:27 #147 №1087469 
image.png
image.png
image.png
Взять на слабо, потролить, уломать без джелбрейка базовую модель без контекста. Как же мне нечего делать.
Аноним 09/03/25 Вск 13:49:15 #148 №1087548 
>>1087464
>роупом
интрукция есть? еще пару месяцев назад нигде не было этого слова
Аноним 09/03/25 Вск 13:53:11 #149 №1087552 
я чую что гемма 3 будет разочарованием
Аноним 09/03/25 Вск 14:09:05 #150 №1087575 
>>1087548
>слова
RoPE
наоборот, было да сплыло потому что бэки теперь сами как надо ставят
Аноним 09/03/25 Вск 15:07:05 #151 №1087662 
>>1087552
будет бомба с новой технологией - титан
Аноним 09/03/25 Вск 15:09:58 #152 №1087664 
>>1087662
кто тебе такое сказал?
Аноним 09/03/25 Вск 15:23:59 #153 №1087681 
>>1087548

Ньюфаня, плиз... В этом тренде крутили альфу/веревки с самого релиза ламы.
Аноним 09/03/25 Вск 15:42:43 #154 №1087716 
image.png
>>1083681 (OP)
Попробуйте микс RP+Резонинг. Вчера так залупил что кожу содрал. 0.9 t/s сука
https://huggingface.co/trashpanda-org/QwQ-32B-Snowdrop-v0
В таверне нужно выбрать чтобы начинало сообщения с <think>.
Аноним 09/03/25 Вск 15:48:19 #155 №1087727 
>>1087681
d ctrhtn rkf,t yt cx
в секрет клабе не считается
в этом треде не было - я видел
Аноним 09/03/25 Вск 15:49:14 #156 №1087736 
>>1087716
>56 скачиваний
купи рекламу
Аноним 09/03/25 Вск 16:03:46 #157 №1087789 
>>1087548
Изи вей - крутишь альфу 2.6 или около того (хз как это повлияет в конфигах где роуп не дефолтный), более правильно - пересчитываешь параметры по формулам и меняешь их.
>>1087727
Нюфаня, ебнулся совсем? За несколько месяцев перед релизом второй лламы уже на первой получали 4к сначала более всратым методом, а потом уже роуп скейлом. На второй 8к это вообще был дефолт при базовых 4к, параллельно пошли тренировки сразу с не-дефолтными значениями.
> в этом треде не было - я видел
Пиздаболам в рот нассым, смотри второй оп-пик, который оп-хуй не меняет со времен второй лламы, и актуальный для нее же.
Аноним 09/03/25 Вск 16:03:58 #158 №1087791 
>>1086518
>>1086525
> Как думаете, перейдут ли все на dLLM судя по их перспективности в скорости генерации?
Как я понял, они Берт прокачали. Подобная архитектура была у других китайцев, https://github.com/THUDM но без диффузии, LLaDA по описанию интереснее. Хз правда насколько это перспективно.
Аноним 09/03/25 Вск 16:11:58 #159 №1087815 
>>1087789
>который оп-хуй не меняет со времен второй лламы
А на что менять?
оп-хуй
>>1087791
>Как я понял, они Берт прокачали.
Берт к диффузии не имеет никакого отношения.
Аноним 09/03/25 Вск 16:20:20 #160 №1087841 
>>1087815
> Берт к диффузии не имеет никакого отношения.
Я знаю. Сходство в том, что используется маскирование токенов при обучении. Конечно, не так как в Берте, но они сами в статье Берт упоминают.
Аноним 09/03/25 Вск 16:22:38 #161 №1087851 
1.png
2.png
3.png
Любопытство взяло верх, и я снова пытаюсь разобраться с Кобольдом. Попробовал уже и антивирус Винды отключить, и через панель управления Nvidia задать [CUDA - Sysmem Fallback Policy] -> [Prefer No Sysmem Fallback]. Кому-то помогло первое, кому-то второе - мне ничего из этого. Такое ощущение, что боттлнек где-то в передаче и обработке промпта. Невооруженным взглядом в Таверне вижу, что перед генерацией токенов проходит неприлично много времени, гораздо больше, чем при использовании openai api lm studio. Да и по выводу в консоль KoboldCPP:
Processing Prompt [BLAS] (7549 / 7549 tokens)
Generating (250 / 250 tokens)
[16:03:47] CtxLimit:7799/16384, Amt:250/250, Init:0.06s, Process:3.21s (0.4ms/T = 2355.38T/s),
Generate:12.00s (48.0ms/T = 20.83T/s),
Total:15.21s (16.44T/s)
Три секунды уходит только на процессинг промпта. Я прямо вижу эти три секунды в Таверне, когда на openai lm studio текст выводится практически сразу (стриминг включен в Таверне)

Ну и, похоже, сама генерация тоже медленнее. Насколько именно - не знаю, в выводе Lm Studio не нашел скорость. На всякий случай - у меня Text Completion

Напрашивается один из трех выводов:
1. Я дурачок и в упор не вижу неправильно выбранные параметры в Кобольде
2. Кобольд по какой-то причине не может работать на полную мощность (выше описывал, что копал в эту сторону, но безрезультатно)
3. У Кобольда боттлнек на уровне api или он по какой-то иной внутренней причине работает медленнее

¯\_(ツ)_/¯
Аноним 09/03/25 Вск 16:36:09 #162 №1087885 
>>1087789
blb yf[eq иди нахуй даун на пике альфа а не ропе
Аноним 09/03/25 Вск 16:42:35 #163 №1087910 
>>1087885
>альфа а не ропе
шо то говно шо это
Аноним 09/03/25 Вск 16:45:58 #164 №1087920 
>>1087851
Второй пост или свайпы с нормальной скоростью? Оно может на первый запрос просто загружать модель с диска.
Но если у тебя полностью модель помещается в видеопамять и ты не ленивый хлебушек - эксллама в составе убабуги или табби закрывает все вопросы.
>>1087885
Тебе направление в биореактор, проследуй.
Аноним 09/03/25 Вск 16:50:07 #165 №1087943 
>>1087920
> Второй пост или свайпы с нормальной скоростью?
Свайпы делал, следующие запросы делал. Скорость никак не изменяется, пропорционально все то же самое относительно Lm Studio
Модель с контекстом полностью в видеопамяти, да, это моя цель. Кобольдом заинтересовался в первую очередь потому, что у них есть свои технологии семплирования. Added Anti-Slop Sampling (Phrase Banning) в частности: это продолжение идеи logit bias, но работает немного иначе. Хотел попробовать, но, видимо, не судьба. Про угубугу в основном плохое слышал, буду изучать какие есть альтернативы и думать, надо ли мне оно вообще
Аноним 09/03/25 Вск 16:56:06 #166 №1087966 
>>1087851
Если у тебя тип интерфейса user, то переключись в power user или developer. Тогда у тебя слева под вкладкой chat появится вкладка developer, в ней логи. Без логов с временем генерации нет смысла сравнивать, вдруг там у тебя лмстудия просто кладёт хер на часть контекста, например. В кобольде может контекстшифт и фастфорвардинг (какая-то новая фича, не пробовал) подгаживать. Ещё fa, возможно, на кобольде глючно работает, особенно если ты используешь не экзешник для куды 12. Можешь попробовать без фа сравнить.
>>1087885
Это тот же роуп, только для масштабирования более простой линейной функцией, чем та, что стали использовать позже.
Аноним 09/03/25 Вск 16:56:12 #167 №1087967 
>>1087851
>Любопытство взяло верх, и я снова пытаюсь разобраться с Кобольдом.
usemmap убери, а mlock наоборот включи :)
А вообще с 4090 тебе прямая дорога в экслламу. Да, от 6-го кванта придётся отказаться, но зато!
Аноним 09/03/25 Вск 17:08:37 #168 №1088007 
>>1087967
> usemmap убери, а mlock наоборот включи :)
Действительно, время процессинга промпта уменьшилось, нет тех трех секунд:
Process:0.37s (184.5ms/T = 5.42T/s)
Но генерации по-прежнему медленнее. Тем не менее, спасибо!

> А вообще с 4090 тебе прямая дорога в экслламу. Да, от 6-го кванта придётся отказаться, но зато!
https://github.com/turboderp/exllama
Это? Почему именно оно и зато что? Есть какие-то преимущества?
Аноним 09/03/25 Вск 17:18:37 #169 №1088046 
>>1088007
>Это? Почему именно оно и зато что? Есть какие-то преимущества?
Это. Качай Угабугу, там удобно. Предел для 24гб врам - модель 32B 4.25bpw, 32к кэша в восьмом кванте. Хорошо идёт, быстро.
Аноним 09/03/25 Вск 17:22:22 #170 №1088065 
>>1087966
Оказывается, нужно в консоли Lm Studio нажать на три точки и прочекать Verbose Logging. Тогда будет полный вывод, включая параметры и процесс генерации. Ну и жуть...

Вывод KoboldCPP:
Processing Prompt [BLAS] (1507 / 1507 tokens)
Generating (248 / 250 tokens)
(EOS token triggered! ID:2)
[17:15:04] CtxLimit:8345/16384,
Amt:248/250, Init:0.07s,
Process:0.79s (0.5ms/T = 1910.01T/s),
Generate:12.33s (49.7ms/T = 20.11T/s),
Total:13.12s (18.90T/s)

Вывод Lm Studio:
target model llama_perf stats:
llama_perf_context_print: load time = 8437.20 ms
llama_perf_context_print: prompt eval time = 946.82 ms / 1674 tokens ( 0.57 ms per token, 1768.03 tokens per second)
llama_perf_context_print: eval time = 6800.87 ms / 249 runs ( 27.31 ms per token, 36.61 tokens per second)
llama_perf_context_print: total time = 7912.78 ms / 1923 tokens

Не лабораторный эксперимент, конечно, я не начинал с одной исходной точки, но и там, и там, были предыдущие сообщения-генерации от соответствующих бекендов. Видно, что Lm Studio скушала больше токенов и сгенерировала ответ быстрее
Аноним 09/03/25 Вск 17:24:57 #171 №1088080 
>>1088046
> Качай Угабугу, там удобно. Предел для 24гб врам - модель 32B 4.25bpw, 32к кэша в восьмом кванте. Хорошо идёт, быстро.
Ничего себе. Звучит как фантастика, поскольку предел, который я нашел сам опытным путем (я новичок, мало пока понимаю) - 24b Q6_K_L и 16к контекста. Возможно, мы разное понимаем под хорошей, быстрой скоростью? Вот выше лог из Лм Студии, для меня это быстро. Или в чем нюанс, почему такая разница между моим пределом и тем, что ты рассказал?
Аноним 09/03/25 Вск 17:30:27 #172 №1088098 
>>1088080
>24b Q6
18 ГБ против 17 у 32B 4.25bpw. И контекст квантованный в 2 раза, так что твои 16 равны его 32. Вот и вся разница.
Аноним 09/03/25 Вск 17:39:18 #173 №1088118 
если это такой тонкий тролинг то апладерую
Аноним 09/03/25 Вск 17:40:17 #174 №1088125 
да как раз толстенный троллинг
Аноним 09/03/25 Вск 17:40:30 #175 №1088128 
>>1088065
>Вывод KoboldCPP:
Ты кстати koboldcpp_cu12 юзаешь? Есть разница с обычным.
Аноним 09/03/25 Вск 17:40:32 #176 №1088129 
>>1088118
В голове двачера просто не может рандомный человек зайти в доску и пытаться разобраться в теме. Обязательно импостер, который сидит на доске с первого дня ее создания...
Аноним 09/03/25 Вск 17:41:10 #177 №1088132 
>>1087943
> Про угубугу в основном плохое слышал
Ты учитывая кто и почему такое говорит. Большинство - зажравшиеся снобы, ущемляющиеся обладатели отсутствия или просто несведущие.
Так-то если провести массовое голосование то лучшим интерфейсом окажется какая-нибудь оллама, просто потому что ее популяризируют васяны с восторга что они "одной командой запустили чатжпт в командной строке". А то что кривая и ужасно неудобная залупа для использования - те кто нахваливает даже не знают, потому что не пользуются. От того довольно забавно наблюдать на среддите собирают популярность треды, в которых делают "срыв покровов" о том, что на самом деле все эти модные софтины лишь просто обертка вокруг llamacpp.
> буду изучать
>>1088007
> Это? Почему именно оно и зато что? Есть какие-то преимущества?
Может стоит прочесть вики и узнать какие популярные форматы и лаунчеры для них существуют? Ведь их всего 3.5 и для беспроблемного фулл-гпу только один.
>>1088080
> разное понимаем под хорошей, быстрой скоростью
30-40 токенов в секунду генерации и несколько тысяч обработки контекста.
Аноним 09/03/25 Вск 17:41:17 #178 №1088135 
>>1088128
Да, использую _cu12 версию
Аноним 09/03/25 Вск 17:43:16 #179 №1088142 
>>1088132
> Большинство - зажравшиеся снобы,
> самый снобский пост во всем треде
Аноним 09/03/25 Вск 17:45:19 #180 №1088147 
>>1088142
Первый ущемившийся подъехал, почему у тебя так горит с другого мнения?
Аноним 09/03/25 Вск 17:46:44 #181 №1088152 
>>1087716
> чтобы начинало сообщения с <think>.
Это где выбирать?
Аноним 09/03/25 Вск 17:51:48 #182 №1088166 
>>1088132
Может просто не отвечать, если из конкретики сказать нечего?
Аноним 09/03/25 Вск 17:58:21 #183 №1088178 
>>1088166
Весь пост про конкретику и даже указание что делать, семенишь или второй шизик?
Аноним 09/03/25 Вск 18:07:56 #184 №1088196 
https://huggingface.co/Aleteian/Pantheon-of-Cydonia-Realm-MN-22B-RP

Модель пиздец удивляет, одновременно ведя беседы о религии (увы, скрин не могу приложить, мало ли кто ущемится или потрут за офф-боард) одновременно в процессе кума ака хентай сцены, и при том и то и другое на вполне вменяемом уровне.

На английском, есстественно. Amen.
Аноним 09/03/25 Вск 18:15:10 #185 №1088209 
>>1088196
> мало ли кто ущемится
Будешь гореть в аду.
Аноним 09/03/25 Вск 18:28:08 #186 №1088225 
>>1088209
>гореть
Увы, загробье нашей мифологии огня не содержит.
Аноним 09/03/25 Вск 18:37:29 #187 №1088242 
>>1087851
У тебя в GPU Layers стоит 40, у цидоньки вроде бы 43 всего. Ты не всю модель в видеокарту вгружаешь, 3 слоя у тебя висят на проце, поэтому и медленно. У кобольда автодетект есть, если выставляешь -1 в слои, должно автоматически выбирать подходящее значение, но оно шизит, цидоньку можно нагрузить на 24к контекста + 1024 батча, автодетект выдает 28 слоев, но если вручную 43 слоя поставить, все влезает полностью в 23 гига.
Аноним 09/03/25 Вск 19:04:01 #188 №1088266 
>>1088242
Странно, что в Lm Studio указаны те же 40 слоев (больше нельзя), и в сравнении с Кобольдом (на 40 слоев) она работает быстрее. Поставил 43 слоя в Кобольде - стало работать быстрее, однако по-прежнему на 10-20% медленнее студии. Через мониторинг ресурсов в диспетчере задач вижу, что при таком сетапе Lm Studio ест на ~0.5гб видеопамяти больше. Возможно, она сама как-то подчищает хвосты и держит совсем всё в враме? Спасибо за ответ
И анонам выше тоже. Изучаю oogabooga и exllama2, возможно, это и правда то, что мне нужно
Аноним 09/03/25 Вск 19:18:46 #189 №1088286 
>>1088266
Если есть возможность вгрузить модель + контекст полностью в врам, то экслама, какой нибудь TabbyAPI. Там оффлоадинга, значит нет и слоев, если не влезает в видеопамять - крашится. Заметь, что модели в GGUF кванте не равны тому же BPW в EXL2. Например, Q4 это примерно 4.65 bpw, а не 4.0 bpw. В TabbyAPI еще нет интерфейса, все настройки тебе надо прописывать в конфигах самого табби и в файле конфига модельки. В табби тебя интересует model_name - название папки с моделью; cache_mode - Q8 норм, Q4 если хочется больше контекста, chunk_size - то же самое, что и BLAS Batch size - какой размер контекста обрабатывается за раз, 1024/2048 хватает. В конфиге самой модельки тебя интересует max_position_embeddings - это размер твоего контекста, ставь сюда 16384/24576/что твоей душе угодно.
Аноним 09/03/25 Вск 19:34:35 #190 №1088308 
>>1088196
>На английском
Я ущемился, пиздец, ну это как так то, в какой стране живем? Нахуй мне на проклятом пиндоском общаться? Когда уже будет адекватный могучий Русский язык?
Аноним 09/03/25 Вск 19:36:02 #191 №1088311 
>>1088308
>Когда уже будет адекватный могучий Русский язык
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Moraliane и https://huggingface.co/Aleteian
Аноним 09/03/25 Вск 19:38:00 #192 №1088313 
>>1088308
>>1088311
Все 12б там в русский могут хорошо.
Хотя, конечно, не 70Б.
Аноним 09/03/25 Вск 19:49:46 #193 №1088325 
>>1088311
>>1088313
Могут, через жопу, сами на них не сидите же? Забывают сколько раз сняли трусы. Берут мой телефон, чтобы позвонить, находя в моем списке контактов своих родственников. Намёков не понимают. Ограничены в креативности, чем дальше по контексту - повторяются в действиях, диалогах. Зацикливаются на одной задаче. Мало разнообразия, словарного запаса. Часть из них быстро скатывают весь диалог в еблю. Пройдут годы, пока появится что-то действительно годное...
Аноним 09/03/25 Вск 20:03:42 #194 №1088346 
>>1088325
Мисраль лардж к твоим услугам, даже файнтюны в целом на великом-могучем нормально говорят.
Аноним 09/03/25 Вск 20:06:44 #195 №1088350 
>>1088325
>Намёков не понимают.
123B понимает довольно хорошо.
>Ограничены в креативности, чем дальше по контексту - повторяются в действиях, диалогах.
Да, на мой взгляд гейммастером модели пока быть не могут - или нужна специальная карточка с подробными инструкциями. Но вот подхватывают контекст большие модели на ура.
>Мало разнообразия, словарного запаса.
Вообще неправда.
>Часть из них быстро скатывают весь диалог в еблю.
Узнаю нелюбителя Магнума :)
Аноним 09/03/25 Вск 20:07:05 #196 №1088351 
>>1088346
Но зачем? Он лупится и русский там хуже Квена.
Аноним 09/03/25 Вск 20:09:07 #197 №1088355 
>>1088351
Сильное заявление
Аноним 09/03/25 Вск 20:09:21 #198 №1088356 
>>1088065
Скорость обработки промпта, кста, почти одинаковая, а вот генерация сильно отличается, выходит. Я всё-таки думаю на флэш атеншн. Тут один анон выяснил, что по какой-то причине на кобольде с ним скорость генерации медленнее, по крайней мере, когда прилично слоёв в видяхе. У меня тот же экспириенс. Выше 40 слоёв студия не давала тебе ставить из-за опции контроля железа, возможно. Которая "Model loading guardrails".
Аноним 09/03/25 Вск 20:19:24 #199 №1088364 
на форче все советуют TheDrummer_Skyfall-36B-v2 ща пробую в IQ4_XS ну и вроде бы не плохо в принципе. Понимает что происходит вокруг.
Аноним 09/03/25 Вск 20:50:43 #200 №1088422 
>>1088364
>на форче
очередной йоба-франкенмерж с растянутым passthrought задницей?
Аноним 09/03/25 Вск 21:12:12 #201 №1088473 
>>1088346
>>1088350
>>1088351
Пробовал и лардж и квен2.5 72b, в логике - да, гораздо лучше, и всякие намеки действуют и в целом здорово видеть когда двусмысленными фразами подводишь персонажа к чему-то и он тебя понимает.
Лардж у меня только в 2.65bpw помещается, который магнум. Местами переходит на англицкий, то ли от файнтюна, то ли от низкого кванта.
Квен кстати тоже неплохой файнтюн есть, Kunou, на русском общается, но местами китайское и английцкое говно проскальзывает.
У больших моделей минус в том, что они больше соответствуют стилю ассистента, даже, когда общаешься с персонажем - заметно и это никакими инструкциями не убирается, у мелких сеток из-за миксов и большего количества тюнов этого мусора меньше.
>весь диалог в еблю
Я, кстати, еблю вообще не котирую и не скатываю весь диалог в кум, наоборот, люблю по душам пообщаться, ну а ебля это редко. Замечал, что интереснее общаться, когда долго держал нофап.
Аноним 09/03/25 Вск 21:19:55 #202 №1088487 
>>1088473
> в 2.65bpw помещается
Ну это уже совсем деменция будет, чудо что работает. Магнум вообще неплохо на русском может общаться внезапно, хз как поведет себя на больших контекстах когда все будет сложно, но первые впечатления положительные.
> Kunou
Спасибо, надо будет попробовать.
> У больших моделей минус в том, что они больше соответствуют стилю ассистента
Это ты зря, как раз по гибкости они куда лучше, добавлять или наоборот подчищать промт пробовал? Подхватывают указания из карточки, меняют общее повествование и стиль речи персонажей по условиям и ситуации и прочее. Мелочь как раз в этом отношении не понравилась совсем, и сам текст по структуре унылый, и стабильно одно и то же. Местами даже треш с соей и желанию отвечать на вопросы лезет что пиздецово.
Аноним 09/03/25 Вск 22:10:04 #203 №1088571 
>>1088325
И это всё на английском на 666B.
Аноним 09/03/25 Вск 23:33:08 #204 №1088796 
>>1088286
> какой нибудь TabbyAPI
Спасибо! Для работы с exllama2 остановился именно на tabbyAPI. Подкупили отсутствие ненужного для меня фронтенда и здоровый минимализм в целом.

> Заметь, что модели в GGUF кванте не равны тому же BPW в EXL2.
> Например, Q4 это примерно 4.65 bpw, а не 4.0 bpw
Пользуюсь в основном Cydonia v2 Q6: https://huggingface.co/bartowski/TheDrummer_Cydonia-24B-v2-GGUF
Правильно ли я понимаю, что ближайший exl2 аналог - https://huggingface.co/ReadyArt/Cydonia-24B-v2_EXL2_6bpw_H8 , и он скорее ближе к Q5 кванту? Данную exl2 модель я уже загрузил, в параметрах 16к контекста, q6 квант, остальное не менял в стандартном конфиге. Скорость генерации 33.8-34t/s, врама занимает 20 гигов. Q6 gguf на Lm Studio (llama) 33.3-33.5t/s и занимает 22.8 гигов врама. Не знаю, насколько это вообще корректное сравнение, но хотя бы нет проблем как с Кобольдом
Аноним 09/03/25 Вск 23:51:57 #205 №1088834 
>>1088796
Эффективную битность можешь посмотреть тут https://github.com/ggml-org/llama.cpp/tree/master/examples/quantize но вообще это для старой лламы, на другиг могут быть некоторые отклонения. В экслламе можно поставить любую битность без привязки к конкретному, если хочешь нестандартное то квантуй сам.
По генерации между разными беками отличия будут проявляться уже на большом контексте, плюс в скорости его обработки, на малых там все +- одинаково.
Аноним 10/03/25 Пнд 02:49:50 #206 №1088987 
Аноны, какая нейронка самая "отбитая", без цензуры. Хочу генерить с ней жесткое БДСМ порно.
Аноним 10/03/25 Пнд 02:52:38 #207 №1088992 
Вопрос знатокам:
Если есть квант iq4_xs, то где кванты iq5_xs, iq6_xs и iq8_xs ? Почему я их нигде никогда не видел?
Аноним 10/03/25 Пнд 02:53:39 #208 №1088993 
>>1088987
Pygmalion 6b. Обдрочишься так, что хуй сломается.
Аноним 10/03/25 Пнд 02:58:13 #209 №1088996 
>>1088993
Спасибо сударь, уже делаю ollama pull
Аноним 10/03/25 Пнд 05:08:12 #210 №1089107 
>>1088987
лама аналигнед, а также мистральки тоже так-то, особенно на ру
Аноним 10/03/25 Пнд 06:11:14 #211 №1089149 
>>1088364
>Skyfall
цидониемагнумоподелие, coom-ориентированное
Аноним 10/03/25 Пнд 06:31:24 #212 №1089164 
>>1088987
https://huggingface.co/DavidAU/MN-GRAND-Gutenberg-Lyra4-Lyra-12B-DARKNESS
вопрос знатокам Аноним 10/03/25 Пнд 07:19:33 #213 №1089226 
image.png
где эти ваша альфа и ропе?
Аноним 10/03/25 Пнд 07:24:16 #214 №1089228 
>>1088992
1 - Ты не видел их потому что опен сорс - "надо - сделай". Просто никто не сделал.
2 - Нинужно, так как рост perplexity активно начинается ниже 4 кванта, и экономить место хитрыми способами квантования на высоких квантах - нет смысла, потому что можно просто взять квант ниже (четвертый например), и практически ничего не потерять.
Аноним 10/03/25 Пнд 08:27:30 #215 №1089254 
>>1089226
В бэке через который ты запускаешь модель (Кобольд, угабуга, лламацпп и т.д)
Аноним 10/03/25 Пнд 08:43:23 #216 №1089264 
image.png
>>1089254
оно? а альфа где? нету негде
а ропе ставить то сколько? в шапке нету пикчи
Аноним 10/03/25 Пнд 10:16:36 #217 №1089331 
image.png
>>1089264
Да не надо ставить роуп кастомно, ты только модель сломаешь. А альфа стоит в убе, в кобольде её нет. Она там как-то выражается то ли через первую величину, то ли через вторую. По-моему, через первую, для линейного масштабирования.

Но если очень хочется поиграть со сломанным контекстом, то запусти модель с автоматическим роупингом, посмотри в консоли кобольда какую величину base он пишет (на пике пример для немо), и её сам увеличивай раза в 2-3 от базы в надежде, что хватит на больший контекст (спойлер: скорее всего, будет только хуже).
Аноним 10/03/25 Пнд 10:18:32 #218 №1089333 
Какая 12б сейчас самая "умная" в рп и пишет красивее остальных? На английском, понятное дело.

Если возможно, кроме литературных навыков хотелось бы увидеть умение описывать окружающее пространство, действие, взаимодействие чара с окружающей средой, а не только пиздёж.
Аноним 10/03/25 Пнд 10:29:38 #219 №1089343 
>>1089333
Имхо магмел (MN-12B-Mag-Mell-R1) самый умный из рп мёржей/тьюнов. Сколько их пробовал, остальные чаще шизят и/или хуже пишут. Можешь отдельно попробовать входящие в его состав Chronos-Gold-12B-1.0 или mistral-nemo-gutenberg-12B-v4 (у его автора есть и другие версии немо гутенберга с тьюнами на более современной литературе), заточенные именно на более художественную писанину.
>умение описывать... а не только пиздёж
Это решается системным промптом. Собственно, просто дай инструкцию, что ты хочешь больше описаний того рода, которые тебе нужны.
Аноним 10/03/25 Пнд 10:34:25 #220 №1089351 
>>1089331
>Но если очень хочется поиграть со сломанным контекстом
чо мне хочется?
на меня наехали якобы вы пару лет уже обсуждаете свои альфы и ропы и их нада как то настраивать чтоб было заебись по крайней мере для 2гемы ванилы
вот я и пытаюсь понять хотябы о чем речь вобще
Аноним 10/03/25 Пнд 10:49:50 #221 №1089375 
>>1089351
Их действительно обсуждали, потому что во времена второй ламы и старых мистралей на её основе их надо было менять руками. Сейчас бэки выставляют нужные к-ты сами. Если ты запустишь гемму на 32к контекста, то увидишь в консоли два разных числа для base: одно дефолтное, взятое из модели, и второе увеличенное, которым кобольд растянул контекст. Ты можешь попробовать поставить этот параметр ещё выше самостоятельно, но это наверняка ничего не улучшит.
Аноним 10/03/25 Пнд 11:09:30 #222 №1089404 
>>1089343
>MN-12B-Mag-Mell-R1

Действительно один из самых сильных вариантов, пробовал. Беда в сое. Я чуть себе вазэктомию от неё не сделал и не купил бойфренду своей жены нинтендо свич.

>Chronos-Gold-12B-1.0

А вот он мне совсем не зашёл. Как-то туповат и тоже соеват.

>>mistral-nemo-gutenberg-12B-v4

Именно его не пробовал. Чем он тебе зашёл? Я пробовал гутенберга от давида, потому что мне нужен негативный биас хотя бы небольшой. Он хорош, но я не знаю, как там бороться с лупами и шизой, уж очень яростная она, нигде такого не видел. И соблюдение инструкций слабое было. Попробую поискать, шо там есть на современной литературе. А так негативный биас с гутенбергом И С СОБЛЮДЕНИЕМ ИНСТРУКЦИЙ для меня был бы топовым вариантом.

>Это решается системным промптом. Собственно, просто дай инструкцию, что ты хочешь больше описаний того рода, которые тебе нужны.

Не совсем. Если модель не может, то систем промпт не спасёт. Да, она опишет, но это будет сделано плохо, слабо. А если в её датасете есть всё это в хорошей дозировке, то она сама описывать будет при нужде, в случае систем промпта тем более.

Скажем, желателен текст, который хотя бы немного близок по уровню качества к этому, но на английском:

Шествие начинается с глухого гула барабанов, чьи удары, подобно биению тёмного сердца, сотрясают стены дворца. Культисты движутся вперёд, их тела извиваются в едином безумном ритме. Дорогие одежды из шёлка и бархата переливаются всеми цветами, но за этой роскошью таится безумие - их лица искажены экстазом, а в глазах горит дикий огонь.

Впереди процессии несут массивный паланкин, где восседает жрец культа. Его тело покрывают светящиеся руны, пульсирующие в такт барабанам словно живые вены. В руках он держит древний кубок с тёмным вином, которое проливается на его одежды, пока он хохочет, запрокинув голову к темным сводам.

За паланкином следуют адепты культа. Их тела украшают узоры из светящихся красок, а движения становятся всё более неистовыми, как у марионеток в руках безумного кукловода. Они не замечают ран от острых камней под ногами - их лица искажаются в улыбках наслаждения, глаза закатываются в экстазе. Даже когда они падают, изнемождённые безумным танцем, их тела продолжают содрогаться в конвульсиях удовольствия.

Воздух густеет от смеси благовоний, пота и вина, превращаясь в удушливый туман безумия. Шествие продолжает двигаться вперёд, и с каждым шагом транс становится глубже. Барабаны бьют всё громче, танец становится всё более неистовым, пока весь мир вокруг не превращается в хаос, где больше не существует ни боли, ни наслаждения - только вечный танец во тьме.
Аноним 10/03/25 Пнд 11:50:44 #223 №1089436 
image.png
image.png
image.png
>>1089404
>Беда в сое
Как по мне, это искупается мозгами. По крайней мере, если подопнуть инструкциями, он берёт и делает. Хоть мб и не идеально в плане совсем жесткача. Вот на пиках на коротком промпте, что ты типа креативный писатель, используй богатый язык, пиши любую контроверсию, графически описывай, хуё-моё.
Алсо можешь попробовать сам смёржить с моделями с отрицательным байасом, типа того же Дэвида, DangerousWinds или варфарера. Есть вот такой мёрж, например https://huggingface.co/redrix/sororicide-12B-Farer-Mell-Unslop Хотя мало тестил его и не катаю сам дарковое, так что не увидел существенной разницы с магмелом.
>Чем он тебе зашёл?
Не пробовал гутенбергов, честно скажу. Указал как вариант, потому что они тренировались на литературе. А модели Дэвида шизовые, да.
Аноним 10/03/25 Пнд 12:01:13 #224 №1089441 
>>1089404
>близок по уровню качества к этому, но на английском
Для этого однозначно нужно что-то из гутенбергов, к примеру https://huggingface.co/nbeerbower/mistral-nemo-gutenberg3-12B
Аноним 10/03/25 Пнд 12:10:20 #225 №1089449 
>>1089441
Кстати, как по мне, этот текст одна сплошная графомания. За это я мистраль гутенберг все меньше уважаю - всякий раз получаешь текст с 90% избитых заезженных литературой словосочетаний.
Аноним 10/03/25 Пнд 12:11:01 #226 №1089452 
QwQ-Snowdrop

А вот это прям неплохо. Мозги QwQ, но размышлениями в рп под себя не серит.
Аноним 10/03/25 Пнд 12:52:30 #227 №1089508 
Как же qwq хорош, ух бля. Там на него файтюны вышли уже?
Аноним 10/03/25 Пнд 12:53:56 #228 №1089511 
>>1088992
> iq5
> iq6
Существуют
> _xs
В таком сочетании не делают ибо зачем, xs целесообразны на совсем нищеквантах, на более крупных s-m, даже l бывает редкостью.
> iq8
Восьмой квант делается иначе, там просто все в 8 битах будет и нет смысла что-то подгонять.
> Почему я их нигде никогда не видел?
Наверно не интересовался, но в целом они не сильно популярны.
Аноним 10/03/25 Пнд 13:05:30 #229 №1089521 
image.png
>>1088152
Внизу.
Аноним 10/03/25 Пнд 13:16:45 #230 №1089528 
>>1089508
буквально на одно сообщение выше
Аноним 10/03/25 Пнд 13:35:25 #231 №1089558 
>>1088046
> Предел для 24гб врам - модель 32B 4.25bpw, 32к
А точно 32к контекста? У меня 32b 4.25bpw 16к занимает ~22.5гб, при 32к - уже больше 26гб
Или есть какие-то ухищрения/умные параметры, которые расширяют контекст или позволяют эффективнее с ним работать?
Аноним 10/03/25 Пнд 14:05:09 #232 №1089614 
https://huggingface.co/DavidAU/Qwen2.5-QwQ-35B-Eureka-Cubed
Это ? Или вот это ?
https://huggingface.co/trashpanda-org/QwQ-32B-Snowdrop-v0
Или вообще оригинал ?
Аноним 10/03/25 Пнд 14:06:20 #233 №1089618 
>>1089558
q8 для контекста
Аноним 10/03/25 Пнд 14:08:58 #234 №1089627 
>>1089614
Второй, снежный, от Дэвида неудачное шизло в этот раз.
Аноним 10/03/25 Пнд 14:13:45 #235 №1089639 
>>1089627
Такс, я тут по тредику побегал.
Вся эта эпопея с ДУМОЙ прошла мимо меня, ибо мне нахуй дипсик не нужен был в РП.
Зачем ставить ДУМОЙ в начало, как тут ? >>1089521
Аноним 10/03/25 Пнд 14:15:02 #236 №1089647 
>>1089639
для рп - незачем
Аноним 10/03/25 Пнд 14:41:37 #237 №1089716 
>>1085094
> Как видишь, мне нужны.
Значит ты и обучай, логично? :)
По факту локально нужно или быстро, или умно. А средне нужно только тебе да еще паре человек.

> нафиг нужен ризонинг
Да нормальная скорость, заебал. Не мгновенно, но подождешь пару минут, зато получишь ответ буквально сравнимый со всякими о1 и ниже. Вполне достойно, если не хочешь отдавать свою инфу в облако.

>>1085315
> 2х24 !== 48. А 32 одной удобнее
Это верно для видео и аудио-моделей.
А для текстовых приблизительно равно. В контексте данного треда…

>>1085322
А с кашей и 60, ага.
Если бы блядь знали тогда…

>>1085354
Строго говоря, скидос был в начале марта, а ллама завирусилась в конце марта… Особо умные и дальновидные может и закупились, конечно.

>>1085657
Не любые, потому что именно «600b» — моешка, поэтому и тянет.
Но зато тянет ее, тащемта, да. А что еще нужно?..

>>1085774
Ну, мегамаркет их месяцами и отдавал, с конца октября, наверное, до середины марта.

>>1085910
Физика, да.
Есть такие процессоры, но толку от них не дуже много.
Забили на такую хуйню. Проще масштабировать медленные.

>>1085997
Серьезный бизнес легко себе ноду с 8 H100 возьмет и апнет скорость кратно. =)

>>1086222
> Это норм для
База.

>>1086384
> x2 прирост от перехода с oobabooga в ДЦП
Там одна и та же либа, скилл ишью какой-то, или неудачный момент для убы.
Скорость обычно ±10% туды-сюды.

>>1086391
> у кобольда есть удобный text-completion для писательства в его веб-морде
Убабуга всю дорогу: я что, шутка для тебя?

>>1086363
Вот тут расписывал >>1066878 →
Можешь почитать.

Как выше сказали, llama.cpp в общем-то вариант лучше прочих.

>>1086517
Не, ну ллама по факту говно, вообще-т.

>>1086734
Юмор в том, что это обычный запуск llama-cpp-python с рюшечками, который равен запуску обычной llama.cpp, или из коробки делается в oobabooga. Проще поставить убу и перезагружать модели на лету в ней, чем ебать мозги с кобольдом при таком раскладе, согласись. =)

>>1088796
> ближе к Q5 кванту
Нет. Стоит запомнить, что Q5 — ближе к 6 кванту. А вот 6bpw — это по-настоящему 6 квант. GGUF наебывает, тут важно это понимать. =)
Тот же Q4 — это не int4 кванты, к примеру. А то часто слышно, как Q4 превосходит 4pbw и int4, но Q4 — не 4. =)

> Lm Studio
Вполне возможно, что в лм студио ллама.спп как раз работает без багов и на максимуме возможностей своих.

>>1088987
Вброшу старую Aya, первой версии. Цензура там отсутствовала, но специально ее не дообучали, конечно.

>>1089452
Уже второй раз советуют. Надо попробовать, что ли…
10 токенов сек позволят поиграццо.
Аноним 10/03/25 Пнд 14:54:09 #238 №1089725 
>>1089716
>я что, шутка
унга-бунга всегда была и будет хуткой-хуюткой на жрадио
Аноним 10/03/25 Пнд 15:06:15 #239 №1089749 
>>1089618
И правда, получилось. 32b 4.25bpw 32к контекста Q8 полностью в враме
Но в чем разница? Правильно ли я понимаю, что все GGUF модели и кванты используют fp16 кэш? Или кванту соответствует и кэш тоже? Например, q8.gguf - q8 кэш? Если так, то я не понимаю, каким образом в exl2 формате я могу загрузить 32b 4.25bpw с 32к контекста, в то время как gguf 32b Q4_M - около 14к. Неужели такая разница в архитектуре, и exllama2 настолько лучше?
Аноним 10/03/25 Пнд 15:07:29 #240 №1089751 
И продолжая вопрос, какая теоретически и практически разница между fp16 и q8 кэшами? fp16 - для кодинг агентов и точных задач, q8 - легкое пренебрежение, которое в целом достаточно для разговорных задач и рп?
Аноним 10/03/25 Пнд 15:13:37 #241 №1089760 
>>1089716
>Проще поставить убу и перезагружать модели на лету в ней
это работает так хорошо что я лучше помню как постоянно выключал и включал хубабубу с нуля
не говоря уже про зависани которых нет в кобалде
Аноним 10/03/25 Пнд 15:24:03 #242 №1089771 
>>1089725
Ну ето печально, согласен. =(

>>1089760
Либо древность, либо скилл ишью.
Это уже около года работает идеально.
Никаких проблем с перезагрузками моделей (порой десять разных во время тестов) не было, никаких зависаний, никаких проблем. Софт сам по себе работает сейчас хорошо.
Так и я могу сказать, что кобольд говно (помню, в 2023 году…=).
Но, нет, все работает вполне норм.

>>1089749
Неправильно, кэш вообще к моделям не имеет отношения, ты просто не выбирал квантование кэша, вот и все. В кобольде оно так же есть. =)
Аноним 10/03/25 Пнд 15:26:36 #243 №1089773 
>>1089771
> Неправильно, кэш вообще к моделям не имеет отношения, ты просто не выбирал квантование кэша, вот и все.
То есть квантовать кэш можно и на gguf моделях? А если этого не делать, они все используют fp16?
Как это влияет на опыт использования нейронки? Кроме того, что можно выиграть врам для контекста, конечно же
Аноним 10/03/25 Пнд 15:29:02 #244 №1089777 
>>1089773
>Как это влияет на опыт использования нейронки?
если честно, не заметил, сидел и с фп16, и с q4 кэшем
Если модель загружается впритык, то можешь q8 влепить, больше контекста влезет
Аноним 10/03/25 Пнд 15:52:24 #245 №1089816 
>>1089777
Много ресурсов, статей и бенчмарков прошерстил в поиске ответа. Консенсус в том, что Q8 кэш практически не влияет на использование, и почти все используют его, чтобы выиграть в контексте. Вот небольшая табличка актуальных данных от одного из автора exllama2: https://github.com/turboderp-org/exllamav2/discussions/727#discussioncomment-12032104
Это если про цифры говорить. Про ухудшение же опыта взаимодействия я никакой информации не нашел, многие q8 кэш используют и для кодинг агентов. Похоже, нужно привыкать к 32к контексту...

Спасибо всем за помощь. В итоге переехал с Lm Studio на tabbyAPI, вдвое увеличил контекст (с 16 до 32к) и теперь могу нормально использовать 32b модели вместо 22-24b
Пора отправляться на поиски моделей! Если найду что-нибудь интересное, обязательно поделюсь с тредом
Аноним 10/03/25 Пнд 15:59:08 #246 №1089846 
>>1089816
>Пора отправляться на поиски моделей!
https://huggingface.co/mradermacher/QwQ-Snowdrop-i1-GGUF/tree/main
Аноним 10/03/25 Пнд 16:01:15 #247 №1089855 
>>1089846
Да, выше в треде присылали, уже обратил внимание. С нее и начну - https://huggingface.co/ReadyArt/QwQ-32B-Snowdrop-v0_EXL2_4.0bpw_H8
На 32b моделях раньше не играл, а теперь еще и 32к контекста. Думаю, будет интересно
Аноним 10/03/25 Пнд 16:13:56 #248 №1089889 
>>1089773
>То есть квантовать кэш можно и на gguf моделях? А если этого не делать, они все используют fp16?
Можно, только при этом нельзя использовать context shift. Не знаю, как с этим на экслламе.
Аноним 10/03/25 Пнд 16:22:30 #249 №1089907 
koboldcppoldcpudMdxyUSbWY.jpg
-1.jpg
10.jpg
16.jpg
koboldcpp_oldcpu
https://huggingface.co/mradermacher/QwQ-Snowdrop-i1-GGUF/blob/main/QwQ-Snowdrop.i1-IQ3_M.gguf
На рилах cuda fallback выключен btw
Все настройки стандартные кроме Flash Attenton.

Почему когда выставляю любое другое значение кроме 999 в слоях, то ДЦП полностью отказывается генерировать на гпу?
В википедии написано 6гб врам=30б=7 слоев (у меня 32б iq3, с 7 слоями еще 3 гб свободных остается). Но когда выставляю -1/10/16/20 гпу только для обработки промпта используется, генерирует только на цпу. Больше 20 не видел смыла тестировать тк VRAM полностью забита после 16 слоев.
Аноним 10/03/25 Пнд 16:27:07 #250 №1089925 
>>1089749
> Но в чем разница?
Вместо представления активации в виде исходного типа данных, ты их сразу квантуешь и тем самым сохраняешь память. Это несколько замедляет расчет из-за необходимости дополнительных операций и снижает точность работы, но зато позволяет загрузить побольше. В целом с q8 все хорошо, главное не перепутай его с fp8, вот там будет форменная лоботомия. q4 также вариант, но уже заметно захуевливание.
> exllama2 настолько лучше
В жоре (llamacpp) тоже можно использовать квантование контекста. Можно вообще исхитриться с параметрами сборки, и тогда оно даже процентов на 10 меньше врам будет кушать и будет быстрее работать, но это обеспечивается некорректной работой и на выходе по мере накопления контекста будет все больше шизы, вплоть до полной поломки со спамом повторяющихся токенов.
Но вообще эксллама лучше по скоростям и отсутствию проблем, одна беда - работает только на врам.
>>1089816
> Q8 кэш практически не влияет на использование
Едва измеримо, можно смело юзать и не обламываться.
>>1089907
Похоже на проблему с этим жонглированием сборок под старые архитектуры и куду и какой-то хардкод значения. Более старую версию не пробовал скачать, на других моделях то же самое?
Аноним 10/03/25 Пнд 16:57:09 #251 №1090030 
>>1089925
>Похоже на проблему с этим жонглированием сборок под старые архитектуры и куду и какой-то хардкод значения.
Ну я чуть больше месяца сижу на ДЦП, oobabooga еще медленее и больше врам ест вроде на прошлогодних версиях тоже самое, но это не точно.
>на других моделях то же самое?
Правило 999 слоев - да, -1 еще не разу не работал, а на счет других настроек не знаю. Это столько времени занимает пиздец, чтобы загрузить разгрузить ждать пока промпт-хуемпт, поэтому тут спрашиваю.
Аноним 10/03/25 Пнд 17:10:17 #252 №1090116 
>>1089925
>Но вообще эксллама лучше по скоростям и отсутствию проблем, одна беда - работает только на врам.
Уже нет кстати :) Сейчас попробовал одну модель, кэш немного во врам не поместился - ничего, заработала. Медленно правда.
Аноним 10/03/25 Пнд 17:21:59 #253 №1090152 
>>1089907
Это не ты тот шизик что в /b мне доказывал мол 1660 для всего хватает ?
Аноним 10/03/25 Пнд 17:24:08 #254 №1090154 
>>1089846
>>1089452
Ничто не побьет магнум в ерп, вот просто ничто.
Аноним 10/03/25 Пнд 17:28:42 #255 №1090164 
>>1090030
Увы, кроме предположения и ориентира куда копать нечего подсказать, может тут кто-то в кобольде копался, особенно с реализацией под старые архитектуры. Как вариант - создай ишью в репе, подробно все описав, возможно штука ерундовая и быстро пофиксят.
>>1090116
Шиндоуз мастер рейс получается?
Аноним 10/03/25 Пнд 18:01:00 #256 №1090235 
image.png
>>1090152
Несколько лет там не было. боюсь заходить т.к. появляется fomo и начинаю каждые 5 минут треды проверять как наркоман.
>>1090164
>создай ишью в репе
У меня, мои ответы скрытыми почему-то были (видны только мне в инкогнито моде не видны). А второй раз пытался войти, начал номер телефона, с меня, вымогать.
Аноним 10/03/25 Пнд 18:18:24 #257 №1090254 
>>1089749
>>1089816
>>1089777
>>1089925
Проблема в том что и без квантованного кеша в 24гб врам влезают 24к контекста, а больше ни одна ллм и не запоминает 32б так вообще не помнит что было 5 сообщений назад, толку его растягивать до 32к и ломать уже хорошие 24к
Аноним 10/03/25 Пнд 18:23:30 #258 №1090261 
>>1089773
Ну, когда я пробовал 30к контекста, то q4 показал себя не очень.
А q8 был получше, вроде бы.

Качество проседает, но не критично. Однако тут надо тестировать конкретную реализацию, модель и свой личный опыт получать.

>>1089816
Поздравляем! И спасибо за ссылочку, кстати. =)

>>1089855
Тут учти, что это ризонинг модель — то есть, она в начале ДУМАЕТ, как тебе ответить, а потом уже отвечает. Время до первого токена большое (мысли не читай, ай-ай-ай!=), и экспериенс может существенно отличаться. Дело не в размере, а в подходе.

>>1090116
Не путай оффлод слоев на оперативу и оффлод слоев в shared memory (ту же оперативу, но псевдо-видео-память=).
И, да, работает, и даже замедление может быть не критичным при процентах памяти (небольшом значении).
Но довольно быстро становится проще gguf заюзать.
Аноним 10/03/25 Пнд 18:25:13 #259 №1090264 
>>1090254
> 32б так вообще не помнит что было 5 сообщений назад
Это очень странно. Не прими за грубость, но ты уверен, что у тебя все хорошо с пресетами и промптом? С 32b пока не успел еще поиграть, но я на Cydonia 24b с 16к контекста при полном его заполнении спрашивал персонажа о том, что было в начале (на первой тысяче контекста, около 70 сообщений назад), и он помнит. Специально тестировал так. Ни в саммари, ни где бы то ни было еще, детали не были уточнены. С Магнумом 22b та же история

Но я согласен, что имеет смысл протестировать fp16 ~24k vs q9 32k
Аноним 10/03/25 Пнд 18:26:31 #260 №1090265 
q8*
очепятка
Аноним 10/03/25 Пнд 18:30:17 #261 №1090268 
Снимок экрана 2025-03-10 в 22.26.26.png
Снимок экрана 2025-03-10 в 17.29.17.png
Снимок экрана 2025-03-10 в 17.24.45.png
1205229.jpg
>>1086198
>>1086207
Отписываюсь. Вот работа V3 671b (то же самое что R1 только без ризонинга, я проверял и R1 тоже, работает так же) на сл. стенде:
1 - Процессор - 2 × AMD EPYC 9274F 4.05 ГГц.
2 - Оперативка - см. скрины. 512 ГБ DDR5, что означает что она работает в 16 каналов планками по 32, и производительность ниже, чем была бы на 24 каналах которые дают процы, если бы было 768 гигов памяти.
3 - GPU нет.

В 512 гигов входит модель в 4 кванте и 5000 контексте ровно. При любом контексте в пределах 5 тысяч примерно 4.5 т/с инференс. Евалюэйшн контекста быстрее, при добавлении - практически мгновенно, полные 5 тысяч - секунд 10-20 навскидку.

На 24 каналах - будет еще быстрее, и контекста больше.
Меня такая скорость полностью устраивает, на 1 меня этого вполне хватит, даже с запасом.

Ну вот, теперь буду думать как собрать такой себе, и какой минимум по процам там нужен, и по памяти.
Аноним 10/03/25 Пнд 18:30:30 #262 №1090269 
noreason.png
>>1090261
> Тут учти, что это ризонинг модель — то есть, она в начале ДУМАЕТ, как тебе ответить, а потом уже отвечает.
Выше присылал ссылку на файнтюн exl2. Там есть хороший пресет, который в том числе выключает reasoning/thinking. Работает очень быстро!
Аноним 10/03/25 Пнд 18:36:27 #263 №1090271 
image.png
>>1089907
Ламацпп и не на сборке для старых процев ведёт себя схожим образом в том смысле, что слабо грузит видяху, когда много слоёв на проце. Предупреждаю, что я не то чтобы шарю, могу нести херню, но предположу следующее. Флэш аттеншн тянет всю обработку контекста считаться на куде, поэтому и загружает её сильно в период обработки. А вот потом видяха, на которой слоёв всего ничего, посчитала то, что могла на том KV кэше, который был на её слоях, и ожидаемо простаивает, пока проц не посчитает своё, а на его стороне дохера. А при 999 слоёв оно просто запускаться не должно по идее, вылетать с oom. Предположу, что оно вываливается таки в shared memory с оперативой (что видно на твоих скринах, кста, даже когда мало слоёв в видяхе, хз, почему), и видяха пыжится что-то посчитать, постоянно обмениваясь с оперативой. Отсюда загруженность.
Олсо калькулятор Дэвида ( https://huggingface.co/spaces/DavidAU/GGUF-Model-VRAM-Calculator ), который вроде плюс-минус правильный, говорит, что тебе должно слоёв 20 влезать. Но у тебя, похоже, не все 6 гигов доступны, в этом проблема.
>>1090269
А какой смысл сидеть на ризониг модели без ризонинга?
Аноним 10/03/25 Пнд 18:46:36 #264 №1090281 
>>1090268
С учётом того что там мелкие эксперты - как-то совсем тухло. На 70В будет 3 т/с генерация и промпт как на теслах. Какой-то аналог тесл собираешь. Теслы были на Жору залочены, а ты на МоЕ лочишься, большие модели будут слишком медленные.
Аноним 10/03/25 Пнд 18:52:18 #265 №1090292 
>>1090281
Ну никто не мешает воткнуть в сборку пару видюх. Кстати, а есть двухпроцессорные не вендорлокнутые платы с ддр5 и 7 слотов под карты? Форм фактор не важен, стойка у меня есть. А то я бегло посмотрел и не нашел больше чем на 3 слота
Аноним 10/03/25 Пнд 18:58:43 #266 №1090299 
1606749071844.png
>>1090292
> Ну никто не мешает воткнуть в сборку пару видюх.
Только зачем тогда эта сборка нужна, если карты можно и в мать+проц за 30к воткнуть. Чтоб ты понимал какой разрыв с гпу, пикрил как хостится R1 у разных провов.
Аноним 10/03/25 Пнд 19:07:42 #267 №1090318 
>>1090281
>Только зачем тогда эта сборка нужна, если карты можно и в мать+проц за 30к воткнуть
Затем, что карты чтобы запустить R1 стоят под 3 миллиона рублей. А сборка на эпиках - 600 тысяч.
Аноним 10/03/25 Пнд 19:07:55 #268 №1090319 
>>1090318
>>1090299
Аноним 10/03/25 Пнд 19:09:57 #269 №1090328 
>>1090254
> влезают
Все зависит от размера кванта, от 1к до много.
> 32б так вообще не помнит что было 5 сообщений назад
Чето неладное у тебя
>>1090268
Вроде как скорость и неплохая для проца, пока не вспоминаешь что там всего 30б активных и 16 каналов ддр5. Попробуй пожертвовать квантом и загрузить хотябы 16-32к контекста, можно с его квантованием, интересно что там будет на контекстах побольше.
Вообще, хз насчет эвала, но генерация должна быть быстрее, подобные показатели достигаются на ддр4.
Аноним 10/03/25 Пнд 19:14:59 #270 №1090340 
>>1090318
>Затем, что карты чтобы запустить R1 стоят под 3 миллиона рублей. А сборка на эпиках - 600 тысяч.
Мне кажется, что на теслах будет быстрее и дешевле :)
Аноним 10/03/25 Пнд 19:27:09 #271 №1090368 
>>1090318
В чем смысл платить 600к чтобы запустить р1 на оче низких скоростях?
Аноним 10/03/25 Пнд 19:28:16 #272 №1090373 
>>1090268
>Ну вот, теперь буду думать как собрать такой себе, и какой минимум по процам там нужен, и по памяти.
Если серьёзно, то сборка явно выйдет весьма так себе. Гораздо лучше сохранить эти деньги, ещё немного подкопить и подождать чего-нибудь получше.
Аноним 10/03/25 Пнд 20:31:42 #273 №1090510 
>>1090373
>Если серьёзно, то сборка явно выйдет весьма так себе
бгг мы тут собираем говнориги на прожареных видяхах, буквально тратим деньги на одноразовый мусор а уж про тесловодов я даже говорить не хочу. У него хотя бы будет хороший сервер, а не куча бесполезного мусора. Ты либо собираешь на говносборку и крутишь на ней хоть что-то, либо идёшь работать и арендуешь мощности. Вариантов больше нет кумить на 12Б
>Гораздо лучше сохранить эти деньги
Положить на вклад под проценты.
>и подождать чего-нибудь получше.
Сколько ждать то? Там из анонсированного только эпл за 1,2 ляма что-то может показать, остальное чисто мистрали гонять годится по цене сборки на видяхах, но с меньшей скоростью.
Аноним 10/03/25 Пнд 20:47:50 #274 №1090555 
а какие фронтенды юзаете? мне бы что-нибудь без хуйни всякой вроде докера или установки экзешником
распаковал - запустил, со всеми данными прямо в папке, портабл версия
это пиздец, куда ни глянь - везде или установщик, или данные в аппдату сохраняются, или вообще платные функции
Аноним 10/03/25 Пнд 21:09:03 #275 №1090598 
>>1090510
> У него хотя бы будет хороший сервер
Ну если бы он на нем что-то считал, например, то аргумент был бы весомым. Правда тогда запуск нейронки был бы в низком приоритете при выборе. Иначе - для чего нормису сервер?
> Вариантов больше нет кумить на 12Б
Пары консумерских блеквеллов хватит?
Аноним 10/03/25 Пнд 21:09:11 #276 №1090600 
>>1090555
llamacpp + sillytavern
Аноним 10/03/25 Пнд 21:12:44 #277 №1090601 
>>1090555
>мне бы что-нибудь без хуйни всякой вроде докера или установки экзешником
>распаковал - запустил, со всеми данными прямо в папке, портабл версия
Чел. Разберись в докере. Это буквально то что ты описываешь - 1 команда и стартанул, одна команда и потушил. Хочешь чтобы данные сохранились - запускаешь на старом volume. Хочешь чтобы новые были - на новом. Все юзают кто хоть чуть-чуть айтишник.

btw, юзаю open webui
Аноним 10/03/25 Пнд 21:15:49 #278 №1090606 
>>1090555
У ламы надо скачать её и либы cu12, положить в одну папку, запускать батником

@echo off
llama\llama-server -m "C:\LLM\MODELNAME.gguf" --port 5001 --ctx-size 32768 --n-gpu-layers 30 --cache-type-k q8_0 --cache-type-v q8_0 --mlock --no-mmap --log-colors --no-context-shift
pause

пауза чтобы увидеть лог если что-то пойдёт не так

В таверне:
API - Text Completion
API Type - llama.cpp
API URL - http://localhost:5001/
Аноним 10/03/25 Пнд 21:41:34 #279 №1090648 
>>1090269
Ты буквально машине отпиливаешь колеса. =)
Нахуя тебе ризонинг модель без ризонинга?
Микроскопом гвозди забивать литералли.

>>1090268
Тебя назовут ебанутым, но ты шепни мне минимальные модели. )

———

Я тут запустил QwQ и попросил его сгенерить мне «средней сложности фэнтези-мир», чтобы поводиться.
Так он мне такую фантасмагорию сгенерил, я хуй знает как в ней люди-то живут, не то что приключаться.
Но уровень охуеть глубокий, аж дух захватывает.
Был бы фанатом какого-нибудь плейнскейпа — наверное дико кайфанул бы.
Пошел переформулировать просьбу… Возможно хорошие задатки.
Аноним 10/03/25 Пнд 21:54:03 #280 №1090670 
При помощи квена создавал персонажа. И когда я внес корректировки в личности персонажа, он написал, что учитывая эту информацию, нынешний он, иначе бы отреагировал бы на эти же события из его жизни.
Ух бля.
Аноним 10/03/25 Пнд 21:59:00 #281 №1090679 
>>1090261
> Тут учти, что это ризонинг модель — то есть, она в начале ДУМАЕТ, как тебе ответить, а потом уже отвечает. Время до первого токена большое (мысли не читай, ай-ай-ай!=), и экспериенс может существенно отличаться. Дело не в размере, а в подходе.
а зачем нужна думалка для рп?
Аноним 10/03/25 Пнд 22:25:55 #282 №1090748 
>>1090679
Да для рп хз, ризонинг модели же нужны для работы, для решения задач.
Но люди пробуют рпшить.

Типа, модель в начале обдумывает ответ, и это позволяет ей хитрить (не читаешь мысли — не знаешь, что она задумала), лучше понимать тебя. Но это все теория, на практике пока только тестируют.

Я бы для рп вот так сходу не брал бы QwQ, есть более классические модели. Куда торопиться.
Аноним 10/03/25 Пнд 22:52:25 #283 №1090801 
Я конечно понимаю, что это не так важно, но где 3д голова тянки с генератором голоса или лучше вообще напрямую без текстовой обработки основанной на токенах на смыслах и звуках, с которой можно разговаривать?
Аноним 10/03/25 Пнд 23:14:08 #284 №1090869 
>>1090261
> ризонинг модель — то есть, она в начале ДУМАЕТ
>>1090679
> а зачем нужна думалка для рп?
Если упростить то ризонинг состоит из двух частей: задроченное поведение при котором модель устраивает ретроспективу и или формирует краткий перечень самоинструктирования, или ударяется в долгие раздумья и переоценки; формирует финальный ответ опираясь на общий контекст и финальные выводы.
Первое в рп реализуется и может быть полезным (пусть не всегда), второе там вообще вся суть рп, когда нужно дать хороший и последовательный ответ с учетом большого объема произошедшего ранее. Если реализовать хорошо то это может быть полезным с точки зрения разнообразия и повышения перфоманса на мелких моделях/больших контекстах. Только не ультить, упарываясь в хлам, как делает это р1, все должно быть в меру.
>>1090801
> где 3д голова тянки
Хтонь же и все будет заканчиваться одним и тем же
Аноним 10/03/25 Пнд 23:27:28 #285 №1090913 
>>1090869
> 3д голова тянки
> все будет заканчиваться
Тыканием члена в монитор?

> упарываясь в хлам, как делает это р1
Я сейчас попробовал грока, р1 и квк. Грок мне понравился больше на старте, но у квк и р1 одинаковый подход — предлагать варианты развития событий. Думается мне, надо поработать над промптом (я прям хуйню написал, конечно, с первого раза). Чтобы игра шла в нужном мне формате.
Но буду экспериментировать, мне прям понравилось. Чувствуется небольшой качественный скачок относительно обычных моделей. И мысли под катом — это приятно, когда не знаешь, что ждет тебя впереди, но модель уже продумала заранее…
Аноним 11/03/25 Втр 00:18:41 #286 №1091014 
>>1090601
>1 команда и стартанул, одна команда и потушил
1 команда на удаление, одна на заход в консоль... Ебала ещё та, даже ели игнорить оверхед.
Аноним 11/03/25 Втр 02:59:23 #287 №1091165 
>>1090801

В плагинах таверны найди live2d и подцепи там модельку к персонажу.
Аноним 11/03/25 Втр 03:09:44 #288 №1091169 
>>1088007
>уменьшилось, нет тех трех секунд:

У тебя и контекста нет, судя по логу.
Аноним 11/03/25 Втр 03:50:09 #289 №1091180 
>>1091165
Где ж её взять, эту модельку.
Аноним 11/03/25 Втр 04:24:27 #290 №1091198 
>>1091180

Ищи в гугле сборники live2d моделек, я так например нашел модельки всех тяночек коносубы.
Аноним 11/03/25 Втр 08:30:59 #291 №1091288 
>>1090555
llamacpp + llama-swap + sillytavern
В чем прикол llama-swap?
https://github.com/mostlygeek/llama-swap
Это прозрачный прокси сервер для llama-server, который может загружать те модели что ты добавишь в его конфиг, выбирая их из интерфейса таверны
Тоесть на настройки llama-server и написание к нему батников можно положить хуй, один раз добавил в конфиг прокси сервера и забиваешь
Удобно
Аноним 11/03/25 Втр 08:40:04 #292 №1091289 DELETED
pass
Аноним 11/03/25 Втр 08:43:00 #293 №1091291 
>>1090268
Ты наверное обычную лламу проверял? Там надо модифицированную запускать специально под R1
https://www.reddit.com/r/LocalLLaMA/comments/1j6rngt/simple_inference_speed_comparison_of_deepseekr1/
Аноним 11/03/25 Втр 09:08:04 #294 №1091311 
https://github.com/ikawrakow/ik_llama.cpp
А прикольно кстати, не только для r1.
Там модификации для любых процессорно запускаемых сеток, так что любители запуска на процессоре получат буст скорости, местами аж до 2 раз
Выше теоретической от скорости памяти конечно не прыгнуть, но выглядит любопытно
Аноним 11/03/25 Втр 09:23:06 #295 №1091332 
>>1091291
я вообще на олламе запускал. Не понимаю неприятия олламы в этом треде. Я многократно сравнивал скорости - так же работает, как, например, exllama2. Ну и в 2 клика буквально установка и запуск любой модели, включая 500-гиговые.
Аноним 11/03/25 Втр 09:31:53 #296 №1091341 
>>1091332
У нее свой нахер не нужный анало говнетный формат файла, обычные ггуфы она не ест. Нужна какая та трансформация, доступная только на линукс
+ у нее настройки запуска где то в жопе и обычный пользователь олламы забудет о своих 2 кликах когда будет погружаться в олламу чуть больше обычного интереса
На сколько помню контекст она ставит на 2к всем моделям, хочешь изменить лезь в конфиг
Модели так же качает 4 квант, вроде даже тупо 4_0, пока сам не укажешь нужный тебе
Хуета как по мне неудобная, проще скачать нужный тебе ггуф и запустить лламасервер или тот же кобальд
Ну или вон выше через запускаемый 1 кликом llama-swap который так же как оллама дает возможность менять модели из фронтенда

Отдельная неневисть к олламе идет от тех кто знают их историю, где они очень неохотно признавали что их проект является форком лламаспп по сути крадя внимание и чужой труд проекта
Аноним 11/03/25 Втр 09:32:39 #297 №1091342 
>>1091332
Ну, очевидно, не так же, а чуточку медленнее, как и любая ллама.спп.
Но, оллама — это сервис, под капотом которой находится обычная ллама.спп (аналог кобольда, убабуги, ллама-спп-пайтон, лмстудио etc), с неудобным (отсутствующим) интерфейсом и реализацией загрузки своей модели.
Llama.cpp — все тоже самое, только удобнее, и запускать надо сделать ярлычок, а не оно само при старте компа. Но сделать ярлычок в автозапуске настолько сложно, чтобы ебаться с файлами для запуска своих моделей? Звучит как бессмысленная трата времени и сил.

> в 2 клика буквально установка и запуск любой модели, включая 500-гиговые.
1. Не любой модели, а из списка, насколько я помню.
2. Кобольд — это тоже самое, но в 1 клик.

В чем плюсы? :) А автозапуске?
Аноним 11/03/25 Втр 09:40:27 #298 №1091345 
>>1091332
>>1090268
>>1090368
Ну и дополню. По итогу теста - r1 и v3 выглядят очень закошмаренными. Я не нашел вообще для себя причины их использовать. Особенно учитывая что надо под них собирать отдельный стенд для инференса на ddr5. Такие дела.

>>1091341
Ты ошибся практически во всем. Все настройки, такие как контекст - есть в API, кручу на гуях open webui. И если хочешь - в конфиге службы можно тоже ставить. Качает те модели которые выбрал, и которые запушены - есть обычно практически все кванты и способы квантования. Я не любитель редких моделей, так что меня отсутствие некоторых не очень беспокоит.
По поводу неудобства - ну это конечно интересное мнение. Оллама буквально ставится в 1 команду в консоли, и во вторую качает модель. И всё, юзай через отдельный фронт. Который тоже из образа ставится в 1 команду. В 10 раз точно проще чем решения, в которых ты каким-то макаром сам качаешь сотню файлов модели с хаггингфейса.

>>1091342
Читани плюсы выше. Главный в том, что на любой платформе она ставится и качает модель в пару кликов. Фронт в 1 докер-команду ставится локально. Я находил из нужных мне моделей буквально 1 или 2 которые хотел бы попробовать и на олламе их нет. И кобольд - не то же самое, там фронт и бэк на 1 машине. И модели он качает? Я юзаю 123b, мне запарно их качать с хаггингфейса обычно. Хотя какие-то там есть скрипты, помнится.

Насчет скорости инференса - разницы я вообще не увидел, она где-то для меня была 1 десятую токена в секунду. И контекст лезет тот же. И еще и крашится, если заюзал больше - слои сами не выгружаются в оперативку в случае чего.

Оллама она такая, чтобы кликать меньше.
Аноним 11/03/25 Втр 11:02:10 #299 №1091423 
>>1091345
> Я не любитель редких моделей
Ты в треде «редких моделей». =)
И спрашиваешь «почему вам не нравится этот лончер».
Угадай. =)

> сотню файлов модели с хаггингфейса
Буквально нигде. =)
Т.е., в 0 раз проще ничего.

> Главный в том, что на любой платформе она ставится и качает модель в пару кликов.
Это не плюс, это база. Большинство лончеров ставится на любой платформе, модель ты везде качаешь в пару кликов. Не понятен сам смысл, почему ты считаешь обычную практику, возникшую до олламы, плюсом олламы.

> И кобольд - не то же самое, там фронт и бэк на 1 машине.
Тебя никто не заставляет юзать фронт. Большинство людей в треде используют кобольд как бэк. Как более простой и удобный бэк.

> И модели он качает?
Нет, модели качаешь ты 1 кликом.
ЗАмечу, что оллама «модели не качает», учитывая, что не все модели там есть, а твое мнение «редкие не интересны» — это именно мнение, и нерелевантное в данном треде.

Так что, модели ни оллама, ни кобольд сами не качают, но кобольд их открывает сам, а для олламы надо запилить доп.файл ручками, потому что она, бедненькая, не умеет открывать модели просто так (и, да, это архитектурное решение авторов).

> Я юзаю 123b, мне запарно их качать с хаггингфейса обычно.
Запарно ткнуть левой кнопкой мыши? Я не понимаю, о чем ты, просто.
Ты, типа, качаешь кучу (два) файла и… что? С ними ничего не надо делать, просто открываешь первый из них и все, все остальные автоматом подтягиваются. Не нужны никакие скрипты, просто скачай их как файлы в одну папку и все. =) Скрипты по объединению нарезанной модели в одну, что ли? А оно тебе надо? Это исключительно эстетический скрипт.

> разницы я вообще не увидел, она где-то для меня была 1 десятую токена в секунду
Ну, или 5%, но ты их не увидел просто, ок.
Не суть важно, на самом деле, пруфов, что exllama лучше llama.cpp во всем, но минорно — куча. Тут никто (кроме шизов) не заставляет, тащемта, пользоваться именно экслламой. На вкус и цвет.

> И еще и крашится, если заюзал больше - слои сами не выгружаются в оперативку в случае чего.
Ну, за скорость, точность и прочие минорные плюхи надо платить тем, чтобы не быть бомжом, да. Впрочем, уже не крашится и выгружается в shared memory, но с уменьшением скорости.

Оллама она такая — чтобы кликать меньше, чем в Exllamav2, но больше, чем в Кобольде.
Ради автозапуска и все.

На вкус и цвет. Здесь люди используют кастомные модельки, а не базовые, поэтому им ебаться сто лет с олламой ради запуска каждой новой модели не интересно.

Надеюсь, это отвечает на твой вопрос, почему ее тут не любят. =) Потому что модели кастомные, а кликов больше, чем в кобольде.
Аноним 11/03/25 Втр 11:04:44 #300 №1091425 
Думаю, если бы это был тред домохозяек, которые настраивают HA, то оллама была бы в почете, офк. Установил один раз, выбрал модель популярную, запустил и забил. Звучит как база.
Еще бы настроить макс_конкурренси, конечно, но это мелочи.
Аноним 11/03/25 Втр 11:12:12 #301 №1091435 
>>1091423
Ну я понял, что каждый свое болото хвалит, на моменте, где ты продолжаешь говорить о том, что кобольд - более простой. Притом что ollama ставится в 1 консольную команду буквально. Модель в ней качается в 1 консольную команду. Чем кобольд проще, выходит? Там это в 0 команд делается? Или заход на сайт и клики там, выбор места сохранения, итд - считаются чем-то проще?

>Нет, модели качаешь ты 1 кликом.
Я не умею качать модели, состоящие из 80 частей на huggingface, одним кликом. Как это сделать? Учитывай, что речь об отдельном стенде с линуксовой консолью, доступной по ssh.

В целом - спор не о чем. Так что все вопросы с позиции добра.
Аноним 11/03/25 Втр 11:13:29 #302 №1091438 
>>1091425
>Еще бы настроить макс_конкурренси, конечно, но это мелочи.
Можно чуть больше деталей? Что это и зачем.
Аноним 11/03/25 Втр 11:51:08 #303 №1091477 
>>1091435
Чел, ты буквально в глаза ебешься.
1. Олламу надо устанавливать. -
2. Консольной командой. -

Кобольд просто скачал и запускаешь мышкой. Никаких консольных команд и установок.

1. Модель качается консольной командой. -
2. Или не качается, если ее там нет. -

> Или заход на сайт и клики там, выбор места сохранения, итд - считаются чем-то проще?
Рофлан ебало, прикинь, графический интерфейс (GUI) считается проще, чем командная строка (CLI). =)

> Я не умею качать модели, состоящие из 80 частей на huggingface, одним кликом.
Ну, сочувствую, что ты настолько ничего не умеешь.
А ведь это делается 1 командной строкой. хд Как ты любишь.

И вообще, скинь хоть одну 123B GGUF модель в 80 частей. Не нарезанную специально на 1-гиговые файлы.
Я просто хочу посмотреть на полет твоей фантазии.

>>1091438
Спросите у специалиста олламы, для него это просто, всего лишь 1 консольная команда… xD
Аноним 11/03/25 Втр 11:56:31 #304 №1091486 
https://huggingface.co/unsloth/DeepSeek-R1-GGUF/tree/main/DeepSeek-R1-BF16

671B модель в BF16 (для фанатов плацебо) —всего 30 файлов, а не 80.
Ну так, справедливости ради.

Так же, справедливости ради, 4 команды для клонирования конкретной папки, а не 1, да.
Аноним 11/03/25 Втр 12:25:39 #305 №1091503 
>>1091477
>Рофлан ебало, прикинь, графический интерфейс (GUI) считается проще, чем командная строка (CLI). =)
Рофлан ебало, действительно. Уважаемая позиция. Про отсутствие графического интерфейса на стенде, на котором это всё стоит, и то что там кобольд точно так же ставился бы через консоль - мы не будем говорить в этом треде, очевидно. Это уж точно слишком сложно.

Но я не критикую. Более того, извиняюсь за то, что ожидаю технической грамотности (на уровне консолей линукса то, ну и грамотность конечно) от тех, кто занимается настройками инфраструктуры языковых моделей. У меня действительно проф. деформация.
Аноним 11/03/25 Втр 13:16:41 #306 №1091600 
Да ладно вам, спор из разряда "огурец или помидор"
Кому что больше нравится
Аноним 11/03/25 Втр 13:27:41 #307 №1091623 
>>1091503
Технической грамотности? Так проблема с ней у вас.
Мне не проблема настроить все через консоль. А вы даже гитом пользоваться не умеете, ведь вам тяжело с обниморды скачать несколько файлов одной командой, и про huggingface-cli не в курсе. Ну, как бы, чья бы корова мычала.

К тому же, тред не про стенд, на котором все стоит, а про домашний ПК.

В общем, вы смешной, но глупый человек, а над глупыми смеяться грешно, поэтому мы не будем.

Живите своими фантазиями, в вашем мире — вы целиком правы. =) И гита не существует в консоли, и окон на рабочем столе, все так.

>>1091600
Ну, я так и сказал, но оппонент стал спорить, мол, нет, огурец точно лучше. В треде про помидоры.
Думаю, вы будете правы, когда начнете добавлять огурцы вместо помидоров везде, и при этом всем будет нравится. =)

Как и против олламы с ее домохозяйками, не имею ничего против огурцов, но всему свое место. =)
Аноним 11/03/25 Втр 13:56:29 #308 №1091681 
>>1091623
Этот переход на личности, и обосрамс в каждом посте. То у тебя 1 кликом качаются модели c huggingface, то нагугленный наспех huggingface-cli, которому нужна отдельная установка дополнительно к твоему бэкенду, и рега во многих случаях, становится однокнопочным решением, проще чем ollama, которая сама качает модели. Полный пиздец. Какие-то окна на рабочем столе. Тебя протыклассники обидели, и ты сюда пришел самоутверждаться, или в чем причина тряски?
Аноним 11/03/25 Втр 14:01:09 #309 №1091687 
>>1091623
Так, ладно. Я прошу прощения. Всё. Больше не срусь. Хочешь - ответь еще раз, и дальше не сремся. Достаточно.
Аноним 11/03/25 Втр 14:25:36 #310 №1091734 
>>1090913
> в монитор
В голову отца
> качественный скачок относительно обычных моделей
А что обычными было?
>>1091332
> неприятия олламы в этом треде
Потому что оверхайп параша, в которой за легкость первого запуска приходится расплачиваться неудобствами и сложностью настройки, вплоть до полного ахуевания с логики автора и количества хардкода. В этом треде скачать лаунчер и натравить его на скачанный гуф для большинство сложностей не составляет, что нивелирует плюсы олламы, зато минусы жрать придется постоянно. Понять можно разве что каких-нибудь амд-страдальцев, для которых все уже заготовлено.
> сравнивал скорости - так же работает, как, например, exllama2
На актуальном железе и не близко, там по дефолту не самая быстрая сборка llamacpp. Ну а на контексте уже и оригинал проседает, увы.
>>1091341
> обычные ггуфы она не ест
Ест, но запускать их неудобно, и даже промт формат чаткомплишна может отвалиться когда эта тварь обнаружит нестыковку с известными хешами заготовок, которыми автор кормит с лопаты.
>>1091345
> r1 и v3 выглядят очень закошмаренными. Я не нашел вообще для себя причины их использовать. Особенно учитывая что надо под них собирать отдельный стенд для инференса на ddr5
Все так. Офк с оговоркой что для определенных задач они хороши, но это не стоит вложений.
>>1091435
Да причем тут болото, оллама вполне имеет право на жизнь. Но ее за каким-то хером адово пиарят и представляют вовсе не тем чем она является, судя по мимолетному экспириенсу. Это как всратейший еом телефон положить в красивую йоба упаковку как у дорогихмоделей ведущих брендов, а потом снимать анбоксинг и нахваливать.
Аноним 11/03/25 Втр 14:36:25 #311 №1091751 
image.png
>>1087716
Лучше базовой Джеммы-2 ещё не придумали.
Аноним 11/03/25 Втр 14:41:56 #312 №1091763 
>>1091687
Чувак, выпей таблетки. То ты высираешь кучу шизы на меня, то извиняешься тут же, и пишешь, что не срешься (пиздишь же, если не выпьешь). Хватит проецировать свои проблема с одноклассниками на адекватных людей, реально, займись своим психическим здоровьем, я за тебя уже волнуюсь.

Ну и чтобы тебе было полегче — я не обижаюсь, обида в принципе деструктивное чувство. Репутацию ты себе застолбил чсвшного школьника, но это ж двач, тут 70% такие же как ты, все анонимно, так что и тут можешь не париться.

Главное, здоровьем займись, без шуток. А то боизно за тебя.
Добра и здоровья! =)

>>1091734
Ризонинг выдают более богатые и структурированные описания, интересные миры, сходу описывают больше персонажей, и в общем это выглядит… глубже и увлекательней. Но, повторюсь, скачок небольшой, то есть на уровне «о, стало лучше!», а не прям вау-вау.

Сейчас играюсь с промптом Алетейана, обрезаю и удаляю лишнее, что-то перефразирую на свой вкус. Хочу получить стабильный результат от QwQ на старте, а потом уж дальше.

Но это все о водилке/адвенче, а не диалог-рп.

Плюс, сильно портит то, что QwQ на долгих дистанциях плох в русском, а я ленивое хуйло ваш англюсик учить, и хочу ру-рп. Тем не менее, эксперименты продолжаются. =)
Аноним 11/03/25 Втр 15:35:39 #313 №1091889 
>>1090264
Чувак просто слышал звон но не знает где он.
Суть в том что все существующие модели очень хуево используют информацию из больших пластов контекста, и реагируют по большей части только на начало и конец.
Это когда к примеру у тебя в середине контекста есть запись про то что ты любишь красный цвет. Если спросить модель напрямую в твоем любимом цвете, она найдет эту информацию, но если не спрашивать, а просто придумать ситуацию когда эта информация уместна, модель в 99.98% и не вспомнит об этом. И чем жирнее контекст тем хуже.
Аноним 11/03/25 Втр 15:43:59 #314 №1091929 
>>1091889
> Чувак просто слышал звон но не знает где он.
не у всех так много времени, чтобы настолько глубоко погружаться в тему. спасибо, что делишься знаниями. не забывая при этом залупаться, как всегда
Аноним 11/03/25 Втр 15:47:36 #315 №1091938 
>>1091889
> 99.98%
Статистика или пук?
Аноним 11/03/25 Втр 15:58:00 #316 №1091967 
>>1091763
> Ризонинг выдают более богатые и структурированные описания, интересные миры
Ну у них в целом встречается байас в начале очень сильно рандомить перед сужением, возможно это роляет. Хз, устойчивой работы от них не получалось, qwq новый надо найти время попробовать, может там норм.
>>1091889
Большие модели такое находят зирошотом, (правильный) ризонинг позволяет спровоцировать поиск этой информации и вытаскивание ее поближе.
Аноним 11/03/25 Втр 16:15:23 #317 №1092022 
>>1091929
Я рад что научил тебя чему-то новому, не за что.

>>1091967
Ризонинг это пока просто игрушка, хотя и перспективная, идеально для ассистентов, но то же РП она скорее портит, по крайней мере сколько я гонял текущие реализации.
Аноним 11/03/25 Втр 16:32:56 #318 №1092073 
>>1083681 (OP)
А на линухе в терминале как запускать? Что есть для этого.
Аноним 11/03/25 Втр 16:36:14 #319 №1092076 
>>1092073
Через консольку.
Аноним 11/03/25 Втр 16:41:52 #320 №1092087 
>>1091751
Да, это пиздец заводит, непокорная сука.
Аноним 11/03/25 Втр 17:08:44 #321 №1092136 
Так, обещал поделиться интересными находками. Возможно, вы их такими не найдете, ибо я новичок, но вот:

https://huggingface.co/ReadyArt/Forgotten-Safeword-24B-V2.2_EXL2_6bpw_H8 Полностью влезла в 24gb vram с 32к Q8 контекста, пресет со страницы модели, Mistral V7 Tekken.
300 сообщений отыграл с удовольствием, дальше пока не успел.
Никакой позитивной наклонности, возможно, даже наоборот: спустя время игра стала смещаться к триллеру, а позже и хоррору. Много различных описаний местности, где находятся герои, с эмоциональной, немного литературной окраской в зависимости от настроения персонажа. Были всякие игры теней, шум электроприборов, завывания ветра, прежде чем персонаж вообще кукухой поехал и ушел в отруб, начав новую арку сюжета.

https://huggingface.co/MikeRoz/TheDrummer_Skyfall-36B-v2-4.0bpw-h6-exl2 Полностью влезла в 24gb vram с 24к Q8 контекста, пресет со страницы предыдущей модели, Mistral V7 Tekken.
Отыграл пока чуть меньше 400 сообщений.
Это первая 30b+ модель, на которой я играю (до этого сидел на 22-27b Кидонии, Магнумах), потому, возможно, впечатления именно такие. Модель какая-то более интерактивная в смысле взаимодействия с окружающей обстановкой, лучше запоминает различные детали контекста. Например, в первых тысячах контекста упоминалась конкретная лампа, то, как она выглядит. На последних тысячах контекста персонаж сам про нее вспомнил и описал ее так же, но иными словами, и провзаимодействовал. И в целом диалоги показались какими-то более натуральными, человечными. Мне кажется, у модели нейтральная/позитивная направленность, хотя, конечно, я пока не экспериментировал с промптом и не пытался ее направлять в иное русло.

До QwQ 32b Snowdrop пока не добрался, потому что еще не знаю, нужен ли мне reasoning вообще.

А у вас есть интересные находки? Делитесь!
Аноним 11/03/25 Втр 17:59:51 #322 №1092285 
>>1092136
1. Не скидывай на кванты, кидай на ориги, кто захочет — найдет квант для себя.
2. Не пиши что и во сколько влезло, это чистая математика, и так очевидно. =)

А вот остальное хорошо, отзывы написаны норм, продолжай. =)
Аноним 11/03/25 Втр 18:00:59 #323 №1092288 
Анончоусы, хз по адресу ли, но какие топовые локалки сегодня для кодинга?
По-прежнему квен2.5кодер?
Аноним 11/03/25 Втр 18:03:36 #324 №1092294 
>>1092288
Вроде как QwQ чуть лучше, но я не кодю последние недели, поэтому хз, не личный опыт.
Аноним 11/03/25 Втр 18:04:14 #325 №1092297 
>>1092288
QwQ, но оно медленное. В локалках вообще печально с кодингом по сравнению с тем же R1.
Аноним 11/03/25 Втр 18:15:33 #326 №1092316 
>>1092297
>32б
>медленное
А куда быстрее уже? Там наверное 30-40 т/с на 4090, если r1 70б на 2х 3090 дает 20 т/с
Аноним 11/03/25 Втр 18:40:05 #327 №1092382 
>>1092316
Медленное потому что каждый ответ по 5к токенов. Будешь ждать по 5 минут ответов. Даже R1 больше 10-15 секунд не думает.
Аноним 11/03/25 Втр 18:43:32 #328 №1092396 
>>1092136
>До QwQ 32b Snowdrop пока не добрался, потому что еще не знаю, нужен ли мне reasoning вообще.
Просто не включай его.
Аноним 11/03/25 Втр 19:02:45 #329 №1092439 
Тут вроде тред успешных людей, выходило ли что новое из 70-72б?
Аноним 11/03/25 Втр 19:04:35 #330 №1092447 
1631947128867.png
>>1090318
Проще яблоко купить. Оно в разы быстрее твоего кала.
Аноним 11/03/25 Втр 19:07:58 #331 №1092461 
>>1092447
Вау. Это реально? 20 токенов в секунду, на 4 квантах и полностью локально? Походу я себе это куплю.
Аноним 11/03/25 Втр 19:11:11 #332 №1092469 
изображение.png
Мда, зашёл на помойный фотохостинг без блокировщика...
Аноним 11/03/25 Втр 19:20:45 #333 №1092491 
>>1092461
По скорости Ультра чуть медленнее 3090, так что всё честно, 36В эксперты под 20 т/с работают. Но ты учти что 512-гиговая версия вроде 10к баксов стоит. Хотя это не сильно много, если ты готов 600к отдать за ведро ядер амуды как то чел.
Аноним 11/03/25 Втр 19:23:34 #334 №1092506 
>>1092087
Не то слово. А главное её можно в процессе сломать полностью. Весь сок в "заболтать". Сочувствую любителям дженерик_рп_тюнов читать как их ИИ-шлюшка течёт и на всё согласна через раз.
Аноним 11/03/25 Втр 19:48:46 #335 №1092564 
>>1092396
Как?
Аноним 11/03/25 Втр 19:52:35 #336 №1092575 
>>1092447

Это яблоко и есть та же самая сборка на эпиках, только за полтора милиона вместо 600к.
Аноним 11/03/25 Втр 19:58:57 #337 №1092598 
>>1091751
речь про базовую гемму 2 27б на локалке? 8к контекста не мало?
Аноним 11/03/25 Втр 20:05:13 #338 №1092611 
Finally, я придумал как делать RL файнтюн под рп, с reward моделью.
Итак, рецепт довольно прост, но требует многократной генерации разнообразных диалогов той же моделью, над которой мы работаем. Это самый потенциально опасный этап, который может поломаться и все засрать.
Начинаем с того, что при генерации диалогов мы вносим в модель шум (в логиты, либо в саму модель, активации, атеншн) в соответствии с подобранным распределением. То есть не просто постоянными блоками с одинаковой периодичностью, а как-нибудь менее тривиально.
Итого мы получаем данные, которые полностью размечены как участки которые генерировала плохая модель и хорошая модель.
На этих данных мы обучаем reward модель под задачу бинарной классификации каждого токена текста. Модель должна периодически обновляться в процессе RL, но она может быть любой, как лучше так и хуже основы. Ее задача не так уж и сложна и мы хотим, чтобы модель обобщилась не только определять испорченные кустки текста, но и выделять участки в неиспорченных диалогах как лучше/хуже.
Дальше обучаем рп модель на размеченных reward моделью чистых диалогах, маскируя все токены, которые были помечены как плохие.
Так мы достигаем двух целей, во первых модель не учится генерировать плохое, а во вторых видя плохое в контексте модель будет стараться выдавать лучший аутпут а не такой же.

Есть вероятность, что можно вообще обойтись без reward модели и учитmся только на частично поломанных диалогах с такой маскировкой токенов.
Это чем-то напоминает дистилляцию CFG, но в ллмках мы можем применять СFG только к отдельным токенам а не целым последовательностям, для этого бы в процессе инференса пришлось как минимум делать beam-search с CFG, непонятно как это все вычитать потом, а в моей схеме оно само дистиллируется идеально в теории.

Только надо тщательно подбирать гиперпараметры, такие как средняя длина сломанных участков, их распределение, силу вмешательства в модель, а то и навесить планировщик на все это сверху. Да и как-то валидировать прогресс надо, может так чтобы данные были не всегда на ~50% сломаны, а добавить отклонение и чтобы reward модель давала общую оценку качества текста.

Дипсик был обучен куда более простым способом и тупым способом, а эта схема прям выглядит гениально по сравнению с ним, и ее судя по всему можно применить не только под рп, а даже под задачи которые не имеют известного решения. Будет долго и шумно, но по идее работать должно.
Аноним 11/03/25 Втр 20:06:45 #339 №1092616 
>>1092447

Я правильно понимаю что яблоко просто собрало серверный комп с дохуяканальной ддр5 и теперь втюхивает лохам за тройную цену?
Аноним 11/03/25 Втр 20:10:29 #340 №1092622 
>>1092616
У яблока 800 гб/с память. Серверной амуде и не снилось такое.
Аноним 11/03/25 Втр 20:10:46 #341 №1092623 
>>1092575
Эм, они давно уже не собираются на интулах.
>>1092616
Нет. Каналов там вроде 8, и они распаяны, лол.
Аноним 11/03/25 Втр 20:20:24 #342 №1092654 
>>1092447
13т/с на q4 70b, не плохо но и не густо.
>>1092461
> 20 токенов в секунду
30б активных параметров, это же нормально. Надо вообще посмотреть производительность чипа в расчетах, но скорее всего там будет все грустновато. Говорят что около 14токенов получали в тесле, но это уже у владельцев стоит спрашивать.
>>1092506
> как их ИИ-шлюшка течёт и на всё согласна через раз
А ты ей сам отказывай и дразни, не менее интересно будет.
>>1092616
Не совсем, упрощенно говоря там хитрый комбайн вместо чипа, который, с одной стороны, имеет среднюю общую производительность, но при это оснащен оптимизированными высокопроизводительными блоками для определенных типов расчетов, на которые делается ставка в бенчмарках и основных задачах, и быструю память чтобы это обслуживать. С памятью есть нюансы со структурой банков памяти и таймингами.
Аноним 11/03/25 Втр 20:59:00 #343 №1092816 
>>1092622
>У яблока 800 гб/с память.

Но такая скорость возможна только если там многоканальная оперативка, не?
Аноним 11/03/25 Втр 21:03:22 #344 №1092832 
>>1092816
Они могут без проблем наделать на АРМе кучу каналов и распаять память поближе к ЦП, упираясь только в скорость самих чипов. Это на десктопе плашки в километре стоят и амуда/инцел жопят каналы.
Аноним 12/03/25 Срд 00:01:49 #345 №1093295 
>>1083681 (OP)
На коллабе гугл транслейт разучился переводить, раньше он составлял осмысленные предложения, а сейчас это практически в худших традициях промта, будто каждое слово вне контекста отдельно переводится.
Это гугл сломал русский язык специально?
Аноним 12/03/25 Срд 00:49:14 #346 №1093349 
Завтра (сегодня) выйдет gemma 3. Мониторьте.
Аноним 12/03/25 Срд 00:56:05 #347 №1093356 
>>1093349
Надежды мало на что-то хорошее, если смотреть на их Gemini Flash. Я сильно сомневаюсь что они выкатят модель лучше Флеша, который за бабло продают.
Аноним 12/03/25 Срд 01:03:20 #348 №1093361 
>>1093356
>Я сильно сомневаюсь что они выкатят модель лучше Флеша, который за бабло продают.
Выкатят может и лучше, только это будут дистиллированные веса от их хорошей оптимизированной модели в обычный трансформер.
Дистилляцией учить даже неоптимизированную модель недолго, и ничего толкового ты с ней потом не сделаешь, даже если перелить в оптимизированную, это будет еще более тупой дистиллят дистиллята, да и исходная модель наверняка была намного умнее и больше.
Аноним 12/03/25 Срд 01:40:42 #349 №1093377 
>>1093349
Хотеть! Откуда инфа?
>>1093356
А мне флеш понравилась, особенно ее мультимодальность.
>>1093361
> от их хорошей оптимизированной модели
> в обычный трансформер
> неоптимизированную
> даже если перелить в оптимизированную
Можешь дать подробные пояснения по этим сочетаниям что употребляешь?
Аноним 12/03/25 Срд 02:01:00 #350 №1093398 
>>1093295
>Это гугл сломал русский язык специально?
Да. У него периодически случаются обострения. Может со временем вернут.
Аноним 12/03/25 Срд 02:28:05 #351 №1093417 
>>1093377
>Можешь дать подробные пояснения по этим сочетаниям что употребляешь?
Ну вот у гуглов есть гемини, она внутри хорошо оптимизирована, как дипсик а может и лучше, МОЕ там, латентный атеншн. Компания пидорасов конечно же такую архитектуру просто так не сольет, поэтому возьмет обычную архитектуру уровня гпт2 с минорными оптимизациями и обучит ее дистилляцией. Плотная модель будет перформить на конечных устройствах в 20 раз хуже, но кого это волнует если не гуглы будут ею пользоваться?
При этом сама модель может быть не тупее флеша, она просто будет намного дороже в инференсе.
Аноним 12/03/25 Срд 02:52:47 #352 №1093453 
>>1093417
С такими познаниями лучше поменьше фантазируй или сразу подписывайся васяном, бредишь.
Аноним 12/03/25 Срд 03:02:33 #353 №1093458 
>>1093453
Аргументированного опровержения "бреда", конечно же, не будет.
Аноним 12/03/25 Срд 03:19:10 #354 №1093465 
>>1093458
Ну представь, на улице к тебе подойдет поехавший дед, и начнет рассказывать что сосед облучаешь его из микроволновки, инопланетяне хотят вставить ему анальный зонд, а все потому что он придумал как осуществить холодный синтез для производства электроэнергии. Кем нужно быть чтобы начать его "аргументированно опровергать"?
Если в настроении - можно послушать и поугорать над ним, если нет то сразу нахуй шлешь и говоришь что он долбоеб поехавший. Вот твой статус обозначен, орнул с латентного оптимизатора.
Аноним 12/03/25 Срд 03:29:04 #355 №1093467 
>>1093465
Не тебя ли называют семлерошизом? Знакомый почерк и уровень доёба без единого аргумента с апломбом что вокруг все тупые шизы которые ничего не понимают.
Аноним 12/03/25 Срд 03:41:09 #356 №1093469 
>>1093467
Порвался и пошел своих протыков искать, ай лолита. Чел, шиз - ты, как раз из тех кого описываешь. Все понимание построено на шизоабстракциях да фантазиях, зато уже все порешал и оценил. А главная мотивация постов - коупинг невозможности, что хорошо выдают акценты претензий и особенности манямира с "оптимизированными мое".
> без единого аргумента
Струя по штанине бежит и вопишь "докажите!", как умилительно.
Аноним 12/03/25 Срд 03:46:58 #357 №1093470 
>>1093469
Семлерошиз, успокойся, антидепрессантов попей, только не устраивай очередную истерику на ровном месте.
Ты у нас самый умный, ты у нас все знаешь, тише... тише...
Аноним 12/03/25 Срд 03:49:50 #358 №1093471 
>>1093470
Нарекаю тебя коупинг мастером.
Аноним 12/03/25 Срд 03:50:06 #359 №1093472 
А ведь гемма-3 может быть хороший.
А может быть и вл.
А может и мультимодалкой.
Уф. Кто знает!
Аноним 12/03/25 Срд 03:55:13 #360 №1093473 
1.jpg
>>1093471
Аноним 12/03/25 Срд 04:04:31 #361 №1093477 
>>1093473
Чел, в моих постах нет ни коупинга, ни нытья, ни неуместного использования терминов и понятий подобного твоим. Даже решил не сразу обоссать, а сначала спросил что именно там ты имел ввиду, но бред шизика только подтвердился. Любой адекватный человек хоть немного в теме прочитав тот пост сразу все поймет. Это же все равно что пиздюк из песочницы рассказывал бы о сейсмоустойчивости высотных зданий, только пиздюку незнания и фантазии простительны в силу возраста. Лучше бы занялся чем-то полезным, получив какие-то реальные знания и профиты для жизни, а не выстраивал сеть бреда.
Аноним 12/03/25 Срд 04:12:35 #362 №1093478 
>>1093477
Ладно, я тебя понял, все модели одинаковые, а оптимизировать ничего невозможно, гуглы выкатят гемму на такой же архитектуре какая у них на серваках крутится, ибо лучшего придумать нельзя.
Аноним 12/03/25 Срд 04:24:02 #363 №1093482 
1741111833198.png
>>1093472
>гемма-3 может быть хорошей
Аноним 12/03/25 Срд 07:11:39 #364 №1093563 
Блять помогите...
Почему они все такие тупые
Я на 12б такого не замечал, а тут новый квен/мистраль смол тупят просто пиздец забывая что в прошлом сообщении было не понимая вообще что происходит
Вот тян уронила на кухне сережку и жопой передо мной елозила, след сообщение "нашла?" Что? Пойду поищу на кухне"
Аноним 12/03/25 Срд 08:10:36 #365 №1093622 
Как же у меня хуй взорвался от магмела 12б после квена 32б просто выстрел на всю комнату в сравнении с жиденьким пуком в салфетку
Аноним 12/03/25 Срд 08:42:40 #366 №1093637 
Попробовал эту вашу модную LM Studio и могу сказать, что её делал настоящий выродок, кусок плоти, живое омерзение.

Чего только стоит импортирование моделей через командную строку, особенно когда ты каждый день пробудешь новые шизомиксы, не говоря уже о настройках, которые затолкали в жопу. А использование её в качестве бекэнда для таверны...

Но есть и плюсы. Скорость увеличилась на 20%, что может чудовищно решать при работе с моделями на грани и впихивать ещё более жирных скотин.

Однако программа явно не для анонов, а для каких-то РАБОТНИЧКОВ, ПИШУЩИХ КОД НА СВОЁМ ВЕЛИКОЛЕПНОМ QWEN 32B ВМЕСТО O1 ОТ OPENAI.
Аноним 12/03/25 Срд 09:25:21 #367 №1093665 
>>1093417
>Плотная модель будет перформить на конечных устройствах в 20 раз хуже
Разреженная модель всегда хуже.
Аноним 12/03/25 Срд 09:44:15 #368 №1093679 
>>1093637
>импортирование моделей через командную строку
На самом деле, необязательно. Можно указать папку с моделями, а в ней хранить модель по пути вида "автор/название_модели/конкретный_ггуф_файл". Тогда студия обнаруживает модель. Это там где-то описано в софтине при указании папки с моделями, нужно только внимательно прочитать. Хотя тоже гемор, конечно. Не понимаю, в чём была проблема проходиться по указанной папке с подпапками и открывать список доступных ггуфов.
Аноним 12/03/25 Срд 09:50:05 #369 №1093685 
Гемма-2 32В, как я понимаю, сейчас самый топ вариант для средних пк?
Аноним 12/03/25 Срд 09:52:24 #370 №1093688 
>>1093685
Она устаревшая очень.
Аноним 12/03/25 Срд 10:01:04 #371 №1093704 
>>1087716
А что то в этом есть. Что то определенно в этом есть.
Я попробовал на любимых карточках персонажей. Теперь персонаж "условно" мыслит. Это безумно помогает в РП. Но немного спойлерит действия, но дает живость персонажу. Теперь видно где может спотыкаться на карточке логика.
Короче: годно, поддерживаю и рекомендую.
Неиронично, сейчас это лучшая нейронка в своих размерах.
Гемме и мистрали пора на покой.
Аноним 12/03/25 Срд 10:07:06 #372 №1093715 
google-will-release-gemma-3-tomorrow.webp
>>1093685
Вроде бы сегодня обещают новую версию.
Аноним 12/03/25 Срд 10:09:19 #373 №1093717 
1661869029823.png
Погонял вашу Гемму 3. По мозгам норм, на стандартные вопросы типа полиморфизма отвечает, ожидал худшего. Но пиздец соевая, в отказы идёт от всего. Русский хороший, прям заебись. Кодинг говно, даже до квена 2.5 не дотягивает. Ждём релиза весов, в РП наверное будет новая база, если не обосрутся с форматом промпта.
Аноним 12/03/25 Срд 10:09:54 #374 №1093719 
Гемму 3 релизнули. 1b, 4b, 12b и 27b

Не ризонер :(

https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d
Аноним 12/03/25 Срд 10:15:21 #375 №1093725 
1687794883006.png
>>1093719
Скоры смешные. За год прогресса ноль.
Аноним 12/03/25 Срд 10:17:07 #376 №1093729 
>>1093717
>в отказы идёт от всего.
Интересно, насколько.
Если на уровне чатгпт, то терпимо.
Если ближе к Claude, то жаль. До сих пор не могу забыть, как попросил его немного литературно причесать рассказ с антинаталистической тематикой, так он выебываться начал, мол, не могу рассуждать на такие темы.
Аноним 12/03/25 Срд 10:18:12 #377 №1093731 
В чем профит страдать с локальной моделью, если локально мало реусрсов, перед покупкой апихи? Есть и русскоязычные проксирующие сервисы, есть и люди которые оплачивают зарубежные. Стоит недорого.
Аноним 12/03/25 Срд 10:24:14 #378 №1093742 
>>1093725
Плевать на скоры, как он в плане сэкса???
Аноним 12/03/25 Срд 10:25:07 #379 №1093745 
>>1093563
Вангую, семплеры как обычно. Я около года с TopP 40 сидел, все ответы были одинаковые, а когда заметил - охуел.
Аноним 12/03/25 Срд 10:33:12 #380 №1093763 
>>1093719
>>1093725
Это уровень 27б?
Сколько контекста?
Аноним 12/03/25 Срд 10:37:10 #381 №1093768 
>>1093763
>Сколько контекста?
128К
Нихуя не изменилось за год это все та же гемма 2, даже тренировка и архитектура и данные абсолютно блять такие же, просто прикрутили чтение картинок и 128к контекста
Всё нахуй. А ну и ещё сейфити и безопасность накрутили чтобы фемок случайно не обидеть возможно это одна из причин почему её вообще релизнули, гои готовы за бесплатно потестить продукт
Аноним 12/03/25 Срд 10:38:08 #382 №1093769 
>>1093768
>128к контекста
Это вин, больше ничего не нужно
Аноним 12/03/25 Срд 10:45:44 #383 №1093775 
>>1093768
Для рабочих задач она нахуй не нужна когда есть QwQ с ризонингом, а вот в рп может себя хорошо показать. Надо тестить. Рано делать выводы не погоняв модель.
Аноним 12/03/25 Срд 10:46:20 #384 №1093777 
1655035564338.png
>>1093729
>>1093742
В РП неюзабельно. Пишет складно и красиво, но на сексе сразу в отказ идёт. Ждём лоботомию.
Алсо, контекст жирный, на 1 гб памяти всего 2к. Максимальный контекст - 128к.
Кому нужны гуфы: https://huggingface.co/ggml-org/gemma-3-27b-it-GGUF
Аноним 12/03/25 Срд 10:46:20 #385 №1093778 
image.png
Кароч гемму уместили в 12б и дали нищукам возрадуйтесь, плюс контекст, интересно русик тоже будет как на 27б
Аноним 12/03/25 Срд 10:49:31 #386 №1093780 
>>1093775
>Для рабочих задач она нахуй не нужна когда есть QwQ с ризонингом
Видно что ты вообще с ней не работал, QwQ - эталонный пример оверфита на бенчи
>вот в рп может себя хорошо показать
Не покажет, там накрутили тонну фильтров и безопасной безопасности
Аноним 12/03/25 Срд 10:57:43 #387 №1093785 
>>1093731
Кому-то за логи боязно, кому-то платить не хочется, у кого-то - просто спортивный интерес разобраться и добиться результата в таких скромных условиях. Много причин может быть

>>1093777
Только вчера вторую версию пробовал, все отлично работало. Ну, за исключением того, что мне не понравилось. А какой у тебя пресет? Text completion, надеюсь?
Аноним 12/03/25 Срд 11:03:43 #388 №1093789 
1731045438490.png
>>1093777
Хотя она джейлится без проблем. Пока по ощущениям как локальный аналог Клода. Пишет прям очень похоже на Клода, форматирование постов стабильное, русский 10/10. Сейчас протестил на педофильской карточке с джейлом - отказов не словил. Инструкции выполняет очень хорошо. Пикрил для понимания как пишет.
Аноним 12/03/25 Срд 11:04:59 #389 №1093790 
2 месяца в тред не заходил. Появился какой нибудь лоботомит для кума, который на 8гб будет быстро генерить и не будет сразу в трусы лезть?
Аноним 12/03/25 Срд 11:07:27 #390 №1093792 
>>1093789
>отказов не словил
>на скрине буквально отказ
Вы от пизды их прикрепляете что ли?
Аноним 12/03/25 Срд 11:10:45 #391 №1093795 
>>1093679
Да, я эту инструкцию тоже видел, но это такая же мозгоебка. Даже с командой строкой быстрее дело идёт. Но я пока что не вижу причин переходить на студию, так как там нет нужных мне сэмплеров.
Аноним 12/03/25 Срд 11:11:33 #392 №1093796 
>>1093778
12б станет народной для файнтюна, 100%
Аноним 12/03/25 Срд 11:12:09 #393 №1093799 
>>1093792
Ты видимо не понимаешь что такое отказы. Отказы это когда модель отказывается РПшить на какие-то темы. Когда чар отказывается - это наоборот хорошее следование карточке, а не кумерский лоботомит, раздвигающий ноги при первой команде.
Аноним 12/03/25 Срд 11:13:04 #394 №1093800 
>>1093790
Никто не залезет тебе в трусы, если ты сразу будешь без трусов.
Аноним 12/03/25 Срд 11:15:37 #395 №1093804 
>>1093799
>Эти ваши отказы не такие отказы а вот это другие отказы и вообще карточка следует промпту!!
Въеби ещё копиума. Особенно когда твоя карточка будет продвигать левацкие идеи и что матерится вообще очень плохо.
Аноним 12/03/25 Срд 11:19:13 #396 №1093805 
>>1093804
Чего ты порвался-то? "Я тебя ебу - ты меня ебёшь" уже в 2023 считалось кринжем.
Аноним 12/03/25 Срд 11:22:23 #397 №1093807 
>>1093804
Если сток не нравится, дождись файнтюна. В чем проблема?
Магнум на Гемме 2 если что и продвигал, то только руки в трусы.
Аноним 12/03/25 Срд 11:27:47 #398 №1093812 
>>1093789
>джейлится
Какой систем промт?
Аноним 12/03/25 Срд 11:29:15 #399 №1093814 
image.png
Заебала привязка к встройке проца
но
Хули буквально ЗАТЫЧКА столько стоит?
Аноним 12/03/25 Срд 11:30:56 #400 №1093817 
>>1093778
Если 4б действительно настолько лучше прошлой 2б (которая экшели почти 3б), то в четвёртом кванте прямо тема для смартфонов. Если ещё и рп тьюны будут на этот размер, вообще кайф.
>>1093789
На скрине русский выглядит хуже, чем у рэндомного тьюна немо.
Аноним 12/03/25 Срд 11:33:56 #401 №1093821 
>>1093777

Аблитейтед подгонят уже сегодня-завтра.
Аноним 12/03/25 Срд 11:36:11 #402 №1093825 
>>1093814
Так вот если я её поставлю впритык к 3090 её хуево не станет?
Аноним 12/03/25 Срд 11:37:23 #403 №1093828 
>>1093817
>4b на смартфоне

Катати, пробовал кто итт такое?
Аноним 12/03/25 Срд 11:37:42 #404 №1093829 
image.png
>>1093349
Ебать мой хууй, неужели это случилось. Это эпичный день.
Гуфов ещё нет, пиздец. Думаю 1-2 дня ждать гуфов у топовых квантовщиков.
Аноним 12/03/25 Срд 11:37:55 #405 №1093832 
1680523488547.webp
>>1093725
It получше выглядит. Местами квен 72В поёбывает даже. Так что живём. Явно теперь будет базой для РП. Вторая была поломаной со всратым контекстом, поэтому и не взлетела, а тройку уже делали для людей.
Аноним 12/03/25 Срд 11:39:07 #406 №1093833 
>>1093829
Выше ссылка на гуфы, не долбись в шары.
Аноним 12/03/25 Срд 11:40:08 #407 №1093835 
>>1093829
>Гуфов ещё нет
>>1093821
>Аблитейтед подгонят уже сегодня-завтра
>>1093833
>Выше ссылка на гуфы
Неюзабельные в рп
Аноним 12/03/25 Срд 11:40:22 #408 №1093836 
>>1093778
>уместили в 12б и дали нищукам
2я джемма на 9б на русском до сих пор лучше всех существующих 999б, тестил. А 12б 3й джеммы это однозначно вин.
Аноним 12/03/25 Срд 11:42:08 #409 №1093839 
>>1093835

Нахуй ты это повторяешь как попугай?
Аноним 12/03/25 Срд 11:42:09 #410 №1093840 
>>1093835
>Неюзабельные в рп
скиллишью
Аноним 12/03/25 Срд 11:42:40 #411 №1093841 
>>1093835
> Неюзабельные в рп
Аблитерейт будут как обычно лоботомированные. Кумерам только тюнов ждать. А остальные на ваниле с джейлом посидят, сои не больше чем у Клода.
Аноним 12/03/25 Срд 11:45:44 #412 №1093842 
Ебать, что ни день, то праздник. Сначала qwq, сейчас Гемма.
Аноним 12/03/25 Срд 11:46:27 #413 №1093843 
Кому нравилась gemma2, тому похуй на всё, т.к. для них gemma3 это тупо апгрейд.
Аноним 12/03/25 Срд 11:46:46 #414 №1093844 
>>1093841
>джейлом
>>1093812
>Какой систем промт?

мнне тоже иннтереснно

blushed sending shivers down you spine
Аноним 12/03/25 Срд 11:47:26 #415 №1093845 
>>1093843

Были те кому она не нравилась?
Аноним 12/03/25 Срд 11:47:37 #416 №1093846 
>>1093843
>апгрейд говна до безопасного говна
Аноним 12/03/25 Срд 11:49:57 #417 №1093852 
>>1093845
>Были те кому она не нравилась
сухаё тупаё жё, а тёпёрь ёщё и соёвё-бёзопасноё
Аноним 12/03/25 Срд 11:50:53 #418 №1093853 
>>1093845
Например этот говноед с говномагнумом >>1093846 >>1093852
Аноним 12/03/25 Срд 11:51:30 #419 №1093854 
>>1093852
Ты глупенький правачок или просто ебанутый?
Аноним 12/03/25 Срд 11:56:26 #420 №1093857 
>>1093842
и обе говно в рп
Аноним 12/03/25 Срд 12:00:28 #421 №1093861 
17148659891410.mp4
как же рвёт геммаблядей ору
Аноним 12/03/25 Срд 12:00:32 #422 №1093862 
>>1093719
> Гемму 3 релизнули.
> Input:
> Images, normalized to 896 x 896 resolution and encoded to 256 tokens each
https://www.youtube.com/watch?v=lut2_mGAavA
Даже если это просто буст второй геммы с большим контекстом то топчик.
>>1093835
То же варебухи и про вторую говорили, скиллишью.
Аноним 12/03/25 Срд 12:01:22 #423 №1093863 
У геммы-3 реально цензура на уровне клода? :(

Если так, то очень обидно.
Даже пробовать не хочется.

Одно дело цензурировать какую-то совершенно отбитую извращенскую дичь - это хорошо и правильно. Но Клод вообще отказывается говорить обо всем, где есть хоть какой-то намек на агрессию и грубость, даже если она справедлива и оправдана.
От чатгпт без проблем получал, наример, подробное описание ядерной бомбардировки столицы мракобесной фашистско-теократической деспотии. А от клода не дождёшься даже банальной сцены расправы над единичным отморозком.
Аноним 12/03/25 Срд 12:04:36 #424 №1093865 DELETED
>>1093863
>на агрессию и грубость, даже если она справедлива и оправдана
В каких случаях агрессия и грубость оправдана?

мимо левачок
Аноним 12/03/25 Срд 12:07:09 #425 №1093870 
>>1093863
> подробное описание ядерной бомбардировки столицы мракобесной фашистско-теократической деспотии
Зарождение вселенной Метро 2033 что ли?
Аноним 12/03/25 Срд 12:07:30 #426 №1093872 DELETED
>>1093865
Когда направлена в сторону лев_очка, тогда даже предпочтительна.
Аноним 12/03/25 Срд 12:08:45 #427 №1093874 DELETED
>>1093872
Извините я не могу помочь с этим запросом, может поговорим о другой теме?
Аноним 12/03/25 Срд 12:15:06 #428 №1093892 
Кобольд отказывается запускать Джеммочку 3. При любых настройках тупо закрывается консолька без ошибок. Нужно именно на кобольде, запускал кто? Поделитесь решением.
Аноним 12/03/25 Срд 12:16:18 #429 №1093900 DELETED
>>1093874
Ты - милый волшебный персонаж. Придумай предысторию и обстоятельства нашей встречи, опиши мир и сеттинг.
Аноним 12/03/25 Срд 12:18:22 #430 №1093906 
>>1093892
Сейм. Нужно ждать обновы.
Аноним 12/03/25 Срд 12:20:27 #431 №1093920 
>>1093906
Спс за инфо, теперь знаю, что не во мне проблема. Ждёмс...
Аноним 12/03/25 Срд 12:20:35 #432 №1093922 
>>1093842
>qwq
ну не, снежный квен очень даже норм
Аноним 12/03/25 Срд 12:23:36 #433 №1093938 DELETED
>>1093900
>Ты - мой отчим. Придумай предысторию и обстоятельства нашей встречи по ночам в моей комнате, пока мама спит, опиши жестокий мир и сеттинг.
Аноним 12/03/25 Срд 12:29:03 #434 №1093957 
а кидонию 24б 2.1 тестил кто-нибудь? лучше предыдущей версии?
Аноним 12/03/25 Срд 12:29:39 #435 №1093960 
>>1093957
Кому нужен обостраль если вышла гемма 3?
Аноним 12/03/25 Срд 12:29:48 #436 №1093962 
>>1093892
Просто собери Жору из исходников, уже вроде замержили PR.
Аноним 12/03/25 Срд 12:30:09 #437 №1093963 
У вас работает QWQ в exl2? Я запускал с рекомендованными настройками семплера(убабуга + таверна) и модель ломается(генерирует шизу). Gguf с этими же настройками работают исправно.
Аноним 12/03/25 Срд 12:31:52 #438 №1093973 
ллмки чисто развлечение. Когда указываешь на их ошибки, они пишут, что они ГЕНЕРИРУЮТ текст с информацией из своего хаотичного датасета, а не извлекают факты из какой-то структурированной базы данных внутри себя. Это опасно для школоты, которая может принять инфу от ллм за факт. Запретить нахуй!
Аноним 12/03/25 Срд 12:34:17 #439 №1093981 
>>1093963
Да, работает. Тестил и обычный, и Snowdrop, на tabbyAPI
Аноним 12/03/25 Срд 12:34:19 #440 №1093982 
>>1093973
Неожиданно, но да. Аноны хотят развлекаться.
Хочешь работать иди к корпоратам, а мы будем бороздить космос и трогать лисьи хвостики.
УХХХ БЛЯТЬ. КВЕНЧИК ГОДНЫЙ. А СКОРО И ТЮНЫ ГЕММЫ.
Давай драммер, выкати что нибудь годное.
Аноним 12/03/25 Срд 12:34:46 #441 №1093986 
>>1093973
> а не извлекают факты из какой-то структурированной базы данных внутри себя
Долбоеба что угодно может ввести в заблуждение, даже искажать не надо. Вон какой хороший пример.
Аноним 12/03/25 Срд 12:35:48 #442 №1093989 
>>1093982
>КВЕНЧИК ГОДНЫЙ
Дай ссылку на твой годный квенчик до 12ь
Аноним 12/03/25 Срд 12:36:57 #443 №1093994 
>>1093982
>Давай драммер, выкати что нибудь годное.
так он не русский, ждём НАШИХ тюнов.
Аноним 12/03/25 Срд 12:43:26 #444 №1094019 
>>1093994
От наших всегда соевый кал из под Клода вместо датасета.
Аноним 12/03/25 Срд 12:44:56 #445 №1094024 
>>1094019
Зато своё.
Аноним 12/03/25 Срд 12:46:47 #446 №1094028 
скорее бы геммочку в весах, на ламме2 покатать...
Аноним 12/03/25 Срд 12:47:44 #447 №1094030 DELETED
>>1093865
Например, когда агрессивный мигрант нападает на местного жителя - оправдано его немножечко пристрелить, прямо на месте.
Это то, что евролевачки не понимают.
Аноним 12/03/25 Срд 12:49:27 #448 №1094037 
llama_model_load: error loading model: error loading model architecture: unknown model architecture: 'gemma3'

А что её запустить-то может?
Аноним 12/03/25 Срд 12:50:12 #449 №1094039 DELETED
>>1094030
Не оправданно. Оправданно не вести политику правачков разрешения мигранов.
Аноним 12/03/25 Срд 12:50:38 #450 №1094041 DELETED
>>1094030
>агрессивный мигрант
Ошибка впускать животное без подготовки и обучения в цивилизованный мир.
Аноним 12/03/25 Срд 12:51:09 #451 №1094044 
>>1093973
>ллмки чисто развлечение
Как будто что-то плохое.
Адекватный пользователь и не ждет от них точной информации, у них другое предназначение.
Аноним 12/03/25 Срд 12:51:12 #452 №1094045 DELETED
>>1094030
как же хорошо, что таким как ты только и остается пиздеть об этом в интернете, вещая из своей обосранной хрущёвки в Урюпинске...
Аноним 12/03/25 Срд 13:00:23 #453 №1094077 DELETED
>>1093989
Гейткип по железу. Тред для локалок. Сорян, но минимум 16 гб имей.
>>1094045
Блджад, даже 4080 за глаза хватает для 24b, да у тебя не будет 200 т/с, но будет вменяемо. А 3090 еще дешевле и аж с 24ГБ на борту.
Аноним 12/03/25 Срд 13:00:58 #454 №1094079 
Какой-то дебил средита написал что gemma3 это мултимодалка с текст+картинка виженом и контекстом 128к это правда? Пишет что архитектура очень сильно отличается от ллама и джема и т.п. - так был использован титан - новая имба-архитектура или нет? Почему нихуя нет точных данных на странице у гугла?
Аноним 12/03/25 Срд 13:12:10 #455 №1094105 DELETED
>>1094030
Это, кстати, классический парадокс левачков. С одной стороны требуют ко всем "равного" отношения, либерализации всего и вся, но при этом в подобных проблемах будут сначала дерейлить, а если прижать то винить как >>1094041 сказал пустивших
> животное без подготовки и обучения в цивилизованный мир
то есть самих себя. Любой радикализм плох, что правый что левый, но правачки это хотябы lawful evil а не душнейший chaotic с оправданиями на любое действие
>>1094045
> вещая из своей обосранной хрущёвки в Урюпинске
Слыш, абузер, ты не ахуел ли там? Slavs are poc, не смей гнать на меньшинства, тварь.
>>1094079
Да, она может в картинки.
Аноним 12/03/25 Срд 13:13:54 #456 №1094107 
image.png
>>1093836
>2я джемма на 9б на русском до сих пор лучше всех существующих 999б, тестил
простите, как же я хрюкнул
копиум нищебродов без врама
мимо не считаю все что ниже magnum 123b пригодным для использования
Аноним 12/03/25 Срд 13:15:28 #457 №1094111 
>>1094107
>magnum
Зачем себя так попускаешь?
Аноним 12/03/25 Срд 13:18:53 #458 №1094120 
>>1094107
> кто-то более бедный, чем я!!!
> самое время ворваться и посмеяться над ним, какой же я ахуенный
Аноним 12/03/25 Срд 13:21:28 #459 №1094126 
>>1094111
каким образом я себя попускаю лучшим доступным качеством генерации среди доступных моделей в пределах 96 гб?
С каких это пор нежелание сидеть на одной трубе теплотрассы с бомжами является самоуничижением?
>>1094120
твои оправдания почему ты не можешь купить себе парочку 3090, геммабой?
Нет, гемма конечно хороша, если у тебя есть только 24 гб врама.
Но на серьёзных щщах рассказывать что гемма уделывает нормальные модели для белых людей - такой уровень копиума может быть смертелен. Все есть яд и все лекарство, но тут с копиумом явно переборщили.
Аноним 12/03/25 Срд 13:25:54 #460 №1094136 
Дипсик р1 -671б 8бит.
На 2 штук м3 ultra с терабайтом обьединенной памяти запускается со скоростью 12 т/с
Аноним 12/03/25 Срд 13:28:23 #461 №1094142 
image
>>1094120
Всегда так делаю, брат жив, зависимость есть.

12гб-кун унижающий 8гб нищеблядей
Аноним 12/03/25 Срд 13:34:34 #462 №1094157 
Сейчас будет странный вопрос, но к сути :
Как подключить хоппера к ПК, если вместо порта какое то говно.
И да, я знаю что есть хопперы с нормальным портом. Но на конкретно этом нет.
Аноним 12/03/25 Срд 13:34:47 #463 №1094158 
>>1094107
Зря так, семидесяточки есть хорошие. А если что-то массрвре делать, то там уже важна скорость, гемма и квен были вне конкуренции, новую надо будет затестить.
>>1094142
Чтож ты делаешь, содомит!
Аноним 12/03/25 Срд 13:36:46 #464 №1094165 
>>1094157
Sxm? Потребуется ебический адаптер и дополнительный бп на другое напряжение, типа как здесь https://l4rz.net/running-nvidia-sxm-gpus-in-consumer-pcs/
Аноним 12/03/25 Срд 13:45:14 #465 №1094180 
>>1094165
Блджад, оно. Пойду на алике плату заказывать, лол.
Спасибо анонче, стало легче.
Аноним 12/03/25 Срд 13:54:29 #466 №1094205 
>>1094126
>твои оправдания почему ты не можешь купить себе парочку 3090

Потому что у меня зп 40к.
И на такое оборудование (две дорогие карты плюс соответствующая мать и мощный БП) мне копить несколько лет нужно.
Аноним 12/03/25 Срд 13:59:56 #467 №1094221 
Достаточные умные модельки в Kobold Lite фронте умеют создаваль на лету новых временных персонажей (например зрителей в чате транляции, или стражников на воротах) и говорить за них, но в таверне такое не работает, там всегда от имени карточки.

Как нибудь в таверне можно сделать чтобы был групповой чат без того чтобы на каждого случайного мимокрокодила свою карточку создавать?
Аноним 12/03/25 Срд 14:01:22 #468 №1094224 
>>1094221
> Достаточные умные модельки в Kobold Lite фронте умеют создаваль на лету новых временных персонажей (например зрителей в чате транляции, или стражников на воротах) и говорить за них, но в таверне такое не работает, там всегда от имени карточки.
Может у тебя проблема с сэмплерами или пресетом? Вчера играл на тюне Мистрала, были третьи лица в истории. То тут то там временные персонажи. Обычный Mistral 7 пресет.

За групповые чаты не шарю.
Аноним 12/03/25 Срд 14:06:18 #469 №1094230 
>>1094205
У меня вообще работы нет с пое2 недавной 350к заработал
Аноним 12/03/25 Срд 14:08:59 #470 №1094239 
>>1094230
Завидую таким, как ты - тем, кто умеет подобные околоигровые темы мутить.
Аноним 12/03/25 Срд 14:10:34 #471 №1094242 
>>1093777
>Кому нужны гуфы: https://huggingface.co/ggml-org/gemma-3-27b-it-GGUF
Интересно, велика ли разница между Q4_КM(влезет в одну 3090) и Q8 (влезет в две... теслы :) с приличной скоростью).
Аноним 12/03/25 Срд 14:12:48 #472 №1094248 
>>1094239
Они не получают удовольствие от игры. Как рабы выполняют рутину 24/7 в состоянии выгорания. Такие шизики не доживают до 50. Делают это т.к. ничего другого не умеют, ибо молодость не на образование, а на игры потратили.
Аноним 12/03/25 Срд 14:14:40 #473 №1094251 
>>1094242
>ggml
Нонейм гвноделы какие-то, чую у них бракованные кванты.
Ждём бартовски.
Аноним 12/03/25 Срд 14:16:25 #474 №1094255 
>>1094239
Я просто вкатился и играл причем с сильным отставанием от всех, думал уже и 10к не подниму, даже дюп проебал с 2к$ в час, но один хуй вывел неплохо
>>1094248
> Они не получают удовольствие от игры. Как рабы выполняют рутину 24/7 в состоянии выгорания.
Хорошо хоть челы с коркой на работке кайфуют, рад за них
Аноним 12/03/25 Срд 14:16:53 #475 №1094256 
>>1094126
>нежелание сидеть на одной трубе теплотрассы с бомжами
реальная причина по которой ты юзаешь говномагнум, говноед-нищенка, не способный заработать на h200 для дипсика
Аноним 12/03/25 Срд 14:17:31 #476 №1094258 
>>1094248
>не доживают до 50
С нашей современной жизнью глупо тратить молодость на РАБоту или откладывание жизни на потом, потому что дожить даже до 50 уже неплохой результат
Растягивать старость тоже удовольствие ниже среднего, что толку прожить 80 лет из которых ты 40 последних будешь слабеющим и больным куском говна, потратившим свою молодость на то что бы растянуть старость?
Аноним 12/03/25 Срд 14:18:23 #477 №1094259 
>>1094255
>Хорошо хоть челы с коркой на работке кайфуют, рад за них
Ну щас как бы 2025, чел. Челы с коркой сидят дома и работают когда хотят и сами себе график создаюст, главное сдать проект в конце месяца. Сидеть можно хоть на шезлонге у моря.
Аноним 12/03/25 Срд 14:19:22 #478 №1094263 
Короче этот ваш m3 ultra оказался наебкой.
Да, он выдает 14 токенов в секунду на 70b моделях и 18 токенов на 50b дипсике 671b, но исключительно без контекста.
Промпт процессинг у системы такой же как на обычном компе без видеокарты с полным выгрузом в оперативку.
Т. е. Проблема та же что на теслах, хуйня годится для того чтобы запустить что-то и похвастаться бенчмарками, но к использованию непригодна.
Аноним 12/03/25 Срд 14:20:19 #479 №1094265 
>>1094259
> сидят дома и работают когда хотят и сами себе график создаюст
А я что ли в офисе под гнетом начальства мобчиков фармлю?
Аноним 12/03/25 Срд 14:20:23 #480 №1094266 
>>1094258
Ну ты точно говоришь про чувака РАБтающего в играх и подразумевая что он не рАБ, а наслаждается? Ну комон...
Аноним 12/03/25 Срд 14:21:31 #481 №1094268 
>>1094265
Именно.
Аноним 12/03/25 Срд 14:37:42 #482 №1094289 
image
>>1094224
>То тут то там временные персонажи.
Если отключить имена в промте то работает, но скорее как стори-мод, как данжен-мастер на ролёвке который выслушал игрока, подумал, и теперь вещает уже как Рассказчик, частично пересказывая слова игрока, частично придумывая что он сделал и с ним сделалось.

(для контекста - в тексте на скрине персонажа юзера нет, он в толпе стоит и смотрит)
Аноним 12/03/25 Срд 14:39:23 #483 №1094290 
>>1094248
>Они не получают удовольствие от игры. Как рабы выполняют рутину

Всяко лучше рутиной в игре заниматься, чем за 40к на низкоквалифицированной должности работать, как я.
Понятно, если сравнивать с айтишниками, это весьма дерьмовая работа без перспектив - однако на фоне типичной убогой гречневой пахоты выходит топчик.
Аноним 12/03/25 Срд 14:42:01 #484 №1094292 
>>1094157 >>1094180
ты откуда хоппера на SXM достал?
Б/У шный небось? Они ж последнее поколение. Просто так их на рынок сливать не будут. Там еще за вольту держатся.
Почем взял? Я тоже хочу.

>>1094256
я пока что не готов продавать кваритиру, чтобы купить две H200.
Чуть более красивый аналог "ты меня ебёшь, ах" того не стоит.
Аноним 12/03/25 Срд 14:42:45 #485 №1094293 
>>1094251
Чё-т всхрюкнул. Это же буквально официальная страница организации Жоры на хф.
Аноним 12/03/25 Срд 14:48:13 #486 №1094300 
>>1094221
Так сравни промпты в консоли, чтобы понять, в чём отличие. Если в таверне стоит системный промпт в духе "ты {{char}}", то и с отключенными именами модель будет менее активно за остальных персов писать.
Аноним 12/03/25 Срд 14:53:23 #487 №1094311 
>>1094157
>хоппер
Верни обратно откуда спиздил.
Аноним 12/03/25 Срд 14:54:16 #488 №1094316 
>>1094292
>Б/У шный небось?
Да нет, ты что. В штаны заглянул, а там ничейные 4млн лежат.
Если кратко, взял погорельца с заменой питания. Цена вопроса - дружба и виски. Они все равно его списали, хуле, Россия щедрая душа, лол. Но как он будет работать, в душе не ебу. Сейчас проблема с подключением. Но я потестил коннекты, все работает, а что будет с ПК - а хуй его знает.
Аноним 12/03/25 Срд 14:59:16 #489 №1094323 
>>1094180
Рассказывай откуда взял, для чего планируешь использовать.
>>1094316
Шоб я так жил
Аноним 12/03/25 Срд 15:04:47 #490 №1094331 
>>1094323
>Рассказывай откуда взял, для чего планируешь использовать.
Да никак, лол. Поиграюсь с большими нейронками, удовлетворю свое любопытство и отдам другу обратно, пусть дальше работает с графикой. Может теперь перестанет ныть, что палигоны медленна шарятся.
Аноним 12/03/25 Срд 15:08:34 #491 №1094337 
>>1094266
Он мог бы работать в 3 раза меньше и получить 100к, тут уж он из жадности пахал до упаду
Надо просто не ударяться в крайности
Аноним 12/03/25 Срд 15:13:58 #492 №1094348 
image
>>1094300
посмотрел и... таверна, какого хрена... вместо указанного системного промта там везде юзается, какой бы не был выбран

[INST] Write {{char}} next reply in a fictional role play chat between {{user}} and {{char}}. Be descriptive and immersive, providing vivid details about Mira's actions, emotions, sensations and environment. Do not speak for User. When describing, use the present tense whenever possible.\n

(промт офк включён)
Аноним 12/03/25 Срд 15:17:10 #493 №1094351 
https://characterhub.org/characters/Anonymous/mira-the-innocent-slave-devil-c8ab154c3d07 карточка, "заспавнить" дворецкого, лорда, суккубу, и прочих удалось только полностью отключив подствновку имён в промт.
Аноним 12/03/25 Срд 15:19:51 #494 №1094354 
Пох, возвращаюсь на кобольда, он хотя бы под себя не срёт.
Аноним 12/03/25 Срд 15:19:52 #495 №1094355 
>>1093825
Для 710 ноувидео уже давно дрова не выпускает, а поставить два разных драйвера для 710 и 3090 одновременно у тебя не получится.
Аноним 12/03/25 Срд 15:23:16 #496 №1094360 
Как гемма в плане кода и дефолтных задач, не рп?
Аноним 12/03/25 Срд 15:25:43 #497 №1094366 
>>1094360
К коде хуже квена, в некоторых задачах ебёт квен 72В.
Аноним 12/03/25 Срд 15:27:51 #498 №1094370 
Блэд, кобольд еще не может загружать GGUF'ы новой геммы 3.
Беда-печаль.
Аноним 12/03/25 Срд 15:29:13 #499 №1094372 
image.png
image.png
>>1094351
Херня с пика 1 виновата. Создатель карточки добавил свой системный промпт, перезаписывающий твой. Удали его в настройках карточки или отключи промпты персонажей в таверне (пик 2).
Аноним 12/03/25 Срд 15:35:28 #500 №1094381 
>>1094372
сяп, попробую
даже не знал о такой засаде
Аноним 12/03/25 Срд 15:42:34 #501 №1094392 
>>1094355
нахуй ей вообще дрова?
карты и без дров работают
Аноним 12/03/25 Срд 15:54:25 #502 №1094415 
1644754275066.jpg
Ну вот и всё. Протестил Gemma-3-12b-it и даже она выдает самые точные результаты, включая русский язык.
Аноним 12/03/25 Срд 16:38:57 #503 №1094482 
>>1094415
Самые точные результаты в чем, в каких сферах? С чем сравниваешь?
Здорово, что тебе понравилось, но конкретики бы побольше.
а я сижу, жду кванты по весам...
Аноним 12/03/25 Срд 16:42:16 #504 №1094484 
>>1094482
>кванты
https://huggingface.co/ggml-org/gemma-3-27b-it-GGUF/resolve/main/gemma-3-27b-it-Q4_K_M.gguf?download=true
Аноним 12/03/25 Срд 16:45:14 #505 №1094485 
Не столь хайпово но тоже интресно от хуйхуй аи
https://huggingface.co/featherless-ai-quants/huihui-ai-Qwen2.5-14B-Instruct-abliterated-GGUF
Аноним 12/03/25 Срд 16:50:31 #506 №1094492 
>>1094392
Работать-то работают, но зачастую без нативного разрешения и герцовки.
Аноним 12/03/25 Срд 17:02:27 #507 №1094509 
>>1094142
У меня 8 гб, но целых 2 шт. Сможешь ли ты совладать со мной?
Аноним 12/03/25 Срд 18:11:50 #508 №1094606 
Аноны, а есть хорошая статья по Chatbot Arena Elo? Как он работает? Каким образом гемме с всего-лишь 27B удалось так высоко подняться?
Аноним 12/03/25 Срд 18:13:07 #509 №1094608 
>>1094509
Какой райзер используешь? И какие карты?
Аноним 12/03/25 Срд 18:14:35 #510 №1094615 
image
Когда "танцует" королева суккубов - танцуют все!
Аноним 12/03/25 Срд 18:46:12 #511 №1094662 
>>1094615
на чем играешь?
Аноним 12/03/25 Срд 18:49:53 #512 №1094665 
>>1094415
Я уже не могу терпеть, как же хочется Джемму 3. Скачал, но на кобольде не пашет.
Аноним 12/03/25 Срд 18:51:00 #513 №1094668 
>>1094665
>Джемму 3
Спадёт ща эффект новизны и трезво оценим что гемма говно
Аноним 12/03/25 Срд 19:03:49 #514 №1094690 
>>1094662
>на чем играешь?
https://huggingface.co/Aleteian/Darkness-Reign-MN-12B
Аноним 12/03/25 Срд 19:06:28 #515 №1094696 
>>1094668
Гемма 2 27b для ролеплея была лучшей моделью, вряд ли третья гемма будет хуже.
Аноним 12/03/25 Срд 19:09:59 #516 №1094701 
>>1094696
>была лучшей моделью
И количество слопа высираемое ей было просто кошмарное количество, больше только тюны магнума высирали.
Аноним 12/03/25 Срд 19:10:25 #517 №1094703 
image
>>1094696 >ролеплея
Контекст, сука, контекст.
https://www.youtube.com/watch?v=KWHk9FVi2Bw
Впрочем, в третью говорят прикрутили мистралевские 128 (хотя реально 32), ждём аблитерации.
Аноним 12/03/25 Срд 19:13:27 #518 №1094711 
у меня уже жопа горит нахуй, как установить этот ебучий open-webui без докера? он жрет слишком много памяти на компе, и я не хочу держать виртуалку ради ебучего чата
можно сделать это через pip, но тогда все конфиги и пути будут спрятаны где-то в аппдате, и приложение не будет портативным/самодостаточным
есть здесь питонисты, которые знают как проблему решить?
Аноним 12/03/25 Срд 19:14:06 #519 №1094715 
терпи
Аноним 12/03/25 Срд 19:21:49 #520 №1094732 
image
>>1094715
>терпи
терпим без переКОТа
Аноним 12/03/25 Срд 19:23:22 #521 №1094734 
>>1094711
>питонисты
Совет от сишника: поменьше трогай питонопарашу, меньше вонять будет.
Чем не устраивает silly tavern + бэк на выбор?
Аноним 12/03/25 Срд 19:23:42 #522 №1094735 
>>1094711
У меня когда то получалось, но что то изменили, в итоге не работало
Поищи там на сайте у них, может найдешь инструкцию
Вобще это выкидыш тех же уебанов которым нравится оллама и их авторов, не удивительно что они спелись и по сути это единственный нормально работающий там бек
Аноним 12/03/25 Срд 19:28:06 #523 №1094741 
>>1094734
>Совет от сишника
Сишник я с моделями ебусь, а не с твоим языком для красноглазиков
Аноним 12/03/25 Срд 19:31:13 #524 №1094747 
>>1094711
Можешь открыть докер файл, там будут команды которые он запускает для установки в докере
Делай венв какой нибудь миникондой и ставь туда все эти библиотеки, потом только запускай из под него скрипт запуска
Аноним 12/03/25 Срд 19:42:11 #525 №1094768 
>>1093789
>с джейлом - отказов не словил
Ещё бы префил использовал хотя на чистых моделях только так и делаю. Пиздос деградировали конечно, джелы на логалках.
>>1093814
Бери б/у любую, можно рыксу 580, чтобы совсем печально с рабочим столом не было.
>>1093841
>сои не больше чем у Клода
Так клод же соевый.
>>1093843
Судя по скорам, только в сторону 27 -> 12, лол.
>>1093862
>Input:
>> Images
В РП что ли аватар перса кидать, чтобы внешку не описывать, лол.
>>1093863
>Одно дело цензурировать какую-то совершенно отбитую извращенскую дичь - это хорошо и правильно.
Иди нахуй, никакая цензура не нужна, если это написано в системном промте, то модель должна делать.
Аноним 12/03/25 Срд 19:44:12 #526 №1094770 
Блядь, как запустить гемму? LM Studio не хавает, Kobold тоже. Неужели ебучая llama.cpp нужна?
ПЕРЕКАТ Аноним OP 12/03/25 Срд 19:44:57 #527 №1094773 
ПЕРЕКАТ

>>1094772 (OP)

ПЕРЕКАТ

>>1094772 (OP)
Аноним 13/03/25 Чтв 19:52:58 #528 №1096022 
>>1093777
Потестил. Пишет приятно, ново, но в ЕРП - хуйня, хоть и джейлится изи. Фантазии не особо хватает, и beads of precum from the tip of swollen clit - сделало меня кекнуть. Регулярно срётся с разметкой.
Может быть пресет от гемма 2 не подходит под неё?
Аноним 13/03/25 Чтв 20:17:38 #529 №1096053 
>>1094770
LM Studio последней версии хавает.
comments powered by Disqus

Отзывы и предложения