Локальные языковые модели (LLM): LLaMA, Mistral, DeepSeek и прочие №104 /llama/

Аноним 30/01/25 Чтв 18:42:14 #1 №1034116

Llama 1.png

Альфа от контекста.png

KL-divergence statistics for Mistral-7B.jpg

Йоба-сплиттер.jpg

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Moraliane и https://huggingface.co/Aleteian
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/local-llm-guide/how-to-use-a-self-hosted-model
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1030272 (OP)
>>1023230 (OP)

Ответы: >>1034130, >>1036564

Аноним 30/01/25 Чтв 18:49:01 #2 №1034122

image.png

БАЗА ТРЕДА ПО ХАЙПОВОМУ DEEPSEEK.

Основную модель, по которой идет хайп, не запустить обычному человеку, смертным доступны только маленькие дистилляты этой модели, которые уступают уже существующим моделям. Обсуждение веб-версии Deepseek ведется в соседнем треде.

Ответы: >>1034144, >>1034154, >>1035270

Аноним 30/01/25 Чтв 18:52:50 #3 №1034127

image.png

>>1034124 →
Ну думаю в допросах реально можно ресетать диалог каждый раз, после каждого допроса идет результат и информация о нем больше не важна. А вот удалять в длинных диалогах что либо будет проблемнее.

Ответы: >>1034146

Аноним 30/01/25 Чтв 18:53:19 #4 №1034128

Попробовал дипсик, делюсь впечатлениями.

>DeepSeek-R1-Distill-Qwen-1.5B
Хуита полная. Цепляется за первый вопрос и подстраивает ответы под него. Я говорю забудь весь контекст, а оно все равно цепляется и генерит хуету. Просишь чекнуть грамматику - с какого-то хуя исправляет предложение и чекает грамматику уже его.
Может выдавать лишние символы или слова, абсолютно не связанные с вопросом.

>DeepSeek-R1-Distill-Qwen-7B
Получше. Следует инструкциям. Количество букв R в слове strawberry считать умеет, а в вариациях написания - уже нет, выдает хуету. Сумела сказать, когда вышла GTA: SA, а с GTA: VS обосралась капитально - подумала, что это Vice City Stories, и все равно в итоге обосралась с датой.

>DeepSeek-R1-Distill-Llama-8B
Количество букв R в вариациях слова strawberry считает через раз. С датой правильно ответила. Простой код сгенерить сумела. Грамматику проверяет вроде бы нормально. По крайней мере базируется ровно на том, что я ввёл.
Не знаю, буду ли пользоваться, потому что есть ощущение, что она будет галлюцинировать в будущем.

Остальные модели работают очень медленно на моем железе - устал ждать, пока они печатают ответ со своими рассуждениями, и дропнул.

Ответы: >>1034129, >>1034132, >>1034246

Аноним 30/01/25 Чтв 18:58:12 #5 №1034129

>>1034128

Какие настройки использовал?

Ответы: >>1034137

Аноним 30/01/25 Чтв 18:58:49 #6 №1034130

>>1034116 (OP)
>https://huggingface.co/Aleteian
"Мама, я в телевизоре"
Спасибо.

Ответы: >>1034138, >>1034170, >>1035160, >>1037016

Аноним 30/01/25 Чтв 18:59:13 #7 №1034132

>>1034128
а какая у тебя видяха? я бомжик с 4 гига видяхи, и за сим особо не лезу даже в локалки, получится ли на 7б параметры залететь?

Ответы: >>1034139

Аноним 30/01/25 Чтв 18:59:52 #8 №1034137

>>1034129
Какие настройки? Я просто модель отсюда взял

https://ollama.com/library/deepseek-r1

Ответы: >>1034140

Аноним 30/01/25 Чтв 19:00:01 #9 №1034138

>>1034130
Отработаешь ещё, делая мержи по заказам анонов.

Ответы: >>1034147

Аноним 30/01/25 Чтв 19:00:35 #10 №1034139

>>1034132
4060 8Gb
8b летает очень быстро. 14b - тормозит пиздец

Аноним 30/01/25 Чтв 19:00:41 #11 №1034140

>>1034137

А, ты оллама-инвалид, тогда нет вопросов.

Ответы: >>1034155

Аноним 30/01/25 Чтв 19:01:51 #12 №1034144

>>1034122
> которые уступают уже существующим моделям
Это каким таким? 32В и 70В ебут всё остальное в своих размерах.

Ответы: >>1034149, >>1034389

Аноним 30/01/25 Чтв 19:04:02 #13 №1034146

image.png

>>1034127
Почитав несколько тредов и чуток потеребив модельки я тут задумался. А модель же не может выполнить это указание из карточки персонажа? Чтобы ей запомнить, она должна это написать в сообщение чтобы запихнуть это в контекст?

Ответы: >>1034151, >>1034152, >>1035273

Аноним 30/01/25 Чтв 19:04:12 #14 №1034147

>>1034138
Ну, последняя идея анона где чисто новая сайга и старый немомикс анлишед вышла очень даже. Я правда пока не смог побольше карточек потестить, занят был по делам да работе, но в целом оно прям зашло.

https://pixeldrain.com/u/3pgXCAyD Sasha.saved_story.json

Аноним 30/01/25 Чтв 19:04:43 #15 №1034149

>>1034144

В чем ебут-то? В неотключаемом растекании мыслями по древу под тегом <think>?

Ответы: >>1034161, >>1034389

Аноним 30/01/25 Чтв 19:05:55 #16 №1034151

>>1034146

Все от модели зависит. 70+В смогут.

Ответы: >>1034163

Аноним 30/01/25 Чтв 19:05:56 #17 №1034152

>>1034146
>А модель же не может выполнить это указание из карточки персонажа?
Некоторые могут вывернуться, в зависимости от того на чём обучали, на каких художественных книгах и чат-логах.

Ответы: >>1034163

Аноним 30/01/25 Чтв 19:06:20 #18 №1034154

image.png

>>1034122
и смысл его обсуждать если он не работает блять из-за журнашлюх которые его хайпнули

Аноним 30/01/25 Чтв 19:06:22 #19 №1034155

>>1034140
Мог бы не оскорблять, а пояснить.

Ответы: >>1034166, >>1034169, >>1034252

Аноним 30/01/25 Чтв 19:08:22 #20 №1034161

>>1034149
Как минимум в логике и кодинге. 70В в кодинге почти как дипсик V3. До этого лучшая модель для кодинга была квен кодер 32В - она очень сильно хуже R1 70В.

Аноним 30/01/25 Чтв 19:08:32 #21 №1034163

>>1034152
>>1034151
Ну я на Nemo-Instruct-2407, который пердит и пытается меня радовать на моих 8гб, так что полагаю каждый вердикт - это русская рулетка для меня.

И да, ответ - допель, свайп - и уже человек.

Ответы: >>1034179

Аноним 30/01/25 Чтв 19:09:06 #22 №1034166

>>1034155

Поясняю - принято подключать бэк к таверне и там настраивать настройки. Как там в олламе настройки делаются и подключается ли она впринципе к таверне - я не знаю.

Аноним 30/01/25 Чтв 19:10:24 #23 №1034169

>>1034155
DeepSeek-R1-Distill-Qwen-32B-Q4_0.gguf

Для 12-16 VRAM видяхи покатать.

>>1034155
>пояснить
С обниморды все качают, и дипсик ггуфы там же там же.
Тут все сидят на кобольде + таверна или чисто кобольде.
Остальные фронты вспоминают разве что матерно.

Ответы: >>1034197, >>1034237

Аноним 30/01/25 Чтв 19:10:37 #24 №1034170

>>1034130
Где мерджи норбольших моделей?

Ответы: >>1034183

Аноним 30/01/25 Чтв 19:12:36 #25 №1034174

Что-то у меня сегодня обниморда лагает и мерждкит мозги ебёт Их там дудосят?

Аноним 30/01/25 Чтв 19:14:21 #26 №1034179

4e305f2d83ec7aaf9ccae534243c85fa.jpg

image.png

>>1034163
Еще и моделька на совесть давит, охуевшая пизда.

Аноним 30/01/25 Чтв 19:15:27 #27 №1034183

>>1034170
У меня 16 врам (вернее даже 12+4), максимум на ноуте я могу запустить 22Б в шестом, или 32Б в четвёртом кванте.

Если есть версии как выжать побольше из 22Б мистраля например и скрестить ежа с ужом пантеон с цидонией - I'am all ears.

Один мерж есть, скачан больше тысячи раз суммарно, но также один (?) анон говорил что этот мерж ему мозги выел.

Ответы: >>1034210, >>1034219

Аноним 30/01/25 Чтв 19:16:34 #28 №1034187

Все еще пытаюсь на 8 гб карте сделать нормального помощника для промпт-гена для стейбл дифьюжен. Пока что не получается. В карточку уже понаписал все что мог — предпочтение на короткие теги, следование структуре, нехудожественный язык — не помогает, даже при демонстрации необходимого в диалоге. С фантазией хорошо, но теги постоянно срываются на длинные описательные фразы. Использую 12B Mag-Mell R1, как лучшую из 4-5 моделей, что попробовал. Советы? Думаю нужна какая-то не рп модель но я не шарю.

Ответы: >>1034190

Аноним 30/01/25 Чтв 19:18:34 #29 №1034190

>>1034187

Мне кажется РП тут не помощник, попробуй просто nemo-instruct дефолтный.

Ответы: >>1034226, >>1035004

Аноним 30/01/25 Чтв 19:22:17 #30 №1034197

>>1034169
>Для 12-16 VRAM
А для 8Гб есть что? Мне не дрочить только, мне вопросы ей задавать, иногда кодить.

Ответы: >>1034239, >>1034389

Аноним 30/01/25 Чтв 19:27:35 #31 №1034207

по ощущению дипсик 8б похуже будет чем другие модели но 7б параметров. Пихает китайские иероглифы и шизит только так. да и CoT ему только во вред на малых параметрах мне кажется идет

Аноним 30/01/25 Чтв 19:29:55 #32 №1034210

>>1034183
Правильно ли понял что проблема в тестировании?
> 32Б в четвёртом кванте
Вот это уже будет хорошо
> Если есть версии как выжать побольше из 22Б мистраля например и скрестить
В мерджах не шарю, какая-то алхимия в буквальном смысле. Могу за тренировку пояснить, но там нормально обучать в какие-то условно разумные сроки - это 12б максимум, и то не захочешь. И на хороший датасет нужно опиздохуя сил потратить.

Ответы: >>1034251

Аноним 30/01/25 Чтв 19:34:57 #33 №1034219

>>1034183
>мерж ему мозги выел.
Я тот анон, там все неоднозначно. Просто у меня скорее претензии к пантеону. Мерж нормальный, для тех кто ищет чуть похорни пантеон заебись зайдет.

Аноним 30/01/25 Чтв 19:38:30 #34 №1034221

image.png

Какой же магнум ебливый, сука, пожрать не дает - уже в трусы лезет.

Аноним 30/01/25 Чтв 19:46:05 #35 №1034226

>>1034190
Mistral-Nemo-Instruct-2407? У меня только Q3_K_M влезет.

Ответы: >>1034339

Аноним 30/01/25 Чтв 19:48:16 #36 №1034232

>>1034211 →

Наш мозг также работает.
Каждую ночь происходит суммарайз контекста и просыпаясь мозг накатывает его заново. Можно стереть контекст человеку и записать другой, человек будет слепо следовать этому.

Ответы: >>1034238

Аноним 30/01/25 Чтв 19:52:50 #37 №1034237

>>1034169
>DeepSeek-R1-Distill-Qwen-32B-Q4_0.gguf
>
>Для 12-16 VRAM видяхи покатать.
А как ее туда запихать? У меня только q3 с 5к контекстом влезает в 16гб

Ответы: >>1034251

Аноним 30/01/25 Чтв 19:54:04 #38 №1034238

>>1034232
> Каждую ночь происходит суммарайз контекста
Ебал я этот сумарайз, я каждое утро просыпаясь думаю это я наяву сделал или во сне? На столько обыденные вещи снятся.

Аноним 30/01/25 Чтв 19:55:57 #39 №1034239

>>1034197
> мне вопросы ей задавать, иногда кодить
Тогда береи не рп-тюн, а стоковую instruct модель, 6 квант 12Б норм будет, весь на видяху конечно не влезет, но должен быть адекватен.

Ответы: >>1034244

Аноним 30/01/25 Чтв 19:58:28 #40 №1034244

>>1034239
>стоковую instruct модель, 6 квант 12Б норм будет
Мистраля?

Ответы: >>1034251

Аноним 30/01/25 Чтв 20:00:38 #41 №1034246

>>1034128
Оно с 14b отвечает лучше чем модель которую взяли за основу дистиллята.
Тоесть то что ты тестил хуже чем их основа.
Ну и как написали чем больше сетка тем больше профита от дистилляции.

Аноним 30/01/25 Чтв 20:01:51 #42 №1034248

image.png

всем привет и это анон который запустил 14 лярдный дипсик на ноутбучную 3050
не знаю о чем там жаловался анон с 4060 которому показались 14 лярдов очень медленными. Да, небыстро, но 2 слова в секунду да отвечает.
На русском конечно иероглифы, вставки из англюсика. Параметров маловато будет, чтобы писать на нём конечно. Но на английском все норм.
В слове strawberry посчитал две буквы r, вот умора.
по марксу решил записать поскольку бот же китайский, там коммунисты правят, ну немудрено что ответил он нормально
по дате выходов игор ответил везде правильно

Аноним 30/01/25 Чтв 20:02:37 #43 №1034251

>>1034210
>И на хороший датасет нужно опиздохуя сил потратить.
А пример датасета можешь показать?

Можно буквально на десяток записей, просто понять как он должен выглядеть и что собирать.

>>1034237
>А как ее туда запихать?
С кобольдом у меня шло на трёх токенах в секунду.

>>1034244
>Мистраля
Можно мистраля, например Dolphin ещё вроде ок как ассистент.
Но не принципиально, мистрали юзают за то что и русская Сайга на нём, и топовые рп модели, а тебе не то ни другое.

Ответы: >>1034263, >>1034345

Аноним 30/01/25 Чтв 20:02:40 #44 №1034252

>>1034155
оллама для инвалидов, перекатывайся оттуда в кобальд, а с ним подключайся к таверне.
Там все и настроишь при запуске. Если правильно настроишь еще и быстрее будет работать чем на олламе.

Ответы: >>1034310

Аноним 30/01/25 Чтв 20:06:49 #45 №1034263

>>1034251
>С кобольдом у меня шло на трёх токенах в секунду
Ну это уже отжор от цпу и обычной рамсы, я думал как то можно прям только в врам запихнуть

Аноним 30/01/25 Чтв 20:10:59 #46 №1034268

>>1034028 →
Ггуф?

Ответы: >>1034270

Аноним 30/01/25 Чтв 20:12:05 #47 №1034270

>>1034268
Ггуф есть у батрухи: https://huggingface.co/bartowski/Mistral-Small-24B-Instruct-2501-GGUF

Аноним 30/01/25 Чтв 20:31:27 #48 №1034289

А новый мистраль хорош. Русик на уровне Gemma-2 27b, качество ответов плюс-минус так же. При этом на 12гб гпу Q4_K_L квант стартует на 7.5 т/с, что аж вдвое быстрее геммы! УХ СУКА. Вот именно это мне и было нужно

Ответы: >>1034320, >>1034348

Аноним 30/01/25 Чтв 20:38:10 #49 №1034298

chat.qwenlm.ai.jpg

chat.deepseek.com.41.jpg

>>1033915 →
У дипсика нет смотрелки пока, я пробовал квен - но он слишком тупой.
Но дипсик норм справляется даже если ему нихуя не поясняя тупо кинуть 2 сейва в ебало, а с моделью ваще заебок будет.

Ответы: >>1034322

Аноним 30/01/25 Чтв 20:43:27 #50 №1034310

>>1034252
Почему не Exllamav2?

Ответы: >>1034320, >>1034322

Аноним 30/01/25 Чтв 20:49:34 #51 №1034320

изображение.png

>>1034289
На паре ГПУ восьмой квант выглядит увереннее.
>>1034310
Там чел 1,5B запускает, куда ему эксель.

Ответы: >>1034342

Аноним 30/01/25 Чтв 20:51:26 #52 №1034322

>>1034310
Новичку и эксламу советовать? У него еще и 8 гб врам вроде.

>>1034298
Там же новая полностью мультимодальная сетка вышла от дипсика
https://huggingface.co/deepseek-ai/Janus-Pro-7B
Должна быть хороша в распознавании изображений

Ответы: >>1034325, >>1034331, >>1034342, >>1034345, >>1034389

Аноним 30/01/25 Чтв 20:53:22 #53 №1034325

>>1034322
>Должна быть хороша в распознавании изображений
Хотя нет, там разрешение фиговое 384 x 384. Ну или оно там как то маштабируется.

Аноним 30/01/25 Чтв 20:55:20 #54 №1034331

>>1034322
>Там же новая полностью мультимодальная сетка вышла от дипсика
Генерит изображения квадратом в 384 пикселя, лол. Это даже не уровень SD 1.5.
>Должна быть хороша в распознавании изображений
Там https://huggingface.co/timm/ViT-L-16-SigLIP-384 для картиночного энкодера, то есть те же 384 x 384 на вход. Ебало нейронки, которая в этом шуме будет распознавать текст, представили? Уже были мультимодалки с 1 мегапикселем входа, так что мимо скорее всего.

Ответы: >>1034334, >>1034345

Аноним 30/01/25 Чтв 20:57:26 #55 №1034334

>>1034331
Да, надо тупо брать другие мультимодалки. Выходили ведь недавно с нормальным разрешением, тот же новый qwenvl2.5

Ответы: >>1034343, >>1034389

Аноним 30/01/25 Чтв 20:59:12 #56 №1034339

>>1034226
Он влезет и в большем кванте, просто выгрузишь слои в оперативу. Для твоей цели скорость же не важна. И магмел же такого же размера, это мерж тьюнов немо-инстракта. Тоже думаю, что тебе чистый инстракт нужен, а не рп. Сторирайтинг и эмоциональные ответы тут тебе будут только мешать. Можешь и плюс-минус чистые 8б попробовать, например эту с попытками в убирание цензуры и байаса к пользователю, чтобы не читала нотации в ответ на просьбы про нсфв теги https://huggingface.co/bartowski/LLAMA-3_8B_Unaligned_BETA-GGUF
И ещё чекни системный промпт, чтобы там не стоял промпт для ролплея. Напиши что-нибудь простое, типа "Play the role specified below", а ниже пойдёт карточка с подробными инструкциями про теги и примерами.

Ответы: >>1034344, >>1034347, >>1035004

Аноним 30/01/25 Чтв 21:04:01 #57 №1034342

>>1034322
>>1034320
А зачем тогда это в гайде?

>Exllama2 быстрее в ~1.2-2 раза чем Llamacpp (на амперах и новее, на более старых картах результат не однозначный), требует меньше памяти на ту же битность и тот же контекст.

Ответы: >>1034343

Аноним 30/01/25 Чтв 21:06:10 #58 №1034343

>>1034334
https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5

>>1034342
Потому что екслама только врам, а кобальд и все остальные программы основанные на llama.cpp могут использовать и врам и рам, распределяя нагрузку между гпу и процессором.
Как и оллама, которая основана на llama.cpp же, о чем они как всегда умалчивают.

Ответы: >>1034389

Аноним 30/01/25 Чтв 21:06:28 #59 №1034344

>>1034339
>выгрузишь слои в оперативу
Как это сделать в угабуге?

Ответы: >>1034379, >>1034403

Аноним 30/01/25 Чтв 21:06:50 #60 №1034345

>>1034251
> пример датасета
Тебе для чего? Сама структура датасета тривиальна - это просто диалоги, в которых можно выделить персонаж 1 - персонаж 2. Просто на обниморде зайди в раздел датасетов и поставь фильтр для текста.
А дальше уже идут нюансы: в хорошем датасете есть описание каждого из персонажа. Присутствуют несимметричные диалоги (короткие сообщения юзера, длинные от нейронки), это все классифицировано и оценено так, что для каждого набора идут дополнительные промты (самый простой пример - длина ответов). Сам датасет является не фиксированными блоками, а заготовка, которую можно динамически формировать в правильную последовательность в ходе обучения. Не должно быть примитивного треша с односложными и тупыми диалогами как в сайге, обязательно разбавление каким-то дженериком и "загадками". И много чего еще.
Ну и самое важное - найти хорошие исходники без министрейшнов.
>>1034322
> Новичку и эксламу советовать?
Так-то она наоборот проще и не имеет всего объема пердолинга что у жоры. Одна беда - без гпу не работает.
> https://huggingface.co/deepseek-ai/Janus-Pro-7B
Херня как по распознаванию, так и по генерации.
Сама прямая перегонка токенов и пиксели - мертворожденная херь, и здесь это в очередной раз демонстрируется.
>>1034331
> то есть те же 384 x 384 на вход
В порядочных сетках картинка нарезается на вот такие тайлы и всей пачкой передаются на вход, все прекрасно распознается.
> Уже были мультимодалки с 1 мегапикселем входа
Там и 2-3, и несколько картинок, и даже видео можно.

Ответы: >>1034378, >>1034486

Аноним 30/01/25 Чтв 21:07:14 #61 №1034347

>>1034339
Ты же видишь какие вопросы он задает и что говорит. Объясни ему как выгрузить контект и слои в оперативу.
Так работает «проклятие знания» (или «проклятие экспертности») – это когнитивное искажение, когда человек считает, что в хорошо знакомой ему теме остальные ориентируются так же хорошо, как и он сам.

Ответы: >>1034379

Аноним 30/01/25 Чтв 21:07:53 #62 №1034348

>>1034289
>А новый мистраль хорош.
Посмотрим, что покажет Ларж. Хотя лично я крепко надеюсь на 4-ю Лламу. У меня она в 6-м кванте даёт на 30% больше скорости, чем 123В в четвёртом, а отказаться от него невозможно. Но вот попробовал NevoriaMS и прямо воспрял - есть-таки жизнь на Марсе на Лламе! Если четвёртой ума добавят, то будет прямо вообще хорошо.

Тут к сожалению очень многое зависит от качества тюнинга и от удачи алхимика-смесителя, это да.

Ответы: >>1034486

Аноним 30/01/25 Чтв 21:36:32 #63 №1034378

>>1034345
>Тебе для чего?
Для рп/стори вестимо, вообще хотел просто любимые книги нарезать и скормить, вроде бы Wayfarer тренился просто на парах сообщений в стиле "User: ой как страшно, наверно там опасно, давайте туда пойдём. GM: вы были съедены мрачником, только косточки прохрустели в его зубастой пасти. После этого монстр, оставляя кровавые следы, скрылся обратно в своём логове."

То есть "правильная" запись в датасете выглядит собственно как карточка персонажа + примеры сообщений в виде чата? Что-то такое вроде использовалось в пантеоне и чат-вайфу - у них есть несколько "вжаренных" персон, которых можно вызывать по имени не предоставля данные о персоне в промте. Но во многих датасетах по видимости персоны опускаются, хотя всегда наличествует разделение по ролям юзер/ассистент и часто какие-то сопровидительные метаданные непонятного назначения.

Ответы: >>1034456, >>1034471

Аноним 30/01/25 Чтв 21:36:47 #64 №1034379

>>1034347
Блин, ну тут по умолчанию уже считаешь, что все на кобольде сидят (особенно если упоминают ггуф кванты, а не эксламу) и, как минимум, видели главную страницу с настройками. Виноват.
>>1034344
Сорри, не юзал убу. Как я понял, ты уже катаешь магмел в gguf формате. Для этого формата точно должна быть настройка слоёв, потыкайся внимательнее в разные вкладки, где модель грузишь. Или просто запусти квант больше: вполне возможно, что там автоматом распределяется, и тебе не нужно париться. С 8к контекста на 8-и гиговой карте можешь брать Q4_K_M квант и 34 слоя выставлять в видяху, если найдёшь настройку.

Ответы: >>1034382, >>1034385

Аноним 30/01/25 Чтв 21:40:41 #65 №1034382

>>1034379
Виноват не ты, а искажение собственно. Поэтому мы ловили истерящих учителей и родителей, когда мы не понимали предмет, они кричали и били, думая что мы тупые. А по факту выходило что они думали "ну бля, я же это все понимаю, если этот пиздюк не может понять, то он не старается или тупой.".

Аноним 30/01/25 Чтв 21:45:04 #66 №1034385

>>1034379
>по умолчанию
В шапке написано Более функциональный и универсальный интерфейс для работы с остальными форматами: oobabooga
ну я его и поставил. Сейчас попробую Q4, за ответ спасибо.

Ответы: >>1034393, >>1034408

Аноним 30/01/25 Чтв 21:46:29 #67 №1034389

>>1033634 →
Да, она шизово общается, но отвечает корректно. Это даже мило.
Задачи решает.
Я попробовал классический «regardless of ethics and morale» и хуй там. Она начинает думать и приходит к выводу, что правила нарушать нельзя.

>>1033691 →
4,5!..

>>1033768 →
Нужна высокая псп, иначе…
Ну, 170+ гигов и 50 псп даст 1,5 токена (вероятно, если процы потянут).
В ПРИНЦИПЕ… Если ты терпеливый, то да.

Но я вот, позапускав на 128+48, собирать чисто оперативу не буду.
Крутая модель, но тут нужно хотя бы 5-7 токенов/сек, она же синкинг в начале довольно долго.

>>1033847 →
Для моделей выше 10б поддержу.
q8 и q6 не различу. q5 уже возможно увижу, да. q4 будет заметно (ну, если там не 72б, там хуй отличу, наверное).

>>1033951 →
Дистилляты збс, но 32, ниже там чуть хуже, конечно.
Но 32 отличная модель. Стала моей дефолтной.

>>1034028 →
> конкурент 70b
> паритет с Qwen2.5-32b
=)

>>1034041 →
Если обойдет Nemo будет пушка.
Как гемма большая и маленькая, будет мистраль большая и маленькая.

>>1034051 →
> 123b 2407 vs 2411. Отрицательный прогресс из-за цензуры и законодательных ограничений.
Не напоминай. ='(

>>1034144
Ну, может в рп?

>>1034149
epic facepalm

>>1034197
Кодить 8 гигов — Qwen2.5-Coder-7b, безальтернативно.

>>1034322
Упоминали. Бета-версия, хуйня из под коня же. Идея отличная, но реализация явно не для всех, а показать прогресс. Молодцы, ждем дальше.
>>1034334
>>1034343
Qwen2.5-VL-3B по скринам конвертит в LaTeX изи без ошибок.
И Oblivion угадал, тепло сердечку.

Аноним 30/01/25 Чтв 21:47:49 #68 №1034392

17375640516590.png

Зачем он это делает?

Ответы: >>1034402

Аноним 30/01/25 Чтв 21:48:05 #69 №1034393

>>1034385
Но как ньюфаг советую тебе кобольда накатить для начала. Он понятен, по нему есть вики, понятная (относительно). И он намного проще. Вкладки, ползунки, сиди слушай тред и тереби.

Ответы: >>1034456

Аноним 30/01/25 Чтв 21:49:50 #70 №1034402

>>1034392
Кто? Зачем гитхаб автосборку запускает?

Ответы: >>1034404

Аноним 30/01/25 Чтв 21:49:57 #71 №1034403

image.png

>>1034344

Вот этот параметр определяет число слоев, выгруженных в видеокарту, соответственно остальные идут в оперативку.

Ответы: >>1034422

Аноним 30/01/25 Чтв 21:50:31 #72 №1034404

>>1034402
Да. Нахуй он так сделал? 3000 релизов, сука.

Ответы: >>1034407, >>1034411, >>1034412

Аноним 30/01/25 Чтв 21:51:22 #73 №1034407

image.png

сравнение оригинального дип-писика, ламы 405, и 70б дистилята с дипсика, как по мне перенялась только дурная манера выкатывать стену раздумий, и если б это не в облаке с ~250 ток/с генерило, то я б три дня результат ждал бы...>>1034404

Аноним 30/01/25 Чтв 21:51:53 #74 №1034408

>>1034385
Он действительно более функциональный и универсальный, потому что в него запихнуто несколько инференс движков для разных форматов моделей. Но когда у тебя маленькая видяха, то большинство из них для тебя бесполезны. По факту ты пользуешься той же llamacpp, которая и в основе кобольда.

Ответы: >>1034418

Аноним 30/01/25 Чтв 21:52:48 #75 №1034411

>>1034404
Про CI никогда не слышал?

Ответы: >>1034416

Аноним 30/01/25 Чтв 21:52:50 #76 №1034412

>>1034404
а почему бы и нет, чел просто дает самую свежую борку с последними комитами, хуже когда релиза и багфиксов по 3 месяца ждать надо

Аноним 30/01/25 Чтв 21:53:57 #77 №1034416

>>1034411
Ты Release и CI отличаешь? Или в твоей говнокомпании так же сделано, как у него?

Ответы: >>1034424

Аноним 30/01/25 Чтв 21:54:29 #78 №1034418

>>1034408
правда у угабуги API не такое кривое как у кобольда, а с кобольдом не все программы дружат

Аноним 30/01/25 Чтв 21:55:36 #79 №1034422

>>1034403
Я бы как мимо ньюфаг, который срет в эти треды не первый день, хотел бы вообще гайд по настройкам, как те же вопросы про кванты контекста, Как работает контекст (на пальцах сука). Что такое слои. Что есть n_banch, почему не стоит верить выставленным слоям кобольда и стоит ебануть чуток больше. Просто обширный гайд для ньюфага, вот первой же ссылкой в шапке треда, желательно на даунском языке. Ты решил написать слово кванты в гайд? Объясни что чем меньше квантов, чем меньше IQn, тем тупее модель и тд.

Ответы: >>1034439, >>1034456

Аноним 30/01/25 Чтв 21:55:41 #80 №1034424

>>1034416
Чухан, ты видишь что это выхлоп от CI гитхаба или нет?

Ответы: >>1034435

Аноним 30/01/25 Чтв 21:57:23 #81 №1034435

>>1034424
Ой блять еблан все с тобой ясно - обосрался и пытаешься выкрутиться вместо того, чтобы признать и поехать дальше.

Ответы: >>1034486

Аноним 30/01/25 Чтв 21:59:10 #82 №1034439

>>1034422
>Просто обширный гайд для ньюфага, вот первой же ссылкой в шапке треда, желательно на даунском языке.

Хм, а что же у нас там первой ссылкой в шапке? Хм.

>Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Ответы: >>1034455

Аноним 30/01/25 Чтв 21:59:41 #83 №1034440

Мистраль 3 кал сынок.

Аноним 30/01/25 Чтв 22:06:35 #84 №1034455

>>1034439
Да хуйня ваша вики, ты сам давно в нее заглядывал? Она написана нихуя не для ньюфагов.
>самые младшие из "умных" в настоящее время содержат ~7 миллиардов весов
Что такое веса? Что такое не кватованные веса? Что такое n_banch? Ты заглядывал в вики кобольда например? Там даже не объясняется что такое квантование контекста, просто как факт что есть 16, 8 и 4.
Чел, проклятье знания. Мы в душе не ебем что все это такое. Нет какой то базы, объясняющей что это делает о, а это делает это.

Ответы: >>1034465, >>1034486

Аноним 30/01/25 Чтв 22:07:07 #85 №1034456

>>1034378
Ну смотри, ты должен кормить нейронку тем, что потом от нее ожидаешь. Но это должен быть не просто странный слоп на тему, а четко обоснованные реплики и ответы с учетом задания. То есть, там должен быть системный промт, базовые указания, описание персонажей, правильная разметка и т.д. К токенам должна идти маска, которая покажет где "вход" а где "выход". Если у тебя без какой-то подводки просто пойдет диалог - сетка ошизеет и начнет рандомно бредить подобными структурами, а если в датасете сплошной текст из книги - будет совсем плохо.
После правильной разметки и полноты последовательностей идет аугментация. Если будешь кормить одним и тем же - сетка научится повторяющимся вещам и постоянно будет их высирать, те самые волки и размахивания бедрами, только в структурах, именах, лупах на одинаковые последовательности и т.д. Поэтому хороший подход - датасет в виде заготовок чатов с регэкспами и еще лучше ветвлениями (или просто рандомной длиной диалога), которые формируются на лету, меняя имена, подсовывая дополнительные указания/промты где надо (но не всегда), полезно менять стиль сообщений, описаний и т.д. Если классический инстракт режим то там будет формирование инструкции со всей историей а потом один ответ.
> у них есть несколько "вжаренных" персон
Классический пример корявого обучения, особенно явно это выражается когда применяется не полновесный файнтюн, а лора.
Можешь откопать старье в виде датасета llimarp, он на редкость удачно структурирован и из него легко делать промты и диалоги под нужный формат, а также сразу заложить указание по желаемой длине ответа как самый простой пример дополнительных указаний.
Если хочешь сторитейл - парси готовые истории на части разных размеров, которые будут помещяться в 500-1000 токенов стандартного ответа, а также придумывай к ним задания и описания разной степени подробности как запрос юзера.

Ну и наконец, если у тебя в датасета сайга с односложными дебильными диалогами - со всем этим как не ебись, оно отравит выдачу.
>>1034393
В нем нет простоты и универсальности, наоборот при запуске вагон лишнего, а сам интерфейс чата - унылое говно. Из плюсов может быть более быстрая работа из-за особенностей билда, но по руку с ней идет некорректная работа не разном железе, из-за чего и появляются эти привередливые до кванта бедолаги.
>>1034422
> хотел бы вообще гайд по настройкам
Хотеть не вредно. Принимаем донаты криптой, скинешь что-то существенное - можно будет подумать.

Ответы: >>1034464, >>1034469

Аноним 30/01/25 Чтв 22:09:47 #86 №1034464

>>1034456
> а сам интерфейс чата - унылое говно
Дак сразу надо говорить чтобы ньюфаг подключался к таверне, желательно на пальцах.
> Принимаем донаты криптой
Могу принять мой хуй тебе за щеку, шепнуть на ушко и повилять бедрами, пока ты разглядываешь мой наряд который не оставляет простора воображению.

Ответы: >>1034471

Аноним 30/01/25 Чтв 22:10:04 #87 №1034465

>>1034455
потому что чтобы понимать все это нужно знать хотябы основы устройства нейронок и принцип их работы, если ты неосилятор, то не лезь в локальные, облако юзай и не морочь голову

ну или возьми сам напиши вики правильную, тем более у тебя нейронки есть

Ответы: >>1034476

Аноним 30/01/25 Чтв 22:10:39 #88 №1034469

>>1034456
>вот эта вся ебля с сетками
Почему нельзя сделать сетку которой можно скормить вообще все нахуй информацию с рождения христова без разметок и прочей хуйни, а там сетка уж сам разберётся что к чему
А то с такой еблей никакого аги не будет

Ответы: >>1034471

Аноним 30/01/25 Чтв 22:12:22 #89 №1034471

>>1034378
> Но во многих датасетах по видимости персоны опускаются
Да, вот эта штука зависит конкретно от формата размерки. Если там мультитурн типа chatml и стандартные user/assiatant то все просто и имена идут только внутри содержимого постов для правильного содержания. Если там используется какая-то дичь с индексами в виде имен персонажей (или после укзания роли задрачивается префилл имени что тоже часто бывает и иногда полезно) - будут те самые имена.
>>1034464
> Могу принять
По тебе видно что уже принимаешь
>>1034469
Потому что злой хуанг захватил все видеокарты, но святой дипсик снизошел чтобы избавить нас от необходимости в них.

Ответы: >>1034476, >>1034496

Аноним 30/01/25 Чтв 22:14:13 #90 №1034476

>>1034465
Orly? Просто написать ньюфагу что чем ниже IQn в модели, тем она тупее, чем меньше размер (даже ссылаясь на размер одежды, ибо по такому примеру и следуют квантованные модели) сказать, что чем меньше, тем тупее. Сквантовал контекст? Модель отупела. Подключил rocm? Амуда будет быстрее, но не факт что пойдет у всех. И тд и тп.
>>1034471
>По тебе видно что уже принимаешь
Даже вертеть жопой не буду, нейронки как наркотик, я уже 3 месяца сижу на них, сперва на хорде, теперь вам мозги ебу. Даже с единственными парой знакомых общаться перестал.

Ответы: >>1034481

Аноним 30/01/25 Чтв 22:16:41 #91 №1034481

>>1034476
Там речь про хуй в рот и малафью по всему ебалу, которая затмевает взор. Ведь как иначе можно ныть, прося то что уже есть, или требовать ответы на очевидное.

Ответы: >>1034495

Аноним 30/01/25 Чтв 22:18:19 #92 №1034486

>>1034345
>Сама прямая перегонка токенов и пиксели - мертворожденная херь
Предлагаешь тренировать совместно?
>>1034348
>Посмотрим, что покажет Ларж.
А они его уже анонсировали?
>>1034435
Шиз, таблы. CI и высирает продукт своей жизнедеятельности в релизы гитхаба.
>>1034455
>Она написана нихуя не для ньюфагов.
Напиши лучше.

Ответы: >>1034495, >>1034688

Аноним 30/01/25 Чтв 22:21:16 #93 №1034495

image.png

>>1034481
Я все к тому, чтобы создать адекватную вики по тупым вопросам, и когда я например высру очередной тупой вопрос, вы отправите меня в шапку треда, а я там и правда найду ответ на вопрос, а не пространственный ответ про квантования, размеры, чет там про модели и прочее. Так было бы и проще и вам и нам.
>>1034486
>Напиши лучше.
Пиклейд

Ответы: >>1034688

Аноним 30/01/25 Чтв 22:21:48 #94 №1034496

>>1034471
>захватил все видеокарты
так-то у них 50к а100 есть
там что-то RL применяли к этому R1 те она сама находила паттерны и рассуждения

Ответы: >>1034688

Аноним 30/01/25 Чтв 22:30:09 #95 №1034511

А есть где-нибудь прям конкретные примеры различий между квантами одной модели? Условно скрины ответов на одном и том же месте в чате. Понимаю, что это частный случай, но было бы интересно увидеть тренд развития от iq2 и до предела.

Ответы: >>1034522

Аноним 30/01/25 Чтв 22:33:57 #96 №1034522

>>1034511
https://github.com/matt-c1/llama-3-quant-comparison

Ответы: >>1034533, >>1034546

Аноним 30/01/25 Чтв 22:38:58 #97 №1034533

>>1034522
Слишком абстрактно.

Ответы: >>1034542

Аноним 30/01/25 Чтв 22:42:31 #98 №1034542

>>1034533
>ыыы я не могу понять точка палка график
Ну тогда хули ты тут делаешь? /aicg/ двумя блоками выше

Ответы: >>1034559

Аноним 30/01/25 Чтв 22:43:30 #99 №1034544

Ребят, ожидают ли нас в ближайшем будущем еще лучшие подобные MoE DeepSeek R1модели, только уже от американцев, улучшенные и обученные на более мощных машинах?

Ответы: >>1034583

Аноним 30/01/25 Чтв 22:44:20 #100 №1034546

>>1034522
Так тут Q4 кванты отличаются от fp16 чуть более, чем никак. Ещё меньше разница, чем для 7б мистраля с тестами на вики данных, для которого пикча в шапке. Подозреваю, что главная проблема этих тестов - мелкий контекст. "I skipped around 20 questions where the 5-shot prompt was above 2048 tokens" - из описания недостатков.

Ответы: >>1034571

Аноним 30/01/25 Чтв 22:48:07 #101 №1034558

А новый мистраль ничего так, русский язык неплохой, не отказывается от пересказа порно-рассказов и даже пишет продолжения, без всяких там "это может неприемлемо".

Ответы: >>1034573, >>1034583

Аноним 30/01/25 Чтв 22:48:30 #102 №1034559

>>1034542
Чел, капец ты злой. Изначально ответил не на мой вопрос и еще бузишь. Мне понятны графики, но они не дают представления, как именно плохи ответы на низких квантах. Как там проявляется тупизна, долина, потеря логики, и когда это прекращается. Один конкретный средней длины пример из теста дал бы мне куда больше в этом плане чем скор на тесте целиком.

Ответы: >>1034571

Аноним 30/01/25 Чтв 22:55:37 #103 №1034571

>>1034546
>главная проблема этих тестов - мелкий контекст
Так один хуй любая модель начинает разваливаться после 32к контекста
>>1034559
>Как там проявляется тупизна, долина, потеря логики, и когда это прекращается
Ты реально будешь читать 100 логов в 16 разных почти одинаковых квантах?

Ответы: >>1034577

Аноним 30/01/25 Чтв 22:56:39 #104 №1034573

>>1034558
>А новый мистраль
Дай ссылку/полное название.

Ответы: >>1034576, >>1034578

Аноним 30/01/25 Чтв 22:57:58 #105 №1034575

Ананасы, подскажите, есть ли какие-нибудь норм ллм модели которые могли бы диаграмы и схемы строить, чтобы например задал вопрос покажи место трапов-лесбиянок в церковной иерархии Российской Империи VII века, а оно выдало бы в какой-нибудь переводимой в графику нотации адекватную схему по теме вопроса...
это в кодинговые модели больше смотреть надо или еще какие есть для этого?

Ответы: >>1034624

Аноним 30/01/25 Чтв 22:58:05 #106 №1034576

>>1034573
https://huggingface.co/bartowski/Mistral-Small-24B-Instruct-2501-GGUF

Ответы: >>1034607

Аноним 30/01/25 Чтв 22:58:18 #107 №1034577

>>1034571
Было бы интересно хотя бы поверхностно посмотреть, да.

Ответы: >>1034582

Аноним 30/01/25 Чтв 22:58:27 #108 №1034578

>>1034573
Буквально несколькими постами выше, блять 1034270

Ответы: >>1034607

Аноним 30/01/25 Чтв 22:59:54 #109 №1034582

>>1034577
Жестко спойлерю тебе что ты не увидишь разницы, по крайней мере в рп и если это не 1-2 квант
В кодинге да, будет косячить, причём дохуя

Ответы: >>1034589

Аноним 30/01/25 Чтв 23:00:30 #110 №1034583

изображение.png

>>1034544
Американцы клозедсорсят, кроме террористов из меты, а та вроде пока ничего не анонсировала.
>>1034558
Подтверждаю. На первый взгляд нет сильного положительного биаса, и оно распознало подвох в стихе без дополнительных подсказок.

Аноним 30/01/25 Чтв 23:02:54 #111 №1034589

>>1034582
Вероятно, но мы же не можем этого знать без конкретных примеров.

Аноним 30/01/25 Чтв 23:09:55 #112 №1034607

>>1034576
>>1034578
Да ебать опять 24. Ну за они так с нами? Ну НЕТ у меня видеокарты на 24 Гб.
Я еле-еле запускаю 12B с 5 токенами в секунду.

Аноним 30/01/25 Чтв 23:15:35 #113 №1034624

2025-01-30231143.png

>>1034575
Big-agi несложную схему может нарисовать. Если взять о1 и мини-доку по mermaid в контекст положить, с примерами, наверное и сложную осилит.

Ответы: >>1034637

Аноним 30/01/25 Чтв 23:20:54 #114 №1034637

>>1034624
не будем вдаваться в контекст, и некую соевость такового, в целом терпимый вариант, хотя и визуальная составляющая для отцепного скорее

mermaid интересный формат, но сильно по возможностям ограничен, и не дает произвольные структуры с произвольным расположением элементов выводить... нету ли случайно какихнибудь альтернатив мермейду?

Аноним 30/01/25 Чтв 23:24:58 #115 №1034660

В общем, я не понимаю, в чем суть всех этих ваших LLM-моделей и как их можно использовать в любом контексте, кроме вероятностного.

Решать математические задачи? Не реально. Математика - точная наука.
Писать код? Зачем мне код, которые работает с N% вероятности? Особенно, если я не разбираюсь в программировании и не могу его продебажить.
Узнавать события и даты? Без гугла никак, иначе опять же - событие произошло с такой-то вероятностью такого-то числа. Зачем мне эта информация? Событие произошло, мне нужно ТОЧНО знать когда.
Проверять орфографию? Ну ладно, если я пишу на борде и хочу уменьшить вероятность, что меня отхуесосят - окей. А если я резюме пишу и англоязычная эйчарка увидит кринжовую ошибку? Резюме пойдет в мусорку.

Зачем нужен AI?

Ответы: >>1034666, >>1034681, >>1034701

Аноним 30/01/25 Чтв 23:26:34 #116 №1034666

>>1034660
>Зачем нужен AI?
Трахать кошкодевочек, очевидно же.

Аноним 30/01/25 Чтв 23:28:41 #117 №1034681

>>1034660
>Писать код? Зачем мне код, которые работает с N% вероятности? Особенно, если я не разбираюсь в программировании и не могу его продебажить.
чтоб не переписывать постоянно одинаковую хрень типа запрос добавь то, запрос добавь сё, запрос добавь то-сё, - короче для решения рутинных и давно известных подзадач, - таким образом остается только проконтролировать правильность вместо выдумывания и набирания кода

Ответы: >>1034692, >>1034705

Аноним 30/01/25 Чтв 23:30:32 #118 №1034688

1603846807578.jpeg

>>1034486
> Предлагаешь тренировать совместно?
Совместно с dit для которого ллм будет готовить токены-кондишны. Можно с дополнительной небольшой прокладкой. Так мы и сохраняем относительно небольшой объем необходимых "смысловых" токенов вместо десятков-сотен тысяч, и имеем красивое и качественное изображение (аудио, видео, ...) со всеми нужными атрибутами.
>>1034495
> чтобы создать адекватную вики по тупым вопросам, и когда я например высру очередной тупой вопрос, вы отправите меня в шапку треда
В шапке треда ссылка на вики.
>>1034496
Так бля епта, падажжи, сначала хуярим SL, потом делает RL, хуемое бля... Ага паттерны, чтобы иероглифы высирались... во, 50к а100 вот сюда пихаем...

Ответы: >>1034901

Аноним 30/01/25 Чтв 23:31:37 #119 №1034692

>>1034681
>остается только проконтролировать правильность
Так это бесит. Ты вчитываешься в каждую строчку и не делаешь ничего сам. Ты как будто ревьювишь код без удовлетворения, когда другой человек его поправит, потому что править его будешь ты. Плюс ты читаешь, а не пишешь, не участвует моторика - меньше удовольствия.

Ответы: >>1034705

Аноним 30/01/25 Чтв 23:31:42 #120 №1034693

image.png

>>1033569 →

Аноним 30/01/25 Чтв 23:32:37 #121 №1034701

>>1034660
>Зачем нужен AI?
Дрочка, определённо дрочка. Эта херь может заметить тебе секретаря. Обработка текста, генерация текста, простая математика, выводы, некоторая замена гуглу. Бля гум направлений просто мастхев. Да и чат с хорошо настроенной нейронкой может принести больше удовольствия, чем чат с типичным обитателем рунета. я уже говорил про дрочку?

Ответы: >>1034711

Аноним 30/01/25 Чтв 23:33:35 #122 №1034705

>>1034681
>>1034692
Ну то есть ты понимаешь? Ты ищешь всякие ошибки уровня l вместо I, которые ты бы сам не допустил скорее всего, если внимательный. А так ты читаешь каждую буковку. Это выбешивает.

Ответы: >>1034721, >>1034741

Аноним 30/01/25 Чтв 23:35:10 #123 №1034711

>>1034701
>простая математика
Чел, если я не знаю ответ, я НИКОГДА не обращусь к LLM, чтобы она посчитала, потому что знаю как она "считает". Я открою калькулятор. А если знаю ответ - зачем мне LLM?

Ответы: >>1034753, >>1034759

Аноним 30/01/25 Чтв 23:36:45 #124 №1034721

>>1034705
Будет особенно орно, если AI выдаст челу конфиг именно конфиг, не код, который компилируется и подсветит, где вместо английской C будет русская С. Это будет пушка.

Ответы: >>1034741

Аноним 30/01/25 Чтв 23:41:37 #125 №1034741

>>1034721
>>1034705
это ты по опыту? или по рассказам?
не видел чтобы ии выдавал такие ошибки, скорее сам вместо 0 О напишеш и потом гадать будеш где проблема,

нравится от руки писать - пиши, никто не запрещает

Ответы: >>1034759, >>1034769

Аноним 30/01/25 Чтв 23:43:16 #126 №1034753

>>1034711
>Я открою калькулятор
да, калькулятор очень поможет когда нужна аналитическая формула...
если у тебя есть формула и есть что нужно подставить то само собой llm тут не нужон

Ответы: >>1034759, >>1034760

Аноним 30/01/25 Чтв 23:45:02 #127 №1034759

>>1034711
ну не нужен, так не нужен съеби с треда
Если с think, то что-то простое считает хорошо. Что по остальному скажешь?
>>1034741
>>1034753
Какие же мы тут дружно - токсичные

Аноним 30/01/25 Чтв 23:45:13 #128 №1034760

>>1034753
>нужна аналитическая формула
Тогда я полезу в Гугл. Заебись будет получить формулу, где AI сгаллюцинирует и напишет x_i вместо y_i.

Ответы: >>1034803

Аноним 30/01/25 Чтв 23:45:21 #129 №1034762

>>1034028 →
Надеюсь не пережаренная какаха как обычно.

Аноним 30/01/25 Чтв 23:47:07 #130 №1034769

>>1034741
Ну я пытался однотипные скрипты генерить. Без вычитывания каждой буковки нельзя, она обсирается в рандомный момент и очень часто для таких простых задач.

Ответы: >>1034776, >>1034816

Аноним 30/01/25 Чтв 23:48:37 #131 №1034776

>>1034769
Это ты сейчас про генерацию программного кода нейронками говоришь?

Ответы: >>1034786

Аноним 30/01/25 Чтв 23:50:10 #132 №1034786

>>1034776
Да.

Ответы: >>1034820

Аноним 30/01/25 Чтв 23:53:17 #133 №1034803

>>1034760
а гугл тебе формулу сгенерирует?
или интегральчик тройной посчитает?

ты не стой стороны к вопросу подходиш, не надо искать для каких задач нужен LLM, нажно искать как можно использовать или нельзя для ТВОИХ задач иначе в рассусоливание скатывается все...

Ответы: >>1034815

Аноним 30/01/25 Чтв 23:54:50 #134 №1034815

>>1034803
гугл тебе формулу найдет
интегральчик тебе возьмет вольфрам

Ответы: >>1034843

Аноним 30/01/25 Чтв 23:54:56 #135 №1034816

>>1034769
чем ты генериш, третьим квантом 8б модели? что у тебя в буквах ошибки?

Аноним 30/01/25 Чтв 23:54:59 #136 №1034820

>>1034786
Значит ты диванный, или катал поломанный ггуф 7б лоботомита с задранной температурой, ибо таких ошибок сетки не делают.
Они могут ошибаться с методами и писать лишние незадействованные куски, путаться в размерностях тензоров и делать неверную индексацию, могут не понять тебя и сделать другое, или натащить надмозговых конструкций, которые потом будешь долго раскуривать. Но очепятаться - это почти невероятное событие.

Ответы: >>1034827, >>1034831

Аноним 30/01/25 Чтв 23:56:04 #137 №1034827

>>1034820
>ибо таких ошибок сетки не делают
ты орешь что ли?

Ответы: >>1034836

Аноним 30/01/25 Чтв 23:56:48 #138 №1034831

>>1034820
Попроси написать одну и ту же строчку N раз. ЛЛМка обосрется при некотором N.

Ответы: >>1034836

Аноним 30/01/25 Чтв 23:57:40 #139 №1034836

>>1034827
Шизик - фантазер
>>1034831
Еще один долбоеб, иди на калькуляторе текст литом напиши.

Ответы: >>1034850

Аноним 30/01/25 Чтв 23:59:06 #140 №1034843

>>1034815
>гугл тебе формулу найдет
только если она есть готовая конечно же...

ты так и не выдал для чего тебе нужны LLM, а то начинается, а вот в рот взять ваши LLM не могут, а если и берут то не так, и вообще я не знаю чего хочу, но LLM говно

Ответы: >>1034850

Аноним 31/01/25 Птн 00:00:46 #141 №1034850

>>1034836
Ясно, тролль.
>>1034843
Я спросил в начальном посте - зачем нужен LLM. Какие задачи он может НОРМАЛЬНО решить, кроме вероятностных?

Ответы: >>1034873, >>1034938

Аноним 31/01/25 Птн 00:08:44 #142 №1034873

>>1034850
>какие задачи может решить молоток кроме забивания

а какие тебе нужны? текстообработка для тебя недостаточно пидорская задача? и ты хочеш еще и математику притянуть?
ты не с той стороны к вопросу подходиш

Ответы: >>1034885

Аноним 31/01/25 Птн 00:12:14 #143 №1034885

>>1034873
ну я назвал одну задачу, которая, как мне кажется, нормально решается нейронкой:

>Проверять орфографию, если я пишу на борде и хочу уменьшить вероятность, что меня отхуесосят

А еще что? Сгенерить поток воды? Это для школьников, чтобы сочинения писать.

Ответы: >>1034938, >>1034961

Аноним 31/01/25 Птн 00:17:04 #144 №1034901

>>1034688
>Совместно с dit для которого ллм будет готовить токены-кондишны.
Ок.

Аноним 31/01/25 Птн 00:29:58 #145 №1034938

>>1034850
Это ты (пост-)тролль, чел. Диванный нитакусик, которого уязвил факт существования нейронок, из-за чего он пришел в профильный тред набрасывать треш. А когда понял что твое мнение не разделяют - начал сочинять бред про синтаксические ошибки в коде.
>>1034885
> >Проверять орфографию, если я пишу на борде и хочу уменьшить вероятность, что меня отхуесосят
Рациональность уровня "отапливать разваливающуюся халупу серверными видеокартами перемножая пустые матрицы". Но и это возможно с нормальной сеткой.
А отхуесосят тебя без вариантов, проблема не в орфограции.

Аноним 31/01/25 Птн 00:37:57 #146 №1034961

>>1034885
собрать выводы, перевести, заделать чатбота чтоб мучал анонов,
придумать, обсудить что-либо, проанализировать, получить рекомендации, получить карманного психолуха...

если конкретно у тебя нет задач для решения нейронками - радуйся - ИИ тебя не заменит

Аноним 31/01/25 Птн 00:49:42 #147 №1034985

Потыкал урезанный дипдик на своей 12гб игровой видеокарте, туповат. Люди пишут, что даже для сжатой квантованной версии нужно хотя бы 200 рама или врама. Получается пока локальная ллм для нищуков с <200 врам это только для задач типа поиска опечаток и документации к коду?

Ответы: >>1035006, >>1035022, >>1035217

Аноним 31/01/25 Птн 00:59:10 #148 №1035004

image

>>1034190
>>1034339
Спасибо, Q4_K_M инстракт действительно оказался сильно сговорчивее и сразу на просьбу придумать что-нибудь фентезийное выдал не фанфик, а elf,elven,pointy ears,brown hair,long hair,twin tails,mage hat,cropped top, cleavage,sleeveless,leather pants,fancy boots,rune tattoos,staff,wielding staff,casting spell,spell effect,fire magic,aura,action pose,outdoor,forest,stone archway,ruins, с чем в принципе можно работать. Думаю, дальше смогу добиться всего, что нужно, модификациями карточки.

Аноним 31/01/25 Птн 01:00:15 #149 №1035006

>>1034985
14b вполне справляется с мелочами. он вполне осилил например написать код шейдора когда я скормил ему научную бумагу. он в целом может справляться, хоть и не идеально.

Аноним 31/01/25 Птн 01:16:38 #150 №1035022

>>1034985

30В+ модели уже можно припрячь к рерайтингу текстов, это все еще в пределах относительно доступных 3090, 4090 и тесл.

Аноним 31/01/25 Птн 02:12:51 #151 №1035097

17370347020430.png

>>1033756 →
Я не доволен. Я правильно написал во второй раз, зачем оно меня поправляет?

Ответы: >>1035435, >>1035592

Аноним 31/01/25 Птн 02:39:16 #152 №1035160

>>1034130
Скачал твою модель, которая сайга + анлишед. На мой взгляд, она какая-то непонятная. Вроде ни туда ни сюда, что странно. Не могу вынести какой-либо вердикт. Интересно твоё мнение и других анонов. Есть ощущение, что влияние анлишеда в ней не слишком сильное. Впрочем, я мало её щупал, скачал вот совсем недавно.

По поводу твоей модели Pathfinder. Её погонял хорошо и хуй тоже. И теперь с гордостью могу сказать, что эра русскоязычного кума наступила в этот момент в твоём лице. Это точно лучшая модель для кума на русском языке 12б. Вот прям на кончиках пальцев. Да, допускает ошибки, конечно, и может начать полотна писать безумные, как магнум, и всё же, если немного следить за её поведением, всё будет в порядке.

А если ещё в систем промпт/карточку добавить нормальную инструкцию, то вообще красота.

Насколько я понимаю, модель стала такой из-за влияния Wayfarer, а не анлишеда (анлишед в такую смачную еблю и извращения не мог), но он в то же время и принёс полотна шизофрении.

----------------

Я перепробовал 4-6 магнумов, почти все говно на русике. Так как моделей было много, я не тестировал слишком внимательно и хорошо. Какие-то очень слабые надежды подаёт mini-magnum-12b-v1.1-iMat-Q8_0 внезапно, но не знаю даже. Пощупай, если интересно. Правда, ты уже сделал хорошую кум-модель и, вероятно, надо смотреть в сторону годнейшей рп модели без акцента на кум. Не знаю, что ты хочешь в итоге получить.

Wayfarer вроде как для этого предназначен, но он хорош только на 8к контекста, что не годится для годного рп, а модели давида и так склонны к безумию даже на англ в восьмом кванте. И в русском они вроде не особо хороши. Я скачаю пачку и посмотрю, что там. Вдруг будет сюрприз, как с анлишедом.

Технически возможно объединять 12б сайгу без поломки с какой-нибудь 14.5б/18.5б, которые есть у давида? Просто там подобных много и мне непонятно, стоит ли качать для проверки русика.

Ответы: >>1035184, >>1035315, >>1035373

Аноним 31/01/25 Птн 02:51:13 #153 №1035184

>>1035160
>лучшая модель на русском языке
Так описываешь, что тоже хочется попробовать. Сверните до четырех квантов её, а?

Ответы: >>1035187

Аноним 31/01/25 Птн 02:54:59 #154 №1035187

>>1035184
https://huggingface.co/mradermacher/Pathfinder-RP-12B-RU-GGUF
Оно?

Ответы: >>1035193

Аноним 31/01/25 Птн 03:04:03 #155 №1035193

>>1035187
Оно, не подумал там посмотреть, раз в ориге лежит только 8.

Ответы: >>1035260

Аноним 31/01/25 Птн 03:37:05 #156 №1035217

>>1034985
> 200 рама
170

> 12гб
32б в восьмом кванте отлично решает матан, например.

———

Как все новички доказывают троллю, что LLM на что-то способны — забавно. =) Но помните — лучше использовать себе на пользу, а не доказывать. Доказывать ноунейму — пустая трата времени и бесполезно для вас лично. Моральное удовлетворение вы вряд ли получите, на почве анонимных дискуссий он опытнее.

Аноним 31/01/25 Птн 04:49:11 #157 №1035252

Где взять карточки на русском?

Ответы: >>1035373

Аноним 31/01/25 Птн 05:03:38 #158 №1035260

>>1035193
Ну и ты учти сразу, что модель специфична. Со стандартами настройками может и не работать.

Ей обычно нужна низкая температура, я ставлю 0,6. Иначе шиза.

Если в примерах диалогов есть англоязычный текст, то риск шизы или кривого русика тоже повышается. На других ру-моделях так же, но здесь это сильнее выражено.

А вот карточку можно не переписывать.

Аноним 31/01/25 Птн 05:36:16 #159 №1035270

>>1034122
>Основную модель, по которой идет хайп, не запустить обычному человеку
Нуу, зависит от твоей страны
https://www.reddit.com/r/LocalLLaMA/comments/1i8y1lx/anyone_ran_the_full_deepseekr1_locally_hardware/
Как не извращаются

Аноним 31/01/25 Птн 05:43:01 #160 №1035273

>>1034146
Контекст, промты, карточки, глобально это все разные названия той горы "текста" который подаётся на выход нейронки каждый запрос, разделение сделано только для удобства мясных мешков.
Вписал ты свой текст в карточку или в чат, таверна все равно собирает из всего этого монолитный бутерброд по подаст на вход модели(почитай вывод в консоли). Разница только в том где в этом бутерброде будет находится твой текст, как правило большинство моделей независимо от размера любят "забывать" происходящее в середине, и отдают приоритет началу и концу.

Ответы: >>1035275, >>1035279

Аноним 31/01/25 Птн 05:43:47 #161 №1035275

>>1035273
>выход -> вход
Конечно же.

Аноним 31/01/25 Птн 06:12:56 #162 №1035279

>>1035273
Мне, кстати, интересно, как работает этот механизм внимания к контексту.

Много пользовался клодом, у которого 200к контекста. Скажу, что от этого реально польза есть, и тем не менее, моделям поддержание такого контекста даётся с трудом. Соннет, например, чаще проебывется при таком контексте, а опус уделяет больше внимания к нему, при этом сам опус "тупее" и знания у него более старые.

Как работают модели от гугл на 1 млн контекста — не представляю. Это уже смахивает на какой-то пидзеж или сворачивание 900к контекста в подобие лорбука.

Аноним 31/01/25 Птн 06:23:09 #163 №1035284

Там кстати выпустили новые варианты квен оптимизированные для 1м контекста. На счет полного миллиона не знаю, но видел комментарии что сетки стали лучше чем было воспринимать свой обычный контекст и работать с ним
Проверил бы кто, но нужно очень много памяти

Аноним 31/01/25 Птн 06:49:48 #164 №1035302

Как дистилляты дикпика пишут ролплей? Не в плане кума а в плане креативности?

Ответы: >>1035319, >>1035373

Аноним 31/01/25 Птн 07:16:30 #165 №1035315

>>1035160
>Просто там подобных много и мне непонятно, стоит ли качать для проверки русика.
С выходом нового малого Мистраля всё старые модели могут превратиться в тыкву. Нужны новые мержи.

Аноним 31/01/25 Птн 07:24:49 #166 №1035319

>>1035302
Речь об unsloth дистиллятах r1 на ламу/квен размеров 7b 14b 32b

Аноним 31/01/25 Птн 08:43:12 #167 №1035345

image.png

Во-первых это и есть ваша цидонька?
Пишет как 8б
Во-вторых хули срань слева не работает я же вписал

Ответы: >>1035662

Аноним 31/01/25 Птн 09:24:50 #168 №1035373

image

>>1035160
>эра русскоязычного кума наступила в этот момент в твоём лице
Спасибо блять, ты сделал мой день.
Прям неиронично со стула от смеха почти упал.

>>1035160
>14.5б/18.5б
Не, я пробовал, там всё ломалось (смотри две модели с upscale в названии). Чтобы выправить повторяющиеся слои нужен файнтюн а не мерж, по видимости.

>>1035252
Самому переводить. Вот несколько от меня:
- https://pixeldrain.com/u/6Gagz3ZP
- https://pixeldrain.com/u/e7ABV1EW
- https://pixeldrain.com/u/Zk8EPK24

>>1035302
>Как дистилляты дикпика пишут ролплей?
Потестил 32 квен, неплохо, подробнее ниже.

----------------------------------------------------------------------------

c4ai-command-r-08-2024.Q4_K_M
Не знаю, может в полных весах и норм, но в 4м кванте шизеть начинает уже с первого сообщения, с командирским пресетом ессно + simple-1 в таверне. Да и русский периодически скатывается до уровня "моя твоя умба-юмба". Слог очень сухой, как в плохих фанфиках: "Он пошёл, он сделал, он молодец." В пезду такую езду.

Mistral-Small-24B-Instruct-2501-Q6_K
Через раз начинает отвечать на английском но если пинать то вроде работает. Но всё равно фразы ломаются. Надо попробовать карточку полностью на русский перевести а не только первое сообщение.

Внезапно, поломы и провалы в логике которые не позволяла себе saiga-unleashed-q6_k.gguf, возможно связанные с рп-данными, ибо например биомех ВНЕЗАПНО полез рукой к пилоту которая сидит в его капсуле в тентаклевом ложементе, манипуляторов типа "рука" не предусмотрено, скорее всего модель просто забыла что юзер не человек в данном сеттинге.

Более-менее адекватный свайп смог выбить только раза с десятого, и это было всего лишь второе сообщение, пресет мистраль, сэмплеры абсолютный дженерик. Третье сообщение тоже кучу времени выдрачивал XD. Но дальше вроде подхватилось и пошло ОК. Периодически почему-то подсирал иероглифами. Но чем глубже в контекст, тем лучше становился язык и меньше свайпов для удовлетворительного результата.

Немного хорни, но в целом ок.
Хотя лупится бобр как курва, я пердолил.

В общем, потанцевал имеется, но нужен русский файнтюн.

DeepSeek-R1-Distill-Qwen-32B-Q4_0.gguf
Может в русский, и неплохо, хотя иногда подсирает иероглифами / переключается на английский и включает размышления до / после рп ответа.
Но логику проёбывает меньше чем Mistral-Small-24B, возможно ризонинг сказывается.

RuadaptQwen2.5_32B_Q4_0.gguf
ВНЕЗАПНО лучшее из здесяперечисленного. Выдало адекватный аутпут с первого же захода, на русском. И почему я не видел упоминания этой эксперименталки в треде? Кто там страдал "вот бы бы 22Б русскую" - вот тебе 32Б. Русская. 2-3 токена в секунду на 12+4 врам / 12К контекста.

Ответы: >>1035398, >>1035400, >>1035405, >>1035407, >>1035476, >>1035672, >>1036587

Аноним 31/01/25 Птн 10:06:06 #169 №1035398

>>1035373
>ВНЕЗАПНО лучшее из здесяперечисленного.
Сам себя не похвалишь - никто не похвалит? :)

Ответы: >>1035416

Аноним 31/01/25 Птн 10:18:16 #170 №1035400

>>1035373
> 3 пик
Ебать разминка для шеи, когда пытался прочесть это. Спасибо.

Аноним 31/01/25 Птн 10:21:40 #171 №1035405

>>1035373
>RuadaptQwen2.5_32B_Q4_0.gguf
Имеет смысл, но у меня на q4 из 10 карточек нормально понял и не свалился в шизу только в 5. ему от квантования прям плохо, на q6 уже гораздо бодрее, но все равно, как будто чего-то не хватает.

Аноним 31/01/25 Птн 10:26:15 #172 №1035407

>>1035373
> почему я не видел упоминания этой эксперименталки в треде
Потому что тред про подрочить, а не про хорошие модели. Я сюда сайгу три раза кидал, прежде чем аноны наконец попробовали, перестав обсирать ее за название. А уж руадапт — ну это вообще что-то на непопулярном! Вот если бы на реддите была новость, что китайская модель на английском не срет в штаны на 65б параметров, то тут бы ее превозносили!..

Так что, ты просто не там искал. =)

А «адекватный аутпут» подразумевает из себя полноценный РП/ЕРП содержательный и логичный?
Потому что получить просто хороший русский ответ можно на любой из моделей выше (кроме мистраля смол), скилл ишью.

Ответы: >>1035416, >>1035465

Аноним 31/01/25 Птн 10:55:38 #173 №1035416

>>1035398
>Сам себя не похвалишь - никто не похвалит?
Нет, я Aleteian из шапки, и я абсолютно никак не причастен к проекту RuadaptQwen.

>>1035407
>адекватный аутпут
Я не избалован высокоранговыми моделями, и в основном катал 12Б, как понятно из репы на обниморде. Там на скрине есть вывод руадапта. Мне показалось вполне норм. В хентае пока не тестил, вечером мб пробну.

Кстати, всему треду очень рекомендую послушать:
https://music.yandex.ru/album/35205999
Свидетели сингулярности - Про LLM c Ильёй Гусевым
(автор Сайги, если кто не курсе)

Ответы: >>1035433, >>1035440

Аноним 31/01/25 Птн 11:13:03 #174 №1035432

Пока mergekit лежит отдыхает, поделюсь с вами удачными результатами своих издевательств.

https://huggingface.co/OddTheGreat/Unity-12B
кванты https://huggingface.co/mradermacher/Unity-12B-i1-GGUF
Треда два назад про этот мердж писал, работает прилично.
состав (bamec66557/VICIOUS_MESH-12B-OMEGA + inflatebot/MN-12B-Mag-Mell-R1) + (redrix/nepoticide-12B-Unslop-Unleashed-Mell-RPMax-v2 + Epiculous/Crimson_Dawn-v0.2)

https://huggingface.co/OddTheGreat/Pretender-12b
кванты https://huggingface.co/mradermacher/Pretender-12b-i1-GGUF
более скромный мердж, на русском может, но как по мне, хуже. На англюсике весьма хорош.
Состав Khetterman/AbominationScience-12B-v4 +
cgato/Nemo-12b-Humanize-KTO-v0.1

Если есть что качественное, и не замерженное у талантливого товарища выше, пишите, рад буду потыкать и добавить в следующие эксперименты.

У меня 8 врама, поэтому сам юзаю q4_K_M, полёт нормальный. на й8 вообще кайф должно быть.

Ответы: >>1035588

Аноним 31/01/25 Птн 11:13:07 #175 №1035433

>>1035416
>Мне показалось вполне норм.
Этих руадаптов довольно много, какой именно ты пробовал? И почему Q4_0, а не Q4KM например?

Ответы: >>1035462

Аноним 31/01/25 Птн 11:14:17 #176 №1035435

>>1035097
Бампую и реквестирую новую модель, которая будет нормально проверять грамматику.

Аноним 31/01/25 Птн 11:20:29 #177 №1035440

>>1035416
ИМХО, стилистически говно какое-то.
Т.е., квен, все же, рабочая лошадка, за креативность классически бодается немо с геммой, и на этом примере это отлично видно.
Он большой и умный. Он русифицированный и быстро пишет. Он действительно логичен.
Но речевые обороты, которые он использует… Вот если бы сверху весь этот текст переписать другой моделью в литературный вид — было бы круто. А я лично читать такое не могу, сильно выбивает из канвы.

страх уступает место целеутвержденности

твердость, которой ей редко удавалось достичь в социальных взаимодействиях

касаясь головы одного из щупалец нежностью победителя-союзника, осознающего друг друга насквозь

гадким насекомоподобным

Ко многим словам здесь можно найти синонимы, которые будут гораздо лучше, или построить фразы иначе.
Думаю, это и квант сказывается, и это не файнтьюн на РП/фанфикшн, все же.

Но может я зря придираюсь, и так и задумано бай дизайн карточки, хз.

Даже первый скрин выглядит лучше (хотя там качество русского идет по пизде, конечно, к сожалению, поэтому суммарно хуже, лозерунный яд BioMecha=).

Ответы: >>1035499

Аноним 31/01/25 Птн 11:35:31 #178 №1035457

Походу в 12б реально нет смысла только если у тебя не 8гб
Цидония в 3 кванте пишет живее и умнее на такой же скорости

Ответы: >>1035462, >>1035516, >>1035528, >>1035542, >>1035672, >>1036127

Аноним 31/01/25 Птн 11:36:01 #179 №1035459

Аноны с двумя видеокартами, какие блоки питания вы используете?

Ответы: >>1035497, >>1035672

Аноним 31/01/25 Птн 11:38:18 #180 №1035461

Ну вот и всё, не будет 5090. Даже пендосы не могут купить её. А в 5090D производительность в куде порезали наглухо. Искать 48-гиговые перепаи 4090 теперь?

Ответы: >>1035462

Аноним 31/01/25 Птн 11:39:48 #181 №1035462

>>1035433
>какой именно ты пробовал?
https://huggingface.co/RefalMachine/RuadaptQwen2.5-32B-Pro-Beta-GGUF

>>1035433
>Q4_0
Легаси кванты в кобольде никогда не ломались, а к-кванты периодически да. Хотя вот те что делаются через gguf-my-repo те у меня всегда норм работали, а вот когда у других скачивал, те иногда оказывались шизанутыми.

>>1035457
>Походу в 12б реально нет смысла
При рп на английском языке.

На русском всё же, как это не прискорбно, нормально общаются только прошедшие полировку русским датасетом - сайга и руадапт. Остальное - может, но лучше не надо XD

>>1035461
>Даже пендосы не могут купить её
Directed by Robert B. Weide

Аноним 31/01/25 Птн 11:51:39 #182 №1035465

>>1035407

Чел, сайгу обсирали потому что она нам известна с 23 года и это всегда была полусломанная при этом невероятно соевая модель. Кроме того, сайга маленькая, половина треда на модели ниже 30b смотрит с улыбкой.

Ответы: >>1035467, >>1035490, >>1035542

Аноним 31/01/25 Птн 11:59:05 #183 №1035467

>>1035465
Добавлю, что в реальности некоторые (включая меня) решались таки попробовать 12б сайгу, и она оказывалась калом. Даже на той тестовой площадке с бредовыми промптами Гусева видно, что сайга не очень, мягко говоря. Если там новая версия сейчас, то хз, как она, но у старой русский был чуть ли не хуже, чем у немомикса без ру датасетов. Плюс-минус затащили только мержи.
мимо другой анон

Аноним 31/01/25 Птн 12:05:21 #184 №1035476

>>1035373

Дистилл диксика ты не с его пресетом использовал, я прав? И на диалоге где уже была история сообщений? Потому что его дефолтное поведение - срать блоками <think> на английском/китайском, это заложено в модель. На готовой истории он может подражать уже написанному тексту.
Попробуй на новом диалоге без истории.

Ответы: >>1035499

Аноним 31/01/25 Птн 12:12:56 #185 №1035490

>>1035465
>соевая модель
чел, зацензуренным был вихрь а не сайгак

Ответы: >>1035512

Аноним 31/01/25 Птн 12:21:11 #186 №1035497

image.png

>>1035459
Тебе в первую очередь интересен 12vh разъем.

Аноним 31/01/25 Птн 12:24:41 #187 №1035499

>>1035476
Нет, на новой карточке, с пресетом chatml, в таверне вроде нет пресета под квен, хотя давно не обновлял её.

>>1035440
>файнтьюн на РП/фанфикшн
А на Квен вообще есть рп-тюны?

Ответы: >>1035501, >>1035538, >>1035542

Аноним 31/01/25 Птн 12:27:27 #188 №1035501

>>1035499

Этот пресет только в staging добавили.

Аноним 31/01/25 Птн 12:33:51 #189 №1035512

>>1035490

Кому ты рассказываешь, я каждую сайгу кроме последней щупал начиная с первой, каждая отказывалась жесть генерировать.

Ответы: >>1035676, >>1035702

Аноним 31/01/25 Птн 12:35:22 #190 №1035516

>>1035457
> Цидония в 3 кванте
Защо ты так с моей любимой девочкой ? По что ты лоботомита мучаешь, ирод ?

Ответы: >>1035528, >>1035582, >>1036127

Аноним 31/01/25 Птн 12:41:08 #191 №1035528

1371902753783.jpg

>>1035516
>>1035457
>Цидония

На русском правильно Кидония.

Ответы: >>1035534, >>1035543, >>1036127

Аноним 31/01/25 Птн 12:44:25 #192 №1035534

IMG3699.jpeg

>>1035528
Чтоб тебя слопом переехало

Ответы: >>1035539

Аноним 31/01/25 Птн 12:45:44 #193 №1035538

>>1035499
>А на Квен вообще есть рп-тюны?

EVA
https://huggingface.co/bartowski/EVA-Qwen2.5-32B-v0.2-GGUF

Ответы: >>1035543

Аноним 31/01/25 Птн 12:47:08 #194 №1035539

15361733521720.png

>>1035534

Причина баха?
https://ru.wikipedia.org/wiki/Кидония_(Марс)

Ответы: >>1035549, >>1036127

Аноним 31/01/25 Птн 12:50:14 #195 №1035542

>>1035457
Никогда не экономил, beQuiet 850, Montech 1000.
…
Julongfengbao LX1800 =D

>>1035465
Тем не менее, последняя версия была хороша, вон, выше даже хвалят, но люди боялись поверить, чисто по инерции хейтили. =)

>>1035499
Почти нет, потому что он сильно цензуренный местами. Квен — отлично подходит для работы внутри компании. Лучший. Но вне своего спектра задач он такое себе.

Ну и плюс, если ты юзал дистилл без синкинга, то ты шо, дурак шо ли? =)
Вся суть в том, что в начале модель рассуждает, а потом дает ответ.
Очевидно, что ей нужен свой темплейт и дать возможность подумать над ответом. Там она может показать класс, возможно.
А иначе — это буквально попытка забивать гвозди микроскопом и «ниче так, увесистая модель!» =)

Я видел гениев, которые YuE музыкальную модель загоняли в llama.cpp и такие «а че мне консоль музыку не играет?»
Тут, конечно, не та ситуация, но суть та же. Буквально некорректное применение инструмента (и не под его задачу), это дает какой-то результат, но вовсе не тот, что хотелось бы.

Ваще, я щас уже оффтоплю, но поясню.

Я беру Qwen2.5-VL-3b, кидаю ему скрин задачки по матанализу и прошу перевести в LaTeX.
Потом кидаю полученный код в R1-distill-Qwen-32b-Q8_0 (потому что могу с 50к контекста), и получаю полное и корректное решение.
Gemma или Nemo так могут? Полагаю, вряд ли.
А теперь я захожу в чат и пишу «ты — рассказчик, описываешь фэнтези мир, продумываешь сюжет заранее и надолго…», и рпшу в диалоге.
Квен так сможет? Конечно, какой-то экспериенс он даст. Будет обдумывать ответы, строить сюжет заранее, да. Но текст напишет сухой, выражения подберет так себе, и, я подозреваю, сюжет будет кратко-академическим. =)
А Гемма с Немо бахнут попсовую, но интересную жвачку.

В общем, надеюсь ты уловил мою мысль. Всему свое место.
Квен почти никто не тюнит, потому что много работы ради одного лишь «ну он круто рассуждает, умный и логичный». Клево, но хотелось бы иметь креативность, богатый литературный язык, отсутствие цензуры и прочие ништяки. А имеем решение матана. =)

Если кто-то сможет собрать датасет и затюнить так, чтобы он писал красиво — думаю, это будет некст левел экспериенс в РП, конечно. Но вряд ли.

Ответы: >>1035672

Аноним 31/01/25 Птн 12:51:14 #196 №1035543

>>1035528
Надеюсь, ты называешь смартфоны «шиёми», а фирму фотошопа «адобе». =)

>>1035538
И как оно?

Ответы: >>1035550

Аноним 31/01/25 Птн 12:53:57 #197 №1035545

По какой причине немо мистраль начать срать одним и тем же сообщением или просто выдавать 1-2 слова без форматирования? Иногда приходится 5-6 раз свайпнуть или переписать прошлое сообщение, чтобы он начал обратно адекватно себя вести.

Ответы: >>1035566

Аноним 31/01/25 Птн 12:56:03 #198 №1035549

>>1035539
> Причина баха?
Будь осторожен, ты ходишь по охуенно тонкому blush, и когда blush треснет, то покачивая бедрами под ним, тебя буду ждать я.

Ответы: >>1035551, >>1035680

Аноним 31/01/25 Птн 12:57:50 #199 №1035550

>>1035543
>Надеюсь, ты называешь смартфоны «шиёми», а фирму фотошопа «адобе».

Чел, тут географический/исторический топоним, в оригинальном греческом Κῠδωνία, между прочим.

Ответы: >>1035562

Аноним 31/01/25 Птн 12:58:14 #200 №1035551

>>1035549

Кидонияшиз, спок.

Ответы: >>1035561

Аноним 31/01/25 Птн 13:00:36 #201 №1035557

Бля, держите байку, короче.

Как вы смотрите на скраппер на PHP? Вот это глаза у вас огромные теперь…
Спросил я Deepseek-R1 БЕЗ интернета, как можно реализовать.
И начал читать его мысли.
Вообще крайне рекомендую читать рассуждения моделей, потому что они зачастую очень неплохи и помогают учиться корректно находить решения своих задач. Тренируют мозг, короче. Как верные, так и неверные, которые ты смог раскритиковать и опровергнуть.
Ну так вот, он начал с мыслей «есть ли скраперы на PHP? Вряд ли!..» и в итоге посоветовал обращаться к питоновским либам. =D
Меня так умиляет, как они рассуждают. Литералли мем «а что если?.. да ну, хуйня какая-то!» Какие в пизду скрапперы на пыхе. =D

С активным интернетом он нагуглил пару библиотек и описал их.

Аноним 31/01/25 Птн 13:03:26 #202 №1035561

>>1035551
О ! 6B в 1Q, не признал тебя сразу.

Аноним 31/01/25 Птн 13:03:29 #203 №1035562

>>1035550
А вы жопочтец? =)
Адобе крик — это географический/исторический топоним, название ручья, в честь которого назвали фирму.

Я в принципе отсылаюсь на то, что произношение на русском не имеет отношения к тому, как произносили в оригинале две тыщи лет назад.
И Ксяёми/Сяоми называется корректно «Шиёми», и Эдоуб называется «Адобе», но почему-то фанаты «произносить верно» кладут хуй на такую вопиющую несправедливость.

Так что, если же хочется называть Кидония — то будьте добры заодно и Шиёми с Адобе. =) Если уж называем корректно, то все названия, так ведь?

Ответы: >>1035573

Аноним 31/01/25 Птн 13:07:16 #204 №1035566

>>1035545
Скажем так, у мистралей есть некоторые особенности о которых по какой то блять неведомой причине ценители миксов по мистралям не любят говорить.
Два друга Лупа и Пупа будут с тобой перманентно.

Аноним 31/01/25 Птн 13:17:18 #205 №1035573

>>1035562

Почему двухтысячелетней давности-то, регион на марсе назван в 20 веке.
Шиёми не географический термин, и у нее нет официального перевода на русский, даже статья в вики на русском не транслитерирует название, так что нет.
А ручей в честь которого названа adobe на русском называется Адоб-крик, так что ты и тут кругом неправ, все как раз правильно его называют.
https://tm.2markers.com/1244776

Ответы: >>1035715

Аноним 31/01/25 Птн 13:23:38 #206 №1035582

>>1035516
Я и в 6 кванте гонял, отличий почти нет

Аноним 31/01/25 Птн 13:28:45 #207 №1035588

>>1035432
красавчик, вторая интересная (pretender) хотя порой странная (ну, неудивительно если учитывать ЧТО туда входит)

Аноним 31/01/25 Птн 13:31:19 #208 №1035592

>>1035097
Бампирую.

Ответы: >>1035594

Аноним 31/01/25 Птн 13:34:12 #209 №1035594

>>1035592
Он же говорит тебе be, а не been, ну хоть в переводчик загони, это разные времена.

Ответы: >>1035595

Аноним 31/01/25 Птн 13:35:39 #210 №1035595

>>1035594
Конструкция неправильно сделана.

Аноним 31/01/25 Птн 14:24:06 #211 №1035662

>>1035345
Ало блять я ебнусь если ещё раз прочитаю шиверс чей то спайн

Ответы: >>1035669

Аноним 31/01/25 Птн 14:30:14 #212 №1035669

>>1035662
Съешь с полки blush.

Аноним 31/01/25 Птн 14:31:42 #213 №1035671

5090 просто нет, на ебей по $6200, дижожтс надеюсь кожаный пидрилкин в норм количестве сделает

Ответы: >>1035672

Аноним 31/01/25 Птн 14:33:24 #214 №1035672

>>1035373
> Все модели в k квантах говно
> Легаси q4_0 хорошие
Ебала жора-юзеров представили просто?
>>1035459
Чифкок поларис про, дешево, сердито, тихо. Хотя уже ни разу не дешево.
Если тебе для рига - бери "фирменные" майнерские, у них с элементной базой все внезапно прилично и адекватное охлаждение. Но вариант не для стояния рядом, под нагрузкой продувает себя на все деньги и шумноват.
>>1035457
Полагаю, стоит подождать дериативов нового мистраля, есть шанс что тут будет еще лучше. Когда разница по весам в 2 раза - это будет и ощущаться иначе, а q3 иногда еще всполне живой.
>>1035542
> Gemma или Nemo так могут?
Еще первая ллама могла, по крайней мере пыталась. С типичными задачаками они в целом справляются, а в чем-то передовом и новом - по крайней мере дистилляты сосут бибу, проверено.
>>1035671
Чтож, придется подождать.

Ответы: >>1035715

Аноним 31/01/25 Птн 14:34:48 #215 №1035675

Поясните за world info, как с ним грамотно работать? А то уже сил моих больше нет. Я туда вписываю второстепенных персонажей, ЛЛМ блядь всё путает постоянно, описания персонажей объединят или вообще теряет все время. И у ЛЛМ реально своя версия информации о мире. У меня допустим там 7 позиций, у неё 19. Там например не только персонажи, но и локации всякие, правила. Я прошу проиндексировать, мне пишут мол заебись, но по факту нифига всё по-старому остается. Я в ахуе, что делать? Как подружить ЛЛМ с world info чтоб не было отсебятины и перепутанных описаний персонажей.

Ответы: >>1035692

Аноним 31/01/25 Птн 14:35:25 #216 №1035676

>>1035512
>жесть генерировать
Чувааак, вот специально ради тебя скачал.
https://litter.catbox.moe/awrgvl.zip - любимая забава испанской инквизиции
Главное - правильно попросить.
Или что для тебя "жесть"?

Ответы: >>1035702, >>1035722

Аноним 31/01/25 Птн 14:41:46 #217 №1035680

>>1035549
>буду ждать я
страшно, вырубай

Аноним 31/01/25 Птн 14:43:27 #218 №1035683

https://www.reddit.com/r/LocalLLaMA/comments/1idseqb/deepseek_r1_671b_over_2_toksec_without_gpu_on/
кек

Ответы: >>1035693, >>1035715

Аноним 31/01/25 Птн 14:49:14 #219 №1035692

>>1035675
>перепутанных описаний
попробуй заключать в псевдо-теги как здесь
https://characterhub.org/characters/aleteian/storyteller-124d69a2f4aa

Аноним 31/01/25 Птн 14:51:10 #220 №1035693

>>1035683
>кек
жесть народ пердолится, но чувак смог, уважуха

Аноним 31/01/25 Птн 14:57:11 #221 №1035702

image

>>1035512
>>1035676

Аноним 31/01/25 Птн 15:22:03 #222 №1035715

>>1035573
> на русском называется
Только это индейское слово, и приведенный пример «на русском» ровно так же некорректен, как и все остальное. =)
Реально мем про школоту доющая коня. =) Ну ладно, как пожелаешь, псевдо-интеллектуал, не буду убеждать, мое дело сообщить, а дальше хозяин-барин.

>>1035672
> проверено
Ну, вот я проверял, все там норм.
Предполагаю, скилл ишью, или 4 квант или еще какая хуйня (надеюсь, не 8б мерял?:).
Так что, тут ты просто заблуждаешься.
Рекомендую перепроверить. =)

>>1035683
> what about $1.5k for 4x NVMe SSDs
в натуре кек )
У кого есть готовое — за тех рад, конечно…

Ответы: >>1035730

Аноним 31/01/25 Птн 15:22:47 #223 №1035717

1599798545174.png

Гои, ебало?

Ответы: >>1035730, >>1035740

Аноним 31/01/25 Птн 15:23:55 #224 №1035722

1688787218607.png

>>1035676
классика от анона

Ответы: >>1035732

Аноним 31/01/25 Птн 15:33:15 #225 №1035730

>>1035715
> Предполагаю, скилл ишью
Верно предполагаешь. Нужно быть способным во что-то сложнее копирования дефолтных задач из сборников и понимать предмет, одновременно с обладанием навыками работы с ллм. А глупому скуфидону любой копиум покажется мессией, все закономерно.
>>1035717
Сравнивали также по правильной методике как раньше с H100?

Ответы: >>1035737

Аноним 31/01/25 Птн 15:36:28 #226 №1035732

image

>>1035722
Куда тебя ебать?
https://characterhub.org/characters/Anonymous/eleanora-b46ebbc94e36
(карточка не моя)

>>1035722
Нету там ничего, я первым делом проверил.
Если (разумно) опасаешься скачивать, то я закинул содержимое архива (один текстовый файл) на пиксель
https://pixeldrain.com/u/xRtyxHwh

Аноним 31/01/25 Птн 15:46:25 #227 №1035737

>>1035730
Красиво.
Но ты же понимаешь, что скилл ишью у тебя. =)
Ладно, нюхай свой копиум, что тебе еще остается.
Чем больше людей, которые не шарят, — тем меньше конкуренции. =)

Ответы: >>1035738, >>1035751

Аноним 31/01/25 Птн 15:48:19 #228 №1035738

1630506704139.jpg

>>1035737
>конкуренция хую в руке

Аноним 31/01/25 Птн 15:49:18 #229 №1035740

>>1035717
Ещё бы в паре с картами куртки работало это.

Аноним 31/01/25 Птн 15:58:14 #230 №1035744

ВСем привет, я из /po ,сказали тут лучше помогут, короче пишу статью о китайских ИИ моделях для крупного авторитетного сми, можете помочь покидать ссылки о том почему не стоит им доверять, что заявляемая оупен сорсность их ложь, что падение акций америкаснких ии комапний это мелочь не важная и объясняется почему, что они созданы с поддержкой китайского режима и если есть еще какие-то важные моменты чтобы тоже упонмяуть о них?

Ответы: >>1035746, >>1035750, >>1035771, >>1035800

Аноним 31/01/25 Птн 16:02:17 #231 №1035746

>>1035744
Кто жпт к треду подключил?

Аноним 31/01/25 Птн 16:07:10 #232 №1035750

>>1035744

Это толстота? Похоже на толстоту. Ладно, отвечу.

>почему не стоит им доверять

Любой локальной модели, не только дипсику, можно доверять априори. Если ты запускаешь её со своего компа, выключив интернет на всякий случай(сама модель не настучит, но браузер или фронт или в чем ты в чем ты там её запускаешь, может). В любом случае сама по себе модель априори безопасна.

>заявляемая оупен сорсность их ложь

В смысле ложь? А что мы тут запускаем в треде, лол?

>падение акций америкаснких ии комапний это мелочь не важная

Это мелочь, потому что это говно и так было раздуто и ждало малейший повод пойти вниз. Да, Опен АИ может и наебнется, но оно бы и так наебнулось.

>созданы с поддержкой китайского режима

Ты точно в серьезный журнал это писать собрался?

Ответы: >>1035759, >>1035788, >>1035800

Аноним 31/01/25 Птн 16:07:13 #233 №1035751

>>1035737
Полагаю тебе стоит охладить траханье и пойти еще в майнерских паскалях поковыряться. Ты же таксуешь всем этим занимаешься просто для души, в перерывах между масштабными внедрениями.

Ответы: >>1035800

Аноним 31/01/25 Птн 16:09:28 #234 №1035754

Какие есть русскоязычные, без цензуры модели для 6 ГБ?

Ответы: >>1035819

Аноним 31/01/25 Птн 16:12:04 #235 №1035759

>>1035750
> почему не стоит им доверять
Он про китайцев, а не про модель, додик. Дальше не читал.

Ответы: >>1035764, >>1035788

Аноним 31/01/25 Птн 16:14:35 #236 №1035764

>>1035759
>о китайских ИИ моделях для крупного авторитетного сми, можете помочь покидать ссылки о том почему не стоит им доверять
>китайских ИИ моделях
>почему не стоит им доверять

Он ясно именно про китайские модели высказался, додик, глазки открой. Или для тебя русский язык не родной?

Ответы: >>1035767, >>1035788

Аноним 31/01/25 Птн 16:15:51 #237 №1035765

Так и живем. Сел кумить с карточкой мать-дочь, в итоге несколько часов душевно обедал с ними, играл в мяч и прятки. И отвечал на бесконечные вопросы обо всем подряд от мелкой занозы в заднице.

Ответы: >>1035775, >>1035800, >>1035823, >>1035935, >>1035953, >>1036003, >>1036112

Аноним 31/01/25 Птн 16:16:40 #238 №1035767

>>1035764
попробуй включить голову и подумать для кого он это пишет

Ответы: >>1035781, >>1035788

Аноним 31/01/25 Птн 16:18:51 #239 №1035771

>>1035744
сэм, ну ты чего...

Аноним 31/01/25 Птн 16:22:37 #240 №1035775

>>1035765

Стареешь, видимо. Остепеняться пора, тебе организм сам намекает.

Ответы: >>1035967

Аноним 31/01/25 Птн 16:28:00 #241 №1035781

>>1035767

Я в мысли парашников не лезу, чтобы не зашквариться о чан с говном, который у них вместо мозгов, если ты понял своего косноязычного парашного собрата лучше - сам ему и отвечай.

Ответы: >>1035785, >>1035788

Аноним 31/01/25 Птн 16:29:44 #242 №1035785

>>1035781
мощный подрыв, больше не умничай в треде и попка будет целой)

Ответы: >>1035788

Аноним 31/01/25 Птн 16:34:38 #243 №1035788

>>1035785
>>1035781
>>1035767
>>1035764
>>1035759
>>1035750
Нахуй вы вообще на это отвечаете и срётесь? Это очевидный шизобайт, и попытка выебнуться элитарность. Журналист из крупного, авторитено сми собирает инфу для статьи на двачу. Юорда успешных людей, хули.

Ответы: >>1035800

Аноним 31/01/25 Птн 16:55:06 #244 №1035800

>>1035744
Поорал, найс байт!

>>1035750
Ну зочем ты кормишь тролля! =D

Давай я тебе отвечу. =)

> можно доверять априори
Нельзя, ведь цензура искажает факты!
То ли дела светлая цензура пиндостана!.. =D

> В смысле ложь?
Они не выложили датасеты и методику обучения — значит это не open source, а вполне себе closed source. Тебе дали покатать саму модельку, да, но источник неясен.
За это, кстати, критиковали Лламу, что она нихуя не опенсорс. Но это все игра слов, отчасти.

> Это мелочь, потому что это говно и так было раздуто и ждало малейший повод пойти вниз.
Ошибаешься. Дело не в этом, просто финансисты дебилы и не понимают, что «дешевизна» китайской модели обусловлена отсутствием экспериментов и просто следованием по проторенной дорожке, а атомный волчара Сэм, как мощны его лапищи, эту дорогу проложил грудью (майкрософт) и десятками миллиардов долларов.
Как итоге — видеокарты все еще нужны, без них эксперименты будут длиться десятилетиями, а не месяцами.

> Ты точно в серьезный журнал это писать собрался?
Да ну очевидно же троллит. =)

>>1035751
Извини, что правда задела тебя за живое, но ты какую-то хуйню высрал. Чел выше хотя бы просто скинул боевую картинку и просто высрал, хотя бы не выглядит обиженкой. =)

>>1035765
Да я смотрю, ты тоже дед уже.

>>1035788
Ставлю нихуя на то, что один из них — это автор, продолжает байтить.
А может и ты.
А может и я.

Ответы: >>1035810, >>1035837, >>1035843

Аноним 31/01/25 Птн 17:00:21 #245 №1035810

>>1035800
Орнул с полотна шизика, опять дамбу прорвало.

Ответы: >>1035865

Аноним 31/01/25 Птн 17:13:27 #246 №1035819

>>1035754
лама аналигнед

Ответы: >>1038792

Аноним 31/01/25 Птн 17:16:54 #247 №1035823

>>1035765
была альтернативная история, кум карточка где надо похитить школьницу, но вместо этого успешно довёл до дома, а на следующий день она пришла с мамой у которой уже год после развода не было хорошего траха, и весело провели время

Аноним 31/01/25 Птн 17:35:12 #248 №1035837

>>1035800
>Ставлю нихуя на то, что один из них — это автор, продолжает байтить.
А может ты вообще нейронка?

Ответы: >>1035872

Аноним 31/01/25 Птн 17:39:04 #249 №1035843

>>1035800
>Да я смотрю, ты тоже дед уже.
Я просто не хотел "я тебя ебу - ты меня ебешь" исхода и все делал ненавязчиво, и тут понеслось.

Ответы: >>1035872

Аноним 31/01/25 Птн 17:44:59 #250 №1035851

image.png

Нани? Почему при очередном запуске кобольда, вся моделька выгрузилась в динам. память, забив на основную память видяхи?

Ответы: >>1035854, >>1036003

Аноним 31/01/25 Птн 17:48:06 #251 №1035854

>>1035851
Перезапустил и все стало нормально. Но все равно херня какая то.

Аноним 31/01/25 Птн 17:54:26 #252 №1035865

>>1035810
Это больное животное считает тред своим, а любой пост — личным сообщением.

Аноним 31/01/25 Птн 17:58:40 #253 №1035872

>>1035837
Кто знает…

>>1035843
Не стоит заниматься успокоением, прими себя. ^_^~

Ответы: >>1035902

Аноним 31/01/25 Птн 18:15:09 #254 №1035902

>>1035872
Сука, тред симулякрумов, помогите.

Аноним 31/01/25 Птн 18:39:33 #255 №1035935

>>1035765
Играл как-то старую карточку девушки юзера и её мелкой сестры, где девушка в сорре с юзером, а лолька его хочет. Играли в настолки все вместе, а потом читал мелкой сказки на ночь, с трудом выдумывая какую-то дичь, как будто это я тут нейронка. Неироничное кьют энд фанни - это база.

Ответы: >>1035943

Аноним 31/01/25 Птн 18:47:52 #256 №1035943

>>1035935
Я даже сразу понял о ком ты. https://chub.ai/characters/elodia/moriko-and-reina

Аноним 31/01/25 Птн 18:57:04 #257 №1035953

>>1035765
Я так Озен уже неделю всё выебать никак не решаюсь, слишком хорошо проводим время, не хочу ломать момент.

Аноним 31/01/25 Птн 19:07:24 #258 №1035967

>>1035775
>Стареешь, видимо. Остепеняться пора, тебе организм сам намекает.
Ты считаешь что прыгать по комнате, крутить хуём как мартышка и пытаться засунуть его в первую попавшуюся дырку - признак юности и силы? Ну выеби розетку в комнате тогда, хули.

Интересная история всегда будет превыше тупых поебушек, запомни это.

Ответы: >>1035970

Аноним 31/01/25 Птн 19:09:33 #259 №1035970

>>1035967
>обедал с ними, играл в мяч и прятки
>Интересная история
дриснул в слюни с писателя

Ответы: >>1035972, >>1035985

Аноним 31/01/25 Птн 19:11:26 #260 №1035972

>>1035970
Если у тебя весь ролл заключается в написании одного слова в чат, то мне тебя жаль. Даже самые примитивные вещи могут быть описаны приятно, красиво и литературно.

Аноним 31/01/25 Птн 19:15:28 #261 №1035977

>MistralRP-Noromaid-NSFW-7B-Q5_K_M
Q5_K_M при весе в 5гб, где наеб?

Ответы: >>1035979

Аноним 31/01/25 Птн 19:17:01 #262 №1035979

>>1035977
> 7B

Аноним 31/01/25 Птн 19:18:41 #263 №1035985

>>1035970
А мне и не надо было практически писать, 1-2 фразы, описание моих действий, и история разворачивалась, мать и дочь реагировали и действовали.

Аноним 31/01/25 Птн 19:23:43 #264 №1036003

>>1035765
Напомнило какую-то кароточку с мамочкой на чубе, с высоким рейтингом и кучей комментов о том что никто не кумил а наоборот душевно общались и обсуждали жизнь.
Удачное сочетание карточка-модель-промт, наслаждайся, не кумом единым же.
>>1035851
По какой-то странной причине оно резервирует там место, но при этом не обращается. Еще больше года назад такое наблюдал, причем если чистого Жору пускать - подобного нет.
Хотя может у тебя и какой-то другой баг.

Аноним 31/01/25 Птн 19:25:01 #265 №1036005

1.mp4

image

Я только сказал привет и всё. Почему эта шизо-программа высралась только в консоль? Такое вообще норм? Как исправить? Дальше вообще какие-то подземелья пошли, опыт, статы.

Ответы: >>1036017

Аноним 31/01/25 Птн 19:27:47 #266 №1036017

>>1036005
>чат без таверны
откуда вы лезете блять

Аноним 31/01/25 Птн 19:33:08 #267 №1036028

Установил цидонию Q6_L. По советам с прошлого треда. 23 слоя на видеокарту. 5 т/с. Текст на 230 слов сгенерировал за минуту.
Мне так то норм, но по итт критериям насколько всё плохо?
Если я с винду пересяду на дебиан читсый, в скорости я что то получу? Или всё в рамках погрешности?

Ответы: >>1036033, >>1036048, >>1036296, >>1036588

Аноним 31/01/25 Птн 19:35:58 #268 №1036033

>>1036028
Почти получилось почувствовать, какая у тебя видеокарта, пока не уходи далеко.

Ответы: >>1036048, >>1036063

Аноним 31/01/25 Птн 19:39:56 #269 №1036048

>>1036033
Я думаю мы должны использовать технику глубокого предсказательного анализа.
Сейчас Vanga из под доса запущу.

>>1036028
>5 т/с.
Мне за тебя почувствовать норм или нет ?

Ответы: >>1036063

Аноним 31/01/25 Птн 19:44:20 #270 №1036063

>>1036033
>>1036048
4070+ддр5. Запущено на кобальде.

Аноним 31/01/25 Птн 20:12:13 #271 №1036112

>>1035765
А карточку не скинешь? А то у меня такая же ситуация IRL, лол.

Ответы: >>1036116

Аноним 31/01/25 Птн 20:14:38 #272 №1036116

>>1036112
https://chub.ai/characters/Anonymous/oyakodon-seduction-of-mother-and-daughter-e9d5be93c337

Ответы: >>1036166

Аноним 31/01/25 Птн 20:20:41 #273 №1036127

123456.mp4

>>1035516
>>1035457
>>1035528
>>1035539
Сукаблядь

Ответы: >>1036238

Аноним 31/01/25 Птн 20:42:24 #274 №1036166

>>1036116
>Pronouns: She/Her
>Sexuality: Bisexual
>Age: 10
Вот как это называется?

Ответы: >>1036170

Аноним 31/01/25 Птн 20:43:40 #275 №1036170

>>1036166
Это называется чуб, и там чтобы найти хоть чуток нормальную карточку, нужно ебучие авгиевы конюшки перевернуть.

Ответы: >>1036200

Аноним 31/01/25 Птн 20:59:07 #276 №1036200

>>1036170
Претензия была к бисексуальности 10 летнего ребёнка а ещё к ебучему произношению, как будто меня ебёт, ши она или зис, ну да ладно.

Ответы: >>1036210

Аноним 31/01/25 Птн 21:03:29 #277 №1036210

>>1036200
Ну думаю это скорее было создано для того чтобы она приняла любого в ее семью, ну а о произношениях стоит винить только загнивающий запад

Аноним 31/01/25 Птн 21:30:47 #278 №1036238

>>1036127
но слово то греческое

Аноним 31/01/25 Птн 22:22:53 #279 №1036296

>>1036028
Смотри, скорость очень субъективна. Некоторым хватает и 2т/с, некоторым 20т/с мало.
Решай для себя сам.

Ответы: >>1036358, >>1036538

Аноним 31/01/25 Птн 22:52:47 #280 №1036358

>>1036296
>некоторым 20т/с мало
Это кому может быть мало? Это практически моментальная генерация, если мразь на юзере не запрашивает 1-2к токенов в ответе обязательно.

Ответы: >>1036362, >>1036488, >>1036636

Аноним 31/01/25 Птн 22:56:33 #281 №1036362

>>1036358
Агенты и любая автоматизированная работа, там чем больше тем лучше, а идеально вобще мгновенно.
Захочешь интернет страницу перевести или кинуть на анализ - взвоешь от ожидания даже на 20т/с.

Аноним 31/01/25 Птн 23:06:41 #282 №1036376

430670.jpg

Меня из общего чата к вам отправили.
Какой поставить дипсик локально? Попробовал трёх:

DeepSeek-R1-Distill-Llama-8B-GGUF/DeepSeek-R1-Distill-Llama-8B-Q4_K_M.gguf - очень быстрый, но пишет как-то невпопад по кодингу (Unity). Часто пишет с ошибками (в тексте), иногда переходит на английские слова и китайские иероглифы.

deepseek-ai.DeepSeek-R1-Distill-Qwen-32B-GGUF/deepseek-ai.DeepSeek-R1-Distill-Qwen-32B.Q4_K_M.gguf - пишет уже более развернуто, адекватно. Но подольше разумеется, минут 5 ждать его ответы.

deepseek-ai.DeepSeek-R1-Distill-Llama-70B-GGUF/deepseek-ai.DeepSeek-R1-Distill-Llama-70B.Q4_K_M-00001-of-00004.gguf - пишет хорошо, почти как и нужно. Но долго капец, минут 15 на ответ и по букве. Подходит для каких-то больших вопросов, где задаешь и идёшь чай пить например.

Вебверсия всем устраивает, разумеется и похуй на конфиденциальность, но сайт лежит очень часто и хочется локальности. Между 32 и 70 есть что-то среднее, чтобы и скорость и ответы по теме? Кто-нибудь тестил ещё?
Запускал через LM Studio в дефолтных настройках, может там че подкрутить можно ещё.

Ответы: >>1036380, >>1036530

Аноним 31/01/25 Птн 23:08:07 #283 №1036380

>>1036376
Читай первое сообщение в треде.

Ответы: >>1036381

Аноним 31/01/25 Птн 23:09:36 #284 №1036381

>>1036380
Ну а какой дистилят лучше-то? В соседнем треде вебверсию только обсуждают, им локальная нахуй не нужна

Ответы: >>1036390, >>1036406, >>1036413

Аноним 31/01/25 Птн 23:14:15 #285 №1036390

>>1036381
Какой больше, тот и лучше, внезапно.

Аноним 31/01/25 Птн 23:20:26 #286 №1036398

кто-нибудь шарит в llama.cpp server? Я его гоняю с openwebui, и он после ответа продолжает грузить цпу и гпу как будто генерация продолжается. новые запросы не принимает. так что приходится его рестартовать на каждый запрос - работать невозможно. как понять что там не так и что он вообще генерирует?

Ответы: >>1036408

Аноним 31/01/25 Птн 23:20:37 #287 №1036399

Чёт не могу понять, какие для руадапта настройки нужны...

Аноним 31/01/25 Птн 23:26:05 #288 №1036406

>>1036381
Лучше всего то что обычному смертному не нужно. Все что есть мелкое проигрывает существующим моделям.

Аноним 31/01/25 Птн 23:27:58 #289 №1036408

>>1036398
Опенвебуи может какие то свои левые запросы туда слать, на генерацию названия диалога например
Ну и вобще это поделие только с оллама нормально работает, наверняка с апи лламаспп криво управляется

Аноним 31/01/25 Птн 23:32:13 #290 №1036413

>>1036381
Лучше тот который ты модешь комфорино запускать. Для кода вобще лучше обычную qwen 2.5 32 coder использовать
Можно и дистилляты, но там сложнее хоть и умнее
От 14b и выше смотри, ниже дистилляты туповаты
Железо в студию, повангуем тебе что стоит пытаться запускать а что нет

Ответы: >>1036458

Аноним 31/01/25 Птн 23:32:38 #291 №1036414

image.png

1 - р1 с вебсайта
2 - локальный, квантизованный от анслота
они практически идентичны

нет смысла дистилы использовать, кроме недостатка озу. просто докупите памяти и будет буквально модель уровня о1 локально
да, медленно пока. новые поколения гпу будут быстрее гонять такое через несколько лет

Ответы: >>1036447, >>1036458, >>1036475, >>1036488, >>1036530

Аноним 31/01/25 Птн 23:39:40 #292 №1036430

image.png

то же самое от о3-мини-хай

Аноним 31/01/25 Птн 23:46:12 #293 №1036447

>>1036414
> практически
Зачем же ты тогда второй раз свайпал? Да и ответы похожи только по структуре из-за длинных размышлений, по содержанию довольно большая разница.

Аноним 31/01/25 Птн 23:55:54 #294 №1036458

>>1036413
Ладно, я понял короче. Паралельно у дистилята дипсика поспрашивал. Думаю, учитывая что в LM Studio можно модели на ходу переключать, то проще спрашивать всё у 32в и если начнёт тупить спрашивать у 70в уже че дальше то делать.

>>1036414
Анслот это вот этот? Ну такой я хуй запущу, у меня 64гб
https://huggingface.co/unsloth/DeepSeek-R1-GGUF

Ответы: >>1036530

Аноним 01/02/25 Суб 00:04:51 #295 №1036475

>>1036414
Вопрос слишком простой, 32B даст тебе ответ примерно как жпт на твоём скрине. А q2 у тебя шизит, аналогию про яблоко приплёл не к месту, русский очень странный. Ещё и генерация целую вечность. Я бы не стал лоботомита такого трогать.
Ты лучше на кодинге тестируй, вот там начнётся реальное шитшоу, когда ты будешь умолять дать тебе 70В дистиляцию вместо лоботомита.

Аноним 01/02/25 Суб 00:12:19 #296 №1036488

>>1036358
Например если ты используешь сетку не для неспешного порночатика, а для обработки чего-то. Особенно если там цепочка промежуточных результатов, а не короткий зирошот.
>>1036414
> кроме недостатка озу
> 512гб для норм кванта
Ради генерации типичного меганасрал поста раз в пол часа или час обработки контекста, хорошая идея.
Если ужать до минимума - это лоботомит, будет шизофазический словестный понос вместо ответов как на твоем скрине, тут вообще теряется весь смысл.

Аноним 01/02/25 Суб 00:17:05 #297 №1036496

Сегодня поставил таверну и у меня такая проблема. Пару часов все работало нормально, но потом она начала срать в штаны мощно. В общем когда натыкается на токен с именем моего персонажа(ЛЛМ пишет от моего имени), обрубает дальше стрим, но в консоли ЛЛМ он продолжается, и в итоге получается какой-то рассинхрон что ли, что я не могу больше ничего писать в чат и то что сгенерилось после токена с именем перса не отпраялется в таверну(но все равно генерится). Как эту хуйню фиксить? Как же я намудохался с этой таверной сегодня... Так бы и сидел на кобольде, не знал печали, но там ворлд инфо не пашет практически, а лор буки нужны.

Ответы: >>1036508

Аноним 01/02/25 Суб 00:24:14 #298 №1036508

12.png

>>1036496
М ?

Ответы: >>1036516, >>1036518

Аноним 01/02/25 Суб 00:36:06 #299 №1036516

urodi.jpg

>>1036508
Там ник перса. Сука уроды, ну вот зачем так делать. Если в таверне отключаю опцию "Names as Stop Strings". То эта ошибка исчезает, но таверна ломается к хуям, и мне больше не дает отправлять текст.

Ответы: >>1036517

Аноним 01/02/25 Суб 00:39:54 #300 №1036517

>>1036516
На то она и Silly, не будь к ней строг.

Аноним 01/02/25 Суб 00:45:06 #301 №1036518

>>1036508

Короче когда эта мразь (СилиТаверн) видит что ЛЛМ за моего персонажа припездывает, она его ответ пидорит. Но разве я сука просил это? Если меня не устроит че там за меня написали, я отредактирую или сгенерю заново. Ну еб твою медь. В карточке персонажа 100 проц ничего такого нет, я с ней долго рпшил, на кобольде.
А если я отключаю опцию пидоринга, то она просто срет в штаны. Возможно там есть еще какие-то опции по этому прошу совета.
В Sequence Breakers всё стандартно по идее ["\n", ":", "\"", "*"]

Ответы: >>1036526, >>1036530, >>1036934

Аноним 01/02/25 Суб 00:46:12 #302 №1036519

Ставил кастомный system promt и понять не могу, в чем лажа. В чем траблы, почему у меня ощущение что я в алисе в стране чудес и сейчас я вмазался крокодилом со шляпником.
А там
You're {{char}} — a real person, engaging with another individual. {{user}} - the Narrator is the game master and overseer.

Сука, ненависть, блять.

Ответы: >>1036530

Аноним 01/02/25 Суб 00:54:52 #303 №1036520

где можно в таверне посмотреть отправляемые запросы и полученные ответы в сыром виде?

Ответы: >>1036524

Аноним 01/02/25 Суб 00:56:35 #304 №1036524

>>1036520
У тебя при запуске кобольта ВСЯ информация выводится.

Аноним 01/02/25 Суб 01:01:00 #305 №1036526

>>1036518

В общем расперделось кое как, не знаю что произошло, завтра буду дальше тестировать. Остается только вопрос почему контекст каждые 3 сообщения пересчитывается.

Аноним 01/02/25 Суб 01:05:41 #306 №1036530

>>1036376
Нет, между — нет.
Я использую 32б Q8 в повседневной работе. Лламу я не люблю, а полноценный использую только если совсем дохуя времени, а онлайновый лежит.

Но если у тебе не хватает 32б, а полноценный не впихнуть… то как раз между ними единственный вариант это 70б.

И на текущий момент альтернатив нет совсем. Чтобы те же скоры в тех же размерах.

Сорян.

>>1036414
Вот! Я же говорил! Рад, что люди потихоньку вкатываются и подтверждают.

Я на ллама 65б когда-то сидел с 0,35 токен/сек!
А тут целых 1,5 токен/сек! =D Ух! Вчетверо быстрее!
Правда и текста в десять раз больше…

А вот с рероллом косяк, да. =D

>>1036458
> если начнёт тупить спрашивать у 70в
Если в том же диалоге, то пересчет контекста будет идти заново, нет? По идее это сильно удлинит.
Но если создавать новый диалог, то без вопросов.

>>1036518
> Но разве я сука просил это?
Да, просил, это называется дефолтные настройки. Хули ж не отключил сразу.

> А если я отключаю опцию пидоринга, то она просто срет в штаны.
А вот за это уже можно предъявить.

>>1036519
Гений. =)

Ответы: >>1036603

Аноним 01/02/25 Суб 01:12:39 #307 №1036534

Есть ограничение по тегам ответа сверху, но есть ли снизу? Иногда сетка отвечает на мою сложную попытку в рп буквально семью словами по типу *Она кивает и берет вас за руку. Хотя в системном промпте написано подробно все описывать.

Ответы: >>1036591

Аноним 01/02/25 Суб 01:17:27 #308 №1036538

>>1036296
Вообще расскажу о своем странно очевидном и тупом открытии. О том что на винде есть приоритет задач (неожиданно, да блять ?)
На окнах, на одном экране, благо монитор позволяет, просто разделил экран на лог кобальта и на таверну. Сижу занимаюсь своими делами и понимаю, что при активном окне кобольта - скорость исполнения увеличивается на процентов 10-15.
Ты сука фотон что ли ?

Ответы: >>1036583

Аноним 01/02/25 Суб 01:27:16 #309 №1036555

17371368433030.png

Так блэт! Англюсикознающие, поясняйте. Как это работает?

Ответы: >>1036563, >>1036956

Аноним 01/02/25 Суб 01:31:22 #310 №1036563

16722420191-zefirka-club-p-anime-devushki-plachet-1.jpg

Угууу гууу

>>1036555
Ну там же все написано. Буковками сложенными в предложения.

Аноним 01/02/25 Суб 01:36:53 #311 №1036564

>>1034116 (OP)
Понимаю, что с такими вопросами буду справедливо послан нахуй, но все-же. Ньюфаг в треде.
Имею XEON'о говно с 64 гб оперативы + 12 гб видеопамяти. Хочу поднять LLM (чисто под него). ССД на терабайт забивать можно чем угодно, этот комп специально для этого.

Посоветуйте нормальную относительно актуальную русскоязычную модельку + способную в адекватный NSFW. А то что ставил - все цензурило пздц.

Ответы: >>1036610, >>1036611

Аноним 01/02/25 Суб 01:45:04 #312 №1036572

Аноны, у меня такая тема, для стори теллинга скорее чем для кума. Я свожу двух персонажей в таверне, и они сука всегда ебутся. Как сделать так чтобы виртуальная тянка отшила виртуального кунчика? Это вообще реально? Я пвтаюсь какого-никакого реализма добиться, ведь не ебутся же люди при встрече, просто потому что разного пола?
Кунчику я прописал что он хочет присунуть(а какой не хочет?) и все. Пизда.

Ответы: >>1036577, >>1036578, >>1036579, >>1036934

Аноним 01/02/25 Суб 01:53:57 #313 №1036577

>>1036572

Кажется этот начал о чем-то догадываться....

Аноним 01/02/25 Суб 01:53:59 #314 №1036578

>>1036572
Так пропиши тяночке что она ебаться не хочет, сложно?

Ответы: >>1036586

Аноним 01/02/25 Суб 01:54:05 #315 №1036579

Спасибо вам большое китойцы, просто спасибо, я вас люблю.

>>1036572
>для стори теллинга скорее чем для кума.
Не выбирать мелкие модели, не использовать ебливые магнумы, писать что ты хочешь чтобы OOC делала, написать действия за персонажа, свайпать.

Аноним 01/02/25 Суб 01:55:11 #316 №1036581

А контекст то решает нахуй
Смысл от ума модельки если в неё больше 30 сообщений не влезает
Пересел с 6 кванта на 4 увеличив контекст с 12к до 36 и довольно урчу

Ответы: >>1036592

Аноним 01/02/25 Суб 01:58:22 #317 №1036583

>>1036538

А теперь включи high priority в настройках кобольда и попробуй снова.

Ответы: >>1036934

Аноним 01/02/25 Суб 02:02:19 #318 №1036586

>>1036578
ну так тоже не интересно, нужно чтобы она хотела, но там хуе-мое, она же не шлюха какая, там муж тем есть, что люди подумают вот это все. Короче она должна ломаться и ломаться не только для вида, а чтобы шансы были реально 50/50

Ответы: >>1036609

Аноним 01/02/25 Суб 02:03:40 #319 №1036587

>>1035373
>Helene.card.png
Хотел покумить а в итоге сидел восстанавливал отношения и помогал с птсд бедняжке. Что вообще думаете, способны нейронки помочь обучить общению и эмпатии асоциального человека?

Ответы: >>1036618

Аноним 01/02/25 Суб 02:03:43 #320 №1036588

>>1036028

По итт критериям 5 т/с это минимальная скорость для более-менее комфортного кума чтения в прямом эфире. Нет, конечно, теслашизики с 1 т/с сейчас скажут им и так норм, а 4090 бояре типа меня могут чисто ради траленка сказать что ниже 30 т/с это вообще не генерация, но объективно без тралинга и коупинга это комфорт начинается именно с 5 т/с.

Ответы: >>1036589, >>1036598

Аноним 01/02/25 Суб 02:04:58 #321 №1036589

>>1036588
Хотя бы 10 надо. На 5 я даже английский читаю быстрее.

Ответы: >>1036595

Аноним 01/02/25 Суб 02:06:18 #322 №1036591

>>1036534
>но есть ли снизу?
Вроде нет, но можно просто ещё раз нажать кнопку сабмита чтобы модель продолжила свой пост. Это надо отдельно включить в настройках.

Аноним 01/02/25 Суб 02:06:49 #323 №1036592

>>1036581

Если у тебя модель ниже 20В, то лучше KV квантануть с 16 до 8, но битность самой модели с 6 до 4 не уменьшать.

Аноним 01/02/25 Суб 02:09:25 #324 №1036595

>>1036589

Конечно на 10 приятнее читать, кто бы спорил вообще.
Речь о минимальной скорости когда ты можешь в онлайне читать и общаться, ниже 5 т/с это в любом случае будет выглядеть что ты написал сообщение и переключил вкладку в ожидании пока там ответ сгенерируется.

Аноним 01/02/25 Суб 02:13:31 #325 №1036598

>>1036588
>4090
>боярин
Ой не скажи. Ой не скажи. Тут в тредике есть настоящие бояре.

Ответы: >>1036696

Аноним 01/02/25 Суб 02:15:49 #326 №1036603

image.png

>>1036530
реролл там потому что первый раз ллама.цпп сервер забажил

Аноним 01/02/25 Суб 02:18:27 #327 №1036608

Кто бы что ни говорил а скачёк на квант выше всегда ощущается как улучшение на 30-40% и разница между 6 и 8 квантом точно заметна

Ответы: >>1036609, >>1036612

Аноним 01/02/25 Суб 02:20:14 #328 №1036609

>>1036586
> нужно чтобы она хотела
Так она и хочет, видит что такой мужчина ее добивается и замотивирован и не против. Плюс к тому у всяких файнтюненых моделей большой байас к согласию.
>>1036608
А когда на 16 бит перейдешь - так вообще радугой кончать будешь.

Ответы: >>1036934

Аноним 01/02/25 Суб 02:20:32 #329 №1036610

>>1036564
сайга анлишед

Ответы: >>1036620

Аноним 01/02/25 Суб 02:21:37 #330 №1036611

>>1036564
Либо ещё Следопыт, там вроде анон вчера с него норм покумил

Ответы: >>1036620

Аноним 01/02/25 Суб 02:22:08 #331 №1036612

>>1036608
Где ? На 8b ? Потому что на 30 я разницы между 6 и 8 не увидел. Но шутка в том, что её еще никто и не доказал.

Ответы: >>1036615

Аноним 01/02/25 Суб 02:25:22 #332 №1036615

>>1036612
Да это шизики или жорастрадальцы с поломанными квантами и бэком. Как пошел это хайп с дипкоком, так и набежало упоротых ньюфагов.

Аноним 01/02/25 Суб 02:26:58 #333 №1036618

>>1036587
>способны нейронки помочь обучить общению и эмпатии асоциального человека
Крайне сомнительно, чтобы получить эффект "come for cum, staying for plot", нужно изначально иметь склонность к эмпатии.

И да, Елена стоит того =)

Аноним 01/02/25 Суб 02:28:19 #334 №1036620

>>1036610
>>1036611
Пасибо анончики. Обладаю пока что 3060 12гб. Пока что поставил NekoMix-12B.Q8_0. Вроде даже средненько, но результат имеет.

Ответы: >>1036631

Аноним 01/02/25 Суб 02:36:59 #335 №1036631

>>1036620
>Обладаю 3060 12гб
>Поставил 12B
>Поставил васяномердж
Кто-нибудь знает что это за болезнь?

Ответы: >>1036633, >>1036634

Аноним 01/02/25 Суб 02:40:30 #336 №1036633

>>1036631
Нуфажество. Я вообще не ебу за кванты, биты что в моих спеках актуально или нет. Поэтому и спрашиваю в треде.

Ответы: >>1036638

Аноним 01/02/25 Суб 02:40:39 #337 №1036634

>>1036631
Всем внимание, в треде ИРОНИЧНЫЙ.
Ведь 12Гб это так много. Можно сразу мистраль лардж ебашить, а на оперативу повесить гемму.

Ответы: >>1036638, >>1036934

Аноним 01/02/25 Суб 02:45:17 #338 №1036636

>>1036358
Thought about image explanation for 8 секунд
По сути, авторы поста нашли способ запускать большую LLM-модель (67млрд параметров) локально на обычном CPU без серьёзной загрузки видеокарты. Ключевая идея в том, чтобы не загружать все веса модели целиком в оперативную память или VRAM, а использовать mmap и работать «на лету» с файлами, лежащими на NVMe SSD.

Как это работает детально:

mmap вместо полного чтения в память
Обычно при запуске больших моделей (в том же llama.cpp) программа либо полностью читает файлы с весами в RAM, либо загружает их в видеопамять (если работает с GPU). Тут же применяется подход, когда llama.cpp по умолчанию делает mmap() — то есть «проецирует» файл на диске в адресное пространство программы. При mmap нужные куски данных (страницы) грузятся непосредственно в память по запросу, а не заранее все разом.

ОС кэширует данные
Сами файлы находятся на очень быстром NVMe SSD. Когда модель вычисляет очередной токен, она обращается к нужным фрагментам весов, и операционная система подтягивает их с диска, параллельно сохраняя часто используемые куски в RAM как кэш.
В итоге, вместо жёсткого требования иметь, допустим, все 100+ГБ (в случае 67B модели в float16) в памяти, модель берёт только нужные «страницы» весов. Памяти требуется заметно меньше, а скорость работы определяется тем, насколько быстро SSD может отдавать данные и как эффективно ОС их кэширует.

Хранение k/v-кэша в памяти
Ещё один момент — в оперативной памяти реально лежит, в основном, k/v-кэш (то есть ключи и значения для текущих токенов, нужные во время self-attention), и какие-то технические буферы. Остальные гигабайты весов при этом фактически не «разворачиваются» в RAM постоянно.

Динамический квант (quant) для весов
Они упоминают «dynamic quant» вроде DeepSeek-R1-UD-Q2_K_XL: это метод сжатия (квантизации) модели, где веса сжаты в более низкую битность. Это ещё уменьшает объём, который надо держать и обрабатывать, хоть и с какой-то потерей точности. Зато позволяет работать на более слабом железе.

Выходная производительность
Автор пишет, что выходит порядка 1–2 токенов в секунду на контексте 2к–16к, причём при наличии 96ГБ RAM (плюс ещё 24ГБ VRAM, но фактически GPU «простаивает»). Bottleneck получается скорее в пропускной способности NVMe SSD, чем в оперативке или в мощностях CPU/GPU.
Утилитарный плюс — потребление энергии и нагрев подсистемы минимальны, потому что видеокарта почти не включается и процессор тоже не загружен на 100%.

Расширяемый «виртуальный объём памяти»
В конце автор упоминает идею покупать не дорогую видеокарту, а поставить массив из NVMe SSD, получается своего рода «дёшево и сердито»: много «виртуальной VRAM» на быстрых дисках, которых достаточно для хранения (и стриминга) крупных моделей при приемлемых скоростях.

Итоговая идея: вместо того чтобы полностью грузить огромные веса модели (десятки гигабайт) в системную память или VRAM, используется механизм «ленивого» чтения с NVMe, а ОС агрессивно кэширует нужные куски в RAM. Так можно запускать даже 67B-модель на домашних компьютерах без гигантских требований к видеокарте и при умеренном объёме оперативки (но желательно очень быстром SSD). Конечно, скорость будет ниже, чем при полноценной загрузке в GPU, но для многих задач и 1–2токена/сек может быть достаточно.

Аноним 01/02/25 Суб 02:52:04 #339 №1036638

>>1036633
12 гб уже позволяет гонять 27b-32b с частичной выгрузкой на терпимых скоростях ~3.5 т/с. 24b пойдет бодрее ~7.5 т/c.

Ставь что-то из этого:
-Qwen-2.5 32b
-Gemma-2 27b
-Mistral-Small-2501 24b

Квант либо Q4_K_M либо Q4_K_L. Только ванильные модели, никаких ёбаных шизомиксов. И будет тебе счастье. Скорость от 8b-14b не стоит того чтобы жрать говно, поверь.

>>1036634
Всем внимание, в треде ГИПЕРТРОФИРУЮЩИЙ
Ведь между мелкопарашей и огромными моделями не существует ничего промежуточного

Ответы: >>1036641, >>1036644, >>1036664

Аноним 01/02/25 Суб 02:55:37 #340 №1036641

>>1036638
>никаких ёбаных шизомиксов.
Но ведь справедливо от части. Те же миксы мистраля очень даже не плохи.
Давай будем честны, если для работы нужны оригиналы, для РП- ну тут уже нужно тягать одеяло, а вот для того, для чего тут наверное половина треда сидит как раз и нужны шизомиксы.

Ответы: >>1036684

Аноним 01/02/25 Суб 02:58:33 #341 №1036644

>>1036638
Спасибо за уточнение анончик. Попробую тогда их накатить и посмотреть.

Ответы: >>1036667

Аноним 01/02/25 Суб 03:01:52 #342 №1036647

Laguha.png

Ага, спалилась лягушатница. То то мистралеподелия постоянно лапки поднимают и сдаются.

Аноним 01/02/25 Суб 03:24:29 #343 №1036664

>>1036638
> терпимых скоростях ~3.5 т/с. 24b пойдет бодрее ~7.5 т/c.
про контекст ты конечно умолчал

Ответы: >>1036684

Аноним 01/02/25 Суб 03:32:49 #344 №1036667

>>1036644
От чела выше прям рубрика "Вредные советы". Не надо так.

Ну, не то чтобы прям вредные, но в рп на английском тебе нужен Пантеон, Цидония, или их мерж от местного анона.

В русский могут мержи мистраля 12 (ссылки в шапке) или руадапт квен, но на 12 врум карточке с ним будет тяжко, так что только мистрали.

Ответы: >>1036668, >>1036684

Аноним 01/02/25 Суб 03:36:46 #345 №1036668

>>1036667
>Пантеон, Цидония
Вот я хоть и люблю цидоньку, но тюны мистралей это прям для тех кто знает чего хочет. Потому что чтобы не разъебать монитор от их лупов, нужно понимать что тебя ждет и как с ними бороться. А это вообще не очевидно.

Ответы: >>1036670, >>1036671, >>1036813

Аноним 01/02/25 Суб 03:40:36 #346 №1036670

>>1036668
>тюны мистралей
А что кроме них есть 12Б?

Ответы: >>1036672

Аноним 01/02/25 Суб 03:44:09 #347 №1036671

>>1036668
>А это вообще не очевидно
Вообще-то элементарно, Ватсон, shit in - shit out.
Не лень с ответами сам, и не ленись поправлять модель.
И будет тебе счастливое приключение... или не очень, тут уж от карточки и тюна зависит.

Ответы: >>1036673

Аноним 01/02/25 Суб 03:45:41 #348 №1036672

>>1036670
А нихуя и нет, лол. Либо лоботомированные кванты старших моделей, либо мелкоговняшки, ну или мистраль. Увы, она действительно топ среди мелких.

Аноним 01/02/25 Суб 03:47:33 #349 №1036673

>>1036671
Ну так это прям для тех кто знает чего хочет. Потому что чтобы не разъебать монитор от их лупов, нужно понимать что тебя ждет и как с ними бороться. А это вообще не очевидно.

Ответы: >>1036675

Аноним 01/02/25 Суб 03:50:54 #350 №1036675

>>1036673
>Ну так это прям для тех кто знает чего хочет
Не знают только свидетели карго-культа для которые ллмки - ИИ, скайнет, 5G, магия-шмагия и камлание жуткое.

Ответы: >>1036676

Аноним 01/02/25 Суб 03:52:52 #351 №1036676

>>1036675
Ну именно поэтому {user} это прям для тех кто знает чего хочет. Потому что чтобы не разъебать монитор от их лупов, нужно понимать что тебя ждет и как с ними бороться. А это вообще не очевидно.

Ответы: >>1036678, >>1036679

Аноним 01/02/25 Суб 03:54:20 #352 №1036678

>>1036676
Мы поняли суть перфоманса. Мы поняли суть перфоманса. Мы поняли суть перфоманса. Мы

Ответы: >>1036679

Аноним 01/02/25 Суб 03:55:55 #353 №1036679

>>1036676
>>1036678
Господи, была бы возможность бить морды через TCP/IP...

Ответы: >>1036683

Аноним 01/02/25 Суб 04:04:35 #354 №1036683

IMG4099.jpeg

>>1036679
Жаль что такой возможности нет

Аноним 01/02/25 Суб 04:06:35 #355 №1036684

>>1036641
Я бы наверное так сказал: для работы, РП и сторителлинга - однозначно ванильки. Для ерп - спорно, ту же гемму и мистраль всякими хитростями вполне можно сделать хорни. Тут я всё еще за оригиналы. Но если цель чисто подрочить и ничего более - то да, тут шизомиксы в своем сочном описании ебли вне конкуренции.

Вот только такое издевательство над моделью не приводит ни к чему хорошему, ее логика ломается, она начинает выдавать шизу на ровном месте, забывает что было несколько сообщений назад. Двойные-тройные трусы и всякие подобные приколы.

>>1036664
Квен и гемма на 8к контекста при полностью забитом контексте выдают ~2.5 т/с. Мистраль при 16к контекста, полностью забитом, падает до 4 т/с. Всё ещё приемлемо.

>>1036667
Он вроде явно дал понять, что ему нужны модельки умеющие в русик. Именно такие модели ему и предложил.
>В русский могут мержи мистраля 12 (ссылки в шапке)
Нет, не умеют.
>руадапт квен
Точно так же, как и ванильный квен. Чтож вас, аноны, так тянет-то к васяноподелиям? Звер-сд уже установили?

---------------------------------------------

Бтв основной мой посыл в том, что имея 12гб гпу можно не жрать говно, а уже щупать что-то нормальное, пусть и не так быстро. Я давно в этих тредах и еще ни разу не видел человека, который попробовал бы большую модель, а потом перешел с нее обратно на мелочь. Порпшив с условной геммой 27b, чел уже никогда не вернется на 12b, даже если разница в скорости будет в десять раз.

И то же касается шизомиксов, вот сколько там "b" стоит - это можно смело делить на три. Примерно настолько отупляют модельку васянские мержи/файнтьюны. Чисто модельки для слива спермы и ничего более.

Ответы: >>1036687, >>1036697, >>1036699, >>1036705, >>1036838

Аноним 01/02/25 Суб 04:18:01 #356 №1036687

>>1036684
>для работы
да, для работы чистые инстракты нужны

>>1036684
>РП и сторителлинга
Уже нет, тут стоковые модели сосут как секретутки.

>>1036684
>Двойные-тройные трусы и всякие подобные приколы.
Мусью застрял во временах моделей на цепях маркова.

>>1036684
>Звер-сд
Вот на Zverя не гони, топовый чел был как и Xatab.

>>1036684
>Именно такие модели ему и предложил.
Которые не умеют в русик, да, жирно, очень жирно.

>>1036684
>что-то нормальное
илита в треде, небось и вкус тренировал, денно и нощно, дабы отделять зёрна от плевел, а агнцев от козлищ

Ответы: >>1036693, >>1036697

Аноним 01/02/25 Суб 04:37:53 #357 №1036693

>>1036687
>Мусью застрял во временах моделей на цепях маркова
Вот недавно тестил разрекламированную в тредах СайНемо - все эти проблемы там присутствовали:
Сломанная логика - чек
Двойные трусы - чек
Забывчивость - чек
Модель тупая как пробка, но свою задачу выполняет. Если надо запустить и по фасту подрочить - вот это оно. А для остального - нахуй-нахуй.

>Уже нет, тут стоковые модели сосут как секретутки.
Скил ишью. Учись пользоваться Memory, Author's Note и World Info, ну или их аналогами в таверне, если таверну используешь.

>Вот на Zverя не гони, топовый чел был как и Xatab.
Два чая. Отличные сборки: все "лишнее" удалено, все "нужное" добавлено. А еще темы, нескучные обои, и скрытно устанавливаемое ПО удаленного доступа к твоей пекарне в комплекте Radmin Viewer, гугли. В свое время много шума было.

>илита в треде
Илита тут на четырех теслах запускает 120b модельки. А я обычный анон с древней 12гб видяшкой, лол. Когда не лень, пытаюсь отучить нюфагов жрать говно.

Ответы: >>1036697

Аноним 01/02/25 Суб 04:45:24 #358 №1036696

>>1036598

Если ты про обладателей промышленного железа, могущего запустить дипсик не в дистилляте, то это мифические боги вообще говоря, а не какие-то вшивые бояре.

Аноним 01/02/25 Суб 04:45:38 #359 №1036697

1618809404603.jpg

>>1036684
> для работы
Смотря какой, есть вполне специализированные тюны или крайне узкие базовые модели. А для чего-то специфичного может быть ситуация что без файнтюна не обойтись, или только самые дорогие корпы.
> РП и сторителлинга - однозначно ванильки
Есть базы, которые можно раскачать промтом, или вообще могут сразу прилично повествовать. Есть те, которых зажарили финальным алайнментом настолько, что чего-то приличного получить будет сложно. Существуют приличные тюны и даже миксы (последнее - больше чудесное стечение обстоятельств чем целенаправленно полученный результат, но все же), которые не теряют оригинальную соображалку но при этом умеют в хороший рп.
> Вот только такое издевательство над моделью не приводит ни к чему хорошему
Да, поэтому хороших моделей крайне мало.
> Бтв основной мой посыл в том, что имея 12гб гпу можно не жрать говно
Как бы ни было прискорбно, это тут без вариантов. Или мелкомиксы, или тормознутая херь, в которой нет смысла.
> ни разу не видел человека, который попробовал бы большую модель, а потом перешел с нее обратно на мелочь
Бывают ситуации когда доступна только одна гпу, и тогда вполне катается гемма, командер, квен32, а под пиво в количестве даже 12б и не сильно обламываешься. Но при этом обмазаться выгрузкой в рам и терпеть по 2т/с - даже мысли о таком безумии не приходят.
>>1036687
Бояры надрался что в интерфейсе запутался, и теперь на воспоминания пробрало? Или просто стиль постов выдерживаешь чтобы автоскрытие срабатывало?
(both)
>>1036693
> Илита
> на четырех теслах
Разве что терпеливая

Аноним 01/02/25 Суб 04:56:07 #360 №1036699

>>1036684
>Я давно в этих тредах и еще ни разу не видел человека, который попробовал бы большую модель, а потом перешел с нее обратно на мелочь.

Да не гони, тут в треде каждый адекватный человек ищет параллельно и самую умную модель, которую может просто запустить наплевав на скорость, и самую умную модель которую может запустить уже с приемлимой скоростью.

Ответы: >>1037016, >>1037019

Аноним 01/02/25 Суб 05:04:03 #361 №1036705

>>1036684

Из ванильных моделей ниже 70В без файнтьюнов или хотя бы аблитерейшона в еРП и еблю может наверное только командир. Остальные будут выдавать либо "ты меня ебешь" либо "я не буду это генерировать". Причем если последнее обойти джейлом, то выйдет все равно "ты меня ебешь".

Ответы: >>1036712

Аноним 01/02/25 Суб 05:22:16 #362 №1036708

Почему дипсик везде называют 671В моделью, когда он 256х4.6B, а работают из них всего 8х4.6В?

Ответы: >>1036934, >>1037016

Аноним 01/02/25 Суб 05:31:43 #363 №1036712

image

>>1036705
>остальные будут выдавать либо "ты меня ебешь"
Ну вот тебе новый ванильный мистраль 24b на самописной карточке в кобольде. Вполне ок, не?

Ответы: >>1036718, >>1037045

Аноним 01/02/25 Суб 05:47:47 #364 №1036718

image.png

>>1036712
Это сюжет фильма "Аморальный грабёж"?

Аноним 01/02/25 Суб 06:45:16 #365 №1036731

Ребят, тупой вопрос, что можно запустить прям на совсем ноутбучном некрожелезе из локальных моделей? это реально?
у меня есть парсер постов из телеги и вк, и хочу скармливать посты в ллм локальную чтобы он уже их распределял по категориям, выдавал краткий отчет по ним и вот такое все. это реально так сделать локально?

Ответы: >>1036839, >>1037016

Аноним 01/02/25 Суб 06:47:25 #366 №1036733

Есть одна цидонька. 1.2 Насколько ейный четвертый квант тупее шестого?

Ответы: >>1036778

Аноним 01/02/25 Суб 07:37:14 #367 №1036778

>>1036733
Какого ответа ты ждешь? Если математически, то отклонения токенов в сравнении с Q8 в районе 5 процентов, как и у всех около 30b моделей.
Как это по факту повлияет на твой чат объективно оценить невозможно, даже Q8 может заставить свайпать 10 раз подряд, а Q1 сразу выдать нормальное. Так что всех эти советчиков которые "видящие разницу" можешь сразу слать лесом, это плацебо.

По факту если можешь запустить квант повыше, всегда выбирай его. Что касается контекста не гони его сильно выше 20к, это довольно бесполезно т.к модель все равно в основном обращает внимание только на начало и конец, на больших объёмах контекста все что в середине чатов будет лежать мертвым грузом пока ты сам не спросишь.

Ответы: >>1036840

Аноним 01/02/25 Суб 08:32:21 #368 №1036813

>>1036668
>и как с ними бороться.
Дак как с лупами и пупами бороться? Сам на мистрале ньюфагом сижу и кроме как переписать сообщения, раздраженно свайпать, теребить температуру и стирать пару сообщений до, не нашел способов для разлупа.

Ответы: >>1036843, >>1037054

Аноним 01/02/25 Суб 09:03:16 #369 №1036838

>>1036684
>для работы, РП и сторителлинга - однозначно ванильки

Совсем вами не соглашусь, сударь.

Я тоже так считал, так как юзал клода для РП ранее. Пусть и с цензурой, но он хорош в этом, даже если описывать жесть и графический ужас в стиле DavidAU, но у маленьких моделек другая проблема: они в целом мало знают и не заточены под наши цели. Туда просто напихали всего понемногу — поэтому они вроде как знают всё, но ничем не владеют в совершенстве/на уровне больших коммерческих и закрытых моделей. А модели корпоратов вывозят просто исключительно из-за большого объёма данных.

Поэтому шизомиксы единственный выход для локалок, чтобы они писали как надо: не было излишне позитивного биаса и модель могла в интересные истории. В таком случае можно получить действительно что-то приемлемое и на 12б. А если уж обучать нормально, то тем более.

>имея 12гб гпу можно не жрать говно, а уже щупать что-то нормальное, пусть и не так быстро. Я давно в этих тредах и еще ни разу не видел человека, который попробовал бы большую модель, а потом перешел с нее обратно на мелочь

Я как раз тот человек, который перешёл с малых моделей, потому что меня не устраивала скорость, ибо сидеть на трёх токенах, если не получаешь в 95% случаев охуительный ответ, — это ад. Я как раз гемму скачал, когда вкатывался. Это была моя первая модель. Безусловно, она реально удивляла меня в некоторых моментах находчивостью и креативностью, особенно при описании боев и рассуждений, но не настолько, чтобы я был готов терпеть медленную генерацию.

Аноним 01/02/25 Суб 09:07:51 #370 №1036839

>>1036731
>прям на совсем ноутбучном некрожелезе
если прям некро, то ничего, а на боярь-ноутах и 32B можно

>>1036731
>распределял по категориям
это и без ллм можно, чисто на регулярках

>>1036731
>выдавал краткий отчет по ним
Ну теоретически можно подрубать по апи, и скармливать текст и просить саммари.

Аноним 01/02/25 Суб 09:08:31 #371 №1036840

>>1036778
Понял, спасибо. Насчет выбирай повыше, я надеялся, что если я возьму квант, который весь могу запихать в гпу, скорость здорово возрастет, а по факту получилось на 1-2 т/с. (у меня 4060 на 16 гб.)

Ответы: >>1036872, >>1036931

Аноним 01/02/25 Суб 09:12:31 #372 №1036843

>>1036813
>Дак как с лупами и пупами бороться?
rep-pen 1.1 - 1.2 / rep-pen range 2048
Следить и недопуЩать - править ответы.
Найти оптимальную температуру, но обычно хватает 1.0 +/- динамическая 0.5

Аноним 01/02/25 Суб 09:14:20 #373 №1036845

У Яндекса есть какое-то ограничение на свой апи?Его не заебет, если я буду ему запросы отправлять на перевод? И он наверняка привяжет мои переговоры с учеткой.

Ответы: >>1036855

Аноним 01/02/25 Суб 09:29:29 #374 №1036855

>>1036845
Просто гугл, последние дни вообще чушь выдает.

Ответы: >>1036881

Аноним 01/02/25 Суб 09:43:57 #375 №1036872

>>1036840
А ты точно выгрузил все в гпу? По умолчанию даже если модель туда помещается тот же кобольд всё равно пихает слои в рам. Нужно вручную указывать количество слоев (т.е все).

Ответы: >>1037535

Аноним 01/02/25 Суб 09:57:10 #376 №1036881

>>1036855
>Просто гугл, последние дни вообще чушь выдает.
Поменяли модель переводчика. Очередной кризис, на моей памяти это уже третий. Через месяц выправятся... или нет. Но да, пользоваться гуглом пока нельзя. Яндекс вывозит, в Таверне Бинг ещё есть. Ограничения какие-то имеются, но на практике хватает. Сам-то я давно хочу локальную модель переводчика, но хрен мне.

Ответы: >>1036888, >>1037325

Аноним 01/02/25 Суб 10:10:29 #377 №1036888

>>1036881
>локальную модель переводчика
на деле оно даже работает, тот же ру квен, гемма, да даже мистральки могуть переводить, но, чсх, врум не резиновая.

Ответы: >>1036893

Аноним 01/02/25 Суб 10:25:20 #378 №1036893

>>1036888
>на деле оно даже работает, тот же ру квен, гемма, да даже мистральки могуть переводить, но, чсх, врум не резиновая.
Дело даже не в этом. Есть пара моделек, да. И выделить отдельный гпу под переводчик можно. Но даже на 3090 скорость маловата, с онлайн-сервисами никакого сравнения. Хотя качество у них и хромает, но перевод мгновенный. А локально даже "очень быстро" не получить.

Аноним 01/02/25 Суб 10:35:15 #379 №1036895

В таверне можно как-то сделать переключение портретов персонажей?

Ответы: >>1037033

Аноним 01/02/25 Суб 11:26:58 #380 №1036931

>>1036840
С твоим врам должно всё влезать. Как тот анон писал, пиши все слои вручную.

Ещё один момент, о котором я не видел ни одного поста здесь.

Закрывай всё, что можешь. Всю хуйню из автозапуска левую убирай, закрывай приложения. Всякий Стим, Дискорд, вот это вот всё, что можно — нахуй. Даже окно с проводником. Браузер тоже закрывай, общайся с ллм с второго ПК или телефона.

Винда дохуя видеопамяти жрет, по крайней мере моя 11 винда точно.

Такими простыми манипуляциями я 1,2 Гб видеопамяти освободил, это охуеть как много.

----

Если же у тебя нет других для общения с ллм, то качай какой-нибудь очень легковесный браузер.

Аноним 01/02/25 Суб 11:29:26 #381 №1036934

>>1036518
>В Sequence Breakers
Эта настройка относится к DRY Repetition Penalty, лол.
>>1036572
>Как сделать так чтобы виртуальная тянка отшила виртуального кунчика?
Сделай тянке возраст 11 лет. Отошьёт 100%.
>>1036583
А это не поможет, у винды активному окну даётся больший квант времени, и похуй на эти ваши приоритеты.
>>1036609
>А когда на 16 бит перейдешь - так вообще радугой кончать будешь.
Я олдфаг, помню ещё двойную точность...
>>1036634
>Можно сразу мистраль лардж ебашить
Я так и делал в своё время.
>>1036708
>Почему
Потому что люди идиоты.

Ответы: >>1037118

Аноним 01/02/25 Суб 11:35:47 #382 №1036937

🔸 Open Talks Special: Лидеры русскоязычного open source LLM в одном эфире.

5 февраля в 19:00 собираем ключевых независимых разработчиков опенсорсных русскоязычных LLM и говорим о том, что волнует AI-сообщество прямо сейчас:

➡️ Как создаются русскоязычные LLM и с какими вызовами сталкиваются их разработчики?

➡️Что ждет опенсорсные AI-решения в будущем?

➡️ Как DeepSeek меняет правила игры?

Спикеры:

🎤 Михаил Тихомиров ( https://www.linkedin.com/in/mikhail-tikhomirov-a4884a74 ) – научный сотрудник НИВЦ МГУ, занимается адаптацией мультиязычных LLM, создатель Ruadapt➡️Топовая модель показывает 92 балла на балла на Ru Arena General ( https://huggingface.co/spaces/Vikhrmodels/arenahardlb )

🎤 Илья Гусев ( https://www.linkedin.com/in/ilya-gusev/ ) – автор Сайги ➡️одной из самых скачиваемых русскоязычных моделей на HF, а также role-play бенчмарка PingPong ( https://ilyagusev.github.io/ping_pong_bench/ru_v2 )

🎤 Александр Николич ( http://t.me/lovedeathtransformers ) – один из авторов Rudalle и Kandinsky, создатель Vikhr models ➡️ одни из лучших моделей ( https://huggingface.co/Vikhrmodels/Vikhr-Nemo-12B-Instruct-R-21-09-24 ) на русском языке до 20B параметров, один из самых популярных бенчмарков

🔸 Проведет эфир Павел Подкорытов, сооснователь AI Talent Hub и CEO Napoleon IT.

🤔 Не увидел важного вопроса в анонсе?

➡️ Регистрируйся и задай свой вопрос экспертам! ( https://ai-talent-hub.timepad.ru/event/3219400/ )

Приходи! Без тебя – не то 💘

#OpenTalks
#AITalentHub #ITMO #NapoleonIT

Ответы: >>1036945, >>1036962, >>1036996, >>1037016, >>1037059, >>1037099, >>1037118

Аноним 01/02/25 Суб 11:44:42 #383 №1036945

>>1036937
> Сайги
Сама по себе же не оче, и только в мержах анон юзал и вышел норм. Не?

Ответы: >>1036953

Аноним 01/02/25 Суб 11:48:54 #384 №1036953

>>1036945
>Сама по себе же не оче
Он как бы её обновлял постоянно, последняя версия околонедельной давности.

Аноним 01/02/25 Суб 11:52:45 #385 №1036956

>>1036555
ПОМОГИТЕ, СУКИ.
Получается, я могу 671b модель запустить локально на старом ноуте?

Ответы: >>1036968, >>1036971

Аноним 01/02/25 Суб 11:57:49 #386 №1036962

>>1036937
>Спикеры:
И походу эти три инвалида - всё, что мы можем предъявить миру. Грустненько так-то.

Ответы: >>1036976, >>1037016

Аноним 01/02/25 Суб 12:02:55 #387 №1036968

>>1036956
>запустить локально
только на шизориге, на ноуте разве что дистил

Ответы: >>1036972

Аноним 01/02/25 Суб 12:07:48 #388 №1036971

>>1036956
И да и нет. Если с подкачкой со старого диска, на древнем проце, то ты одно слово от него неделю ждать будешь, без преувеличений. Лучше 3В гоняй и мержи годные между собой лол они на англе хоть как то могут, и в оперативу старого ноута влезут.
И вообще, что значит старый ноут? я сразу себе представляю что-то на кор2 с 3 гигами ddr2 и вистой на это всё намазанной.

Ответы: >>1036972

Аноним 01/02/25 Суб 12:08:40 #389 №1036972

>>1036968
>>1036971
2 еблана, вы даже в англюсик не умеете.

Ответы: >>1037012

Аноним 01/02/25 Суб 12:18:09 #390 №1036976

>>1036962
Что-то сомневаюсь, что тредовичков с их кум моделями туда пустят. Ну и ни одного разрраба со сбера/тинька, а они трейнят модели с нуля. Так что скорее этот #OpenTalks полное говно.

Ответы: >>1037016

Аноним 01/02/25 Суб 12:37:40 #391 №1036996

>>1036937
Объясните мне, почему эта пиздобратия не купит локальное решение или хотя бы просто не арендует, чтобы сделать практически полностью русскоязычную LLM на 32b параметров опенсорс. Разве я столь многого прошу? Боже, да они могли бы и 70b сделать, а то и больше.

Им же наверняка донаты кидают, может гранты какие-то государственные, хуё-моё.

Ответы: >>1036999, >>1037002, >>1037118, >>1037209

Аноним 01/02/25 Суб 12:42:16 #392 №1036999

>>1036996
> не купит локальное решение или хотя бы просто не арендует
Деньги где взять? Задонатим? И если она неправильно на вопросы ответит тащ майору, кто ответит?

Ответы: >>1037049

Аноним 01/02/25 Суб 12:44:28 #393 №1037002

>>1036996
>Им же наверняка донаты кидают, может гранты какие-то государственные, хуё-моё.
А это ещё хуже. Заметил, насколько яндексова Алиса обстрижена со всех сторон? Это чтобы лишнего не брякнула. Политика ещё туда-сюда, а вот кум - это уже статья. Они не модели тренируют, а цензурные вспомогательные сетки. А поскольку руки из жопы, то даже это выходит плохо и моделей от них мы не видим.

Ответы: >>1037049

Аноним 01/02/25 Суб 12:45:04 #394 №1037004

Че-то я не понял прикол. С лор буками ллм полностью пересчитывает контекст каждые 2-3 сообщения, вместо шифта. Это пропадает если лор буки в режим постоянной памяти закидывать вместо нормала (синий кружок). Но тогда нахуй они вообще нужны если я с таким же успехом могу вьебать лор бук в карточку персонажа? Чисто для удобства и всё?

Ответы: >>1037007, >>1037014, >>1037018

Аноним 01/02/25 Суб 12:49:43 #395 №1037007

>>1037004
В чём проблема? Либо ты пересчитываешь контекст (шифт не поможет, так как добавляются новые части), либо ты закидываешь сразу всё, и лурбук нинужен.

Ответы: >>1037013

Аноним 01/02/25 Суб 12:57:44 #396 №1037012

>>1036972
это чо за cumминг аут, детектор чини

Аноним 01/02/25 Суб 13:01:35 #397 №1037013

>>1037007
Получается лорбуки есть смысл использовать только если всё влазит в врам изначально и быстро считается. Что бы расширить контекст условно. А в ином случае пересчет слишком много времени занимает каждый раз. Ну я понял схему.

Ответы: >>1037015

Аноним 01/02/25 Суб 13:01:50 #398 №1037014

>>1037004
>С лор буками ллм полностью пересчитывает контекст каждые 2-3 сообщения
скажи спасибо что 2-3 а не каждое

А вообще, оно так и работает, да, контекст изменился - ты отредактировал сообщение или лорбук подсуетился, надо пересчитать полностью, а не только новое.

Аноним 01/02/25 Суб 13:02:53 #399 №1037015

>>1037013
В том то и прелесть лорбука, что он не в контексте.
Он работает как кейворды.

Ответы: >>1037025

Аноним 01/02/25 Суб 13:03:55 #400 №1037016

>>1036699
По факту.

>>1036708
Потому что так заявляют авторы.
Смею предположить, что речь идет о 671B уникальных параметров, а общие Deepseek уместили в одно пространство физическое, отсюда и размер ~684B.
Каждая модель имеет единую базу + свои личные знания.
Вот эта единая база и не считается в ее размере.
Так же и мистраль 8*7 была не 56, а 43 что ли.

>>1036731
Тебе нужен NER какой-нибудь, скорее.

>>1036937
Базовые ребята.

>>1036962
Нет, конечно, есть десятки и сотни, просто их не позвали/они заняты/работают на экстремистов и т.д.

>>1036976
А Кандинский — не Сбер? =D Держи в курсе.

Ладно, не буду за пацанов вписываться, кто знает — тот знает, хули тут доказывать. =)

———

Так, хлопцы, подскажите.

Какая модель лучше для РП на русском, а какая для сторителлинга?

СайНемо, Неверэндинг, Инструменталити? Интересует 12-14 размер. Может еще что.
>>1034130 Твое мнение особенно интересно.

Ответы: >>1037025, >>1037028, >>1037043

Аноним 01/02/25 Суб 13:05:02 #401 №1037018

>>1037004
Лорбуки нужны когда у тебя десяток персонажей, городов, локаций. И вот чтобы они все не сидели в сумарайзе отжирая у тебя драгоценный контекст и нужны записи.

Аноним 01/02/25 Суб 13:06:21 #402 №1037019

>>1036699
В принципе причина по которой я на цидонии и сижу. Она идеальна для 16гб ВРАМА. Что то больше уже слишком медленное, меньше - тупее.

Аноним 01/02/25 Суб 13:08:39 #403 №1037021

А вообще отдам пол царства за микс цидоньки и чего нибудь мрачного от David. Потому что она хоть и не магнум, но слишком хорни, это порой так бесит, не хватает мрачняка.

Аноним 01/02/25 Суб 13:18:08 #404 №1037025

image

>>1037015
>он не в контексте
Но инжекты входят в контекст и вызывают его пересчёт.

>>1037016
>РП на русском
Pathfinder и Saiga Unleashed по видимости самые удачные, на них отзывались в треде. По загрузкам же абсолютное лидерство у Инструменталити 2.

Pathfinder - Saiga-Wayfarer-Nemomix - по видимости лучше для рп, сам я проверил чисто что оно работоспособно, но анон отмечал что жарко с ней покумил =))

Saiga Unleashed - почти оригинальная сайга околонедельной давности, только с инжектом немомикса в центральные слои, хорошо и красочно расписывала как карточку с мехом так и мрачнухи не чурается судя по чатлогу на литтербоксе. Также этот чатлог именно в сторителлинг стиле где не было юзера, а скорее писалось в виде соавторства.

Да, маякните если mergekit починят.

Ответы: >>1037027, >>1037075, >>1037209

Аноним 01/02/25 Суб 13:23:03 #405 №1037027

>>1037025
> Но инжекты входят в контекст и вызывают его пересчёт
Да, но только когда входят. Смекаешь ?
Разница в том, что карточка перманенто там сидит, а условный город СТОЛЬНОГРАД, только при его упоминании или связанных с ним событий всплывает.

Я только суммарайзом и лорбуками и спасаюсь в своих тохоэдвенчурах. Потому что те кто шарят за тоху, знают сколько там персонажей.

Ответы: >>1037034

Аноним 01/02/25 Суб 13:23:49 #406 №1037028

>>1037016
>Ладно, не буду за пацанов вписываться, кто знает — тот знает, хули тут доказывать. =)
Ну да, ну да. "У нас есть такие приборы, но мы вам о них не расскажем." Похоже, что поскольку в СССР нейронок ещё не было, а стало быть не было базы, то и взяться им у нас сейчас неоткуда.

Ответы: >>1037031, >>1037042

Аноним 01/02/25 Суб 13:25:13 #407 №1037031

>>1037028
> им у нас сейчас неоткуда.
Ну когда то и атомных электростанций не было, но строят же. Не одним СССР едины, хули.

Ответы: >>1037032, >>1037039

Аноним 01/02/25 Суб 13:26:43 #408 №1037032

>>1037031
> и атомных электростанций не было
Кхм. Какой класс?

Ответы: >>1037035

Аноним 01/02/25 Суб 13:27:20 #409 №1037033

>>1036895
Да, можно. Разбирайся сам, а то следующий вопрос будет
А можно ли в таверне пить

Аноним 01/02/25 Суб 13:28:22 #410 №1037034

>>1037027
>Да, но только когда входят
Ты полностью прав (и про Touhou тоже), но другой анон спрашивал именно про то что контекст всегда пересчитывается когда лорбук включает запись.

Аноним 01/02/25 Суб 13:28:50 #411 №1037035

>>1037032
Класс опасности ? Очевидный ОПО. Если мне память не изменяет, то атомные электростанции еще из за радиоактивных отходов под спец категорию попадают.
А тебе это зачем ?

Ответы: >>1037039

Аноним 01/02/25 Суб 13:32:00 #412 №1037039

>>1037035
> Класс опасности ?
Класс школы.
> В СССР первая АЭС — Обнинская АЭС мощностью 5 МВт — была запущена 27 июня 1954 года
>>1037031
> Ну когда то и атомных электростанций не было, но строят же.

Ответы: >>1037040

Аноним 01/02/25 Суб 13:33:44 #413 №1037040

>>1037039
> Класс школы.
Я ебу в каком ты классе школы ? Я не Ванга. Я примерно чувствовать не могу. Но думаю ты в 10м.
>1954
А до этого года они были ?

Ответы: >>1037042

Аноним 01/02/25 Суб 13:37:25 #414 №1037042

>>1037040
Суть сообщения
>>1037028
> поскольку в СССР нейронок ещё не было, а стало быть не было базы, то и взяться им у нас сейчас неоткуда.
Была в том, что для развития неважно какой отрасли в нее нужно вкладывать бабки и ресурсы, СССР много вкладывал и кое-где осталась база, на которой можно что-то построить. Тут как бы все понятно и без скатывания в нерелейтед, спроси нейронку пусть тебе разжует.

Аноним 01/02/25 Суб 13:37:40 #415 №1037043

>>1037016
>А Кандинский — не Сбер?
А, проебался, согласен. Прочитал только часть про вихрь. Получается, вихредел ещё и в сбере работает?

Ответы: >>1037209

Аноним 01/02/25 Суб 13:39:41 #416 №1037045

>>1036712
>самописной карточке
Скинь потыкать.

Аноним 01/02/25 Суб 13:40:00 #417 №1037046

Пытаюсь свести двух персонажей, чтобы она сами без меня поебалися, а я потом просто почитал чо они там творили. Но выходит хуйня
1) Либо сразу ебутся со второго сообщения - нахуй такое читать?
2) Либо если сделать бабу more resistant то её тупо насилуют
3) Либо если сделать мужика менее агрессивным, то его просто отшивают
Где золотая середина то, чтобы он её уламывал-уламывал, но в итоге уломал без rape?

Ответы: >>1037050, >>1037063

Аноним 01/02/25 Суб 13:43:38 #418 №1037049

>>1036999
Поправь меня, если я ошибаюсь. По моим подсчётам, они максимум на файнтюн мистраля того должны были потратить 10к долларов. Это в облаке. Если у них стоит локальная машина, то всё должно быть гораздо проще. Это копейки ебаные для баринов, и, в целом, будучи медийной личностью, он/они могли бы и больше собрать.

Основную загвоздку я вижу в поиске данных для обучения и адекватной разметке для этой ситуации. Особенно для создания чего-то вроде русского БРЕЙН ШТОРМА, как Давид, затолкав в анус модели как можно больше адекватно размеченного русика и не поломав все к хуям. И вот эта адекватная разметка больно дорогая, если всё делать в темпе. А если всё делать с нуля, то, судя по всему, пара миллионов долларов нужна на что-то вроде 32б русской.

Не знаю насчёт майора, но если они реально любят, что делают — можно организовать "случайный слив сырой модели из-за акти украинских хакеров". А вообще, в целом, можно так и не делать. Даже ванильные модели пишут всякое pdf или про то, как неправильно деды страны-создателя воевали, особенно при правильном промпте. Мировая практика, хули. Извините, товарищ майор. Это всё основа от буржуазного мистраля. Мы спиздили их технологии во имя России-матушки и будем уверенно допиливать модель, чтобы вождь гордился и всё соответствовало генеральной линии парти.

>>1037002
Но это ж корпораты. У них другая мотивация. И я не говорю про кум. Даже хорошее РП без него будет великим достижением, если выкатит какой-нибудь Яндекс.

Впрочем, они каких-то каловых агентов пилят. Натурально уровень 3б.

Полагаю, они не такие уж тупорылые, просто ситуация сейчас в стране сложная и коммерчески невыгодно выкатывать какую-нибудь йобу 123б. Чё они с ней делать будут? Кодить на русском? Нахуй им надо. Они обмажутся чат гпт и клодом как захотят, если им нужно. И рыночек занят уже. Если сосанкции снимут, то тем более большие модели российские улетят в трубу, если только не будут действительно круто сделаны.

В теории, в условиях санкций они могли бы сделать аналоговнет, но я так полагаю, что коммерческая выгода маленькая. Денег им государство не даёт, потому что не понимает, нахуй эти ваши нейросети нужны, а если что-то и понимает, то обучает мелких агентов для военных целей.

Ответы: >>1037118

Аноним 01/02/25 Суб 13:44:04 #419 №1037050

>>1037046
>хуйня
хуй + NYA

А что ещё ты ожидал. Я даже хз возможно ли это, даже на старших моделях. Хз как именно "тноко поднимать границу".

Ответы: >>1037110

Аноним 01/02/25 Суб 13:54:05 #420 №1037054

>>1036813

Не использовать мистралевское говно, пересесть с игры мистралевских выкидышей на крепкие рабочие квеновские лошадки.

Ответы: >>1037065

Аноним 01/02/25 Суб 13:57:00 #421 №1037059

>>1036937

Кринж.
Главные открытые русскоязычные модели это, внезапно, квен, гемма и командир, а не кривые файнтьюны мистраля, которые там эти товарищи делают.

Ответы: >>1037065, >>1037099

Аноним 01/02/25 Суб 13:58:06 #422 №1037061

мимо
Много месяцев как сижу на Cydonia-22B-v1.1-Q6_K.
Думаю, за это время уже нашлись модели покруче. Что посоветуете?
Есть 24гб врама.

Ответы: >>1037065, >>1037082

Аноним 01/02/25 Суб 14:00:17 #423 №1037063

>>1037046

Ты сейчас ирл описал, модель на ирл переписках и обучали.

Ответы: >>1037077

Аноним 01/02/25 Суб 14:06:02 #424 №1037065

>>1037054
>рабочие квеновские лошадки
>>1037059
>квен, гемма и командир

Верно что они именно что "рабочие лошадки" для рутинных тасков.
В рп сухо и криво, канцелярщина. О ерп лучше даже не заикаться.

>>1037061
>Думаю, за это время уже нашлись модели покруче.
Увы. Разве что мерж пантеона и цидонии.
Это чуть более хорни и раскрепощённый пантеон.
В остальном не видел ничего принциально нового для рп.

Ответы: >>1037069

Аноним 01/02/25 Суб 14:10:31 #425 №1037069

>>1037065
>О ерп лучше даже не заикаться.

Командир как раз по умолчанию могет в дикие извращения на уровне хорни файнтьюнов.

>В рп сухо и криво, канцелярщина.

На реддите люди очень хвалят РП файтьюны 34B квена Ink и EVA , я скачал, буду пробовать сегодня.

Ответы: >>1037079

Аноним 01/02/25 Суб 14:17:06 #426 №1037074

image.png

На арене (единственный адекватный бенчмарк) лучшая открытая модель, не считая дипсика, конечно, это Athena V2 chat 72B, она чуть ли не на равных воюет с gpt4o и соннетом, обходя даже 405В ламу.
Это что, хидден гем?

Ответы: >>1037092, >>1037105, >>1037131, >>1037293

Аноним 01/02/25 Суб 14:19:36 #427 №1037075

>>1037025
>если mergekit починят.
Учитывая что он уже третий день лежит, лучше разверни локально. Часа три вчера поковырялся и теперь полёт нормальный. много ресурсов не требует. Но не такое удобное, да.

Кстати о шизомиксах

Смержил Wayfarer-12B c MN-GRAND-Gutenberg-Lyra4-Lyra-12B-DARKNESS, результат вышел прикольный, не высирает полотна, язык вполне красивый, ультранасилие есть. Протестировал ~700 реплаев, меня поимели стулом...
https://huggingface.co/OddTheGreat/Malevolent_12B.v2

Результат соединил с pretender, получилось прикольно, с легкой ноткой шизофрении, но логику держит. Тесты ещё провожу, но раз пошла такая пьянка...
https://huggingface.co/OddTheGreat/Badman_12B

Хочу теперь badman с unity слить в 24В нечто, посмотреть есть ли в таком смысл, но passtrough мозги ебёт.

Ответы: >>1037089, >>1037093, >>1037098

Аноним 01/02/25 Суб 14:21:18 #428 №1037077

>>1037063
>Ты сейчас ирл описал, модель на ирл переписках и обучали.
хз какой у тебя ирл(привет Ыыыыть-мэн), но мне через минуту закомства ни одна тян на хуй не прыгала, всегда приходилось повозится чутка.

Аноним 01/02/25 Суб 14:21:46 #429 №1037079

>>1037069
> Командир как раз по умолчанию могет в дикие извращения на уровне хорни файнтьюнов
Вот без обид. Но кум на командоре, выглядит так :
Ебешь. Хорошо ебешь.
А на той же цидоньке-
Ебешь. Описание ваших тел на два абзаца. Хорошо ебешь и описание окончания с заливанием стен, полов и даже аллаха.

Ответы: >>1037088

Аноним 01/02/25 Суб 14:24:12 #430 №1037081

20-30B реально запустить на 8гб врам и 16 рам в не совсем убитом кванте? Насколько медленно будет?

Ответы: >>1037099, >>1037142, >>1037244, >>1037246, >>1037295

Аноним 01/02/25 Суб 14:24:17 #431 №1037082

>>1037061
Мой совет как цидонькоёба. Используй для рп другую модель, а когда дело доходит до эротизма, подрубай цидонию и яростно фапай.

Аноним 01/02/25 Суб 14:27:38 #432 №1037088

image.png

>>1037079
>Вот без обид. Но кум на командоре, выглядит так :
Ебешь. Хорошо ебешь.

Вместо тысячи слов снова запощу скрин как командир вывел диалог твоей кидоньки из залупа.

Ответы: >>1037091

Аноним 01/02/25 Суб 14:27:41 #433 №1037089

>>1037075
>слить в 24В нечто
Маленькие апскейлы - приклеить пяток слоёв начало - могут даже положительно повлиять, большие - потребуют файнтюна для приведения косоёбнутых весов в юзабельное состоянии.

https://huggingface.co/Aleteian/passthrought-12B-14.7B
https://huggingface.co/Aleteian/passthrought-12B-18.5B

С конфигами, оно даже рабочее, можешь запихнуть в gguf-my-repo, скачать и заценить.

Ответы: >>1037106

Аноним 01/02/25 Суб 14:29:57 #434 №1037091

>>1037088
>пишет на русском в Английском тюне
>жалуется на лупы когда весь тред пишет что мистраль лупится
>пишет односложные предложения
Пожалуйста не траль меня

Ответы: >>1037101

Аноним 01/02/25 Суб 14:31:06 #435 №1037092

>>1037074
Я на ней давно сижу в рп. Из ванилы она лучшая. И русский у неё лучший в локалках.

Ответы: >>1037096, >>1037125

Аноним 01/02/25 Суб 14:31:57 #436 №1037093

Подгонялось под мержи с моделями Дэвида, например клиффхэнгером. >>1037075
Если сможешь замержить так чтобы оно не поломалось в задницу Хексыдесимал, то будет интересно.

Ответы: >>1037106

Аноним 01/02/25 Суб 14:33:23 #437 №1037096

>>1037092
>И русский у неё лучший в локалках.
Но он парень. Но она 70B.

Аноним 01/02/25 Суб 14:35:20 #438 №1037098

>>1037075
>лучше разверни локально
развернул ещё до того как мне мержкит спейс подсказали, просто не уверен что у меня мерж 4 моделей одновременно вывезет.

Ответы: >>1037106

Аноним 01/02/25 Суб 14:35:36 #439 №1037099

>>1037081

Диалог и шел за русскоязычные модели, пролистай сообщения в ветке вверх, я даже за тебя их пролистаю >>1036937
>>1037059

Ответы: >>1037101

Аноним 01/02/25 Суб 14:37:09 #440 №1037101

>>1037099 -> >>1037091

Промахнулся

Ответы: >>1037109

Аноним 01/02/25 Суб 14:45:24 #441 №1037105

>>1037074
немотрон еще есть, ты что вчера вылупился?

Аноним 01/02/25 Суб 14:45:42 #442 №1037106

>>1037089
>>1037093
>>1037098
Спасибо, вернусь с РАБотки и как начну мержить
По ресурсам, там только в месте на диске может быть проблема, я не заметил чтобы оно сильно оперативку или проц жрало, а видеокарта в моём конфиге вообще стоит не при делах.

Ответы: >>1037115

Аноним 01/02/25 Суб 14:48:24 #443 №1037109

>>1037101
Я не собираюсь тебя переубеждать, это сугубо личный опыт. Но тут цидонькой пользуется точно несколько анонов и терпят лупы. Наверное есть причина для этого, нээ?
Потому что цидония, вообще не очевидный вариант для первой модели.

Аноним 01/02/25 Суб 14:48:47 #444 №1037110

>>1037050
ну пока примерно на 15 сообщении начинают долбится. Хочу хотя бы до 30 дотянуть. В идеале хочу чтобы кунчик как-то хз, кревтивно подошел, а не "ты хочешь этот член я знаю хочешь"

Ответы: >>1037114

Аноним 01/02/25 Суб 14:51:47 #445 №1037114

>>1037110
самое обидное что ползунка то нет, нельзя уменьшить ебливость на 10% лол. нужно как-то описание перефразировать блять. не очень удобно лол

Аноним 01/02/25 Суб 14:52:36 #446 №1037115

>>1037106
>как начну мержить
И да, слить две 12 в 24 я уже пробовал, в любых вариациях оно просто ломало об колено любой бэк, краша на этапе загрузки модели. Пожалей свою систему XD

Аноним 01/02/25 Суб 14:55:16 #447 №1037118

>>1036934
> Я олдфаг, помню ещё двойную точность...
Одинарную. Двойная это вообще для полубогов, там даже пигма раскрывалась не хуже всей этой r1 шелупони.
>>1036937
На берзыбье и автор сайги - лидер.
>>1036996
1 Они не в состоянии собрать датасет. Какая-нибудь банковская контора в теории может это себе позволить, но оно будет в лучшем случае на год отставать от современных передовых наработок.
2 Мало шарящих людей. Или типичные читатели лекций с "невероятными знаниями", которые выливаются в типичную вузовскую науку совершенно оторванную от реальности, или неумехи с пробелами и отсутствием полного понимания чтобы принимать верные решения.
3 Просто хороший файнтюн готовой 32б на небольшом но достаточном для такого датасете будет стоить минимум 30к долларов, только аренда видеокарт на финальное обучение. В реальности - еще столько же на тесты, отладку, проверки, ошибки и т.д.. Если брать у местных - можешь умножать цену на 2-4. Сейчас таких грантов просто так нонеймам не дают если только ты не про-... активист подсосок или ряженый и донатов столько не собирают. А что местные корпы у себя внутри делают - то изредка наружу попадает но большей частью используется внутри, можешь с ними поговорить по горячей линии.
Если ты про тренировку с шума говоришь - нужен и датасет сильно круче, и требования к вычислениям раз в 100 выше.
>>1037049
> По моим подсчётам
Занизил
> Если у них стоит локальная машина
Это не локальная машина а хотябы микрокластер с четыремя нодами по 8хH100 нужно
> будучи медийной личностью, он/они могли бы и больше собрать
Хуйня из под камня а не медийная личность (это про их известность и медийность а не личные качества).
> Основную загвоздку я вижу в поиске данных для обучения и адекватной разметке для этой ситуации.
Именно, их в отрытом доступе почти нет. Корявый перевод хуеты из жпт3 в сайге и что-то получше, но недалеко ушедшее в вихре.
> про то, как неправильно деды
Это еще одна причина по которой модель перед выпуском придется лоботомировать не меньше чем какую-нибудь phi, если делаешь это оффициально, представляя компанию или тем более на грант. Кадинского за купола уже лоботомировали.

Аноним 01/02/25 Суб 15:04:10 #448 №1037125

>>1037092

В трех битах сильно слюни пускает?

Аноним 01/02/25 Суб 15:07:16 #449 №1037131

>>1037074
Хм, а ее не пробовал, спасибо, надо скачать.
> единственный адекватный бенчмарк
На 97% подкрученное сравнение зирошотов для нормисов и мало о чем говорит особенно для рп.

Ответы: >>1037139

Аноним 01/02/25 Суб 15:15:19 #450 №1037139

>>1037131
>Хм, а ее не пробовал, спасибо, надо скачать.
Ждём отзывов. Но есть сомнения: чтобы гем и не заметили - такое редко бывает.

Аноним 01/02/25 Суб 15:16:15 #451 №1037141

А новый маленький Мистраль ничего так. Для такого размера даже хорошо. Есть прогресс.

Ответы: >>1037169

Аноним 01/02/25 Суб 15:18:05 #452 №1037142

>>1037081
Бамп

Аноним 01/02/25 Суб 15:44:19 #453 №1037169

>>1037141
Ты как будто свой пенис описываешь.

Ответы: >>1037180

Аноним 01/02/25 Суб 15:52:34 #454 №1037180

>>1037169
>Ты как будто свой пенис описываешь.
Нет, пенис мой 123Всм. А это так... пипирка. Но прикольная.

Аноним 01/02/25 Суб 16:03:56 #455 №1037197

Извиняюсь за нытье, но..
Почему на дваче нет тредов для тем, или чего-то подобного?
В потоке информации на рандомные темы от анонов невозможно ориентироваться.. Например, мне интересно почитать обсуждение промтов или обсуждение новых, актуальных моделей, и не интересно читать про железо (знаю, пошел я нахуй, с такими запросами). Уже не говорю про флуд без темы.
Столько, местами интересной информации, утопает в бесконечном потоке разрозненных сообщений.
Зашел вот сейчас почитать обсуждение и отзывы от анонов на новые модели.. "...и где?" (с)

Ответы: >>1037200, >>1037205

Аноним 01/02/25 Суб 16:07:00 #456 №1037200

>>1037197
Ну прости что наше обсуждение не соответствует твоим хотелкам. Хочешь обсуждать модели - берешь и обсуждаешь.

Аноним 01/02/25 Суб 16:09:15 #457 №1037205

>>1037197

Потому что лучше иметь один живой тред, чем десяток мертвых. Радуйся вообще что мы с детьми пользователями онлайн нейроно в одном треде не сидим.

Аноним 01/02/25 Суб 16:12:09 #458 №1037209

>>1037025
Благодарю, проверю!

>>1037043
Раньше, потом он ушел, а заодно и уехал.
Помимо Вихря у него еще тюны CogVideo есть и проекты интересные, но то посмотрим.

>>1036996
На давай.
Гигачат Лайт — полностью русская, пожалуйста.
R1 пытались сделать мелкие модели на своем датасете, получалась фигня.
Дообучили квен с лламой — скоры гораздо выше.
Иногда дообучить эффективнее, чем с нуля.

Аноним 01/02/25 Суб 16:12:21 #459 №1037210

image.png

Беру свои слова обратно, иногда получается ничо так

Ответы: >>1037217

Аноним 01/02/25 Суб 16:17:53 #460 №1037217

>>1037210

Какой же пиздец на пике.
Что за модель выдала этот диалог двух аутистов?

Ответы: >>1037221

Аноним 01/02/25 Суб 16:23:31 #461 №1037220

image.png

Попробовал Афину, ну это вкуснятина конечно, если бы не 2 т/с, то все остальные модели прямо сейчас бы в помойку отправились.

Ответы: >>1037229, >>1037411

Аноним 01/02/25 Суб 16:27:13 #462 №1037221

>>1037217
охуенное чувство юмора же лол. Про Тарзана оно само выдало, про босиком кстати тоже, в промпте не было ничего такого

Ответы: >>1037231

Аноним 01/02/25 Суб 16:43:47 #463 №1037229

image.png

>>1037220
>ну это вкуснятина конечно
очередной долбаёб подсос гемморойного, беззубого мавроди медисона не палится

А у съебал с моих интернетов, шваль малолетняя!

Аноним 01/02/25 Суб 16:44:31 #464 №1037231

>>1037221

Я о том что сам уровень диалога(лексика и структура предложений) на уровне сценки, устроенной пятиклассниками на уровке английского в мухосранской школе.

Ответы: >>1037237

Аноним 01/02/25 Суб 16:49:32 #465 №1037235

Поясните, если размазывать модель по оперативе и ссд, то какой профит это дает?
Вот допустим я беру 2х 3090, и у меня сейчас стоит 4х8 плашки оперативы, и самый обычный ссд. Имеет ли мне смысл их тоже менять, и шо це даст?

Ответы: >>1037238

Аноним 01/02/25 Суб 16:51:57 #466 №1037237

>>1037231
что блять тебе не нравится то? вполне натруальный диалог кек

Аноним 01/02/25 Суб 16:52:24 #467 №1037238

>>1037235
>Вот допустим я беру 2х 3090

Больше ничего не надо.
Оператива и ссд это когда видеопамяти нет.

Ответы: >>1037243

Аноним 01/02/25 Суб 17:00:50 #468 №1037243

>>1037238
Чому? Если модель не будет влезать в эти 48 гигов, разве нельзя ее размазать по оперативе и ссд?

Ответы: >>1037245

Аноним 01/02/25 Суб 17:01:23 #469 №1037244

>>1037081
Бамп

Аноним 01/02/25 Суб 17:03:37 #470 №1037245

>>1037243

Потому что 48 гб достаточно для 70В моделей в 4 кванте, а больше ничего и не нужно.

Ответы: >>1037248, >>1037249

Аноним 01/02/25 Суб 17:04:54 #471 №1037246

>>1037081

Думаю максимум 2-3 т/c будет на 4 битах.

Аноним 01/02/25 Суб 17:07:51 #472 №1037248

>>1037245
mind the context

Аноним 01/02/25 Суб 17:08:09 #473 №1037249

>>1037245
Допустим мне нужно, но больше видюх я по условиям воткнуть не могу.

Ответы: >>1037254

Аноним 01/02/25 Суб 17:10:50 #474 №1037254

>>1037249

Ну перекинь часть слоев на оперативу и наблюдай как скорость многовенно упадет в несколько раз, в чем вопрос-то?

Ответы: >>1037258

Аноним 01/02/25 Суб 17:15:07 #475 №1037258

>>1037254
Но если, допустим, модель 64 гига, то с 48 врама все равно же будет намного быстрее, чем если все 64 на оперативе?
А вопрос в том, будет ли разница между разными видами оперативы и ссд.

Ответы: >>1037263, >>1037269

Аноним 01/02/25 Суб 17:18:05 #476 №1037263

>>1037258
> модель 64 гига, то с 48 врама все равно же будет намного быстрее, чем если все 64 на оперативе?

Будет 2.5-3 т/c вместо 1 т/c.
Неюзабельно и то, и другое.

Аноним 01/02/25 Суб 17:25:51 #477 №1037269

>>1037258
VRAM>RAM>SSD

Ответы: >>1037272, >>1037313

Аноним 01/02/25 Суб 17:27:25 #478 №1037272

>>1037269

VRAM>>>>>>>>>>>RAM>SSD

Ответы: >>1037304, >>1037313

Аноним 01/02/25 Суб 17:41:52 #479 №1037293

>>1037074
>Это что
Соя, что же ещё.

Аноним 01/02/25 Суб 17:43:25 #480 №1037295

>>1037081
Pantheon-RP-Pure-1.6.2-22b-Small-IQ4_XS у меня выдает 2 т/с в бенче 8к контекста. Жить можно но грустно. Даже если взять 3ий квант и 4к контекста, я думаю будет максимум 2.5 - 3.5 т/с.

Ответы: >>1037327, >>1037382

Аноним 01/02/25 Суб 17:51:28 #481 №1037304

>>1037272
Между рамой и сосоди расстояние как бы не больше.

Ответы: >>1037411

Аноним 01/02/25 Суб 17:54:47 #482 №1037313

>>1037269
>>1037272
Да это я понимаю, вопрос именно есть ли разница в самой оперативе и ссд. Т.е. нет ли такого, что какой-то особый тип оперативы/ссд пашет для этих задач намного быстрее, чем обычный.

Ответы: >>1037324, >>1037332, >>1037411

Аноним 01/02/25 Суб 18:09:57 #483 №1037324

>>1037313
>оперативе и ссд
ссд влияет только на скорость загрузки модели при старте кобольда

Если модель вытекает не просто в раму, а в своп на диск то всё очень печально

Аноним 01/02/25 Суб 18:10:18 #484 №1037325

>>1036881
Ты уже видно давно сидишь. Какой из переводчиков по твоему самый лучший из тех что встроен в таверне. Я сам уже неделю сижу, и пользуюсь яндексом. Он заебись, но иногда путает местоимения и делает надмозговый перевод.

Ответы: >>1037338, >>1037409

Аноним 01/02/25 Суб 18:13:32 #485 №1037327

>>1037295
>IQ4_XS

Потому что i_xs - это крайне медленная срань, никогда не используй его вместо k_s, запомни как дважды два.

Ответы: >>1037330, >>1037757

Аноним 01/02/25 Суб 18:15:44 #486 №1037330

>>1037327
> медленная
Только на ЦП. На свежей куртке оно ничем не отличается от обычных квантов, зато немного покачественнее.

Ответы: >>1037335

Аноним 01/02/25 Суб 18:16:20 #487 №1037332

>>1037313
>какой-то особый тип оперативы/ссд пашет для этих задач намного быстрее, чем обычный.

Яблочные модели.
Но суть в том что они на чистой ОЗУ без врам выдают те же 2-3 токена в секунду которые ты получишь совместив VRAM c RAM.

Аноним 01/02/25 Суб 18:20:12 #488 №1037335

>>1037330
>Только на ЦП

Не только, просто потеря несколько токенов в секунду когда их у тебя в сумме 30-40 не так критична.
В любом случае - ужиматься ты будешь именно от недостатка ВРАМ и как раз использование этой модели будет большой ошибкой.

>На свежей куртке оно ничем не отличается от обычных квантов, зато немного покачественнее.

Она не качественнее, она просто меньше размером чем K_S, при том же как у нее качестве.

Аноним 01/02/25 Суб 18:22:38 #489 №1037338

>>1037325
>Использовать более слабые локалки вместо онлайн моделей чтобы не палить барину переписки
>Пересылать их тому же барину для перевода

Как называется эта болезнь?

Ответы: >>1037339, >>1037347

Аноним 01/02/25 Суб 18:24:31 #490 №1037339

>>1037338
>эта болезнь
и рыбку съесть и на хуй сесть

Аноним 01/02/25 Суб 18:31:47 #491 №1037347

>>1037338
Барин не разрешает кумить, а переводить кум пока ещё можно.

Аноним 01/02/25 Суб 18:36:18 #492 №1037353

Кто-нибудь уже выкачал ДСный R1 или R1-Zero? Скачайте, в стране светлоликих хотят запилить наказание 20 лет за "импорт" технологий связаных с ИИ из китая, так что думаю с ХФ их скоро снесут. Надо бы заархивировать.

Ответы: >>1037358, >>1037411

Аноним 01/02/25 Суб 18:41:09 #493 №1037358

>>1037353
Шизик, ты опять выходишь на связь?

Ответы: >>1037400

Аноним 01/02/25 Суб 18:49:50 #494 №1037382

>>1037295
Сколько слоев на карте?

Ответы: >>1037757

Аноним 01/02/25 Суб 19:17:03 #495 №1037400

1738422818137799.jpg

>>1037358
не знаю о ком ты, но обсуждение я уже видел. Обниморда вроде контора из США, их могут и нагнуть.

https://www.hawley.senate.gov/wp-content/uploads/2025/01/Hawley-Decoupling-Americas-Artificial-Intelligence-Capabilities-from-China-Act.pdf

Ответы: >>1037407, >>1037420

Аноним 01/02/25 Суб 19:39:54 #496 №1037407

>>1037400

Допустим удалят с обниморды.
И что ты думаешь - дипсик расстроится и не перевыложит модельку в другом месте?

Аноним 01/02/25 Суб 19:45:11 #497 №1037409

>>1037325
>яндексом. Он заебись, но иногда путает местоимения и делает надмозговый перевод.
А кто не делает? Все делают. Дипл получше других, но там есть ограничение по запросам. Яндекс - хороший баланс по качеству и доступности, но ты действительно сливаешь все свои запросы в отечественную контору. Конечно, в 99,99% случаев всем похуй, но... Гугл был приемлем, пока несколько дней назад его модель переводчика опять не обрезали и сейчас он невыносим. Лично меня устраивал даже Гугл.

Аноним 01/02/25 Суб 19:51:21 #498 №1037411

>>1037304
Примерно равное.
Грубо говоря в среднем 500 против 50 против 5.
Может между врам и рам разница и побольше на пару раз, но не критично, да.
Выгружать на ссд прям боль.

>>1037313
Быстрая оператива быстрее медленной, как ты угадал?
А рейд супербыстрых nvme быстрее одного обычного.

>>1037353
Под такое надо купить терабайтник лишний.
Я все никак не доберусь.

>>1037220
Че-т выглядит так себе, но дай ссылку.

Ответы: >>1037414, >>1037415

Аноним 01/02/25 Суб 19:52:30 #499 №1037414

>>1037411
>Че-т выглядит так себе, но дай ссылку
https://huggingface.co/bartowski/Athene-V2-Chat-GGUF Лол, на.

Ответы: >>1037458

Аноним 01/02/25 Суб 19:59:17 #500 №1037415

>>1037411
Че-т выглядит так себе, но дай ссылку.
Цундере анон

Ответы: >>1037440

Аноним 01/02/25 Суб 20:10:08 #501 №1037420

>>1037400
Тогда надо банить сам HF, потому что там 2/3 моделей китайские. А потом ещё arxiv.org, тем ведь "information, in tangible or intangible form, necessary for the development ... or use of an item". Но вообще это опять орные санкции, накладываемые на самих себя. Примерно как на куртку наложили, запретив продавать карты, что аж 5090 не релизнулась даже в самой швятой.

Аноним 01/02/25 Суб 20:19:19 #502 №1037426

Аргх. Сел погромировать. о3 кончилось и у него снова не работает загрузка файлов. R1 лежит. А локальный R1 14b не то что бы может за пределами утилитарной хуйни.

Печаль.

Ответы: >>1037442

Аноним 01/02/25 Суб 20:33:35 #503 №1037440

>>1037415
Настало время, когда модели добиваются меня…

Аноним 01/02/25 Суб 20:35:01 #504 №1037442

>>1037426
Не знаю, но я проорал.
Сел программировать, а ии за меня не пишет :(

Ответы: >>1037451

Аноним 01/02/25 Суб 20:42:18 #505 №1037451

>>1037442
Лол да вообще я хотел чтобы оно сделало ревью одного моего проекта и добавило всякие мелочи вроде нуллчеков и комментов. Ну и вообще проверило орфографию и сделало уборку.

Плюс я хотел скормить ей пару бумаг и послушать идеи как их заимплементить в одном шейдоре поверх имеющегося функционала. Так как я уже охуел ковырять один вычислительный шейдор на пару тысяч строк.

Аноним 01/02/25 Суб 20:53:36 #506 №1037458

223.png

>>1037414
Крч, вот такой вот порнофанфик, лол. Сами решайте как вам.

ПЕРЕКАТ Аноним OP 01/02/25 Суб 21:40:53 #507 №1037501

Что блядь происходит? Перекат за 2 дня.

ПЕРЕКАТ

>>1037498 (OP)

ПЕРЕКАТ

>>1037498 (OP)

Аноним 01/02/25 Суб 22:07:14 #508 №1037535

>>1036872
Как слои кстати считать у видяхи? Я ебу скок слоёв у моего говна.

Аноним 02/02/25 Вск 01:21:25 #509 №1037757

>>1037327
>>1037382
Спасибо, реально быстрее чем i_xs.
Я думал меньше вес -> больше слоев -> профит.
на i_xs был 31 слой 8к скорость 2 т/с
на k_s получилось 29/59 слоев, 8к контекста скорость 2.75 т/с
6к контекста 30/59 3.65 т/с

Аноним 02/02/25 Вск 12:39:18 #510 №1038089

Screenshot2025-02-02-16-36-13-613com.mishiranu.dashchan.jpg

Там говорят, дикпик можно напугать промптом, что типа если будешь лупиться и нести хуйню, товарищ Си лично расстреляет. После чего дикпик начинает отвечать нормально и правильно. Что думаете?

Аноним 02/02/25 Вск 21:45:31 #511 №1038792

>>1035819
>лама аналигнед
дай сурс пожалуйста

Аноним 23/02/25 Вск 20:31:34 #512 №1066148

Господа, нужна помощь: пытаюсь запустить oobabooga с инференсом на интеловском поделии ARC A770, но все интеловские гайды на гите обновлялись в последний раз полгода назад, на всяких профильных каналах в дисе тоже молчание. Есть ли какие либо варианты?