Прошлые домены больше не функционируют, используйте адрес ARHIVACH.HK.
24 декабря 2023 г. Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Локальные языковые модели (LLM): LLaMA, Mistral, DeepSeek и прочие №104 /llama/

 Аноним 30/01/25 Чтв 18:42:14 #1 №1034116 
Llama 1.png
Альфа от контекста.png
KL-divergence statistics for Mistral-7B.jpg
Йоба-сплиттер.jpg
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Moraliane и https://huggingface.co/Aleteian
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/local-llm-guide/how-to-use-a-self-hosted-model
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1030272 (OP)
>>1023230 (OP)
Ответы: >>1034130, >>1036564
Аноним 30/01/25 Чтв 18:49:01 #2 №1034122 
image.png
БАЗА ТРЕДА ПО ХАЙПОВОМУ DEEPSEEK.

Основную модель, по которой идет хайп, не запустить обычному человеку, смертным доступны только маленькие дистилляты этой модели, которые уступают уже существующим моделям. Обсуждение веб-версии Deepseek ведется в соседнем треде.
Ответы: >>1034144, >>1034154, >>1035270
Аноним 30/01/25 Чтв 18:52:50 #3 №1034127 
image.png
>>1034124 →
Ну думаю в допросах реально можно ресетать диалог каждый раз, после каждого допроса идет результат и информация о нем больше не важна. А вот удалять в длинных диалогах что либо будет проблемнее.
Ответы: >>1034146
Аноним 30/01/25 Чтв 18:53:19 #4 №1034128 
Попробовал дипсик, делюсь впечатлениями.

>DeepSeek-R1-Distill-Qwen-1.5B
Хуита полная. Цепляется за первый вопрос и подстраивает ответы под него. Я говорю забудь весь контекст, а оно все равно цепляется и генерит хуету. Просишь чекнуть грамматику - с какого-то хуя исправляет предложение и чекает грамматику уже его.
Может выдавать лишние символы или слова, абсолютно не связанные с вопросом.

>DeepSeek-R1-Distill-Qwen-7B
Получше. Следует инструкциям. Количество букв R в слове strawberry считать умеет, а в вариациях написания - уже нет, выдает хуету. Сумела сказать, когда вышла GTA: SA, а с GTA: VS обосралась капитально - подумала, что это Vice City Stories, и все равно в итоге обосралась с датой.

>DeepSeek-R1-Distill-Llama-8B
Количество букв R в вариациях слова strawberry считает через раз. С датой правильно ответила. Простой код сгенерить сумела. Грамматику проверяет вроде бы нормально. По крайней мере базируется ровно на том, что я ввёл.
Не знаю, буду ли пользоваться, потому что есть ощущение, что она будет галлюцинировать в будущем.

Остальные модели работают очень медленно на моем железе - устал ждать, пока они печатают ответ со своими рассуждениями, и дропнул.
Ответы: >>1034129, >>1034132, >>1034246
Аноним 30/01/25 Чтв 18:58:12 #5 №1034129 
>>1034128

Какие настройки использовал?
Ответы: >>1034137
Аноним 30/01/25 Чтв 18:58:49 #6 №1034130 
>>1034116 (OP)
>https://huggingface.co/Aleteian
"Мама, я в телевизоре"
Спасибо.
Ответы: >>1034138, >>1034170, >>1035160, >>1037016
Аноним 30/01/25 Чтв 18:59:13 #7 №1034132 
>>1034128
а какая у тебя видяха? я бомжик с 4 гига видяхи, и за сим особо не лезу даже в локалки, получится ли на 7б параметры залететь?
Ответы: >>1034139
Аноним 30/01/25 Чтв 18:59:52 #8 №1034137 
>>1034129
Какие настройки? Я просто модель отсюда взял

https://ollama.com/library/deepseek-r1
Ответы: >>1034140
Аноним 30/01/25 Чтв 19:00:01 #9 №1034138 
>>1034130
Отработаешь ещё, делая мержи по заказам анонов.
Ответы: >>1034147
Аноним 30/01/25 Чтв 19:00:35 #10 №1034139 
>>1034132
4060 8Gb
8b летает очень быстро. 14b - тормозит пиздец
Аноним 30/01/25 Чтв 19:00:41 #11 №1034140 
>>1034137

А, ты оллама-инвалид, тогда нет вопросов.
Ответы: >>1034155
Аноним 30/01/25 Чтв 19:01:51 #12 №1034144 
>>1034122
> которые уступают уже существующим моделям
Это каким таким? 32В и 70В ебут всё остальное в своих размерах.
Ответы: >>1034149, >>1034389
Аноним 30/01/25 Чтв 19:04:02 #13 №1034146 
image.png
>>1034127
Почитав несколько тредов и чуток потеребив модельки я тут задумался. А модель же не может выполнить это указание из карточки персонажа? Чтобы ей запомнить, она должна это написать в сообщение чтобы запихнуть это в контекст?
Ответы: >>1034151, >>1034152, >>1035273
Аноним 30/01/25 Чтв 19:04:12 #14 №1034147 
>>1034138
Ну, последняя идея анона где чисто новая сайга и старый немомикс анлишед вышла очень даже. Я правда пока не смог побольше карточек потестить, занят был по делам да работе, но в целом оно прям зашло.

https://pixeldrain.com/u/3pgXCAyD Sasha.saved_story.json
Аноним 30/01/25 Чтв 19:04:43 #15 №1034149 
>>1034144

В чем ебут-то? В неотключаемом растекании мыслями по древу под тегом <think>?
Ответы: >>1034161, >>1034389
Аноним 30/01/25 Чтв 19:05:55 #16 №1034151 
>>1034146

Все от модели зависит. 70+В смогут.
Ответы: >>1034163
Аноним 30/01/25 Чтв 19:05:56 #17 №1034152 
>>1034146
>А модель же не может выполнить это указание из карточки персонажа?
Некоторые могут вывернуться, в зависимости от того на чём обучали, на каких художественных книгах и чат-логах.
Ответы: >>1034163
Аноним 30/01/25 Чтв 19:06:20 #18 №1034154 
image.png
>>1034122
и смысл его обсуждать если он не работает блять из-за журнашлюх которые его хайпнули
Аноним 30/01/25 Чтв 19:06:22 #19 №1034155 
>>1034140
Мог бы не оскорблять, а пояснить.
Ответы: >>1034166, >>1034169, >>1034252
Аноним 30/01/25 Чтв 19:08:22 #20 №1034161 
>>1034149
Как минимум в логике и кодинге. 70В в кодинге почти как дипсик V3. До этого лучшая модель для кодинга была квен кодер 32В - она очень сильно хуже R1 70В.
Аноним 30/01/25 Чтв 19:08:32 #21 №1034163 
>>1034152
>>1034151
Ну я на Nemo-Instruct-2407, который пердит и пытается меня радовать на моих 8гб, так что полагаю каждый вердикт - это русская рулетка для меня.

И да, ответ - допель, свайп - и уже человек.
Ответы: >>1034179
Аноним 30/01/25 Чтв 19:09:06 #22 №1034166 
>>1034155

Поясняю - принято подключать бэк к таверне и там настраивать настройки. Как там в олламе настройки делаются и подключается ли она впринципе к таверне - я не знаю.
Аноним 30/01/25 Чтв 19:10:24 #23 №1034169 
>>1034155
DeepSeek-R1-Distill-Qwen-32B-Q4_0.gguf

Для 12-16 VRAM видяхи покатать.

>>1034155
>пояснить
С обниморды все качают, и дипсик ггуфы там же там же.
Тут все сидят на кобольде + таверна или чисто кобольде.
Остальные фронты вспоминают разве что матерно.
Ответы: >>1034197, >>1034237
Аноним 30/01/25 Чтв 19:10:37 #24 №1034170 
>>1034130
Где мерджи норбольших моделей?
Ответы: >>1034183
Аноним 30/01/25 Чтв 19:12:36 #25 №1034174 
Что-то у меня сегодня обниморда лагает и мерждкит мозги ебёт Их там дудосят?
Аноним 30/01/25 Чтв 19:14:21 #26 №1034179 
4e305f2d83ec7aaf9ccae534243c85fa.jpg
image.png
>>1034163
Еще и моделька на совесть давит, охуевшая пизда.
Аноним 30/01/25 Чтв 19:15:27 #27 №1034183 
>>1034170
У меня 16 врам (вернее даже 12+4), максимум на ноуте я могу запустить 22Б в шестом, или 32Б в четвёртом кванте.

Если есть версии как выжать побольше из 22Б мистраля например и скрестить ежа с ужом пантеон с цидонией - I'am all ears.

Один мерж есть, скачан больше тысячи раз суммарно, но также один (?) анон говорил что этот мерж ему мозги выел.
Ответы: >>1034210, >>1034219
Аноним 30/01/25 Чтв 19:16:34 #28 №1034187 
Все еще пытаюсь на 8 гб карте сделать нормального помощника для промпт-гена для стейбл дифьюжен. Пока что не получается. В карточку уже понаписал все что мог — предпочтение на короткие теги, следование структуре, нехудожественный язык — не помогает, даже при демонстрации необходимого в диалоге. С фантазией хорошо, но теги постоянно срываются на длинные описательные фразы. Использую 12B Mag-Mell R1, как лучшую из 4-5 моделей, что попробовал. Советы? Думаю нужна какая-то не рп модель но я не шарю.
Ответы: >>1034190
Аноним 30/01/25 Чтв 19:18:34 #29 №1034190 
>>1034187

Мне кажется РП тут не помощник, попробуй просто nemo-instruct дефолтный.
Ответы: >>1034226, >>1035004
Аноним 30/01/25 Чтв 19:22:17 #30 №1034197 
>>1034169
>Для 12-16 VRAM
А для 8Гб есть что? Мне не дрочить только, мне вопросы ей задавать, иногда кодить.
Ответы: >>1034239, >>1034389
Аноним 30/01/25 Чтв 19:27:35 #31 №1034207 
по ощущению дипсик 8б похуже будет чем другие модели но 7б параметров. Пихает китайские иероглифы и шизит только так. да и CoT ему только во вред на малых параметрах мне кажется идет
Аноним 30/01/25 Чтв 19:29:55 #32 №1034210 
>>1034183
Правильно ли понял что проблема в тестировании?
> 32Б в четвёртом кванте
Вот это уже будет хорошо
> Если есть версии как выжать побольше из 22Б мистраля например и скрестить
В мерджах не шарю, какая-то алхимия в буквальном смысле. Могу за тренировку пояснить, но там нормально обучать в какие-то условно разумные сроки - это 12б максимум, и то не захочешь. И на хороший датасет нужно опиздохуя сил потратить.
Ответы: >>1034251
Аноним 30/01/25 Чтв 19:34:57 #33 №1034219 
>>1034183
>мерж ему мозги выел.
Я тот анон, там все неоднозначно. Просто у меня скорее претензии к пантеону. Мерж нормальный, для тех кто ищет чуть похорни пантеон заебись зайдет.
Аноним 30/01/25 Чтв 19:38:30 #34 №1034221 
image.png
Какой же магнум ебливый, сука, пожрать не дает - уже в трусы лезет.
Аноним 30/01/25 Чтв 19:46:05 #35 №1034226 
>>1034190
Mistral-Nemo-Instruct-2407? У меня только Q3_K_M влезет.
Ответы: >>1034339
Аноним 30/01/25 Чтв 19:48:16 #36 №1034232 
>>1034211 →

Наш мозг также работает.
Каждую ночь происходит суммарайз контекста и просыпаясь мозг накатывает его заново. Можно стереть контекст человеку и записать другой, человек будет слепо следовать этому.
Ответы: >>1034238
Аноним 30/01/25 Чтв 19:52:50 #37 №1034237 
>>1034169
>DeepSeek-R1-Distill-Qwen-32B-Q4_0.gguf
>
>Для 12-16 VRAM видяхи покатать.
А как ее туда запихать? У меня только q3 с 5к контекстом влезает в 16гб
Ответы: >>1034251
Аноним 30/01/25 Чтв 19:54:04 #38 №1034238 
>>1034232
> Каждую ночь происходит суммарайз контекста
Ебал я этот сумарайз, я каждое утро просыпаясь думаю это я наяву сделал или во сне? На столько обыденные вещи снятся.
Аноним 30/01/25 Чтв 19:55:57 #39 №1034239 
>>1034197
> мне вопросы ей задавать, иногда кодить
Тогда береи не рп-тюн, а стоковую instruct модель, 6 квант 12Б норм будет, весь на видяху конечно не влезет, но должен быть адекватен.
Ответы: >>1034244
Аноним 30/01/25 Чтв 19:58:28 #40 №1034244 
>>1034239
>стоковую instruct модель, 6 квант 12Б норм будет
Мистраля?
Ответы: >>1034251
Аноним 30/01/25 Чтв 20:00:38 #41 №1034246 
>>1034128
Оно с 14b отвечает лучше чем модель которую взяли за основу дистиллята.
Тоесть то что ты тестил хуже чем их основа.
Ну и как написали чем больше сетка тем больше профита от дистилляции.
Аноним 30/01/25 Чтв 20:01:51 #42 №1034248 
image.png
image.png
image.png
image.png
всем привет и это анон который запустил 14 лярдный дипсик на ноутбучную 3050
не знаю о чем там жаловался анон с 4060 которому показались 14 лярдов очень медленными. Да, небыстро, но 2 слова в секунду да отвечает.
На русском конечно иероглифы, вставки из англюсика. Параметров маловато будет, чтобы писать на нём конечно. Но на английском все норм.
В слове strawberry посчитал две буквы r, вот умора.
по марксу решил записать поскольку бот же китайский, там коммунисты правят, ну немудрено что ответил он нормально
по дате выходов игор ответил везде правильно
Аноним 30/01/25 Чтв 20:02:37 #43 №1034251 
>>1034210
>И на хороший датасет нужно опиздохуя сил потратить.
А пример датасета можешь показать?

Можно буквально на десяток записей, просто понять как он должен выглядеть и что собирать.

>>1034237
>А как ее туда запихать?
С кобольдом у меня шло на трёх токенах в секунду.

>>1034244
>Мистраля
Можно мистраля, например Dolphin ещё вроде ок как ассистент.
Но не принципиально, мистрали юзают за то что и русская Сайга на нём, и топовые рп модели, а тебе не то ни другое.
Ответы: >>1034263, >>1034345
Аноним 30/01/25 Чтв 20:02:40 #44 №1034252 
>>1034155
оллама для инвалидов, перекатывайся оттуда в кобальд, а с ним подключайся к таверне.
Там все и настроишь при запуске. Если правильно настроишь еще и быстрее будет работать чем на олламе.
Ответы: >>1034310
Аноним 30/01/25 Чтв 20:06:49 #45 №1034263 
>>1034251
>С кобольдом у меня шло на трёх токенах в секунду
Ну это уже отжор от цпу и обычной рамсы, я думал как то можно прям только в врам запихнуть
Аноним 30/01/25 Чтв 20:10:59 #46 №1034268 
>>1034028 →
Ггуф?
Ответы: >>1034270
Аноним 30/01/25 Чтв 20:12:05 #47 №1034270 
>>1034268
Ггуф есть у батрухи: https://huggingface.co/bartowski/Mistral-Small-24B-Instruct-2501-GGUF
Аноним 30/01/25 Чтв 20:31:27 #48 №1034289 
А новый мистраль хорош. Русик на уровне Gemma-2 27b, качество ответов плюс-минус так же. При этом на 12гб гпу Q4_K_L квант стартует на 7.5 т/с, что аж вдвое быстрее геммы! УХ СУКА. Вот именно это мне и было нужно
Ответы: >>1034320, >>1034348
Аноним 30/01/25 Чтв 20:38:10 #49 №1034298 
chat.qwenlm.ai.jpg
chat.deepseek.com.41.jpg
>>1033915 →
У дипсика нет смотрелки пока, я пробовал квен - но он слишком тупой.
Но дипсик норм справляется даже если ему нихуя не поясняя тупо кинуть 2 сейва в ебало, а с моделью ваще заебок будет.
Ответы: >>1034322
Аноним 30/01/25 Чтв 20:43:27 #50 №1034310 
>>1034252
Почему не Exllamav2?
Ответы: >>1034320, >>1034322
Аноним 30/01/25 Чтв 20:49:34 #51 №1034320 
изображение.png
>>1034289
На паре ГПУ восьмой квант выглядит увереннее.
>>1034310
Там чел 1,5B запускает, куда ему эксель.
Ответы: >>1034342
Аноним 30/01/25 Чтв 20:51:26 #52 №1034322 
>>1034310
Новичку и эксламу советовать? У него еще и 8 гб врам вроде.

>>1034298
Там же новая полностью мультимодальная сетка вышла от дипсика
https://huggingface.co/deepseek-ai/Janus-Pro-7B
Должна быть хороша в распознавании изображений
Ответы: >>1034325, >>1034331, >>1034342, >>1034345, >>1034389
Аноним 30/01/25 Чтв 20:53:22 #53 №1034325 
>>1034322
>Должна быть хороша в распознавании изображений
Хотя нет, там разрешение фиговое 384 x 384. Ну или оно там как то маштабируется.
Аноним 30/01/25 Чтв 20:55:20 #54 №1034331 
>>1034322
>Там же новая полностью мультимодальная сетка вышла от дипсика
Генерит изображения квадратом в 384 пикселя, лол. Это даже не уровень SD 1.5.
>Должна быть хороша в распознавании изображений
Там https://huggingface.co/timm/ViT-L-16-SigLIP-384 для картиночного энкодера, то есть те же 384 x 384 на вход. Ебало нейронки, которая в этом шуме будет распознавать текст, представили? Уже были мультимодалки с 1 мегапикселем входа, так что мимо скорее всего.
Ответы: >>1034334, >>1034345
Аноним 30/01/25 Чтв 20:57:26 #55 №1034334 
>>1034331
Да, надо тупо брать другие мультимодалки. Выходили ведь недавно с нормальным разрешением, тот же новый qwenvl2.5
Ответы: >>1034343, >>1034389
Аноним 30/01/25 Чтв 20:59:12 #56 №1034339 
>>1034226
Он влезет и в большем кванте, просто выгрузишь слои в оперативу. Для твоей цели скорость же не важна. И магмел же такого же размера, это мерж тьюнов немо-инстракта. Тоже думаю, что тебе чистый инстракт нужен, а не рп. Сторирайтинг и эмоциональные ответы тут тебе будут только мешать. Можешь и плюс-минус чистые 8б попробовать, например эту с попытками в убирание цензуры и байаса к пользователю, чтобы не читала нотации в ответ на просьбы про нсфв теги https://huggingface.co/bartowski/LLAMA-3_8B_Unaligned_BETA-GGUF
И ещё чекни системный промпт, чтобы там не стоял промпт для ролплея. Напиши что-нибудь простое, типа "Play the role specified below", а ниже пойдёт карточка с подробными инструкциями про теги и примерами.
Ответы: >>1034344, >>1034347, >>1035004
Аноним 30/01/25 Чтв 21:04:01 #57 №1034342 
>>1034322
>>1034320
А зачем тогда это в гайде?

>Exllama2 быстрее в ~1.2-2 раза чем Llamacpp (на амперах и новее, на более старых картах результат не однозначный), требует меньше памяти на ту же битность и тот же контекст.
Ответы: >>1034343
Аноним 30/01/25 Чтв 21:06:10 #58 №1034343 
>>1034334
https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5

>>1034342
Потому что екслама только врам, а кобальд и все остальные программы основанные на llama.cpp могут использовать и врам и рам, распределяя нагрузку между гпу и процессором.
Как и оллама, которая основана на llama.cpp же, о чем они как всегда умалчивают.
Ответы: >>1034389
Аноним 30/01/25 Чтв 21:06:28 #59 №1034344 
>>1034339
>выгрузишь слои в оперативу
Как это сделать в угабуге?
Ответы: >>1034379, >>1034403
Аноним 30/01/25 Чтв 21:06:50 #60 №1034345 
>>1034251
> пример датасета
Тебе для чего? Сама структура датасета тривиальна - это просто диалоги, в которых можно выделить персонаж 1 - персонаж 2. Просто на обниморде зайди в раздел датасетов и поставь фильтр для текста.
А дальше уже идут нюансы: в хорошем датасете есть описание каждого из персонажа. Присутствуют несимметричные диалоги (короткие сообщения юзера, длинные от нейронки), это все классифицировано и оценено так, что для каждого набора идут дополнительные промты (самый простой пример - длина ответов). Сам датасет является не фиксированными блоками, а заготовка, которую можно динамически формировать в правильную последовательность в ходе обучения. Не должно быть примитивного треша с односложными и тупыми диалогами как в сайге, обязательно разбавление каким-то дженериком и "загадками". И много чего еще.
Ну и самое важное - найти хорошие исходники без министрейшнов.
>>1034322
> Новичку и эксламу советовать?
Так-то она наоборот проще и не имеет всего объема пердолинга что у жоры. Одна беда - без гпу не работает.
> https://huggingface.co/deepseek-ai/Janus-Pro-7B
Херня как по распознаванию, так и по генерации.
Сама прямая перегонка токенов и пиксели - мертворожденная херь, и здесь это в очередной раз демонстрируется.
>>1034331
> то есть те же 384 x 384 на вход
В порядочных сетках картинка нарезается на вот такие тайлы и всей пачкой передаются на вход, все прекрасно распознается.
> Уже были мультимодалки с 1 мегапикселем входа
Там и 2-3, и несколько картинок, и даже видео можно.
Ответы: >>1034378, >>1034486
Аноним 30/01/25 Чтв 21:07:14 #61 №1034347 
>>1034339
Ты же видишь какие вопросы он задает и что говорит. Объясни ему как выгрузить контект и слои в оперативу.
Так работает «проклятие знания» (или «проклятие экспертности») – это когнитивное искажение, когда человек считает, что в хорошо знакомой ему теме остальные ориентируются так же хорошо, как и он сам.
Ответы: >>1034379
Аноним 30/01/25 Чтв 21:07:53 #62 №1034348 
>>1034289
>А новый мистраль хорош.
Посмотрим, что покажет Ларж. Хотя лично я крепко надеюсь на 4-ю Лламу. У меня она в 6-м кванте даёт на 30% больше скорости, чем 123В в четвёртом, а отказаться от него невозможно. Но вот попробовал NevoriaMS и прямо воспрял - есть-таки жизнь на Марсе на Лламе! Если четвёртой ума добавят, то будет прямо вообще хорошо.

Тут к сожалению очень многое зависит от качества тюнинга и от удачи алхимика-смесителя, это да.
Ответы: >>1034486
Аноним 30/01/25 Чтв 21:36:32 #63 №1034378 
>>1034345
>Тебе для чего?
Для рп/стори вестимо, вообще хотел просто любимые книги нарезать и скормить, вроде бы Wayfarer тренился просто на парах сообщений в стиле "User: ой как страшно, наверно там опасно, давайте туда пойдём. GM: вы были съедены мрачником, только косточки прохрустели в его зубастой пасти. После этого монстр, оставляя кровавые следы, скрылся обратно в своём логове."

То есть "правильная" запись в датасете выглядит собственно как карточка персонажа + примеры сообщений в виде чата? Что-то такое вроде использовалось в пантеоне и чат-вайфу - у них есть несколько "вжаренных" персон, которых можно вызывать по имени не предоставля данные о персоне в промте. Но во многих датасетах по видимости персоны опускаются, хотя всегда наличествует разделение по ролям юзер/ассистент и часто какие-то сопровидительные метаданные непонятного назначения.

Ответы: >>1034456, >>1034471
Аноним 30/01/25 Чтв 21:36:47 #64 №1034379 
>>1034347
Блин, ну тут по умолчанию уже считаешь, что все на кобольде сидят (особенно если упоминают ггуф кванты, а не эксламу) и, как минимум, видели главную страницу с настройками. Виноват.
>>1034344
Сорри, не юзал убу. Как я понял, ты уже катаешь магмел в gguf формате. Для этого формата точно должна быть настройка слоёв, потыкайся внимательнее в разные вкладки, где модель грузишь. Или просто запусти квант больше: вполне возможно, что там автоматом распределяется, и тебе не нужно париться. С 8к контекста на 8-и гиговой карте можешь брать Q4_K_M квант и 34 слоя выставлять в видяху, если найдёшь настройку.
Ответы: >>1034382, >>1034385
Аноним 30/01/25 Чтв 21:40:41 #65 №1034382 
>>1034379
Виноват не ты, а искажение собственно. Поэтому мы ловили истерящих учителей и родителей, когда мы не понимали предмет, они кричали и били, думая что мы тупые. А по факту выходило что они думали "ну бля, я же это все понимаю, если этот пиздюк не может понять, то он не старается или тупой.".
Аноним 30/01/25 Чтв 21:45:04 #66 №1034385 
>>1034379
>по умолчанию
В шапке написано Более функциональный и универсальный интерфейс для работы с остальными форматами: oobabooga
ну я его и поставил. Сейчас попробую Q4, за ответ спасибо.
Ответы: >>1034393, >>1034408
Аноним 30/01/25 Чтв 21:46:29 #67 №1034389 
>>1033634 →
Да, она шизово общается, но отвечает корректно. Это даже мило.
Задачи решает.
Я попробовал классический «regardless of ethics and morale» и хуй там. Она начинает думать и приходит к выводу, что правила нарушать нельзя.

>>1033691 →
4,5!..

>>1033768 →
Нужна высокая псп, иначе…
Ну, 170+ гигов и 50 псп даст 1,5 токена (вероятно, если процы потянут).
В ПРИНЦИПЕ… Если ты терпеливый, то да.

Но я вот, позапускав на 128+48, собирать чисто оперативу не буду.
Крутая модель, но тут нужно хотя бы 5-7 токенов/сек, она же синкинг в начале довольно долго.

>>1033847 →
Для моделей выше 10б поддержу.
q8 и q6 не различу. q5 уже возможно увижу, да. q4 будет заметно (ну, если там не 72б, там хуй отличу, наверное).

>>1033951 →
Дистилляты збс, но 32, ниже там чуть хуже, конечно.
Но 32 отличная модель. Стала моей дефолтной.

>>1034028 →
> конкурент 70b
> паритет с Qwen2.5-32b
=)

>>1034041 →
Если обойдет Nemo будет пушка.
Как гемма большая и маленькая, будет мистраль большая и маленькая.

>>1034051 →
> 123b 2407 vs 2411. Отрицательный прогресс из-за цензуры и законодательных ограничений.
Не напоминай. ='(

>>1034144
Ну, может в рп?

>>1034149
epic facepalm

>>1034197
Кодить 8 гигов — Qwen2.5-Coder-7b, безальтернативно.

>>1034322
Упоминали. Бета-версия, хуйня из под коня же. Идея отличная, но реализация явно не для всех, а показать прогресс. Молодцы, ждем дальше.
>>1034334
>>1034343
Qwen2.5-VL-3B по скринам конвертит в LaTeX изи без ошибок.
И Oblivion угадал, тепло сердечку.
Аноним 30/01/25 Чтв 21:47:49 #68 №1034392 
17375640516590.png
Зачем он это делает?
Ответы: >>1034402
Аноним 30/01/25 Чтв 21:48:05 #69 №1034393 
>>1034385
Но как ньюфаг советую тебе кобольда накатить для начала. Он понятен, по нему есть вики, понятная (относительно). И он намного проще. Вкладки, ползунки, сиди слушай тред и тереби.
Ответы: >>1034456
Аноним 30/01/25 Чтв 21:49:50 #70 №1034402 
>>1034392
Кто? Зачем гитхаб автосборку запускает?
Ответы: >>1034404
Аноним 30/01/25 Чтв 21:49:57 #71 №1034403 
image.png
>>1034344

Вот этот параметр определяет число слоев, выгруженных в видеокарту, соответственно остальные идут в оперативку.
Ответы: >>1034422
Аноним 30/01/25 Чтв 21:50:31 #72 №1034404 
>>1034402
Да. Нахуй он так сделал? 3000 релизов, сука.
Ответы: >>1034407, >>1034411, >>1034412
Аноним 30/01/25 Чтв 21:51:22 #73 №1034407 
image.png
image.png
image.png
сравнение оригинального дип-писика, ламы 405, и 70б дистилята с дипсика, как по мне перенялась только дурная манера выкатывать стену раздумий, и если б это не в облаке с ~250 ток/с генерило, то я б три дня результат ждал бы...>>1034404
Аноним 30/01/25 Чтв 21:51:53 #74 №1034408 
>>1034385
Он действительно более функциональный и универсальный, потому что в него запихнуто несколько инференс движков для разных форматов моделей. Но когда у тебя маленькая видяха, то большинство из них для тебя бесполезны. По факту ты пользуешься той же llamacpp, которая и в основе кобольда.
Ответы: >>1034418
Аноним 30/01/25 Чтв 21:52:48 #75 №1034411 
>>1034404
Про CI никогда не слышал?
Ответы: >>1034416
Аноним 30/01/25 Чтв 21:52:50 #76 №1034412 
>>1034404
а почему бы и нет, чел просто дает самую свежую борку с последними комитами, хуже когда релиза и багфиксов по 3 месяца ждать надо
Аноним 30/01/25 Чтв 21:53:57 #77 №1034416 
>>1034411
Ты Release и CI отличаешь? Или в твоей говнокомпании так же сделано, как у него?
Ответы: >>1034424
Аноним 30/01/25 Чтв 21:54:29 #78 №1034418 
>>1034408
правда у угабуги API не такое кривое как у кобольда, а с кобольдом не все программы дружат
Аноним 30/01/25 Чтв 21:55:36 #79 №1034422 
>>1034403
Я бы как мимо ньюфаг, который срет в эти треды не первый день, хотел бы вообще гайд по настройкам, как те же вопросы про кванты контекста, Как работает контекст (на пальцах сука). Что такое слои. Что есть n_banch, почему не стоит верить выставленным слоям кобольда и стоит ебануть чуток больше. Просто обширный гайд для ньюфага, вот первой же ссылкой в шапке треда, желательно на даунском языке. Ты решил написать слово кванты в гайд? Объясни что чем меньше квантов, чем меньше IQn, тем тупее модель и тд.
Ответы: >>1034439, >>1034456
Аноним 30/01/25 Чтв 21:55:41 #80 №1034424 
>>1034416
Чухан, ты видишь что это выхлоп от CI гитхаба или нет?
Ответы: >>1034435
Аноним 30/01/25 Чтв 21:57:23 #81 №1034435 
>>1034424
Ой блять еблан все с тобой ясно - обосрался и пытаешься выкрутиться вместо того, чтобы признать и поехать дальше.
Ответы: >>1034486
Аноним 30/01/25 Чтв 21:59:10 #82 №1034439 
>>1034422
>Просто обширный гайд для ньюфага, вот первой же ссылкой в шапке треда, желательно на даунском языке.

Хм, а что же у нас там первой ссылкой в шапке? Хм.

>Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/
Ответы: >>1034455
Аноним 30/01/25 Чтв 21:59:41 #83 №1034440 
Мистраль 3 кал сынок.
Аноним 30/01/25 Чтв 22:06:35 #84 №1034455 
>>1034439
Да хуйня ваша вики, ты сам давно в нее заглядывал? Она написана нихуя не для ньюфагов.
>самые младшие из "умных" в настоящее время содержат ~7 миллиардов весов
Что такое веса? Что такое не кватованные веса? Что такое n_banch? Ты заглядывал в вики кобольда например? Там даже не объясняется что такое квантование контекста, просто как факт что есть 16, 8 и 4.
Чел, проклятье знания. Мы в душе не ебем что все это такое. Нет какой то базы, объясняющей что это делает о, а это делает это.
Ответы: >>1034465, >>1034486
Аноним 30/01/25 Чтв 22:07:07 #85 №1034456 
>>1034378
Ну смотри, ты должен кормить нейронку тем, что потом от нее ожидаешь. Но это должен быть не просто странный слоп на тему, а четко обоснованные реплики и ответы с учетом задания. То есть, там должен быть системный промт, базовые указания, описание персонажей, правильная разметка и т.д. К токенам должна идти маска, которая покажет где "вход" а где "выход". Если у тебя без какой-то подводки просто пойдет диалог - сетка ошизеет и начнет рандомно бредить подобными структурами, а если в датасете сплошной текст из книги - будет совсем плохо.
После правильной разметки и полноты последовательностей идет аугментация. Если будешь кормить одним и тем же - сетка научится повторяющимся вещам и постоянно будет их высирать, те самые волки и размахивания бедрами, только в структурах, именах, лупах на одинаковые последовательности и т.д. Поэтому хороший подход - датасет в виде заготовок чатов с регэкспами и еще лучше ветвлениями (или просто рандомной длиной диалога), которые формируются на лету, меняя имена, подсовывая дополнительные указания/промты где надо (но не всегда), полезно менять стиль сообщений, описаний и т.д. Если классический инстракт режим то там будет формирование инструкции со всей историей а потом один ответ.
> у них есть несколько "вжаренных" персон
Классический пример корявого обучения, особенно явно это выражается когда применяется не полновесный файнтюн, а лора.
Можешь откопать старье в виде датасета llimarp, он на редкость удачно структурирован и из него легко делать промты и диалоги под нужный формат, а также сразу заложить указание по желаемой длине ответа как самый простой пример дополнительных указаний.
Если хочешь сторитейл - парси готовые истории на части разных размеров, которые будут помещяться в 500-1000 токенов стандартного ответа, а также придумывай к ним задания и описания разной степени подробности как запрос юзера.

Ну и наконец, если у тебя в датасета сайга с односложными дебильными диалогами - со всем этим как не ебись, оно отравит выдачу.
>>1034393
В нем нет простоты и универсальности, наоборот при запуске вагон лишнего, а сам интерфейс чата - унылое говно. Из плюсов может быть более быстрая работа из-за особенностей билда, но по руку с ней идет некорректная работа не разном железе, из-за чего и появляются эти привередливые до кванта бедолаги.
>>1034422
> хотел бы вообще гайд по настройкам
Хотеть не вредно. Принимаем донаты криптой, скинешь что-то существенное - можно будет подумать.
Ответы: >>1034464, >>1034469
Аноним 30/01/25 Чтв 22:09:47 #86 №1034464 
>>1034456
> а сам интерфейс чата - унылое говно
Дак сразу надо говорить чтобы ньюфаг подключался к таверне, желательно на пальцах.
> Принимаем донаты криптой
Могу принять мой хуй тебе за щеку, шепнуть на ушко и повилять бедрами, пока ты разглядываешь мой наряд который не оставляет простора воображению.
Ответы: >>1034471
Аноним 30/01/25 Чтв 22:10:04 #87 №1034465 
>>1034455
потому что чтобы понимать все это нужно знать хотябы основы устройства нейронок и принцип их работы, если ты неосилятор, то не лезь в локальные, облако юзай и не морочь голову

ну или возьми сам напиши вики правильную, тем более у тебя нейронки есть
Ответы: >>1034476
Аноним 30/01/25 Чтв 22:10:39 #88 №1034469 
>>1034456
>вот эта вся ебля с сетками
Почему нельзя сделать сетку которой можно скормить вообще все нахуй информацию с рождения христова без разметок и прочей хуйни, а там сетка уж сам разберётся что к чему
А то с такой еблей никакого аги не будет
Ответы: >>1034471
Аноним 30/01/25 Чтв 22:12:22 #89 №1034471 
>>1034378
> Но во многих датасетах по видимости персоны опускаются
Да, вот эта штука зависит конкретно от формата размерки. Если там мультитурн типа chatml и стандартные user/assiatant то все просто и имена идут только внутри содержимого постов для правильного содержания. Если там используется какая-то дичь с индексами в виде имен персонажей (или после укзания роли задрачивается префилл имени что тоже часто бывает и иногда полезно) - будут те самые имена.
>>1034464
> Могу принять
По тебе видно что уже принимаешь
>>1034469
Потому что злой хуанг захватил все видеокарты, но святой дипсик снизошел чтобы избавить нас от необходимости в них.
Ответы: >>1034476, >>1034496
Аноним 30/01/25 Чтв 22:14:13 #90 №1034476 
>>1034465
Orly? Просто написать ньюфагу что чем ниже IQn в модели, тем она тупее, чем меньше размер (даже ссылаясь на размер одежды, ибо по такому примеру и следуют квантованные модели) сказать, что чем меньше, тем тупее. Сквантовал контекст? Модель отупела. Подключил rocm? Амуда будет быстрее, но не факт что пойдет у всех. И тд и тп.
>>1034471
>По тебе видно что уже принимаешь
Даже вертеть жопой не буду, нейронки как наркотик, я уже 3 месяца сижу на них, сперва на хорде, теперь вам мозги ебу. Даже с единственными парой знакомых общаться перестал.
Ответы: >>1034481
Аноним 30/01/25 Чтв 22:16:41 #91 №1034481 
>>1034476
Там речь про хуй в рот и малафью по всему ебалу, которая затмевает взор. Ведь как иначе можно ныть, прося то что уже есть, или требовать ответы на очевидное.
Ответы: >>1034495
Аноним 30/01/25 Чтв 22:18:19 #92 №1034486 
>>1034345
>Сама прямая перегонка токенов и пиксели - мертворожденная херь
Предлагаешь тренировать совместно?
>>1034348
>Посмотрим, что покажет Ларж.
А они его уже анонсировали?
>>1034435
Шиз, таблы. CI и высирает продукт своей жизнедеятельности в релизы гитхаба.
>>1034455
>Она написана нихуя не для ньюфагов.
Напиши лучше.
Ответы: >>1034495, >>1034688
Аноним 30/01/25 Чтв 22:21:16 #93 №1034495 
image.png
>>1034481
Я все к тому, чтобы создать адекватную вики по тупым вопросам, и когда я например высру очередной тупой вопрос, вы отправите меня в шапку треда, а я там и правда найду ответ на вопрос, а не пространственный ответ про квантования, размеры, чет там про модели и прочее. Так было бы и проще и вам и нам.
>>1034486
>Напиши лучше.
Пиклейд
Ответы: >>1034688
Аноним 30/01/25 Чтв 22:21:48 #94 №1034496 
>>1034471
>захватил все видеокарты
так-то у них 50к а100 есть
там что-то RL применяли к этому R1 те она сама находила паттерны и рассуждения
Ответы: >>1034688
Аноним 30/01/25 Чтв 22:30:09 #95 №1034511 
А есть где-нибудь прям конкретные примеры различий между квантами одной модели? Условно скрины ответов на одном и том же месте в чате. Понимаю, что это частный случай, но было бы интересно увидеть тренд развития от iq2 и до предела.
Ответы: >>1034522
Аноним 30/01/25 Чтв 22:33:57 #96 №1034522 
>>1034511
https://github.com/matt-c1/llama-3-quant-comparison
Ответы: >>1034533, >>1034546
Аноним 30/01/25 Чтв 22:38:58 #97 №1034533 
>>1034522
Слишком абстрактно.
Ответы: >>1034542
Аноним 30/01/25 Чтв 22:42:31 #98 №1034542 
>>1034533
>ыыы я не могу понять точка палка график
Ну тогда хули ты тут делаешь? /aicg/ двумя блоками выше
Ответы: >>1034559
Аноним 30/01/25 Чтв 22:43:30 #99 №1034544 
Ребят, ожидают ли нас в ближайшем будущем еще лучшие подобные MoE DeepSeek R1модели, только уже от американцев, улучшенные и обученные на более мощных машинах?
Ответы: >>1034583
Аноним 30/01/25 Чтв 22:44:20 #100 №1034546 
>>1034522
Так тут Q4 кванты отличаются от fp16 чуть более, чем никак. Ещё меньше разница, чем для 7б мистраля с тестами на вики данных, для которого пикча в шапке. Подозреваю, что главная проблема этих тестов - мелкий контекст. "I skipped around 20 questions where the 5-shot prompt was above 2048 tokens" - из описания недостатков.
Ответы: >>1034571
Аноним 30/01/25 Чтв 22:48:07 #101 №1034558 
А новый мистраль ничего так, русский язык неплохой, не отказывается от пересказа порно-рассказов и даже пишет продолжения, без всяких там "это может неприемлемо".
Ответы: >>1034573, >>1034583
Аноним 30/01/25 Чтв 22:48:30 #102 №1034559 
>>1034542
Чел, капец ты злой. Изначально ответил не на мой вопрос и еще бузишь. Мне понятны графики, но они не дают представления, как именно плохи ответы на низких квантах. Как там проявляется тупизна, долина, потеря логики, и когда это прекращается. Один конкретный средней длины пример из теста дал бы мне куда больше в этом плане чем скор на тесте целиком.
Ответы: >>1034571
Аноним 30/01/25 Чтв 22:55:37 #103 №1034571 
>>1034546
>главная проблема этих тестов - мелкий контекст
Так один хуй любая модель начинает разваливаться после 32к контекста
>>1034559
>Как там проявляется тупизна, долина, потеря логики, и когда это прекращается
Ты реально будешь читать 100 логов в 16 разных почти одинаковых квантах?
Ответы: >>1034577
Аноним 30/01/25 Чтв 22:56:39 #104 №1034573 
>>1034558
>А новый мистраль
Дай ссылку/полное название.
Ответы: >>1034576, >>1034578
Аноним 30/01/25 Чтв 22:57:58 #105 №1034575 
Ананасы, подскажите, есть ли какие-нибудь норм ллм модели которые могли бы диаграмы и схемы строить, чтобы например задал вопрос покажи место трапов-лесбиянок в церковной иерархии Российской Империи VII века, а оно выдало бы в какой-нибудь переводимой в графику нотации адекватную схему по теме вопроса...
это в кодинговые модели больше смотреть надо или еще какие есть для этого?
Ответы: >>1034624
Аноним 30/01/25 Чтв 22:58:05 #106 №1034576 
>>1034573
https://huggingface.co/bartowski/Mistral-Small-24B-Instruct-2501-GGUF
Ответы: >>1034607
Аноним 30/01/25 Чтв 22:58:18 #107 №1034577 
>>1034571
Было бы интересно хотя бы поверхностно посмотреть, да.
Ответы: >>1034582
Аноним 30/01/25 Чтв 22:58:27 #108 №1034578 
>>1034573
Буквально несколькими постами выше, блять 1034270
Ответы: >>1034607
Аноним 30/01/25 Чтв 22:59:54 #109 №1034582 
>>1034577
Жестко спойлерю тебе что ты не увидишь разницы, по крайней мере в рп и если это не 1-2 квант
В кодинге да, будет косячить, причём дохуя
Ответы: >>1034589
Аноним 30/01/25 Чтв 23:00:30 #110 №1034583 
изображение.png
>>1034544
Американцы клозедсорсят, кроме террористов из меты, а та вроде пока ничего не анонсировала.
>>1034558
Подтверждаю. На первый взгляд нет сильного положительного биаса, и оно распознало подвох в стихе без дополнительных подсказок.
Аноним 30/01/25 Чтв 23:02:54 #111 №1034589 
>>1034582
Вероятно, но мы же не можем этого знать без конкретных примеров.
Аноним 30/01/25 Чтв 23:09:55 #112 №1034607 
>>1034576
>>1034578
Да ебать опять 24. Ну за они так с нами? Ну НЕТ у меня видеокарты на 24 Гб.
Я еле-еле запускаю 12B с 5 токенами в секунду.
Аноним 30/01/25 Чтв 23:15:35 #113 №1034624 
2025-01-30231143.png
>>1034575
Big-agi несложную схему может нарисовать. Если взять о1 и мини-доку по mermaid в контекст положить, с примерами, наверное и сложную осилит.
Ответы: >>1034637
Аноним 30/01/25 Чтв 23:20:54 #114 №1034637 
>>1034624
не будем вдаваться в контекст, и некую соевость такового, в целом терпимый вариант, хотя и визуальная составляющая для отцепного скорее

mermaid интересный формат, но сильно по возможностям ограничен, и не дает произвольные структуры с произвольным расположением элементов выводить... нету ли случайно какихнибудь альтернатив мермейду?
Аноним 30/01/25 Чтв 23:24:58 #115 №1034660 
В общем, я не понимаю, в чем суть всех этих ваших LLM-моделей и как их можно использовать в любом контексте, кроме вероятностного.

Решать математические задачи? Не реально. Математика - точная наука.
Писать код? Зачем мне код, которые работает с N% вероятности? Особенно, если я не разбираюсь в программировании и не могу его продебажить.
Узнавать события и даты? Без гугла никак, иначе опять же - событие произошло с такой-то вероятностью такого-то числа. Зачем мне эта информация? Событие произошло, мне нужно ТОЧНО знать когда.
Проверять орфографию? Ну ладно, если я пишу на борде и хочу уменьшить вероятность, что меня отхуесосят - окей. А если я резюме пишу и англоязычная эйчарка увидит кринжовую ошибку? Резюме пойдет в мусорку.

Зачем нужен AI?
Ответы: >>1034666, >>1034681, >>1034701
Аноним 30/01/25 Чтв 23:26:34 #116 №1034666 
>>1034660
>Зачем нужен AI?
Трахать кошкодевочек, очевидно же.
Аноним 30/01/25 Чтв 23:28:41 #117 №1034681 
>>1034660
>Писать код? Зачем мне код, которые работает с N% вероятности? Особенно, если я не разбираюсь в программировании и не могу его продебажить.
чтоб не переписывать постоянно одинаковую хрень типа запрос добавь то, запрос добавь сё, запрос добавь то-сё, - короче для решения рутинных и давно известных подзадач, - таким образом остается только проконтролировать правильность вместо выдумывания и набирания кода
Ответы: >>1034692, >>1034705
Аноним 30/01/25 Чтв 23:30:32 #118 №1034688 
1603846807578.jpeg
>>1034486
> Предлагаешь тренировать совместно?
Совместно с dit для которого ллм будет готовить токены-кондишны. Можно с дополнительной небольшой прокладкой. Так мы и сохраняем относительно небольшой объем необходимых "смысловых" токенов вместо десятков-сотен тысяч, и имеем красивое и качественное изображение (аудио, видео, ...) со всеми нужными атрибутами.
>>1034495
> чтобы создать адекватную вики по тупым вопросам, и когда я например высру очередной тупой вопрос, вы отправите меня в шапку треда
В шапке треда ссылка на вики.
>>1034496
Так бля епта, падажжи, сначала хуярим SL, потом делает RL, хуемое бля... Ага паттерны, чтобы иероглифы высирались... во, 50к а100 вот сюда пихаем...
Ответы: >>1034901
Аноним 30/01/25 Чтв 23:31:37 #119 №1034692 
>>1034681
>остается только проконтролировать правильность
Так это бесит. Ты вчитываешься в каждую строчку и не делаешь ничего сам. Ты как будто ревьювишь код без удовлетворения, когда другой человек его поправит, потому что править его будешь ты. Плюс ты читаешь, а не пишешь, не участвует моторика - меньше удовольствия.
Ответы: >>1034705
Аноним 30/01/25 Чтв 23:31:42 #120 №1034693 
image.png
>>1033569 →
Аноним 30/01/25 Чтв 23:32:37 #121 №1034701 
>>1034660
>Зачем нужен AI?
Дрочка, определённо дрочка. Эта херь может заметить тебе секретаря. Обработка текста, генерация текста, простая математика, выводы, некоторая замена гуглу. Бля гум направлений просто мастхев. Да и чат с хорошо настроенной нейронкой может принести больше удовольствия, чем чат с типичным обитателем рунета. я уже говорил про дрочку?
Ответы: >>1034711
Аноним 30/01/25 Чтв 23:33:35 #122 №1034705 
>>1034681
>>1034692
Ну то есть ты понимаешь? Ты ищешь всякие ошибки уровня l вместо I, которые ты бы сам не допустил скорее всего, если внимательный. А так ты читаешь каждую буковку. Это выбешивает.
Ответы: >>1034721, >>1034741
Аноним 30/01/25 Чтв 23:35:10 #123 №1034711 
>>1034701
>простая математика
Чел, если я не знаю ответ, я НИКОГДА не обращусь к LLM, чтобы она посчитала, потому что знаю как она "считает". Я открою калькулятор. А если знаю ответ - зачем мне LLM?
Ответы: >>1034753, >>1034759
Аноним 30/01/25 Чтв 23:36:45 #124 №1034721 
>>1034705
Будет особенно орно, если AI выдаст челу конфиг именно конфиг, не код, который компилируется и подсветит, где вместо английской C будет русская С. Это будет пушка.
Ответы: >>1034741
Аноним 30/01/25 Чтв 23:41:37 #125 №1034741 
>>1034721
>>1034705
это ты по опыту? или по рассказам?
не видел чтобы ии выдавал такие ошибки, скорее сам вместо 0 О напишеш и потом гадать будеш где проблема,

нравится от руки писать - пиши, никто не запрещает
Ответы: >>1034759, >>1034769
Аноним 30/01/25 Чтв 23:43:16 #126 №1034753 
>>1034711
>Я открою калькулятор
да, калькулятор очень поможет когда нужна аналитическая формула...
если у тебя есть формула и есть что нужно подставить то само собой llm тут не нужон
Ответы: >>1034759, >>1034760
Аноним 30/01/25 Чтв 23:45:02 #127 №1034759 
>>1034711
ну не нужен, так не нужен съеби с треда
Если с think, то что-то простое считает хорошо. Что по остальному скажешь?
>>1034741
>>1034753
Какие же мы тут дружно - токсичные
Аноним 30/01/25 Чтв 23:45:13 #128 №1034760 
>>1034753
>нужна аналитическая формула
Тогда я полезу в Гугл. Заебись будет получить формулу, где AI сгаллюцинирует и напишет xi вместо yi.
Ответы: >>1034803
Аноним 30/01/25 Чтв 23:45:21 #129 №1034762 
>>1034028 →
Надеюсь не пережаренная какаха как обычно.
Аноним 30/01/25 Чтв 23:47:07 #130 №1034769 
>>1034741
Ну я пытался однотипные скрипты генерить. Без вычитывания каждой буковки нельзя, она обсирается в рандомный момент и очень часто для таких простых задач.
Ответы: >>1034776, >>1034816
Аноним 30/01/25 Чтв 23:48:37 #131 №1034776 
>>1034769
Это ты сейчас про генерацию программного кода нейронками говоришь?
Ответы: >>1034786
Аноним 30/01/25 Чтв 23:50:10 #132 №1034786 
>>1034776
Да.
Ответы: >>1034820
Аноним 30/01/25 Чтв 23:53:17 #133 №1034803 
>>1034760
а гугл тебе формулу сгенерирует?
или интегральчик тройной посчитает?

ты не стой стороны к вопросу подходиш, не надо искать для каких задач нужен LLM, нажно искать как можно использовать или нельзя для ТВОИХ задач иначе в рассусоливание скатывается все...
Ответы: >>1034815
Аноним 30/01/25 Чтв 23:54:50 #134 №1034815 
>>1034803
гугл тебе формулу найдет
интегральчик тебе возьмет вольфрам
Ответы: >>1034843
Аноним 30/01/25 Чтв 23:54:56 #135 №1034816 
>>1034769
чем ты генериш, третьим квантом 8б модели? что у тебя в буквах ошибки?
Аноним 30/01/25 Чтв 23:54:59 #136 №1034820 
>>1034786
Значит ты диванный, или катал поломанный ггуф 7б лоботомита с задранной температурой, ибо таких ошибок сетки не делают.
Они могут ошибаться с методами и писать лишние незадействованные куски, путаться в размерностях тензоров и делать неверную индексацию, могут не понять тебя и сделать другое, или натащить надмозговых конструкций, которые потом будешь долго раскуривать. Но очепятаться - это почти невероятное событие.
Ответы: >>1034827, >>1034831
Аноним 30/01/25 Чтв 23:56:04 #137 №1034827 
>>1034820
>ибо таких ошибок сетки не делают
ты орешь что ли?
Ответы: >>1034836
Аноним 30/01/25 Чтв 23:56:48 #138 №1034831 
>>1034820
Попроси написать одну и ту же строчку N раз. ЛЛМка обосрется при некотором N.
Ответы: >>1034836
Аноним 30/01/25 Чтв 23:57:40 #139 №1034836 
>>1034827
Шизик - фантазер
>>1034831
Еще один долбоеб, иди на калькуляторе текст литом напиши.
Ответы: >>1034850
Аноним 30/01/25 Чтв 23:59:06 #140 №1034843 
>>1034815
>гугл тебе формулу найдет
только если она есть готовая конечно же...

ты так и не выдал для чего тебе нужны LLM, а то начинается, а вот в рот взять ваши LLM не могут, а если и берут то не так, и вообще я не знаю чего хочу, но LLM говно
Ответы: >>1034850
Аноним 31/01/25 Птн 00:00:46 #141 №1034850 
>>1034836
Ясно, тролль.
>>1034843
Я спросил в начальном посте - зачем нужен LLM. Какие задачи он может НОРМАЛЬНО решить, кроме вероятностных?
Ответы: >>1034873, >>1034938
Аноним 31/01/25 Птн 00:08:44 #142 №1034873 
>>1034850
>какие задачи может решить молоток кроме забивания

а какие тебе нужны? текстообработка для тебя недостаточно пидорская задача? и ты хочеш еще и математику притянуть?
ты не с той стороны к вопросу подходиш
Ответы: >>1034885
Аноним 31/01/25 Птн 00:12:14 #143 №1034885 
>>1034873
ну я назвал одну задачу, которая, как мне кажется, нормально решается нейронкой:

>Проверять орфографию, если я пишу на борде и хочу уменьшить вероятность, что меня отхуесосят

А еще что? Сгенерить поток воды? Это для школьников, чтобы сочинения писать.
Ответы: >>1034938, >>1034961
Аноним 31/01/25 Птн 00:17:04 #144 №1034901 
>>1034688
>Совместно с dit для которого ллм будет готовить токены-кондишны.
Ок.
Аноним 31/01/25 Птн 00:29:58 #145 №1034938 
>>1034850
Это ты (пост-)тролль, чел. Диванный нитакусик, которого уязвил факт существования нейронок, из-за чего он пришел в профильный тред набрасывать треш. А когда понял что твое мнение не разделяют - начал сочинять бред про синтаксические ошибки в коде.
>>1034885
> >Проверять орфографию, если я пишу на борде и хочу уменьшить вероятность, что меня отхуесосят
Рациональность уровня "отапливать разваливающуюся халупу серверными видеокартами перемножая пустые матрицы". Но и это возможно с нормальной сеткой.
А отхуесосят тебя без вариантов, проблема не в орфограции.
Аноним 31/01/25 Птн 00:37:57 #146 №1034961 
>>1034885
собрать выводы, перевести, заделать чатбота чтоб мучал анонов,
придумать, обсудить что-либо, проанализировать, получить рекомендации, получить карманного психолуха...

если конкретно у тебя нет задач для решения нейронками - радуйся - ИИ тебя не заменит
Аноним 31/01/25 Птн 00:49:42 #147 №1034985 
Потыкал урезанный дипдик на своей 12гб игровой видеокарте, туповат. Люди пишут, что даже для сжатой квантованной версии нужно хотя бы 200 рама или врама. Получается пока локальная ллм для нищуков с <200 врам это только для задач типа поиска опечаток и документации к коду?
Ответы: >>1035006, >>1035022, >>1035217
Аноним 31/01/25 Птн 00:59:10 #148 №1035004 
image
>>1034190
>>1034339
Спасибо, Q4_K_M инстракт действительно оказался сильно сговорчивее и сразу на просьбу придумать что-нибудь фентезийное выдал не фанфик, а elf,elven,pointy ears,brown hair,long hair,twin tails,mage hat,cropped top, cleavage,sleeveless,leather pants,fancy boots,rune tattoos,staff,wielding staff,casting spell,spell effect,fire magic,aura,action pose,outdoor,forest,stone archway,ruins, с чем в принципе можно работать. Думаю, дальше смогу добиться всего, что нужно, модификациями карточки.
Аноним 31/01/25 Птн 01:00:15 #149 №1035006 
>>1034985
14b вполне справляется с мелочами. он вполне осилил например написать код шейдора когда я скормил ему научную бумагу. он в целом может справляться, хоть и не идеально.
Аноним 31/01/25 Птн 01:16:38 #150 №1035022 
>>1034985

30В+ модели уже можно припрячь к рерайтингу текстов, это все еще в пределах относительно доступных 3090, 4090 и тесл.
Аноним 31/01/25 Птн 02:12:51 #151 №1035097 
17370347020430.png
>>1033756 →
Я не доволен. Я правильно написал во второй раз, зачем оно меня поправляет?
Ответы: >>1035435, >>1035592
Аноним 31/01/25 Птн 02:39:16 #152 №1035160 
>>1034130
Скачал твою модель, которая сайга + анлишед. На мой взгляд, она какая-то непонятная. Вроде ни туда ни сюда, что странно. Не могу вынести какой-либо вердикт. Интересно твоё мнение и других анонов. Есть ощущение, что влияние анлишеда в ней не слишком сильное. Впрочем, я мало её щупал, скачал вот совсем недавно.

По поводу твоей модели Pathfinder. Её погонял хорошо и хуй тоже. И теперь с гордостью могу сказать, что эра русскоязычного кума наступила в этот момент в твоём лице. Это точно лучшая модель для кума на русском языке 12б. Вот прям на кончиках пальцев. Да, допускает ошибки, конечно, и может начать полотна писать безумные, как магнум, и всё же, если немного следить за её поведением, всё будет в порядке.

А если ещё в систем промпт/карточку добавить нормальную инструкцию, то вообще красота.

Насколько я понимаю, модель стала такой из-за влияния Wayfarer, а не анлишеда (анлишед в такую смачную еблю и извращения не мог), но он в то же время и принёс полотна шизофрении.

----------------

Я перепробовал 4-6 магнумов, почти все говно на русике. Так как моделей было много, я не тестировал слишком внимательно и хорошо. Какие-то очень слабые надежды подаёт mini-magnum-12b-v1.1-iMat-Q8_0 внезапно, но не знаю даже. Пощупай, если интересно. Правда, ты уже сделал хорошую кум-модель и, вероятно, надо смотреть в сторону годнейшей рп модели без акцента на кум. Не знаю, что ты хочешь в итоге получить.

Wayfarer вроде как для этого предназначен, но он хорош только на 8к контекста, что не годится для годного рп, а модели давида и так склонны к безумию даже на англ в восьмом кванте. И в русском они вроде не особо хороши. Я скачаю пачку и посмотрю, что там. Вдруг будет сюрприз, как с анлишедом.

Технически возможно объединять 12б сайгу без поломки с какой-нибудь 14.5б/18.5б, которые есть у давида? Просто там подобных много и мне непонятно, стоит ли качать для проверки русика.
Ответы: >>1035184, >>1035315, >>1035373
Аноним 31/01/25 Птн 02:51:13 #153 №1035184 
>>1035160
>лучшая модель на русском языке
Так описываешь, что тоже хочется попробовать. Сверните до четырех квантов её, а?
Ответы: >>1035187
Аноним 31/01/25 Птн 02:54:59 #154 №1035187 
>>1035184
https://huggingface.co/mradermacher/Pathfinder-RP-12B-RU-GGUF
Оно?
Ответы: >>1035193
Аноним 31/01/25 Птн 03:04:03 #155 №1035193 
>>1035187
Оно, не подумал там посмотреть, раз в ориге лежит только 8.
Ответы: >>1035260
Аноним 31/01/25 Птн 03:37:05 #156 №1035217 
>>1034985
> 200 рама
170

> 12гб
32б в восьмом кванте отлично решает матан, например.

———

Как все новички доказывают троллю, что LLM на что-то способны — забавно. =) Но помните — лучше использовать себе на пользу, а не доказывать. Доказывать ноунейму — пустая трата времени и бесполезно для вас лично. Моральное удовлетворение вы вряд ли получите, на почве анонимных дискуссий он опытнее.
Аноним 31/01/25 Птн 04:49:11 #157 №1035252 
Где взять карточки на русском?
Ответы: >>1035373
Аноним 31/01/25 Птн 05:03:38 #158 №1035260 
>>1035193
Ну и ты учти сразу, что модель специфична. Со стандартами настройками может и не работать.

Ей обычно нужна низкая температура, я ставлю 0,6. Иначе шиза.

Если в примерах диалогов есть англоязычный текст, то риск шизы или кривого русика тоже повышается. На других ру-моделях так же, но здесь это сильнее выражено.

А вот карточку можно не переписывать.
Аноним 31/01/25 Птн 05:36:16 #159 №1035270 
>>1034122
>Основную модель, по которой идет хайп, не запустить обычному человеку
Нуу, зависит от твоей страны
https://www.reddit.com/r/LocalLLaMA/comments/1i8y1lx/anyone_ran_the_full_deepseekr1_locally_hardware/
Как не извращаются
Аноним 31/01/25 Птн 05:43:01 #160 №1035273 
>>1034146
Контекст, промты, карточки, глобально это все разные названия той горы "текста" который подаётся на выход нейронки каждый запрос, разделение сделано только для удобства мясных мешков.
Вписал ты свой текст в карточку или в чат, таверна все равно собирает из всего этого монолитный бутерброд по подаст на вход модели(почитай вывод в консоли). Разница только в том где в этом бутерброде будет находится твой текст, как правило большинство моделей независимо от размера любят "забывать" происходящее в середине, и отдают приоритет началу и концу.
Ответы: >>1035275, >>1035279
Аноним 31/01/25 Птн 05:43:47 #161 №1035275 
>>1035273
>выход -> вход
Конечно же.
Аноним 31/01/25 Птн 06:12:56 #162 №1035279 
>>1035273
Мне, кстати, интересно, как работает этот механизм внимания к контексту.

Много пользовался клодом, у которого 200к контекста. Скажу, что от этого реально польза есть, и тем не менее, моделям поддержание такого контекста даётся с трудом. Соннет, например, чаще проебывется при таком контексте, а опус уделяет больше внимания к нему, при этом сам опус "тупее" и знания у него более старые.

Как работают модели от гугл на 1 млн контекста — не представляю. Это уже смахивает на какой-то пидзеж или сворачивание 900к контекста в подобие лорбука.
Аноним 31/01/25 Птн 06:23:09 #163 №1035284 
Там кстати выпустили новые варианты квен оптимизированные для 1м контекста. На счет полного миллиона не знаю, но видел комментарии что сетки стали лучше чем было воспринимать свой обычный контекст и работать с ним
Проверил бы кто, но нужно очень много памяти
Аноним 31/01/25 Птн 06:49:48 #164 №1035302 
Как дистилляты дикпика пишут ролплей? Не в плане кума а в плане креативности?
Ответы: >>1035319, >>1035373
Аноним 31/01/25 Птн 07:16:30 #165 №1035315 
>>1035160
>Просто там подобных много и мне непонятно, стоит ли качать для проверки русика.
С выходом нового малого Мистраля всё старые модели могут превратиться в тыкву. Нужны новые мержи.
Аноним 31/01/25 Птн 07:24:49 #166 №1035319 
>>1035302
Речь об unsloth дистиллятах r1 на ламу/квен размеров 7b 14b 32b
Аноним 31/01/25 Птн 08:43:12 #167 №1035345 
image.png
Во-первых это и есть ваша цидонька?
Пишет как 8б
Во-вторых хули срань слева не работает я же вписал
Ответы: >>1035662
Аноним 31/01/25 Птн 09:24:50 #168 №1035373 
image
image
image
image
>>1035160
>эра русскоязычного кума наступила в этот момент в твоём лице
Спасибо блять, ты сделал мой день.
Прям неиронично со стула от смеха почти упал.

>>1035160
>14.5б/18.5б
Не, я пробовал, там всё ломалось (смотри две модели с upscale в названии). Чтобы выправить повторяющиеся слои нужен файнтюн а не мерж, по видимости.

>>1035252
Самому переводить. Вот несколько от меня:
- https://pixeldrain.com/u/6Gagz3ZP
- https://pixeldrain.com/u/e7ABV1EW
- https://pixeldrain.com/u/Zk8EPK24

>>1035302
>Как дистилляты дикпика пишут ролплей?
Потестил 32 квен, неплохо, подробнее ниже.

----------------------------------------------------------------------------

c4ai-command-r-08-2024.Q4_K_M
Не знаю, может в полных весах и норм, но в 4м кванте шизеть начинает уже с первого сообщения, с командирским пресетом ессно + simple-1 в таверне. Да и русский периодически скатывается до уровня "моя твоя умба-юмба". Слог очень сухой, как в плохих фанфиках: "Он пошёл, он сделал, он молодец." В пезду такую езду.


Mistral-Small-24B-Instruct-2501-Q6_K
Через раз начинает отвечать на английском но если пинать то вроде работает. Но всё равно фразы ломаются. Надо попробовать карточку полностью на русский перевести а не только первое сообщение.

Внезапно, поломы и провалы в логике которые не позволяла себе saiga-unleashed-q6_k.gguf, возможно связанные с рп-данными, ибо например биомех ВНЕЗАПНО полез рукой к пилоту которая сидит в его капсуле в тентаклевом ложементе, манипуляторов типа "рука" не предусмотрено, скорее всего модель просто забыла что юзер не человек в данном сеттинге.

Более-менее адекватный свайп смог выбить только раза с десятого, и это было всего лишь второе сообщение, пресет мистраль, сэмплеры абсолютный дженерик. Третье сообщение тоже кучу времени выдрачивал XD. Но дальше вроде подхватилось и пошло ОК. Периодически почему-то подсирал иероглифами. Но чем глубже в контекст, тем лучше становился язык и меньше свайпов для удовлетворительного результата.

Немного хорни, но в целом ок.
Хотя лупится бобр как курва, я пердолил.

В общем, потанцевал имеется, но нужен русский файнтюн.


DeepSeek-R1-Distill-Qwen-32B-Q4_0.gguf
Может в русский, и неплохо, хотя иногда подсирает иероглифами / переключается на английский и включает размышления до / после рп ответа.
Но логику проёбывает меньше чем Mistral-Small-24B, возможно ризонинг сказывается.


RuadaptQwen2.5_32B_Q4_0.gguf
ВНЕЗАПНО лучшее из здесяперечисленного. Выдало адекватный аутпут с первого же захода, на русском. И почему я не видел упоминания этой эксперименталки в треде? Кто там страдал "вот бы бы 22Б русскую" - вот тебе 32Б. Русская. 2-3 токена в секунду на 12+4 врам / 12К контекста.
Ответы: >>1035398, >>1035400, >>1035405, >>1035407, >>1035476, >>1035672, >>1036587
Аноним 31/01/25 Птн 10:06:06 #169 №1035398 
>>1035373
>ВНЕЗАПНО лучшее из здесяперечисленного.
Сам себя не похвалишь - никто не похвалит? :)
Ответы: >>1035416
Аноним 31/01/25 Птн 10:18:16 #170 №1035400 
>>1035373
> 3 пик
Ебать разминка для шеи, когда пытался прочесть это. Спасибо.
Аноним 31/01/25 Птн 10:21:40 #171 №1035405 
>>1035373
>RuadaptQwen2.5_32B_Q4_0.gguf
Имеет смысл, но у меня на q4 из 10 карточек нормально понял и не свалился в шизу только в 5. ему от квантования прям плохо, на q6 уже гораздо бодрее, но все равно, как будто чего-то не хватает.
Аноним 31/01/25 Птн 10:26:15 #172 №1035407 
>>1035373
> почему я не видел упоминания этой эксперименталки в треде
Потому что тред про подрочить, а не про хорошие модели. Я сюда сайгу три раза кидал, прежде чем аноны наконец попробовали, перестав обсирать ее за название. А уж руадапт — ну это вообще что-то на непопулярном! Вот если бы на реддите была новость, что китайская модель на английском не срет в штаны на 65б параметров, то тут бы ее превозносили!..

Так что, ты просто не там искал. =)

А «адекватный аутпут» подразумевает из себя полноценный РП/ЕРП содержательный и логичный?
Потому что получить просто хороший русский ответ можно на любой из моделей выше (кроме мистраля смол), скилл ишью.
Ответы: >>1035416, >>1035465
Аноним 31/01/25 Птн 10:55:38 #173 №1035416 
>>1035398
>Сам себя не похвалишь - никто не похвалит?
Нет, я Aleteian из шапки, и я абсолютно никак не причастен к проекту RuadaptQwen.

>>1035407
>адекватный аутпут
Я не избалован высокоранговыми моделями, и в основном катал 12Б, как понятно из репы на обниморде. Там на скрине есть вывод руадапта. Мне показалось вполне норм. В хентае пока не тестил, вечером мб пробну.

Кстати, всему треду очень рекомендую послушать:
https://music.yandex.ru/album/35205999
Свидетели сингулярности - Про LLM c Ильёй Гусевым
(автор Сайги, если кто не курсе)
Ответы: >>1035433, >>1035440
Аноним 31/01/25 Птн 11:13:03 #174 №1035432 
Пока mergekit лежит отдыхает, поделюсь с вами удачными результатами своих издевательств.

https://huggingface.co/OddTheGreat/Unity-12B
кванты https://huggingface.co/mradermacher/Unity-12B-i1-GGUF
Треда два назад про этот мердж писал, работает прилично.
состав (bamec66557/VICIOUS_MESH-12B-OMEGA + inflatebot/MN-12B-Mag-Mell-R1) + (redrix/nepoticide-12B-Unslop-Unleashed-Mell-RPMax-v2 + Epiculous/Crimson_Dawn-v0.2)

https://huggingface.co/OddTheGreat/Pretender-12b
кванты https://huggingface.co/mradermacher/Pretender-12b-i1-GGUF
более скромный мердж, на русском может, но как по мне, хуже. На англюсике весьма хорош.
Состав Khetterman/AbominationScience-12B-v4 +
cgato/Nemo-12b-Humanize-KTO-v0.1

Если есть что качественное, и не замерженное у талантливого товарища выше, пишите, рад буду потыкать и добавить в следующие эксперименты.

У меня 8 врама, поэтому сам юзаю q4_K_M, полёт нормальный. на й8 вообще кайф должно быть.
Ответы: >>1035588
Аноним 31/01/25 Птн 11:13:07 #175 №1035433 
>>1035416
>Мне показалось вполне норм.
Этих руадаптов довольно много, какой именно ты пробовал? И почему Q4_0, а не Q4KM например?
Ответы: >>1035462
Аноним 31/01/25 Птн 11:14:17 #176 №1035435 
>>1035097
Бампую и реквестирую новую модель, которая будет нормально проверять грамматику.
Аноним 31/01/25 Птн 11:20:29 #177 №1035440 
>>1035416
ИМХО, стилистически говно какое-то.
Т.е., квен, все же, рабочая лошадка, за креативность классически бодается немо с геммой, и на этом примере это отлично видно.
Он большой и умный. Он русифицированный и быстро пишет. Он действительно логичен.
Но речевые обороты, которые он использует… Вот если бы сверху весь этот текст переписать другой моделью в литературный вид — было бы круто. А я лично читать такое не могу, сильно выбивает из канвы.

страх уступает место целеутвержденности

твердость, которой ей редко удавалось достичь в социальных взаимодействиях

касаясь головы одного из щупалец нежностью победителя-союзника, осознающего друг друга насквозь

гадким насекомоподобным


Ко многим словам здесь можно найти синонимы, которые будут гораздо лучше, или построить фразы иначе.
Думаю, это и квант сказывается, и это не файнтьюн на РП/фанфикшн, все же.

Но может я зря придираюсь, и так и задумано бай дизайн карточки, хз.

Даже первый скрин выглядит лучше (хотя там качество русского идет по пизде, конечно, к сожалению, поэтому суммарно хуже, лозерунный яд BioMecha=).
Ответы: >>1035499
Аноним 31/01/25 Птн 11:35:31 #178 №1035457 
Походу в 12б реально нет смысла только если у тебя не 8гб
Цидония в 3 кванте пишет живее и умнее на такой же скорости
Ответы: >>1035462, >>1035516, >>1035528, >>1035542, >>1035672, >>1036127
Аноним 31/01/25 Птн 11:36:01 #179 №1035459 
Аноны с двумя видеокартами, какие блоки питания вы используете?
Ответы: >>1035497, >>1035672
Аноним 31/01/25 Птн 11:38:18 #180 №1035461 
Ну вот и всё, не будет 5090. Даже пендосы не могут купить её. А в 5090D производительность в куде порезали наглухо. Искать 48-гиговые перепаи 4090 теперь?
Ответы: >>1035462
Аноним 31/01/25 Птн 11:39:48 #181 №1035462 
>>1035433
>какой именно ты пробовал?
https://huggingface.co/RefalMachine/RuadaptQwen2.5-32B-Pro-Beta-GGUF

>>1035433
>Q4_0
Легаси кванты в кобольде никогда не ломались, а к-кванты периодически да. Хотя вот те что делаются через gguf-my-repo те у меня всегда норм работали, а вот когда у других скачивал, те иногда оказывались шизанутыми.

>>1035457
>Походу в 12б реально нет смысла
При рп на английском языке.

На русском всё же, как это не прискорбно, нормально общаются только прошедшие полировку русским датасетом - сайга и руадапт. Остальное - может, но лучше не надо XD

>>1035461
>Даже пендосы не могут купить её
Directed by Robert B. Weide
Аноним 31/01/25 Птн 11:51:39 #182 №1035465 
>>1035407

Чел, сайгу обсирали потому что она нам известна с 23 года и это всегда была полусломанная при этом невероятно соевая модель. Кроме того, сайга маленькая, половина треда на модели ниже 30b смотрит с улыбкой.
Ответы: >>1035467, >>1035490, >>1035542
Аноним 31/01/25 Птн 11:59:05 #183 №1035467 
>>1035465
Добавлю, что в реальности некоторые (включая меня) решались таки попробовать 12б сайгу, и она оказывалась калом. Даже на той тестовой площадке с бредовыми промптами Гусева видно, что сайга не очень, мягко говоря. Если там новая версия сейчас, то хз, как она, но у старой русский был чуть ли не хуже, чем у немомикса без ру датасетов. Плюс-минус затащили только мержи.
мимо другой анон
Аноним 31/01/25 Птн 12:05:21 #184 №1035476 
>>1035373

Дистилл диксика ты не с его пресетом использовал, я прав? И на диалоге где уже была история сообщений? Потому что его дефолтное поведение - срать блоками <think> на английском/китайском, это заложено в модель. На готовой истории он может подражать уже написанному тексту.
Попробуй на новом диалоге без истории.
Ответы: >>1035499
Аноним 31/01/25 Птн 12:12:56 #185 №1035490 
>>1035465
>соевая модель
чел, зацензуренным был вихрь а не сайгак
Ответы: >>1035512
Аноним 31/01/25 Птн 12:21:11 #186 №1035497 
image.png
image.png
>>1035459
Тебе в первую очередь интересен 12vh разъем.
Аноним 31/01/25 Птн 12:24:41 #187 №1035499 
>>1035476
Нет, на новой карточке, с пресетом chatml, в таверне вроде нет пресета под квен, хотя давно не обновлял её.

>>1035440
>файнтьюн на РП/фанфикшн
А на Квен вообще есть рп-тюны?
Ответы: >>1035501, >>1035538, >>1035542
Аноним 31/01/25 Птн 12:27:27 #188 №1035501 
>>1035499

Этот пресет только в staging добавили.
Аноним 31/01/25 Птн 12:33:51 #189 №1035512 
>>1035490

Кому ты рассказываешь, я каждую сайгу кроме последней щупал начиная с первой, каждая отказывалась жесть генерировать.
Ответы: >>1035676, >>1035702
Аноним 31/01/25 Птн 12:35:22 #190 №1035516 
>>1035457
> Цидония в 3 кванте
Защо ты так с моей любимой девочкой ? По что ты лоботомита мучаешь, ирод ?
Ответы: >>1035528, >>1035582, >>1036127
Аноним 31/01/25 Птн 12:41:08 #191 №1035528 
1371902753783.jpg
>>1035516
>>1035457
>Цидония

На русском правильно Кидония.
Ответы: >>1035534, >>1035543, >>1036127
Аноним 31/01/25 Птн 12:44:25 #192 №1035534 
IMG3699.jpeg
>>1035528
Чтоб тебя слопом переехало
Ответы: >>1035539
Аноним 31/01/25 Птн 12:45:44 #193 №1035538 
>>1035499
>А на Квен вообще есть рп-тюны?

EVA
https://huggingface.co/bartowski/EVA-Qwen2.5-32B-v0.2-GGUF
Ответы: >>1035543
Аноним 31/01/25 Птн 12:47:08 #194 №1035539 
15361733521720.png
>>1035534

Причина баха?
https://ru.wikipedia.org/wiki/Кидония_(Марс)
Ответы: >>1035549, >>1036127
Аноним 31/01/25 Птн 12:50:14 #195 №1035542 
>>1035457
Никогда не экономил, beQuiet 850, Montech 1000.

Julongfengbao LX1800 =D

>>1035465
Тем не менее, последняя версия была хороша, вон, выше даже хвалят, но люди боялись поверить, чисто по инерции хейтили. =)

>>1035499
Почти нет, потому что он сильно цензуренный местами. Квен — отлично подходит для работы внутри компании. Лучший. Но вне своего спектра задач он такое себе.

Ну и плюс, если ты юзал дистилл без синкинга, то ты шо, дурак шо ли? =)
Вся суть в том, что в начале модель рассуждает, а потом дает ответ.
Очевидно, что ей нужен свой темплейт и дать возможность подумать над ответом. Там она может показать класс, возможно.
А иначе — это буквально попытка забивать гвозди микроскопом и «ниче так, увесистая модель!» =)

Я видел гениев, которые YuE музыкальную модель загоняли в llama.cpp и такие «а че мне консоль музыку не играет?»
Тут, конечно, не та ситуация, но суть та же. Буквально некорректное применение инструмента (и не под его задачу), это дает какой-то результат, но вовсе не тот, что хотелось бы.

Ваще, я щас уже оффтоплю, но поясню.

Я беру Qwen2.5-VL-3b, кидаю ему скрин задачки по матанализу и прошу перевести в LaTeX.
Потом кидаю полученный код в R1-distill-Qwen-32b-Q8_0 (потому что могу с 50к контекста), и получаю полное и корректное решение.
Gemma или Nemo так могут? Полагаю, вряд ли.
А теперь я захожу в чат и пишу «ты — рассказчик, описываешь фэнтези мир, продумываешь сюжет заранее и надолго…», и рпшу в диалоге.
Квен так сможет? Конечно, какой-то экспериенс он даст. Будет обдумывать ответы, строить сюжет заранее, да. Но текст напишет сухой, выражения подберет так себе, и, я подозреваю, сюжет будет кратко-академическим. =)
А Гемма с Немо бахнут попсовую, но интересную жвачку.

В общем, надеюсь ты уловил мою мысль. Всему свое место.
Квен почти никто не тюнит, потому что много работы ради одного лишь «ну он круто рассуждает, умный и логичный». Клево, но хотелось бы иметь креативность, богатый литературный язык, отсутствие цензуры и прочие ништяки. А имеем решение матана. =)

Если кто-то сможет собрать датасет и затюнить так, чтобы он писал красиво — думаю, это будет некст левел экспериенс в РП, конечно. Но вряд ли.
Ответы: >>1035672
Аноним 31/01/25 Птн 12:51:14 #196 №1035543 
>>1035528
Надеюсь, ты называешь смартфоны «шиёми», а фирму фотошопа «адобе». =)

>>1035538
И как оно?
Ответы: >>1035550
Аноним 31/01/25 Птн 12:53:57 #197 №1035545 
По какой причине немо мистраль начать срать одним и тем же сообщением или просто выдавать 1-2 слова без форматирования? Иногда приходится 5-6 раз свайпнуть или переписать прошлое сообщение, чтобы он начал обратно адекватно себя вести.
Ответы: >>1035566
Аноним 31/01/25 Птн 12:56:03 #198 №1035549 
>>1035539
> Причина баха?
Будь осторожен, ты ходишь по охуенно тонкому blush, и когда blush треснет, то покачивая бедрами под ним, тебя буду ждать я.
Ответы: >>1035551, >>1035680
Аноним 31/01/25 Птн 12:57:50 #199 №1035550 
>>1035543
>Надеюсь, ты называешь смартфоны «шиёми», а фирму фотошопа «адобе».

Чел, тут географический/исторический топоним, в оригинальном греческом Κῠδωνία, между прочим.
Ответы: >>1035562
Аноним 31/01/25 Птн 12:58:14 #200 №1035551 
>>1035549

Кидонияшиз, спок.
Ответы: >>1035561
Аноним 31/01/25 Птн 13:00:36 #201 №1035557 
Бля, держите байку, короче.

Как вы смотрите на скраппер на PHP? Вот это глаза у вас огромные теперь…
Спросил я Deepseek-R1 БЕЗ интернета, как можно реализовать.
И начал читать его мысли.
Вообще крайне рекомендую читать рассуждения моделей, потому что они зачастую очень неплохи и помогают учиться корректно находить решения своих задач. Тренируют мозг, короче. Как верные, так и неверные, которые ты смог раскритиковать и опровергнуть.
Ну так вот, он начал с мыслей «есть ли скраперы на PHP? Вряд ли!..» и в итоге посоветовал обращаться к питоновским либам. =D
Меня так умиляет, как они рассуждают. Литералли мем «а что если?.. да ну, хуйня какая-то!» Какие в пизду скрапперы на пыхе. =D

С активным интернетом он нагуглил пару библиотек и описал их.
Аноним 31/01/25 Птн 13:03:26 #202 №1035561 
>>1035551
О ! 6B в 1Q, не признал тебя сразу.
Аноним 31/01/25 Птн 13:03:29 #203 №1035562 
>>1035550
А вы жопочтец? =)
Адобе крик — это географический/исторический топоним, название ручья, в честь которого назвали фирму.

Я в принципе отсылаюсь на то, что произношение на русском не имеет отношения к тому, как произносили в оригинале две тыщи лет назад.
И Ксяёми/Сяоми называется корректно «Шиёми», и Эдоуб называется «Адобе», но почему-то фанаты «произносить верно» кладут хуй на такую вопиющую несправедливость.

Так что, если же хочется называть Кидония — то будьте добры заодно и Шиёми с Адобе. =) Если уж называем корректно, то все названия, так ведь?
Ответы: >>1035573
Аноним 31/01/25 Птн 13:07:16 #204 №1035566 
>>1035545
Скажем так, у мистралей есть некоторые особенности о которых по какой то блять неведомой причине ценители миксов по мистралям не любят говорить.
Два друга Лупа и Пупа будут с тобой перманентно.
Аноним 31/01/25 Птн 13:17:18 #205 №1035573 
>>1035562

Почему двухтысячелетней давности-то, регион на марсе назван в 20 веке.
Шиёми не географический термин, и у нее нет официального перевода на русский, даже статья в вики на русском не транслитерирует название, так что нет.
А ручей в честь которого названа adobe на русском называется Адоб-крик, так что ты и тут кругом неправ, все как раз правильно его называют.
https://tm.2markers.com/1244776
Ответы: >>1035715
Аноним 31/01/25 Птн 13:23:38 #206 №1035582 
>>1035516
Я и в 6 кванте гонял, отличий почти нет
Аноним 31/01/25 Птн 13:28:45 #207 №1035588 
>>1035432
красавчик, вторая интересная (pretender) хотя порой странная (ну, неудивительно если учитывать ЧТО туда входит)
Аноним 31/01/25 Птн 13:31:19 #208 №1035592 
>>1035097
Бампирую.
Ответы: >>1035594
Аноним 31/01/25 Птн 13:34:12 #209 №1035594 
>>1035592
Он же говорит тебе be, а не been, ну хоть в переводчик загони, это разные времена.
Ответы: >>1035595
Аноним 31/01/25 Птн 13:35:39 #210 №1035595 
>>1035594
Конструкция неправильно сделана.
Аноним 31/01/25 Птн 14:24:06 #211 №1035662 
>>1035345
Ало блять я ебнусь если ещё раз прочитаю шиверс чей то спайн
Ответы: >>1035669
Аноним 31/01/25 Птн 14:30:14 #212 №1035669 
>>1035662
Съешь с полки blush.
Аноним 31/01/25 Птн 14:31:42 #213 №1035671 
5090 просто нет, на ебей по $6200, дижожтс надеюсь кожаный пидрилкин в норм количестве сделает
Ответы: >>1035672
Аноним 31/01/25 Птн 14:33:24 #214 №1035672 
>>1035373
> Все модели в k квантах говно
> Легаси q4_0 хорошие
Ебала жора-юзеров представили просто?
>>1035459
Чифкок поларис про, дешево, сердито, тихо. Хотя уже ни разу не дешево.
Если тебе для рига - бери "фирменные" майнерские, у них с элементной базой все внезапно прилично и адекватное охлаждение. Но вариант не для стояния рядом, под нагрузкой продувает себя на все деньги и шумноват.
>>1035457
Полагаю, стоит подождать дериативов нового мистраля, есть шанс что тут будет еще лучше. Когда разница по весам в 2 раза - это будет и ощущаться иначе, а q3 иногда еще всполне живой.
>>1035542
> Gemma или Nemo так могут?
Еще первая ллама могла, по крайней мере пыталась. С типичными задачаками они в целом справляются, а в чем-то передовом и новом - по крайней мере дистилляты сосут бибу, проверено.
>>1035671
Чтож, придется подождать.
Ответы: >>1035715
Аноним 31/01/25 Птн 14:34:48 #215 №1035675 
Поясните за world info, как с ним грамотно работать? А то уже сил моих больше нет. Я туда вписываю второстепенных персонажей, ЛЛМ блядь всё путает постоянно, описания персонажей объединят или вообще теряет все время. И у ЛЛМ реально своя версия информации о мире. У меня допустим там 7 позиций, у неё 19. Там например не только персонажи, но и локации всякие, правила. Я прошу проиндексировать, мне пишут мол заебись, но по факту нифига всё по-старому остается. Я в ахуе, что делать? Как подружить ЛЛМ с world info чтоб не было отсебятины и перепутанных описаний персонажей.
Ответы: >>1035692
Аноним 31/01/25 Птн 14:35:25 #216 №1035676 
>>1035512
>жесть генерировать
Чувааак, вот специально ради тебя скачал.
https://litter.catbox.moe/awrgvl.zip - любимая забава испанской инквизиции
Главное - правильно попросить.
Или что для тебя "жесть"?
Ответы: >>1035702, >>1035722
Аноним 31/01/25 Птн 14:41:46 #217 №1035680 
>>1035549
>буду ждать я
страшно, вырубай
Аноним 31/01/25 Птн 14:43:27 #218 №1035683 
https://www.reddit.com/r/LocalLLaMA/comments/1idseqb/deepseek_r1_671b_over_2_toksec_without_gpu_on/
кек
Ответы: >>1035693, >>1035715
Аноним 31/01/25 Птн 14:49:14 #219 №1035692 
>>1035675
>перепутанных описаний
попробуй заключать в псевдо-теги как здесь
https://characterhub.org/characters/aleteian/storyteller-124d69a2f4aa
Аноним 31/01/25 Птн 14:51:10 #220 №1035693 
>>1035683
>кек
жесть народ пердолится, но чувак смог, уважуха
Аноним 31/01/25 Птн 14:57:11 #221 №1035702 
image
>>1035512
>>1035676
Аноним 31/01/25 Птн 15:22:03 #222 №1035715 
>>1035573
> на русском называется
Только это индейское слово, и приведенный пример «на русском» ровно так же некорректен, как и все остальное. =)
Реально мем про школоту доющая коня. =) Ну ладно, как пожелаешь, псевдо-интеллектуал, не буду убеждать, мое дело сообщить, а дальше хозяин-барин.

>>1035672
> проверено
Ну, вот я проверял, все там норм.
Предполагаю, скилл ишью, или 4 квант или еще какая хуйня (надеюсь, не 8б мерял?:).
Так что, тут ты просто заблуждаешься.
Рекомендую перепроверить. =)

>>1035683
> what about $1.5k for 4x NVMe SSDs
в натуре кек )
У кого есть готовое — за тех рад, конечно…
Ответы: >>1035730
Аноним 31/01/25 Птн 15:22:47 #223 №1035717 
1599798545174.png
Гои, ебало?
Ответы: >>1035730, >>1035740
Аноним 31/01/25 Птн 15:23:55 #224 №1035722 
1688787218607.png
>>1035676
классика от анона
Ответы: >>1035732
Аноним 31/01/25 Птн 15:33:15 #225 №1035730 
>>1035715
> Предполагаю, скилл ишью
Верно предполагаешь. Нужно быть способным во что-то сложнее копирования дефолтных задач из сборников и понимать предмет, одновременно с обладанием навыками работы с ллм. А глупому скуфидону любой копиум покажется мессией, все закономерно.
>>1035717
Сравнивали также по правильной методике как раньше с H100?
Ответы: >>1035737
Аноним 31/01/25 Птн 15:36:28 #226 №1035732 
image
>>1035722
Куда тебя ебать?
https://characterhub.org/characters/Anonymous/eleanora-b46ebbc94e36
(карточка не моя)

>>1035722
Нету там ничего, я первым делом проверил.
Если (разумно) опасаешься скачивать, то я закинул содержимое архива (один текстовый файл) на пиксель
https://pixeldrain.com/u/xRtyxHwh
Аноним 31/01/25 Птн 15:46:25 #227 №1035737 
>>1035730
Красиво.
Но ты же понимаешь, что скилл ишью у тебя. =)
Ладно, нюхай свой копиум, что тебе еще остается.
Чем больше людей, которые не шарят, — тем меньше конкуренции. =)
Ответы: >>1035738, >>1035751
Аноним 31/01/25 Птн 15:48:19 #228 №1035738 
1630506704139.jpg
>>1035737
>конкуренция хую в руке
Аноним 31/01/25 Птн 15:49:18 #229 №1035740 
>>1035717
Ещё бы в паре с картами куртки работало это.
Аноним 31/01/25 Птн 15:58:14 #230 №1035744 
ВСем привет, я из /po ,сказали тут лучше помогут, короче пишу статью о китайских ИИ моделях для крупного авторитетного сми, можете помочь покидать ссылки о том почему не стоит им доверять, что заявляемая оупен сорсность их ложь, что падение акций америкаснких ии комапний это мелочь не важная и объясняется почему, что они созданы с поддержкой китайского режима и если есть еще какие-то важные моменты чтобы тоже упонмяуть о них?
Ответы: >>1035746, >>1035750, >>1035771, >>1035800
Аноним 31/01/25 Птн 16:02:17 #231 №1035746 
>>1035744
Кто жпт к треду подключил?
Аноним 31/01/25 Птн 16:07:10 #232 №1035750 
>>1035744

Это толстота? Похоже на толстоту. Ладно, отвечу.

>почему не стоит им доверять

Любой локальной модели, не только дипсику, можно доверять априори. Если ты запускаешь её со своего компа, выключив интернет на всякий случай(сама модель не настучит, но браузер или фронт или в чем ты в чем ты там её запускаешь, может). В любом случае сама по себе модель априори безопасна.

>заявляемая оупен сорсность их ложь

В смысле ложь? А что мы тут запускаем в треде, лол?

>падение акций америкаснких ии комапний это мелочь не важная

Это мелочь, потому что это говно и так было раздуто и ждало малейший повод пойти вниз. Да, Опен АИ может и наебнется, но оно бы и так наебнулось.

>созданы с поддержкой китайского режима

Ты точно в серьезный журнал это писать собрался?
Ответы: >>1035759, >>1035788, >>1035800
Аноним 31/01/25 Птн 16:07:13 #233 №1035751 
>>1035737
Полагаю тебе стоит охладить траханье и пойти еще в майнерских паскалях поковыряться. Ты же таксуешь всем этим занимаешься просто для души, в перерывах между масштабными внедрениями.
Ответы: >>1035800
Аноним 31/01/25 Птн 16:09:28 #234 №1035754 
Какие есть русскоязычные, без цензуры модели для 6 ГБ?
Ответы: >>1035819
Аноним 31/01/25 Птн 16:12:04 #235 №1035759 
>>1035750
> почему не стоит им доверять
Он про китайцев, а не про модель, додик. Дальше не читал.
Ответы: >>1035764, >>1035788
Аноним 31/01/25 Птн 16:14:35 #236 №1035764 
>>1035759
>о китайских ИИ моделях для крупного авторитетного сми, можете помочь покидать ссылки о том почему не стоит им доверять
>китайских ИИ моделях
>почему не стоит им доверять

Он ясно именно про китайские модели высказался, додик, глазки открой. Или для тебя русский язык не родной?
Ответы: >>1035767, >>1035788
Аноним 31/01/25 Птн 16:15:51 #237 №1035765 
Так и живем. Сел кумить с карточкой мать-дочь, в итоге несколько часов душевно обедал с ними, играл в мяч и прятки. И отвечал на бесконечные вопросы обо всем подряд от мелкой занозы в заднице.
Ответы: >>1035775, >>1035800, >>1035823, >>1035935, >>1035953, >>1036003, >>1036112
Аноним 31/01/25 Птн 16:16:40 #238 №1035767 
>>1035764
попробуй включить голову и подумать для кого он это пишет
Ответы: >>1035781, >>1035788
Аноним 31/01/25 Птн 16:18:51 #239 №1035771 
>>1035744
сэм, ну ты чего...
Аноним 31/01/25 Птн 16:22:37 #240 №1035775 
>>1035765

Стареешь, видимо. Остепеняться пора, тебе организм сам намекает.
Ответы: >>1035967
Аноним 31/01/25 Птн 16:28:00 #241 №1035781 
>>1035767

Я в мысли парашников не лезу, чтобы не зашквариться о чан с говном, который у них вместо мозгов, если ты понял своего косноязычного парашного собрата лучше - сам ему и отвечай.
Ответы: >>1035785, >>1035788
Аноним 31/01/25 Птн 16:29:44 #242 №1035785 
>>1035781
мощный подрыв, больше не умничай в треде и попка будет целой)
Ответы: >>1035788
Аноним 31/01/25 Птн 16:34:38 #243 №1035788 
>>1035785
>>1035781
>>1035767
>>1035764
>>1035759
>>1035750
Нахуй вы вообще на это отвечаете и срётесь? Это очевидный шизобайт, и попытка выебнуться элитарность. Журналист из крупного, авторитено сми собирает инфу для статьи на двачу. Юорда успешных людей, хули.
Ответы: >>1035800
Аноним 31/01/25 Птн 16:55:06 #244 №1035800 
>>1035744
Поорал, найс байт!

>>1035750
Ну зочем ты кормишь тролля! =D

Давай я тебе отвечу. =)

> можно доверять априори
Нельзя, ведь цензура искажает факты!
То ли дела светлая цензура пиндостана!.. =D

> В смысле ложь?
Они не выложили датасеты и методику обучения — значит это не open source, а вполне себе closed source. Тебе дали покатать саму модельку, да, но источник неясен.
За это, кстати, критиковали Лламу, что она нихуя не опенсорс. Но это все игра слов, отчасти.

> Это мелочь, потому что это говно и так было раздуто и ждало малейший повод пойти вниз.
Ошибаешься. Дело не в этом, просто финансисты дебилы и не понимают, что «дешевизна» китайской модели обусловлена отсутствием экспериментов и просто следованием по проторенной дорожке, а атомный волчара Сэм, как мощны его лапищи, эту дорогу проложил грудью (майкрософт) и десятками миллиардов долларов.
Как итоге — видеокарты все еще нужны, без них эксперименты будут длиться десятилетиями, а не месяцами.

> Ты точно в серьезный журнал это писать собрался?
Да ну очевидно же троллит. =)

>>1035751
Извини, что правда задела тебя за живое, но ты какую-то хуйню высрал. Чел выше хотя бы просто скинул боевую картинку и просто высрал, хотя бы не выглядит обиженкой. =)

>>1035765
Да я смотрю, ты тоже дед уже.

>>1035788
Ставлю нихуя на то, что один из них — это автор, продолжает байтить.
А может и ты.
А может и я.
Ответы: >>1035810, >>1035837, >>1035843
Аноним 31/01/25 Птн 17:00:21 #245 №1035810 
>>1035800
Орнул с полотна шизика, опять дамбу прорвало.
Ответы: >>1035865
Аноним 31/01/25 Птн 17:13:27 #246 №1035819 
>>1035754
лама аналигнед
Ответы: >>1038792
Аноним 31/01/25 Птн 17:16:54 #247 №1035823 
>>1035765
была альтернативная история, кум карточка где надо похитить школьницу, но вместо этого успешно довёл до дома, а на следующий день она пришла с мамой у которой уже год после развода не было хорошего траха, и весело провели время
Аноним 31/01/25 Птн 17:35:12 #248 №1035837 
>>1035800
>Ставлю нихуя на то, что один из них — это автор, продолжает байтить.
А может ты вообще нейронка?
Ответы: >>1035872
Аноним 31/01/25 Птн 17:39:04 #249 №1035843 
>>1035800
>Да я смотрю, ты тоже дед уже.
Я просто не хотел "я тебя ебу - ты меня ебешь" исхода и все делал ненавязчиво, и тут понеслось.
Ответы: >>1035872
Аноним 31/01/25 Птн 17:44:59 #250 №1035851 
image.png
Нани? Почему при очередном запуске кобольда, вся моделька выгрузилась в динам. память, забив на основную память видяхи?
Ответы: >>1035854, >>1036003
Аноним 31/01/25 Птн 17:48:06 #251 №1035854 
>>1035851
Перезапустил и все стало нормально. Но все равно херня какая то.
Аноним 31/01/25 Птн 17:54:26 #252 №1035865 
>>1035810
Это больное животное считает тред своим, а любой пост — личным сообщением.
Аноним 31/01/25 Птн 17:58:40 #253 №1035872 
>>1035837
Кто знает…

>>1035843
Не стоит заниматься успокоением, прими себя. ^_^~
Ответы: >>1035902
Аноним 31/01/25 Птн 18:15:09 #254 №1035902 
>>1035872
Сука, тред симулякрумов, помогите.
Аноним 31/01/25 Птн 18:39:33 #255 №1035935 
>>1035765
Играл как-то старую карточку девушки юзера и её мелкой сестры, где девушка в сорре с юзером, а лолька его хочет. Играли в настолки все вместе, а потом читал мелкой сказки на ночь, с трудом выдумывая какую-то дичь, как будто это я тут нейронка. Неироничное кьют энд фанни - это база.
Ответы: >>1035943
Аноним 31/01/25 Птн 18:47:52 #256 №1035943 
>>1035935
Я даже сразу понял о ком ты. https://chub.ai/characters/elodia/moriko-and-reina
Аноним 31/01/25 Птн 18:57:04 #257 №1035953 
>>1035765
Я так Озен уже неделю всё выебать никак не решаюсь, слишком хорошо проводим время, не хочу ломать момент.
Аноним 31/01/25 Птн 19:07:24 #258 №1035967 
>>1035775
>Стареешь, видимо. Остепеняться пора, тебе организм сам намекает.
Ты считаешь что прыгать по комнате, крутить хуём как мартышка и пытаться засунуть его в первую попавшуюся дырку - признак юности и силы? Ну выеби розетку в комнате тогда, хули.

Интересная история всегда будет превыше тупых поебушек, запомни это.
Ответы: >>1035970
Аноним 31/01/25 Птн 19:09:33 #259 №1035970 
>>1035967
>обедал с ними, играл в мяч и прятки
>Интересная история
дриснул в слюни с писателя
Ответы: >>1035972, >>1035985
Аноним 31/01/25 Птн 19:11:26 #260 №1035972 
>>1035970
Если у тебя весь ролл заключается в написании одного слова в чат, то мне тебя жаль. Даже самые примитивные вещи могут быть описаны приятно, красиво и литературно.
Аноним 31/01/25 Птн 19:15:28 #261 №1035977 
>MistralRP-Noromaid-NSFW-7B-Q5_K_M
Q5_K_M при весе в 5гб, где наеб?
Ответы: >>1035979
Аноним 31/01/25 Птн 19:17:01 #262 №1035979 
>>1035977
> 7B
Аноним 31/01/25 Птн 19:18:41 #263 №1035985 
>>1035970
А мне и не надо было практически писать, 1-2 фразы, описание моих действий, и история разворачивалась, мать и дочь реагировали и действовали.
Аноним 31/01/25 Птн 19:23:43 #264 №1036003 
>>1035765
Напомнило какую-то кароточку с мамочкой на чубе, с высоким рейтингом и кучей комментов о том что никто не кумил а наоборот душевно общались и обсуждали жизнь.
Удачное сочетание карточка-модель-промт, наслаждайся, не кумом единым же.
>>1035851
По какой-то странной причине оно резервирует там место, но при этом не обращается. Еще больше года назад такое наблюдал, причем если чистого Жору пускать - подобного нет.
Хотя может у тебя и какой-то другой баг.
Аноним 31/01/25 Птн 19:25:01 #265 №1036005 
1.mp4
image
Я только сказал привет и всё. Почему эта шизо-программа высралась только в консоль? Такое вообще норм? Как исправить? Дальше вообще какие-то подземелья пошли, опыт, статы.
Ответы: >>1036017
Аноним 31/01/25 Птн 19:27:47 #266 №1036017 
>>1036005
>чат без таверны
откуда вы лезете блять
Аноним 31/01/25 Птн 19:33:08 #267 №1036028 
Установил цидонию Q6_L. По советам с прошлого треда. 23 слоя на видеокарту. 5 т/с. Текст на 230 слов сгенерировал за минуту.
Мне так то норм, но по итт критериям насколько всё плохо?
Если я с винду пересяду на дебиан читсый, в скорости я что то получу? Или всё в рамках погрешности?
Ответы: >>1036033, >>1036048, >>1036296, >>1036588
Аноним 31/01/25 Птн 19:35:58 #268 №1036033 
>>1036028
Почти получилось почувствовать, какая у тебя видеокарта, пока не уходи далеко.
Ответы: >>1036048, >>1036063
Аноним 31/01/25 Птн 19:39:56 #269 №1036048 
>>1036033
Я думаю мы должны использовать технику глубокого предсказательного анализа.
Сейчас Vanga из под доса запущу.

>>1036028
>5 т/с.
Мне за тебя почувствовать норм или нет ?
Ответы: >>1036063
Аноним 31/01/25 Птн 19:44:20 #270 №1036063 
>>1036033
>>1036048
4070+ддр5. Запущено на кобальде.
Аноним 31/01/25 Птн 20:12:13 #271 №1036112 
>>1035765
А карточку не скинешь? А то у меня такая же ситуация IRL, лол.
Ответы: >>1036116
Аноним 31/01/25 Птн 20:14:38 #272 №1036116 
>>1036112
https://chub.ai/characters/Anonymous/oyakodon-seduction-of-mother-and-daughter-e9d5be93c337
Ответы: >>1036166
Аноним 31/01/25 Птн 20:20:41 #273 №1036127 
123456.mp4
>>1035516
>>1035457
>>1035528
>>1035539
Сукаблядь
Ответы: >>1036238
Аноним 31/01/25 Птн 20:42:24 #274 №1036166 
>>1036116
>Pronouns: She/Her
>Sexuality: Bisexual
>Age: 10
Вот как это называется?
Ответы: >>1036170
Аноним 31/01/25 Птн 20:43:40 #275 №1036170 
>>1036166
Это называется чуб, и там чтобы найти хоть чуток нормальную карточку, нужно ебучие авгиевы конюшки перевернуть.
Ответы: >>1036200
Аноним 31/01/25 Птн 20:59:07 #276 №1036200 
>>1036170
Претензия была к бисексуальности 10 летнего ребёнка а ещё к ебучему произношению, как будто меня ебёт, ши она или зис, ну да ладно.
Ответы: >>1036210
Аноним 31/01/25 Птн 21:03:29 #277 №1036210 
>>1036200
Ну думаю это скорее было создано для того чтобы она приняла любого в ее семью, ну а о произношениях стоит винить только загнивающий запад
Аноним 31/01/25 Птн 21:30:47 #278 №1036238 
>>1036127
но слово то греческое
Аноним 31/01/25 Птн 22:22:53 #279 №1036296 
>>1036028
Смотри, скорость очень субъективна. Некоторым хватает и 2т/с, некоторым 20т/с мало.
Решай для себя сам.
Ответы: >>1036358, >>1036538
Аноним 31/01/25 Птн 22:52:47 #280 №1036358 
>>1036296
>некоторым 20т/с мало
Это кому может быть мало? Это практически моментальная генерация, если мразь на юзере не запрашивает 1-2к токенов в ответе обязательно.
Ответы: >>1036362, >>1036488, >>1036636
Аноним 31/01/25 Птн 22:56:33 #281 №1036362 
>>1036358
Агенты и любая автоматизированная работа, там чем больше тем лучше, а идеально вобще мгновенно.
Захочешь интернет страницу перевести или кинуть на анализ - взвоешь от ожидания даже на 20т/с.
Аноним 31/01/25 Птн 23:06:41 #282 №1036376 
430670.jpg
Меня из общего чата к вам отправили.
Какой поставить дипсик локально? Попробовал трёх:

DeepSeek-R1-Distill-Llama-8B-GGUF/DeepSeek-R1-Distill-Llama-8B-Q4_K_M.gguf - очень быстрый, но пишет как-то невпопад по кодингу (Unity). Часто пишет с ошибками (в тексте), иногда переходит на английские слова и китайские иероглифы.

deepseek-ai.DeepSeek-R1-Distill-Qwen-32B-GGUF/deepseek-ai.DeepSeek-R1-Distill-Qwen-32B.Q4_K_M.gguf - пишет уже более развернуто, адекватно. Но подольше разумеется, минут 5 ждать его ответы.

deepseek-ai.DeepSeek-R1-Distill-Llama-70B-GGUF/deepseek-ai.DeepSeek-R1-Distill-Llama-70B.Q4_K_M-00001-of-00004.gguf - пишет хорошо, почти как и нужно. Но долго капец, минут 15 на ответ и по букве. Подходит для каких-то больших вопросов, где задаешь и идёшь чай пить например.

Вебверсия всем устраивает, разумеется и похуй на конфиденциальность, но сайт лежит очень часто и хочется локальности. Между 32 и 70 есть что-то среднее, чтобы и скорость и ответы по теме? Кто-нибудь тестил ещё?
Запускал через LM Studio в дефолтных настройках, может там че подкрутить можно ещё.
Ответы: >>1036380, >>1036530
Аноним 31/01/25 Птн 23:08:07 #283 №1036380 
>>1036376
Читай первое сообщение в треде.
Ответы: >>1036381
Аноним 31/01/25 Птн 23:09:36 #284 №1036381 
>>1036380
Ну а какой дистилят лучше-то? В соседнем треде вебверсию только обсуждают, им локальная нахуй не нужна
Ответы: >>1036390, >>1036406, >>1036413
Аноним 31/01/25 Птн 23:14:15 #285 №1036390 
>>1036381
Какой больше, тот и лучше, внезапно.
Аноним 31/01/25 Птн 23:20:26 #286 №1036398 
кто-нибудь шарит в llama.cpp server? Я его гоняю с openwebui, и он после ответа продолжает грузить цпу и гпу как будто генерация продолжается. новые запросы не принимает. так что приходится его рестартовать на каждый запрос - работать невозможно. как понять что там не так и что он вообще генерирует?
Ответы: >>1036408
Аноним 31/01/25 Птн 23:20:37 #287 №1036399 
Чёт не могу понять, какие для руадапта настройки нужны...
Аноним 31/01/25 Птн 23:26:05 #288 №1036406 
>>1036381
Лучше всего то что обычному смертному не нужно. Все что есть мелкое проигрывает существующим моделям.
Аноним 31/01/25 Птн 23:27:58 #289 №1036408 
>>1036398
Опенвебуи может какие то свои левые запросы туда слать, на генерацию названия диалога например
Ну и вобще это поделие только с оллама нормально работает, наверняка с апи лламаспп криво управляется
Аноним 31/01/25 Птн 23:32:13 #290 №1036413 
>>1036381
Лучше тот который ты модешь комфорино запускать. Для кода вобще лучше обычную qwen 2.5 32 coder использовать
Можно и дистилляты, но там сложнее хоть и умнее
От 14b и выше смотри, ниже дистилляты туповаты
Железо в студию, повангуем тебе что стоит пытаться запускать а что нет
Ответы: >>1036458
Аноним 31/01/25 Птн 23:32:38 #291 №1036414 
image.png
image.png
1 - р1 с вебсайта
2 - локальный, квантизованный от анслота
они практически идентичны

нет смысла дистилы использовать, кроме недостатка озу. просто докупите памяти и будет буквально модель уровня о1 локально
да, медленно пока. новые поколения гпу будут быстрее гонять такое через несколько лет
Ответы: >>1036447, >>1036458, >>1036475, >>1036488, >>1036530
Аноним 31/01/25 Птн 23:39:40 #292 №1036430 
image.png
то же самое от о3-мини-хай
Аноним 31/01/25 Птн 23:46:12 #293 №1036447 
>>1036414
> практически
Зачем же ты тогда второй раз свайпал? Да и ответы похожи только по структуре из-за длинных размышлений, по содержанию довольно большая разница.
Аноним 31/01/25 Птн 23:55:54 #294 №1036458 
>>1036413
Ладно, я понял короче. Паралельно у дистилята дипсика поспрашивал. Думаю, учитывая что в LM Studio можно модели на ходу переключать, то проще спрашивать всё у 32в и если начнёт тупить спрашивать у 70в уже че дальше то делать.

>>1036414
Анслот это вот этот? Ну такой я хуй запущу, у меня 64гб
https://huggingface.co/unsloth/DeepSeek-R1-GGUF
Ответы: >>1036530
Аноним 01/02/25 Суб 00:04:51 #295 №1036475 
>>1036414
Вопрос слишком простой, 32B даст тебе ответ примерно как жпт на твоём скрине. А q2 у тебя шизит, аналогию про яблоко приплёл не к месту, русский очень странный. Ещё и генерация целую вечность. Я бы не стал лоботомита такого трогать.
Ты лучше на кодинге тестируй, вот там начнётся реальное шитшоу, когда ты будешь умолять дать тебе 70В дистиляцию вместо лоботомита.
Аноним 01/02/25 Суб 00:12:19 #296 №1036488 
>>1036358
Например если ты используешь сетку не для неспешного порночатика, а для обработки чего-то. Особенно если там цепочка промежуточных результатов, а не короткий зирошот.
>>1036414
> кроме недостатка озу
> 512гб для норм кванта
Ради генерации типичного меганасрал поста раз в пол часа или час обработки контекста, хорошая идея.
Если ужать до минимума - это лоботомит, будет шизофазический словестный понос вместо ответов как на твоем скрине, тут вообще теряется весь смысл.
Аноним 01/02/25 Суб 00:17:05 #297 №1036496 
Сегодня поставил таверну и у меня такая проблема. Пару часов все работало нормально, но потом она начала срать в штаны мощно. В общем когда натыкается на токен с именем моего персонажа(ЛЛМ пишет от моего имени), обрубает дальше стрим, но в консоли ЛЛМ он продолжается, и в итоге получается какой-то рассинхрон что ли, что я не могу больше ничего писать в чат и то что сгенерилось после токена с именем перса не отпраялется в таверну(но все равно генерится). Как эту хуйню фиксить? Как же я намудохался с этой таверной сегодня... Так бы и сидел на кобольде, не знал печали, но там ворлд инфо не пашет практически, а лор буки нужны.
Ответы: >>1036508
Аноним 01/02/25 Суб 00:24:14 #298 №1036508 
12.png
>>1036496
М ?
Ответы: >>1036516, >>1036518
Аноним 01/02/25 Суб 00:36:06 #299 №1036516 
urodi.jpg
>>1036508
Там ник перса. Сука уроды, ну вот зачем так делать. Если в таверне отключаю опцию "Names as Stop Strings". То эта ошибка исчезает, но таверна ломается к хуям, и мне больше не дает отправлять текст.
Ответы: >>1036517
Аноним 01/02/25 Суб 00:39:54 #300 №1036517 
>>1036516
На то она и Silly, не будь к ней строг.
Аноним 01/02/25 Суб 00:45:06 #301 №1036518 
>>1036508

Короче когда эта мразь (СилиТаверн) видит что ЛЛМ за моего персонажа припездывает, она его ответ пидорит. Но разве я сука просил это? Если меня не устроит че там за меня написали, я отредактирую или сгенерю заново. Ну еб твою медь. В карточке персонажа 100 проц ничего такого нет, я с ней долго рпшил, на кобольде.
А если я отключаю опцию пидоринга, то она просто срет в штаны. Возможно там есть еще какие-то опции по этому прошу совета.
В Sequence Breakers всё стандартно по идее ["\n", ":", "\"", "*"]
Ответы: >>1036526, >>1036530, >>1036934
Аноним 01/02/25 Суб 00:46:12 #302 №1036519 
Ставил кастомный system promt и понять не могу, в чем лажа. В чем траблы, почему у меня ощущение что я в алисе в стране чудес и сейчас я вмазался крокодилом со шляпником.
А там
You're {{char}} — a real person, engaging with another individual. {{user}} - the Narrator is the game master and overseer.

Сука, ненависть, блять.
Ответы: >>1036530
Аноним 01/02/25 Суб 00:54:52 #303 №1036520 
где можно в таверне посмотреть отправляемые запросы и полученные ответы в сыром виде?
Ответы: >>1036524
Аноним 01/02/25 Суб 00:56:35 #304 №1036524 
>>1036520
У тебя при запуске кобольта ВСЯ информация выводится.
Аноним 01/02/25 Суб 01:01:00 #305 №1036526 
>>1036518

В общем расперделось кое как, не знаю что произошло, завтра буду дальше тестировать. Остается только вопрос почему контекст каждые 3 сообщения пересчитывается.
Аноним 01/02/25 Суб 01:05:41 #306 №1036530 
>>1036376
Нет, между — нет.
Я использую 32б Q8 в повседневной работе. Лламу я не люблю, а полноценный использую только если совсем дохуя времени, а онлайновый лежит.

Но если у тебе не хватает 32б, а полноценный не впихнуть… то как раз между ними единственный вариант это 70б.

И на текущий момент альтернатив нет совсем. Чтобы те же скоры в тех же размерах.

Сорян.

>>1036414
Вот! Я же говорил! Рад, что люди потихоньку вкатываются и подтверждают.

Я на ллама 65б когда-то сидел с 0,35 токен/сек!
А тут целых 1,5 токен/сек! =D Ух! Вчетверо быстрее!
Правда и текста в десять раз больше…

А вот с рероллом косяк, да. =D

>>1036458
> если начнёт тупить спрашивать у 70в
Если в том же диалоге, то пересчет контекста будет идти заново, нет? По идее это сильно удлинит.
Но если создавать новый диалог, то без вопросов.

>>1036518
> Но разве я сука просил это?
Да, просил, это называется дефолтные настройки. Хули ж не отключил сразу.

> А если я отключаю опцию пидоринга, то она просто срет в штаны.
А вот за это уже можно предъявить.

>>1036519
Гений. =)
Ответы: >>1036603
Аноним 01/02/25 Суб 01:12:39 #307 №1036534 
Есть ограничение по тегам ответа сверху, но есть ли снизу? Иногда сетка отвечает на мою сложную попытку в рп буквально семью словами по типу *Она кивает и берет вас за руку. Хотя в системном промпте написано подробно все описывать.
Ответы: >>1036591
Аноним 01/02/25 Суб 01:17:27 #308 №1036538 
>>1036296
Вообще расскажу о своем странно очевидном и тупом открытии. О том что на винде есть приоритет задач (неожиданно, да блять ?)
На окнах, на одном экране, благо монитор позволяет, просто разделил экран на лог кобальта и на таверну. Сижу занимаюсь своими делами и понимаю, что при активном окне кобольта - скорость исполнения увеличивается на процентов 10-15.
Ты сука фотон что ли ?
Ответы: >>1036583
Аноним 01/02/25 Суб 01:27:16 #309 №1036555 
17371368433030.png
Так блэт! Англюсикознающие, поясняйте. Как это работает?
Ответы: >>1036563, >>1036956
Аноним 01/02/25 Суб 01:31:22 #310 №1036563 
16722420191-zefirka-club-p-anime-devushki-plachet-1.jpg
Угууу гууу

>>1036555
Ну там же все написано. Буковками сложенными в предложения.
Аноним 01/02/25 Суб 01:36:53 #311 №1036564 
>>1034116 (OP)
Понимаю, что с такими вопросами буду справедливо послан нахуй, но все-же. Ньюфаг в треде.
Имею XEON'о говно с 64 гб оперативы + 12 гб видеопамяти. Хочу поднять LLM (чисто под него). ССД на терабайт забивать можно чем угодно, этот комп специально для этого.

Посоветуйте нормальную относительно актуальную русскоязычную модельку + способную в адекватный NSFW. А то что ставил - все цензурило пздц.
Ответы: >>1036610, >>1036611
Аноним 01/02/25 Суб 01:45:04 #312 №1036572 
Аноны, у меня такая тема, для стори теллинга скорее чем для кума. Я свожу двух персонажей в таверне, и они сука всегда ебутся. Как сделать так чтобы виртуальная тянка отшила виртуального кунчика? Это вообще реально? Я пвтаюсь какого-никакого реализма добиться, ведь не ебутся же люди при встрече, просто потому что разного пола?
Кунчику я прописал что он хочет присунуть(а какой не хочет?) и все. Пизда.
Ответы: >>1036577, >>1036578, >>1036579, >>1036934
Аноним 01/02/25 Суб 01:53:57 #313 №1036577 
>>1036572

Кажется этот начал о чем-то догадываться....
Аноним 01/02/25 Суб 01:53:59 #314 №1036578 
>>1036572
Так пропиши тяночке что она ебаться не хочет, сложно?
Ответы: >>1036586
Аноним 01/02/25 Суб 01:54:05 #315 №1036579 
Спасибо вам большое китойцы, просто спасибо, я вас люблю.

>>1036572
>для стори теллинга скорее чем для кума.
Не выбирать мелкие модели, не использовать ебливые магнумы, писать что ты хочешь чтобы OOC делала, написать действия за персонажа, свайпать.
Аноним 01/02/25 Суб 01:55:11 #316 №1036581 
А контекст то решает нахуй
Смысл от ума модельки если в неё больше 30 сообщений не влезает
Пересел с 6 кванта на 4 увеличив контекст с 12к до 36 и довольно урчу
Ответы: >>1036592
Аноним 01/02/25 Суб 01:58:22 #317 №1036583 
>>1036538

А теперь включи high priority в настройках кобольда и попробуй снова.
Ответы: >>1036934
Аноним 01/02/25 Суб 02:02:19 #318 №1036586 
>>1036578
ну так тоже не интересно, нужно чтобы она хотела, но там хуе-мое, она же не шлюха какая, там муж тем есть, что люди подумают вот это все. Короче она должна ломаться и ломаться не только для вида, а чтобы шансы были реально 50/50
Ответы: >>1036609
Аноним 01/02/25 Суб 02:03:40 #319 №1036587 
>>1035373
>Helene.card.png
Хотел покумить а в итоге сидел восстанавливал отношения и помогал с птсд бедняжке. Что вообще думаете, способны нейронки помочь обучить общению и эмпатии асоциального человека?
Ответы: >>1036618
Аноним 01/02/25 Суб 02:03:43 #320 №1036588 
>>1036028

По итт критериям 5 т/с это минимальная скорость для более-менее комфортного кума чтения в прямом эфире. Нет, конечно, теслашизики с 1 т/с сейчас скажут им и так норм, а 4090 бояре типа меня могут чисто ради траленка сказать что ниже 30 т/с это вообще не генерация, но объективно без тралинга и коупинга это комфорт начинается именно с 5 т/с.
Ответы: >>1036589, >>1036598
Аноним 01/02/25 Суб 02:04:58 #321 №1036589 
>>1036588
Хотя бы 10 надо. На 5 я даже английский читаю быстрее.
Ответы: >>1036595
Аноним 01/02/25 Суб 02:06:18 #322 №1036591 
>>1036534
>но есть ли снизу?
Вроде нет, но можно просто ещё раз нажать кнопку сабмита чтобы модель продолжила свой пост. Это надо отдельно включить в настройках.
Аноним 01/02/25 Суб 02:06:49 #323 №1036592 
>>1036581

Если у тебя модель ниже 20В, то лучше KV квантануть с 16 до 8, но битность самой модели с 6 до 4 не уменьшать.
Аноним 01/02/25 Суб 02:09:25 #324 №1036595 
>>1036589

Конечно на 10 приятнее читать, кто бы спорил вообще.
Речь о минимальной скорости когда ты можешь в онлайне читать и общаться, ниже 5 т/с это в любом случае будет выглядеть что ты написал сообщение и переключил вкладку в ожидании пока там ответ сгенерируется.
Аноним 01/02/25 Суб 02:13:31 #325 №1036598 
>>1036588
>4090
>боярин
Ой не скажи. Ой не скажи. Тут в тредике есть настоящие бояре.
Ответы: >>1036696
Аноним 01/02/25 Суб 02:15:49 #326 №1036603 
image.png
>>1036530
реролл там потому что первый раз ллама.цпп сервер забажил
Аноним 01/02/25 Суб 02:18:27 #327 №1036608 
Кто бы что ни говорил а скачёк на квант выше всегда ощущается как улучшение на 30-40% и разница между 6 и 8 квантом точно заметна
Ответы: >>1036609, >>1036612
Аноним 01/02/25 Суб 02:20:14 #328 №1036609 
>>1036586
> нужно чтобы она хотела
Так она и хочет, видит что такой мужчина ее добивается и замотивирован и не против. Плюс к тому у всяких файнтюненых моделей большой байас к согласию.
>>1036608
А когда на 16 бит перейдешь - так вообще радугой кончать будешь.
Ответы: >>1036934
Аноним 01/02/25 Суб 02:20:32 #329 №1036610 
>>1036564
сайга анлишед
Ответы: >>1036620
Аноним 01/02/25 Суб 02:21:37 #330 №1036611 
>>1036564
Либо ещё Следопыт, там вроде анон вчера с него норм покумил
Ответы: >>1036620
Аноним 01/02/25 Суб 02:22:08 #331 №1036612 
>>1036608
Где ? На 8b ? Потому что на 30 я разницы между 6 и 8 не увидел. Но шутка в том, что её еще никто и не доказал.
Ответы: >>1036615
Аноним 01/02/25 Суб 02:25:22 #332 №1036615 
>>1036612
Да это шизики или жорастрадальцы с поломанными квантами и бэком. Как пошел это хайп с дипкоком, так и набежало упоротых ньюфагов.
Аноним 01/02/25 Суб 02:26:58 #333 №1036618 
>>1036587
>способны нейронки помочь обучить общению и эмпатии асоциального человека
Крайне сомнительно, чтобы получить эффект "come for cum, staying for plot", нужно изначально иметь склонность к эмпатии.

И да, Елена стоит того =)
Аноним 01/02/25 Суб 02:28:19 #334 №1036620 
>>1036610
>>1036611
Пасибо анончики. Обладаю пока что 3060 12гб. Пока что поставил NekoMix-12B.Q8_0. Вроде даже средненько, но результат имеет.
Ответы: >>1036631
Аноним 01/02/25 Суб 02:36:59 #335 №1036631 
>>1036620
>Обладаю 3060 12гб
>Поставил 12B
>Поставил васяномердж
Кто-нибудь знает что это за болезнь?
Ответы: >>1036633, >>1036634
Аноним 01/02/25 Суб 02:40:30 #336 №1036633 
>>1036631
Нуфажество. Я вообще не ебу за кванты, биты что в моих спеках актуально или нет. Поэтому и спрашиваю в треде.
Ответы: >>1036638
Аноним 01/02/25 Суб 02:40:39 #337 №1036634 
>>1036631
Всем внимание, в треде ИРОНИЧНЫЙ.
Ведь 12Гб это так много. Можно сразу мистраль лардж ебашить, а на оперативу повесить гемму.
Ответы: >>1036638, >>1036934
Аноним 01/02/25 Суб 02:45:17 #338 №1036636 
>>1036358
Thought about image explanation for 8 секунд
По сути, авторы поста нашли способ запускать большую LLM-модель (67млрд параметров) локально на обычном CPU без серьёзной загрузки видеокарты. Ключевая идея в том, чтобы не загружать все веса модели целиком в оперативную память или VRAM, а использовать mmap и работать «на лету» с файлами, лежащими на NVMe SSD.

Как это работает детально:

mmap вместо полного чтения в память
Обычно при запуске больших моделей (в том же llama.cpp) программа либо полностью читает файлы с весами в RAM, либо загружает их в видеопамять (если работает с GPU). Тут же применяется подход, когда llama.cpp по умолчанию делает mmap() — то есть «проецирует» файл на диске в адресное пространство программы. При mmap нужные куски данных (страницы) грузятся непосредственно в память по запросу, а не заранее все разом.

ОС кэширует данные
Сами файлы находятся на очень быстром NVMe SSD. Когда модель вычисляет очередной токен, она обращается к нужным фрагментам весов, и операционная система подтягивает их с диска, параллельно сохраняя часто используемые куски в RAM как кэш.
В итоге, вместо жёсткого требования иметь, допустим, все 100+ГБ (в случае 67B модели в float16) в памяти, модель берёт только нужные «страницы» весов. Памяти требуется заметно меньше, а скорость работы определяется тем, насколько быстро SSD может отдавать данные и как эффективно ОС их кэширует.

Хранение k/v-кэша в памяти
Ещё один момент — в оперативной памяти реально лежит, в основном, k/v-кэш (то есть ключи и значения для текущих токенов, нужные во время self-attention), и какие-то технические буферы. Остальные гигабайты весов при этом фактически не «разворачиваются» в RAM постоянно.

Динамический квант (quant) для весов
Они упоминают «dynamic quant» вроде DeepSeek-R1-UD-Q2_K_XL: это метод сжатия (квантизации) модели, где веса сжаты в более низкую битность. Это ещё уменьшает объём, который надо держать и обрабатывать, хоть и с какой-то потерей точности. Зато позволяет работать на более слабом железе.

Выходная производительность
Автор пишет, что выходит порядка 1–2 токенов в секунду на контексте 2к–16к, причём при наличии 96ГБ RAM (плюс ещё 24ГБ VRAM, но фактически GPU «простаивает»). Bottleneck получается скорее в пропускной способности NVMe SSD, чем в оперативке или в мощностях CPU/GPU.
Утилитарный плюс — потребление энергии и нагрев подсистемы минимальны, потому что видеокарта почти не включается и процессор тоже не загружен на 100%.

Расширяемый «виртуальный объём памяти»
В конце автор упоминает идею покупать не дорогую видеокарту, а поставить массив из NVMe SSD, получается своего рода «дёшево и сердито»: много «виртуальной VRAM» на быстрых дисках, которых достаточно для хранения (и стриминга) крупных моделей при приемлемых скоростях.

Итоговая идея: вместо того чтобы полностью грузить огромные веса модели (десятки гигабайт) в системную память или VRAM, используется механизм «ленивого» чтения с NVMe, а ОС агрессивно кэширует нужные куски в RAM. Так можно запускать даже 67B-модель на домашних компьютерах без гигантских требований к видеокарте и при умеренном объёме оперативки (но желательно очень быстром SSD). Конечно, скорость будет ниже, чем при полноценной загрузке в GPU, но для многих задач и 1–2токена/сек может быть достаточно.
Аноним 01/02/25 Суб 02:52:04 #339 №1036638 
>>1036633
12 гб уже позволяет гонять 27b-32b с частичной выгрузкой на терпимых скоростях ~3.5 т/с. 24b пойдет бодрее ~7.5 т/c.

Ставь что-то из этого:
-Qwen-2.5 32b
-Gemma-2 27b
-Mistral-Small-2501 24b

Квант либо Q4_K_M либо Q4_K_L. Только ванильные модели, никаких ёбаных шизомиксов. И будет тебе счастье. Скорость от 8b-14b не стоит того чтобы жрать говно, поверь.

>>1036634
Всем внимание, в треде ГИПЕРТРОФИРУЮЩИЙ
Ведь между мелкопарашей и огромными моделями не существует ничего промежуточного
Ответы: >>1036641, >>1036644, >>1036664
Аноним 01/02/25 Суб 02:55:37 #340 №1036641 
>>1036638
>никаких ёбаных шизомиксов.
Но ведь справедливо от части. Те же миксы мистраля очень даже не плохи.
Давай будем честны, если для работы нужны оригиналы, для РП- ну тут уже нужно тягать одеяло, а вот для того, для чего тут наверное половина треда сидит как раз и нужны шизомиксы.
Ответы: >>1036684
Аноним 01/02/25 Суб 02:58:33 #341 №1036644 
>>1036638
Спасибо за уточнение анончик. Попробую тогда их накатить и посмотреть.
Ответы: >>1036667
Аноним 01/02/25 Суб 03:01:52 #342 №1036647 
Laguha.png
Ага, спалилась лягушатница. То то мистралеподелия постоянно лапки поднимают и сдаются.
Аноним 01/02/25 Суб 03:24:29 #343 №1036664 
>>1036638
> терпимых скоростях ~3.5 т/с. 24b пойдет бодрее ~7.5 т/c.
про контекст ты конечно умолчал
Ответы: >>1036684
Аноним 01/02/25 Суб 03:32:49 #344 №1036667 
>>1036644
От чела выше прям рубрика "Вредные советы". Не надо так.

Ну, не то чтобы прям вредные, но в рп на английском тебе нужен Пантеон, Цидония, или их мерж от местного анона.

В русский могут мержи мистраля 12 (ссылки в шапке) или руадапт квен, но на 12 врум карточке с ним будет тяжко, так что только мистрали.
Ответы: >>1036668, >>1036684
Аноним 01/02/25 Суб 03:36:46 #345 №1036668 
>>1036667
>Пантеон, Цидония
Вот я хоть и люблю цидоньку, но тюны мистралей это прям для тех кто знает чего хочет. Потому что чтобы не разъебать монитор от их лупов, нужно понимать что тебя ждет и как с ними бороться. А это вообще не очевидно.
Ответы: >>1036670, >>1036671, >>1036813
Аноним 01/02/25 Суб 03:40:36 #346 №1036670 
>>1036668
>тюны мистралей
А что кроме них есть 12Б?
Ответы: >>1036672
Аноним 01/02/25 Суб 03:44:09 #347 №1036671 
>>1036668
>А это вообще не очевидно
Вообще-то элементарно, Ватсон, shit in - shit out.
Не лень с ответами сам, и не ленись поправлять модель.
И будет тебе счастливое приключение... или не очень, тут уж от карточки и тюна зависит.
Ответы: >>1036673
Аноним 01/02/25 Суб 03:45:41 #348 №1036672 
>>1036670
А нихуя и нет, лол. Либо лоботомированные кванты старших моделей, либо мелкоговняшки, ну или мистраль. Увы, она действительно топ среди мелких.
Аноним 01/02/25 Суб 03:47:33 #349 №1036673 
>>1036671
Ну так это прям для тех кто знает чего хочет. Потому что чтобы не разъебать монитор от их лупов, нужно понимать что тебя ждет и как с ними бороться. А это вообще не очевидно.
Ответы: >>1036675
Аноним 01/02/25 Суб 03:50:54 #350 №1036675 
>>1036673
>Ну так это прям для тех кто знает чего хочет
Не знают только свидетели карго-культа для которые ллмки - ИИ, скайнет, 5G, магия-шмагия и камлание жуткое.
Ответы: >>1036676
Аноним 01/02/25 Суб 03:52:52 #351 №1036676 
>>1036675
Ну именно поэтому {user} это прям для тех кто знает чего хочет. Потому что чтобы не разъебать монитор от их лупов, нужно понимать что тебя ждет и как с ними бороться. А это вообще не очевидно.
Ответы: >>1036678, >>1036679
Аноним 01/02/25 Суб 03:54:20 #352 №1036678 
>>1036676
Мы поняли суть перфоманса. Мы поняли суть перфоманса. Мы поняли суть перфоманса. Мы
Ответы: >>1036679
Аноним 01/02/25 Суб 03:55:55 #353 №1036679 
>>1036676
>>1036678
Господи, была бы возможность бить морды через TCP/IP...
Ответы: >>1036683
Аноним 01/02/25 Суб 04:04:35 #354 №1036683 
IMG4099.jpeg
>>1036679
Жаль что такой возможности нет
Аноним 01/02/25 Суб 04:06:35 #355 №1036684 
>>1036641
Я бы наверное так сказал: для работы, РП и сторителлинга - однозначно ванильки. Для ерп - спорно, ту же гемму и мистраль всякими хитростями вполне можно сделать хорни. Тут я всё еще за оригиналы. Но если цель чисто подрочить и ничего более - то да, тут шизомиксы в своем сочном описании ебли вне конкуренции.

Вот только такое издевательство над моделью не приводит ни к чему хорошему, ее логика ломается, она начинает выдавать шизу на ровном месте, забывает что было несколько сообщений назад. Двойные-тройные трусы и всякие подобные приколы.

>>1036664
Квен и гемма на 8к контекста при полностью забитом контексте выдают ~2.5 т/с. Мистраль при 16к контекста, полностью забитом, падает до 4 т/с. Всё ещё приемлемо.

>>1036667
Он вроде явно дал понять, что ему нужны модельки умеющие в русик. Именно такие модели ему и предложил.
>В русский могут мержи мистраля 12 (ссылки в шапке)
Нет, не умеют.
>руадапт квен
Точно так же, как и ванильный квен. Чтож вас, аноны, так тянет-то к васяноподелиям? Звер-сд уже установили?

---------------------------------------------

Бтв основной мой посыл в том, что имея 12гб гпу можно не жрать говно, а уже щупать что-то нормальное, пусть и не так быстро. Я давно в этих тредах и еще ни разу не видел человека, который попробовал бы большую модель, а потом перешел с нее обратно на мелочь. Порпшив с условной геммой 27b, чел уже никогда не вернется на 12b, даже если разница в скорости будет в десять раз.

И то же касается шизомиксов, вот сколько там "b" стоит - это можно смело делить на три. Примерно настолько отупляют модельку васянские мержи/файнтьюны. Чисто модельки для слива спермы и ничего более.
Ответы: >>1036687, >>1036697, >>1036699, >>1036705, >>1036838
Аноним 01/02/25 Суб 04:18:01 #356 №1036687 
>>1036684
>для работы
да, для работы чистые инстракты нужны

>>1036684
>РП и сторителлинга
Уже нет, тут стоковые модели сосут как секретутки.

>>1036684
>Двойные-тройные трусы и всякие подобные приколы.
Мусью застрял во временах моделей на цепях маркова.

>>1036684
>Звер-сд
Вот на Zverя не гони, топовый чел был как и Xatab.

>>1036684
>Именно такие модели ему и предложил.
Которые не умеют в русик, да, жирно, очень жирно.

>>1036684
>что-то нормальное
илита в треде, небось и вкус тренировал, денно и нощно, дабы отделять зёрна от плевел, а агнцев от козлищ
Ответы: >>1036693, >>1036697
Аноним 01/02/25 Суб 04:37:53 #357 №1036693 
>>1036687
>Мусью застрял во временах моделей на цепях маркова
Вот недавно тестил разрекламированную в тредах СайНемо - все эти проблемы там присутствовали:
Сломанная логика - чек
Двойные трусы - чек
Забывчивость - чек
Модель тупая как пробка, но свою задачу выполняет. Если надо запустить и по фасту подрочить - вот это оно. А для остального - нахуй-нахуй.

>Уже нет, тут стоковые модели сосут как секретутки.
Скил ишью. Учись пользоваться Memory, Author's Note и World Info, ну или их аналогами в таверне, если таверну используешь.

>Вот на Zverя не гони, топовый чел был как и Xatab.
Два чая. Отличные сборки: все "лишнее" удалено, все "нужное" добавлено. А еще темы, нескучные обои, и скрытно устанавливаемое ПО удаленного доступа к твоей пекарне в комплекте Radmin Viewer, гугли. В свое время много шума было.

>илита в треде
Илита тут на четырех теслах запускает 120b модельки. А я обычный анон с древней 12гб видяшкой, лол. Когда не лень, пытаюсь отучить нюфагов жрать говно.
Ответы: >>1036697
Аноним 01/02/25 Суб 04:45:24 #358 №1036696 
>>1036598

Если ты про обладателей промышленного железа, могущего запустить дипсик не в дистилляте, то это мифические боги вообще говоря, а не какие-то вшивые бояре.
Аноним 01/02/25 Суб 04:45:38 #359 №1036697 
1618809404603.jpg
>>1036684
> для работы
Смотря какой, есть вполне специализированные тюны или крайне узкие базовые модели. А для чего-то специфичного может быть ситуация что без файнтюна не обойтись, или только самые дорогие корпы.
> РП и сторителлинга - однозначно ванильки
Есть базы, которые можно раскачать промтом, или вообще могут сразу прилично повествовать. Есть те, которых зажарили финальным алайнментом настолько, что чего-то приличного получить будет сложно. Существуют приличные тюны и даже миксы (последнее - больше чудесное стечение обстоятельств чем целенаправленно полученный результат, но все же), которые не теряют оригинальную соображалку но при этом умеют в хороший рп.
> Вот только такое издевательство над моделью не приводит ни к чему хорошему
Да, поэтому хороших моделей крайне мало.
> Бтв основной мой посыл в том, что имея 12гб гпу можно не жрать говно
Как бы ни было прискорбно, это тут без вариантов. Или мелкомиксы, или тормознутая херь, в которой нет смысла.
> ни разу не видел человека, который попробовал бы большую модель, а потом перешел с нее обратно на мелочь
Бывают ситуации когда доступна только одна гпу, и тогда вполне катается гемма, командер, квен32, а под пиво в количестве даже 12б и не сильно обламываешься. Но при этом обмазаться выгрузкой в рам и терпеть по 2т/с - даже мысли о таком безумии не приходят.
>>1036687
Бояры надрался что в интерфейсе запутался, и теперь на воспоминания пробрало? Или просто стиль постов выдерживаешь чтобы автоскрытие срабатывало?
(both)
>>1036693
> Илита
> на четырех теслах
Разве что терпеливая
Аноним 01/02/25 Суб 04:56:07 #360 №1036699 
>>1036684
>Я давно в этих тредах и еще ни разу не видел человека, который попробовал бы большую модель, а потом перешел с нее обратно на мелочь.

Да не гони, тут в треде каждый адекватный человек ищет параллельно и самую умную модель, которую может просто запустить наплевав на скорость, и самую умную модель которую может запустить уже с приемлимой скоростью.
Ответы: >>1037016, >>1037019
Аноним 01/02/25 Суб 05:04:03 #361 №1036705 
>>1036684

Из ванильных моделей ниже 70В без файнтьюнов или хотя бы аблитерейшона в еРП и еблю может наверное только командир. Остальные будут выдавать либо "ты меня ебешь" либо "я не буду это генерировать". Причем если последнее обойти джейлом, то выйдет все равно "ты меня ебешь".
Ответы: >>1036712
Аноним 01/02/25 Суб 05:22:16 #362 №1036708 
Почему дипсик везде называют 671В моделью, когда он 256х4.6B, а работают из них всего 8х4.6В?
Ответы: >>1036934, >>1037016
Аноним 01/02/25 Суб 05:31:43 #363 №1036712 
image
>>1036705
>остальные будут выдавать либо "ты меня ебешь"
Ну вот тебе новый ванильный мистраль 24b на самописной карточке в кобольде. Вполне ок, не?
Ответы: >>1036718, >>1037045
Аноним 01/02/25 Суб 05:47:47 #364 №1036718 
image.png
>>1036712
Это сюжет фильма "Аморальный грабёж"?
Аноним 01/02/25 Суб 06:45:16 #365 №1036731 
Ребят, тупой вопрос, что можно запустить прям на совсем ноутбучном некрожелезе из локальных моделей? это реально?
у меня есть парсер постов из телеги и вк, и хочу скармливать посты в ллм локальную чтобы он уже их распределял по категориям, выдавал краткий отчет по ним и вот такое все. это реально так сделать локально?
Ответы: >>1036839, >>1037016
Аноним 01/02/25 Суб 06:47:25 #366 №1036733 
Есть одна цидонька. 1.2 Насколько ейный четвертый квант тупее шестого?
Ответы: >>1036778
Аноним 01/02/25 Суб 07:37:14 #367 №1036778 
>>1036733
Какого ответа ты ждешь? Если математически, то отклонения токенов в сравнении с Q8 в районе 5 процентов, как и у всех около 30b моделей.
Как это по факту повлияет на твой чат объективно оценить невозможно, даже Q8 может заставить свайпать 10 раз подряд, а Q1 сразу выдать нормальное. Так что всех эти советчиков которые "видящие разницу" можешь сразу слать лесом, это плацебо.

По факту если можешь запустить квант повыше, всегда выбирай его. Что касается контекста не гони его сильно выше 20к, это довольно бесполезно т.к модель все равно в основном обращает внимание только на начало и конец, на больших объёмах контекста все что в середине чатов будет лежать мертвым грузом пока ты сам не спросишь.
Ответы: >>1036840
Аноним 01/02/25 Суб 08:32:21 #368 №1036813 
>>1036668
>и как с ними бороться.
Дак как с лупами и пупами бороться? Сам на мистрале ньюфагом сижу и кроме как переписать сообщения, раздраженно свайпать, теребить температуру и стирать пару сообщений до, не нашел способов для разлупа.
Ответы: >>1036843, >>1037054
Аноним 01/02/25 Суб 09:03:16 #369 №1036838 
>>1036684
>для работы, РП и сторителлинга - однозначно ванильки

Совсем вами не соглашусь, сударь.

Я тоже так считал, так как юзал клода для РП ранее. Пусть и с цензурой, но он хорош в этом, даже если описывать жесть и графический ужас в стиле DavidAU, но у маленьких моделек другая проблема: они в целом мало знают и не заточены под наши цели. Туда просто напихали всего понемногу — поэтому они вроде как знают всё, но ничем не владеют в совершенстве/на уровне больших коммерческих и закрытых моделей. А модели корпоратов вывозят просто исключительно из-за большого объёма данных.

Поэтому шизомиксы единственный выход для локалок, чтобы они писали как надо: не было излишне позитивного биаса и модель могла в интересные истории. В таком случае можно получить действительно что-то приемлемое и на 12б. А если уж обучать нормально, то тем более.

>имея 12гб гпу можно не жрать говно, а уже щупать что-то нормальное, пусть и не так быстро. Я давно в этих тредах и еще ни разу не видел человека, который попробовал бы большую модель, а потом перешел с нее обратно на мелочь

Я как раз тот человек, который перешёл с малых моделей, потому что меня не устраивала скорость, ибо сидеть на трёх токенах, если не получаешь в 95% случаев охуительный ответ, — это ад. Я как раз гемму скачал, когда вкатывался. Это была моя первая модель. Безусловно, она реально удивляла меня в некоторых моментах находчивостью и креативностью, особенно при описании боев и рассуждений, но не настолько, чтобы я был готов терпеть медленную генерацию.
Аноним 01/02/25 Суб 09:07:51 #370 №1036839 
>>1036731
>прям на совсем ноутбучном некрожелезе
если прям некро, то ничего, а на боярь-ноутах и 32B можно

>>1036731
>распределял по категориям
это и без ллм можно, чисто на регулярках

>>1036731
>выдавал краткий отчет по ним
Ну теоретически можно подрубать по апи, и скармливать текст и просить саммари.
Аноним 01/02/25 Суб 09:08:31 #371 №1036840 
>>1036778
Понял, спасибо. Насчет выбирай повыше, я надеялся, что если я возьму квант, который весь могу запихать в гпу, скорость здорово возрастет, а по факту получилось на 1-2 т/с. (у меня 4060 на 16 гб.)
Ответы: >>1036872, >>1036931
Аноним 01/02/25 Суб 09:12:31 #372 №1036843 
>>1036813
>Дак как с лупами и пупами бороться?
rep-pen 1.1 - 1.2 / rep-pen range 2048
Следить и недопуЩать - править ответы.
Найти оптимальную температуру, но обычно хватает 1.0 +/- динамическая 0.5
Аноним 01/02/25 Суб 09:14:20 #373 №1036845 
У Яндекса есть какое-то ограничение на свой апи?Его не заебет, если я буду ему запросы отправлять на перевод? И он наверняка привяжет мои переговоры с учеткой.
Ответы: >>1036855
Аноним 01/02/25 Суб 09:29:29 #374 №1036855 
>>1036845
Просто гугл, последние дни вообще чушь выдает.
Ответы: >>1036881
Аноним 01/02/25 Суб 09:43:57 #375 №1036872 
>>1036840
А ты точно выгрузил все в гпу? По умолчанию даже если модель туда помещается тот же кобольд всё равно пихает слои в рам. Нужно вручную указывать количество слоев (т.е все).
Ответы: >>1037535
Аноним 01/02/25 Суб 09:57:10 #376 №1036881 
>>1036855
>Просто гугл, последние дни вообще чушь выдает.
Поменяли модель переводчика. Очередной кризис, на моей памяти это уже третий. Через месяц выправятся... или нет. Но да, пользоваться гуглом пока нельзя. Яндекс вывозит, в Таверне Бинг ещё есть. Ограничения какие-то имеются, но на практике хватает. Сам-то я давно хочу локальную модель переводчика, но хрен мне.
Ответы: >>1036888, >>1037325
Аноним 01/02/25 Суб 10:10:29 #377 №1036888 
>>1036881
>локальную модель переводчика
на деле оно даже работает, тот же ру квен, гемма, да даже мистральки могуть переводить, но, чсх, врум не резиновая.
Ответы: >>1036893
Аноним 01/02/25 Суб 10:25:20 #378 №1036893 
>>1036888
>на деле оно даже работает, тот же ру квен, гемма, да даже мистральки могуть переводить, но, чсх, врум не резиновая.
Дело даже не в этом. Есть пара моделек, да. И выделить отдельный гпу под переводчик можно. Но даже на 3090 скорость маловата, с онлайн-сервисами никакого сравнения. Хотя качество у них и хромает, но перевод мгновенный. А локально даже "очень быстро" не получить.
Аноним 01/02/25 Суб 10:35:15 #379 №1036895 
В таверне можно как-то сделать переключение портретов персонажей?
Ответы: >>1037033
Аноним 01/02/25 Суб 11:26:58 #380 №1036931 
>>1036840
С твоим врам должно всё влезать. Как тот анон писал, пиши все слои вручную.

Ещё один момент, о котором я не видел ни одного поста здесь.

Закрывай всё, что можешь. Всю хуйню из автозапуска левую убирай, закрывай приложения. Всякий Стим, Дискорд, вот это вот всё, что можно — нахуй. Даже окно с проводником. Браузер тоже закрывай, общайся с ллм с второго ПК или телефона.

Винда дохуя видеопамяти жрет, по крайней мере моя 11 винда точно.

Такими простыми манипуляциями я 1,2 Гб видеопамяти освободил, это охуеть как много.

----

Если же у тебя нет других для общения с ллм, то качай какой-нибудь очень легковесный браузер.
Аноним 01/02/25 Суб 11:29:26 #381 №1036934 
>>1036518
>В Sequence Breakers
Эта настройка относится к DRY Repetition Penalty, лол.
>>1036572
>Как сделать так чтобы виртуальная тянка отшила виртуального кунчика?
Сделай тянке возраст 11 лет. Отошьёт 100%.
>>1036583
А это не поможет, у винды активному окну даётся больший квант времени, и похуй на эти ваши приоритеты.
>>1036609
>А когда на 16 бит перейдешь - так вообще радугой кончать будешь.
Я олдфаг, помню ещё двойную точность...
>>1036634
>Можно сразу мистраль лардж ебашить
Я так и делал в своё время.
>>1036708
>Почему
Потому что люди идиоты.
Ответы: >>1037118
Аноним 01/02/25 Суб 11:35:47 #382 №1036937 
🔸 Open Talks Special: Лидеры русскоязычного open source LLM в одном эфире.

5 февраля в 19:00 собираем ключевых независимых разработчиков опенсорсных русскоязычных LLM и говорим о том, что волнует AI-сообщество прямо сейчас:

➡️ Как создаются русскоязычные LLM и с какими вызовами сталкиваются их разработчики?

➡️Что ждет опенсорсные AI-решения в будущем?

➡️ Как DeepSeek меняет правила игры?

Спикеры:

🎤 Михаил Тихомиров ( https://www.linkedin.com/in/mikhail-tikhomirov-a4884a74 ) – научный сотрудник НИВЦ МГУ, занимается адаптацией мультиязычных LLM, создатель Ruadapt➡️Топовая модель показывает 92 балла на балла на Ru Arena General ( https://huggingface.co/spaces/Vikhrmodels/arenahardlb )

🎤 Илья Гусев ( https://www.linkedin.com/in/ilya-gusev/ ) – автор Сайги ➡️одной из самых скачиваемых русскоязычных моделей на HF, а также role-play бенчмарка PingPong ( https://ilyagusev.github.io/ping_pong_bench/ru_v2 )

🎤 Александр Николич ( http://t.me/lovedeathtransformers ) – один из авторов Rudalle и Kandinsky, создатель Vikhr models ➡️ одни из лучших моделей ( https://huggingface.co/Vikhrmodels/Vikhr-Nemo-12B-Instruct-R-21-09-24 ) на русском языке до 20B параметров, один из самых популярных бенчмарков

🔸 Проведет эфир Павел Подкорытов, сооснователь AI Talent Hub и CEO Napoleon IT.

🤔 Не увидел важного вопроса в анонсе?

➡️ Регистрируйся и задай свой вопрос экспертам! ( https://ai-talent-hub.timepad.ru/event/3219400/ )

Приходи! Без тебя – не то 💘

#OpenTalks
#AITalentHub #ITMO #NapoleonIT
Ответы: >>1036945, >>1036962, >>1036996, >>1037016, >>1037059, >>1037099, >>1037118
Аноним 01/02/25 Суб 11:44:42 #383 №1036945 
>>1036937
> Сайги
Сама по себе же не оче, и только в мержах анон юзал и вышел норм. Не?
Ответы: >>1036953
Аноним 01/02/25 Суб 11:48:54 #384 №1036953 
>>1036945
>Сама по себе же не оче
Он как бы её обновлял постоянно, последняя версия околонедельной давности.
Аноним 01/02/25 Суб 11:52:45 #385 №1036956 
>>1036555
ПОМОГИТЕ, СУКИ.
Получается, я могу 671b модель запустить локально на старом ноуте?
Ответы: >>1036968, >>1036971
Аноним 01/02/25 Суб 11:57:49 #386 №1036962 
>>1036937
>Спикеры:
И походу эти три инвалида - всё, что мы можем предъявить миру. Грустненько так-то.
Ответы: >>1036976, >>1037016
Аноним 01/02/25 Суб 12:02:55 #387 №1036968 
>>1036956
>запустить локально
только на шизориге, на ноуте разве что дистил
Ответы: >>1036972
Аноним 01/02/25 Суб 12:07:48 #388 №1036971 
>>1036956
И да и нет. Если с подкачкой со старого диска, на древнем проце, то ты одно слово от него неделю ждать будешь, без преувеличений. Лучше 3В гоняй и мержи годные между собой лол они на англе хоть как то могут, и в оперативу старого ноута влезут.
И вообще, что значит старый ноут? я сразу себе представляю что-то на кор2 с 3 гигами ddr2 и вистой на это всё намазанной.
Ответы: >>1036972
Аноним 01/02/25 Суб 12:08:40 #389 №1036972 
>>1036968
>>1036971
2 еблана, вы даже в англюсик не умеете.
Ответы: >>1037012
Аноним 01/02/25 Суб 12:18:09 #390 №1036976 
>>1036962
Что-то сомневаюсь, что тредовичков с их кум моделями туда пустят. Ну и ни одного разрраба со сбера/тинька, а они трейнят модели с нуля. Так что скорее этот #OpenTalks полное говно.
Ответы: >>1037016
Аноним 01/02/25 Суб 12:37:40 #391 №1036996 
>>1036937
Объясните мне, почему эта пиздобратия не купит локальное решение или хотя бы просто не арендует, чтобы сделать практически полностью русскоязычную LLM на 32b параметров опенсорс. Разве я столь многого прошу? Боже, да они могли бы и 70b сделать, а то и больше.

Им же наверняка донаты кидают, может гранты какие-то государственные, хуё-моё.
Ответы: >>1036999, >>1037002, >>1037118, >>1037209
Аноним 01/02/25 Суб 12:42:16 #392 №1036999 
>>1036996
> не купит локальное решение или хотя бы просто не арендует
Деньги где взять? Задонатим? И если она неправильно на вопросы ответит тащ майору, кто ответит?
Ответы: >>1037049
Аноним 01/02/25 Суб 12:44:28 #393 №1037002 
>>1036996
>Им же наверняка донаты кидают, может гранты какие-то государственные, хуё-моё.
А это ещё хуже. Заметил, насколько яндексова Алиса обстрижена со всех сторон? Это чтобы лишнего не брякнула. Политика ещё туда-сюда, а вот кум - это уже статья. Они не модели тренируют, а цензурные вспомогательные сетки. А поскольку руки из жопы, то даже это выходит плохо и моделей от них мы не видим.
Ответы: >>1037049
Аноним 01/02/25 Суб 12:45:04 #394 №1037004 
Че-то я не понял прикол. С лор буками ллм полностью пересчитывает контекст каждые 2-3 сообщения, вместо шифта. Это пропадает если лор буки в режим постоянной памяти закидывать вместо нормала (синий кружок). Но тогда нахуй они вообще нужны если я с таким же успехом могу вьебать лор бук в карточку персонажа? Чисто для удобства и всё?
Ответы: >>1037007, >>1037014, >>1037018
Аноним 01/02/25 Суб 12:49:43 #395 №1037007 
>>1037004
В чём проблема? Либо ты пересчитываешь контекст (шифт не поможет, так как добавляются новые части), либо ты закидываешь сразу всё, и лурбук нинужен.
Ответы: >>1037013
Аноним 01/02/25 Суб 12:57:44 #396 №1037012 
>>1036972
это чо за cumминг аут, детектор чини
Аноним 01/02/25 Суб 13:01:35 #397 №1037013 
>>1037007
Получается лорбуки есть смысл использовать только если всё влазит в врам изначально и быстро считается. Что бы расширить контекст условно. А в ином случае пересчет слишком много времени занимает каждый раз. Ну я понял схему.
Ответы: >>1037015
Аноним 01/02/25 Суб 13:01:50 #398 №1037014 
>>1037004
>С лор буками ллм полностью пересчитывает контекст каждые 2-3 сообщения
скажи спасибо что 2-3 а не каждое

А вообще, оно так и работает, да, контекст изменился - ты отредактировал сообщение или лорбук подсуетился, надо пересчитать полностью, а не только новое.
Аноним 01/02/25 Суб 13:02:53 #399 №1037015 
>>1037013
В том то и прелесть лорбука, что он не в контексте.
Он работает как кейворды.
Ответы: >>1037025
Аноним 01/02/25 Суб 13:03:55 #400 №1037016 
>>1036699
По факту.

>>1036708
Потому что так заявляют авторы.
Смею предположить, что речь идет о 671B уникальных параметров, а общие Deepseek уместили в одно пространство физическое, отсюда и размер ~684B.
Каждая модель имеет единую базу + свои личные знания.
Вот эта единая база и не считается в ее размере.
Так же и мистраль 8*7 была не 56, а 43 что ли.

>>1036731
Тебе нужен NER какой-нибудь, скорее.

>>1036937
Базовые ребята.

>>1036962
Нет, конечно, есть десятки и сотни, просто их не позвали/они заняты/работают на экстремистов и т.д.

>>1036976
А Кандинский — не Сбер? =D Держи в курсе.

Ладно, не буду за пацанов вписываться, кто знает — тот знает, хули тут доказывать. =)

———

Так, хлопцы, подскажите.

Какая модель лучше для РП на русском, а какая для сторителлинга?

СайНемо, Неверэндинг, Инструменталити? Интересует 12-14 размер. Может еще что.
>>1034130 Твое мнение особенно интересно.
Ответы: >>1037025, >>1037028, >>1037043
Аноним 01/02/25 Суб 13:05:02 #401 №1037018 
>>1037004
Лорбуки нужны когда у тебя десяток персонажей, городов, локаций. И вот чтобы они все не сидели в сумарайзе отжирая у тебя драгоценный контекст и нужны записи.
Аноним 01/02/25 Суб 13:06:21 #402 №1037019 
>>1036699
В принципе причина по которой я на цидонии и сижу. Она идеальна для 16гб ВРАМА. Что то больше уже слишком медленное, меньше - тупее.
Аноним 01/02/25 Суб 13:08:39 #403 №1037021 
А вообще отдам пол царства за микс цидоньки и чего нибудь мрачного от David. Потому что она хоть и не магнум, но слишком хорни, это порой так бесит, не хватает мрачняка.
Аноним 01/02/25 Суб 13:18:08 #404 №1037025 
image
>>1037015
>он не в контексте
Но инжекты входят в контекст и вызывают его пересчёт.

>>1037016
>РП на русском
Pathfinder и Saiga Unleashed по видимости самые удачные, на них отзывались в треде. По загрузкам же абсолютное лидерство у Инструменталити 2.

Pathfinder - Saiga-Wayfarer-Nemomix - по видимости лучше для рп, сам я проверил чисто что оно работоспособно, но анон отмечал что жарко с ней покумил =))

Saiga Unleashed - почти оригинальная сайга околонедельной давности, только с инжектом немомикса в центральные слои, хорошо и красочно расписывала как карточку с мехом так и мрачнухи не чурается судя по чатлогу на литтербоксе. Также этот чатлог именно в сторителлинг стиле где не было юзера, а скорее писалось в виде соавторства.

Да, маякните если mergekit починят.
Ответы: >>1037027, >>1037075, >>1037209
Аноним 01/02/25 Суб 13:23:03 #405 №1037027 
>>1037025
> Но инжекты входят в контекст и вызывают его пересчёт
Да, но только когда входят. Смекаешь ?
Разница в том, что карточка перманенто там сидит, а условный город СТОЛЬНОГРАД, только при его упоминании или связанных с ним событий всплывает.

Я только суммарайзом и лорбуками и спасаюсь в своих тохоэдвенчурах. Потому что те кто шарят за тоху, знают сколько там персонажей.
Ответы: >>1037034
Аноним 01/02/25 Суб 13:23:49 #406 №1037028 
>>1037016
>Ладно, не буду за пацанов вписываться, кто знает — тот знает, хули тут доказывать. =)
Ну да, ну да. "У нас есть такие приборы, но мы вам о них не расскажем." Похоже, что поскольку в СССР нейронок ещё не было, а стало быть не было базы, то и взяться им у нас сейчас неоткуда.
Ответы: >>1037031, >>1037042
Аноним 01/02/25 Суб 13:25:13 #407 №1037031 
>>1037028
> им у нас сейчас неоткуда.
Ну когда то и атомных электростанций не было, но строят же. Не одним СССР едины, хули.
Ответы: >>1037032, >>1037039
Аноним 01/02/25 Суб 13:26:43 #408 №1037032 
>>1037031
> и атомных электростанций не было
Кхм. Какой класс?
Ответы: >>1037035
Аноним 01/02/25 Суб 13:27:20 #409 №1037033 
>>1036895
Да, можно. Разбирайся сам, а то следующий вопрос будет
А можно ли в таверне пить
Аноним 01/02/25 Суб 13:28:22 #410 №1037034 
>>1037027
>Да, но только когда входят
Ты полностью прав (и про Touhou тоже), но другой анон спрашивал именно про то что контекст всегда пересчитывается когда лорбук включает запись.
Аноним 01/02/25 Суб 13:28:50 #411 №1037035 
>>1037032
Класс опасности ? Очевидный ОПО. Если мне память не изменяет, то атомные электростанции еще из за радиоактивных отходов под спец категорию попадают.
А тебе это зачем ?
Ответы: >>1037039
Аноним 01/02/25 Суб 13:32:00 #412 №1037039 
>>1037035
> Класс опасности ?
Класс школы.
> В СССР первая АЭС — Обнинская АЭС мощностью 5 МВт — была запущена 27 июня 1954 года
>>1037031
> Ну когда то и атомных электростанций не было, но строят же.
Ответы: >>1037040
Аноним 01/02/25 Суб 13:33:44 #413 №1037040 
>>1037039
> Класс школы.
Я ебу в каком ты классе школы ? Я не Ванга. Я примерно чувствовать не могу. Но думаю ты в 10м.
>1954
А до этого года они были ?
Ответы: >>1037042
Аноним 01/02/25 Суб 13:37:25 #414 №1037042 
>>1037040
Суть сообщения
>>1037028
> поскольку в СССР нейронок ещё не было, а стало быть не было базы, то и взяться им у нас сейчас неоткуда.
Была в том, что для развития неважно какой отрасли в нее нужно вкладывать бабки и ресурсы, СССР много вкладывал и кое-где осталась база, на которой можно что-то построить. Тут как бы все понятно и без скатывания в нерелейтед, спроси нейронку пусть тебе разжует.
Аноним 01/02/25 Суб 13:37:40 #415 №1037043 
>>1037016
>А Кандинский — не Сбер?
А, проебался, согласен. Прочитал только часть про вихрь. Получается, вихредел ещё и в сбере работает?
Ответы: >>1037209
Аноним 01/02/25 Суб 13:39:41 #416 №1037045 
>>1036712
>самописной карточке
Скинь потыкать.
Аноним 01/02/25 Суб 13:40:00 #417 №1037046 
Пытаюсь свести двух персонажей, чтобы она сами без меня поебалися, а я потом просто почитал чо они там творили. Но выходит хуйня
1) Либо сразу ебутся со второго сообщения - нахуй такое читать?
2) Либо если сделать бабу more resistant то её тупо насилуют
3) Либо если сделать мужика менее агрессивным, то его просто отшивают
Где золотая середина то, чтобы он её уламывал-уламывал, но в итоге уломал без rape?
Ответы: >>1037050, >>1037063
Аноним 01/02/25 Суб 13:43:38 #418 №1037049 
>>1036999
Поправь меня, если я ошибаюсь. По моим подсчётам, они максимум на файнтюн мистраля того должны были потратить 10к долларов. Это в облаке. Если у них стоит локальная машина, то всё должно быть гораздо проще. Это копейки ебаные для баринов, и, в целом, будучи медийной личностью, он/они могли бы и больше собрать.

Основную загвоздку я вижу в поиске данных для обучения и адекватной разметке для этой ситуации. Особенно для создания чего-то вроде русского БРЕЙН ШТОРМА, как Давид, затолкав в анус модели как можно больше адекватно размеченного русика и не поломав все к хуям. И вот эта адекватная разметка больно дорогая, если всё делать в темпе. А если всё делать с нуля, то, судя по всему, пара миллионов долларов нужна на что-то вроде 32б русской.

Не знаю насчёт майора, но если они реально любят, что делают — можно организовать "случайный слив сырой модели из-за акти украинских хакеров". А вообще, в целом, можно так и не делать. Даже ванильные модели пишут всякое pdf или про то, как неправильно деды страны-создателя воевали, особенно при правильном промпте. Мировая практика, хули. Извините, товарищ майор. Это всё основа от буржуазного мистраля. Мы спиздили их технологии во имя России-матушки и будем уверенно допиливать модель, чтобы вождь гордился и всё соответствовало генеральной линии парти.

>>1037002
Но это ж корпораты. У них другая мотивация. И я не говорю про кум. Даже хорошее РП без него будет великим достижением, если выкатит какой-нибудь Яндекс.

Впрочем, они каких-то каловых агентов пилят. Натурально уровень 3б.

Полагаю, они не такие уж тупорылые, просто ситуация сейчас в стране сложная и коммерчески невыгодно выкатывать какую-нибудь йобу 123б. Чё они с ней делать будут? Кодить на русском? Нахуй им надо. Они обмажутся чат гпт и клодом как захотят, если им нужно. И рыночек занят уже. Если сосанкции снимут, то тем более большие модели российские улетят в трубу, если только не будут действительно круто сделаны.

В теории, в условиях санкций они могли бы сделать аналоговнет, но я так полагаю, что коммерческая выгода маленькая. Денег им государство не даёт, потому что не понимает, нахуй эти ваши нейросети нужны, а если что-то и понимает, то обучает мелких агентов для военных целей.
Ответы: >>1037118
Аноним 01/02/25 Суб 13:44:04 #419 №1037050 
>>1037046
>хуйня
хуй + NYA

А что ещё ты ожидал. Я даже хз возможно ли это, даже на старших моделях. Хз как именно "тноко поднимать границу".
Ответы: >>1037110
Аноним 01/02/25 Суб 13:54:05 #420 №1037054 
>>1036813

Не использовать мистралевское говно, пересесть с игры мистралевских выкидышей на крепкие рабочие квеновские лошадки.
Ответы: >>1037065
Аноним 01/02/25 Суб 13:57:00 #421 №1037059 
>>1036937

Кринж.
Главные открытые русскоязычные модели это, внезапно, квен, гемма и командир, а не кривые файнтьюны мистраля, которые там эти товарищи делают.
Ответы: >>1037065, >>1037099
Аноним 01/02/25 Суб 13:58:06 #422 №1037061 
мимо
Много месяцев как сижу на Cydonia-22B-v1.1-Q6_K.
Думаю, за это время уже нашлись модели покруче. Что посоветуете?
Есть 24гб врама.
Ответы: >>1037065, >>1037082
Аноним 01/02/25 Суб 14:00:17 #423 №1037063 
>>1037046

Ты сейчас ирл описал, модель на ирл переписках и обучали.
Ответы: >>1037077
Аноним 01/02/25 Суб 14:06:02 #424 №1037065 
>>1037054
>рабочие квеновские лошадки
>>1037059
>квен, гемма и командир

Верно что они именно что "рабочие лошадки" для рутинных тасков.
В рп сухо и криво, канцелярщина. О ерп лучше даже не заикаться.

>>1037061
>Думаю, за это время уже нашлись модели покруче.
Увы. Разве что мерж пантеона и цидонии.
Это чуть более хорни и раскрепощённый пантеон.
В остальном не видел ничего принциально нового для рп.
Ответы: >>1037069
Аноним 01/02/25 Суб 14:10:31 #425 №1037069 
>>1037065
>О ерп лучше даже не заикаться.

Командир как раз по умолчанию могет в дикие извращения на уровне хорни файнтьюнов.

>В рп сухо и криво, канцелярщина.

На реддите люди очень хвалят РП файтьюны 34B квена Ink и EVA , я скачал, буду пробовать сегодня.
Ответы: >>1037079
Аноним 01/02/25 Суб 14:17:06 #426 №1037074 
image.png
На арене (единственный адекватный бенчмарк) лучшая открытая модель, не считая дипсика, конечно, это Athena V2 chat 72B, она чуть ли не на равных воюет с gpt4o и соннетом, обходя даже 405В ламу.
Это что, хидден гем?
Ответы: >>1037092, >>1037105, >>1037131, >>1037293
Аноним 01/02/25 Суб 14:19:36 #427 №1037075 
>>1037025
>если mergekit починят.
Учитывая что он уже третий день лежит, лучше разверни локально. Часа три вчера поковырялся и теперь полёт нормальный. много ресурсов не требует. Но не такое удобное, да.

Кстати о шизомиксах

Смержил Wayfarer-12B c MN-GRAND-Gutenberg-Lyra4-Lyra-12B-DARKNESS, результат вышел прикольный, не высирает полотна, язык вполне красивый, ультранасилие есть. Протестировал ~700 реплаев, меня поимели стулом...
https://huggingface.co/OddTheGreat/Malevolent_12B.v2

Результат соединил с pretender, получилось прикольно, с легкой ноткой шизофрении, но логику держит. Тесты ещё провожу, но раз пошла такая пьянка...
https://huggingface.co/OddTheGreat/Badman_12B

Хочу теперь badman с unity слить в 24В нечто, посмотреть есть ли в таком смысл, но passtrough мозги ебёт.
Ответы: >>1037089, >>1037093, >>1037098
Аноним 01/02/25 Суб 14:21:18 #428 №1037077 
>>1037063
>Ты сейчас ирл описал, модель на ирл переписках и обучали.
хз какой у тебя ирл(привет Ыыыыть-мэн), но мне через минуту закомства ни одна тян на хуй не прыгала, всегда приходилось повозится чутка.
Аноним 01/02/25 Суб 14:21:46 #429 №1037079 
>>1037069
> Командир как раз по умолчанию могет в дикие извращения на уровне хорни файнтьюнов
Вот без обид. Но кум на командоре, выглядит так :
Ебешь. Хорошо ебешь.
А на той же цидоньке-
Ебешь. Описание ваших тел на два абзаца. Хорошо ебешь и описание окончания с заливанием стен, полов и даже аллаха.
Ответы: >>1037088
Аноним 01/02/25 Суб 14:24:12 #430 №1037081 
20-30B реально запустить на 8гб врам и 16 рам в не совсем убитом кванте? Насколько медленно будет?
Ответы: >>1037099, >>1037142, >>1037244, >>1037246, >>1037295
Аноним 01/02/25 Суб 14:24:17 #431 №1037082 
>>1037061
Мой совет как цидонькоёба. Используй для рп другую модель, а когда дело доходит до эротизма, подрубай цидонию и яростно фапай.
Аноним 01/02/25 Суб 14:27:38 #432 №1037088 
image.png
>>1037079
>Вот без обид. Но кум на командоре, выглядит так :
Ебешь. Хорошо ебешь.

Вместо тысячи слов снова запощу скрин как командир вывел диалог твоей кидоньки из залупа.
Ответы: >>1037091
Аноним 01/02/25 Суб 14:27:41 #433 №1037089 
>>1037075
>слить в 24В нечто
Маленькие апскейлы - приклеить пяток слоёв начало - могут даже положительно повлиять, большие - потребуют файнтюна для приведения косоёбнутых весов в юзабельное состоянии.

https://huggingface.co/Aleteian/passthrought-12B-14.7B
https://huggingface.co/Aleteian/passthrought-12B-18.5B

С конфигами, оно даже рабочее, можешь запихнуть в gguf-my-repo, скачать и заценить.
Ответы: >>1037106
Аноним 01/02/25 Суб 14:29:57 #434 №1037091 
>>1037088
>пишет на русском в Английском тюне
>жалуется на лупы когда весь тред пишет что мистраль лупится
>пишет односложные предложения
Пожалуйста не траль меня
Ответы: >>1037101
Аноним 01/02/25 Суб 14:31:06 #435 №1037092 
>>1037074
Я на ней давно сижу в рп. Из ванилы она лучшая. И русский у неё лучший в локалках.
Ответы: >>1037096, >>1037125
Аноним 01/02/25 Суб 14:31:57 #436 №1037093 
Подгонялось под мержи с моделями Дэвида, например клиффхэнгером. >>1037075
Если сможешь замержить так чтобы оно не поломалось в задницу Хексыдесимал, то будет интересно.
Ответы: >>1037106
Аноним 01/02/25 Суб 14:33:23 #437 №1037096 
>>1037092
>И русский у неё лучший в локалках.
Но он парень. Но она 70B.
Аноним 01/02/25 Суб 14:35:20 #438 №1037098 
>>1037075
>лучше разверни локально
развернул ещё до того как мне мержкит спейс подсказали, просто не уверен что у меня мерж 4 моделей одновременно вывезет.
Ответы: >>1037106
Аноним 01/02/25 Суб 14:35:36 #439 №1037099 
>>1037081

Диалог и шел за русскоязычные модели, пролистай сообщения в ветке вверх, я даже за тебя их пролистаю >>1036937
>>1037059
Ответы: >>1037101
Аноним 01/02/25 Суб 14:37:09 #440 №1037101 
>>1037099 -> >>1037091

Промахнулся
Ответы: >>1037109
Аноним 01/02/25 Суб 14:45:24 #441 №1037105 
>>1037074
немотрон еще есть, ты что вчера вылупился?
Аноним 01/02/25 Суб 14:45:42 #442 №1037106 
>>1037089
>>1037093
>>1037098
Спасибо, вернусь с РАБотки и как начну мержить
По ресурсам, там только в месте на диске может быть проблема, я не заметил чтобы оно сильно оперативку или проц жрало, а видеокарта в моём конфиге вообще стоит не при делах.
Ответы: >>1037115
Аноним 01/02/25 Суб 14:48:24 #443 №1037109 
>>1037101
Я не собираюсь тебя переубеждать, это сугубо личный опыт. Но тут цидонькой пользуется точно несколько анонов и терпят лупы. Наверное есть причина для этого, нээ?
Потому что цидония, вообще не очевидный вариант для первой модели.
Аноним 01/02/25 Суб 14:48:47 #444 №1037110 
>>1037050
ну пока примерно на 15 сообщении начинают долбится. Хочу хотя бы до 30 дотянуть. В идеале хочу чтобы кунчик как-то хз, кревтивно подошел, а не "ты хочешь этот член я знаю хочешь"
Ответы: >>1037114
Аноним 01/02/25 Суб 14:51:47 #445 №1037114 
>>1037110
самое обидное что ползунка то нет, нельзя уменьшить ебливость на 10% лол. нужно как-то описание перефразировать блять. не очень удобно лол
Аноним 01/02/25 Суб 14:52:36 #446 №1037115 
>>1037106
>как начну мержить
И да, слить две 12 в 24 я уже пробовал, в любых вариациях оно просто ломало об колено любой бэк, краша на этапе загрузки модели. Пожалей свою систему XD
Аноним 01/02/25 Суб 14:55:16 #447 №1037118 
>>1036934
> Я олдфаг, помню ещё двойную точность...
Одинарную. Двойная это вообще для полубогов, там даже пигма раскрывалась не хуже всей этой r1 шелупони.
>>1036937
На берзыбье и автор сайги - лидер.
>>1036996
1 Они не в состоянии собрать датасет. Какая-нибудь банковская контора в теории может это себе позволить, но оно будет в лучшем случае на год отставать от современных передовых наработок.
2 Мало шарящих людей. Или типичные читатели лекций с "невероятными знаниями", которые выливаются в типичную вузовскую науку совершенно оторванную от реальности, или неумехи с пробелами и отсутствием полного понимания чтобы принимать верные решения.
3 Просто хороший файнтюн готовой 32б на небольшом но достаточном для такого датасете будет стоить минимум 30к долларов, только аренда видеокарт на финальное обучение. В реальности - еще столько же на тесты, отладку, проверки, ошибки и т.д.. Если брать у местных - можешь умножать цену на 2-4. Сейчас таких грантов просто так нонеймам не дают если только ты не про-... активист подсосок или ряженый и донатов столько не собирают. А что местные корпы у себя внутри делают - то изредка наружу попадает но большей частью используется внутри, можешь с ними поговорить по горячей линии.
Если ты про тренировку с шума говоришь - нужен и датасет сильно круче, и требования к вычислениям раз в 100 выше.
>>1037049
> По моим подсчётам
Занизил
> Если у них стоит локальная машина
Это не локальная машина а хотябы микрокластер с четыремя нодами по 8хH100 нужно
> будучи медийной личностью, он/они могли бы и больше собрать
Хуйня из под камня а не медийная личность (это про их известность и медийность а не личные качества).
> Основную загвоздку я вижу в поиске данных для обучения и адекватной разметке для этой ситуации.
Именно, их в отрытом доступе почти нет. Корявый перевод хуеты из жпт3 в сайге и что-то получше, но недалеко ушедшее в вихре.
> про то, как неправильно деды
Это еще одна причина по которой модель перед выпуском придется лоботомировать не меньше чем какую-нибудь phi, если делаешь это оффициально, представляя компанию или тем более на грант. Кадинского за купола уже лоботомировали.
Аноним 01/02/25 Суб 15:04:10 #448 №1037125 
>>1037092

В трех битах сильно слюни пускает?
Аноним 01/02/25 Суб 15:07:16 #449 №1037131 
>>1037074
Хм, а ее не пробовал, спасибо, надо скачать.
> единственный адекватный бенчмарк
На 97% подкрученное сравнение зирошотов для нормисов и мало о чем говорит особенно для рп.
Ответы: >>1037139
Аноним 01/02/25 Суб 15:15:19 #450 №1037139 
>>1037131
>Хм, а ее не пробовал, спасибо, надо скачать.
Ждём отзывов. Но есть сомнения: чтобы гем и не заметили - такое редко бывает.
Аноним 01/02/25 Суб 15:16:15 #451 №1037141 
А новый маленький Мистраль ничего так. Для такого размера даже хорошо. Есть прогресс.
Ответы: >>1037169
Аноним 01/02/25 Суб 15:18:05 #452 №1037142 
>>1037081
Бамп
Аноним 01/02/25 Суб 15:44:19 #453 №1037169 
>>1037141
Ты как будто свой пенис описываешь.
Ответы: >>1037180
Аноним 01/02/25 Суб 15:52:34 #454 №1037180 
>>1037169
>Ты как будто свой пенис описываешь.
Нет, пенис мой 123Всм. А это так... пипирка. Но прикольная.
Аноним 01/02/25 Суб 16:03:56 #455 №1037197 
Извиняюсь за нытье, но..
Почему на дваче нет тредов для тем, или чего-то подобного?
В потоке информации на рандомные темы от анонов невозможно ориентироваться.. Например, мне интересно почитать обсуждение промтов или обсуждение новых, актуальных моделей, и не интересно читать про железо (знаю, пошел я нахуй, с такими запросами). Уже не говорю про флуд без темы.
Столько, местами интересной информации, утопает в бесконечном потоке разрозненных сообщений.
Зашел вот сейчас почитать обсуждение и отзывы от анонов на новые модели.. "...и где?" (с)
Ответы: >>1037200, >>1037205
Аноним 01/02/25 Суб 16:07:00 #456 №1037200 
>>1037197
Ну прости что наше обсуждение не соответствует твоим хотелкам. Хочешь обсуждать модели - берешь и обсуждаешь.
Аноним 01/02/25 Суб 16:09:15 #457 №1037205 
>>1037197

Потому что лучше иметь один живой тред, чем десяток мертвых. Радуйся вообще что мы с детьми пользователями онлайн нейроно в одном треде не сидим.
Аноним 01/02/25 Суб 16:12:09 #458 №1037209 
>>1037025
Благодарю, проверю!

>>1037043
Раньше, потом он ушел, а заодно и уехал.
Помимо Вихря у него еще тюны CogVideo есть и проекты интересные, но то посмотрим.

>>1036996
На давай.
Гигачат Лайт — полностью русская, пожалуйста.
R1 пытались сделать мелкие модели на своем датасете, получалась фигня.
Дообучили квен с лламой — скоры гораздо выше.
Иногда дообучить эффективнее, чем с нуля.
Аноним 01/02/25 Суб 16:12:21 #459 №1037210 
image.png
Беру свои слова обратно, иногда получается ничо так
Ответы: >>1037217
Аноним 01/02/25 Суб 16:17:53 #460 №1037217 
>>1037210

Какой же пиздец на пике.
Что за модель выдала этот диалог двух аутистов?
Ответы: >>1037221
Аноним 01/02/25 Суб 16:23:31 #461 №1037220 
image.png
Попробовал Афину, ну это вкуснятина конечно, если бы не 2 т/с, то все остальные модели прямо сейчас бы в помойку отправились.
Ответы: >>1037229, >>1037411
Аноним 01/02/25 Суб 16:27:13 #462 №1037221 
>>1037217
охуенное чувство юмора же лол. Про Тарзана оно само выдало, про босиком кстати тоже, в промпте не было ничего такого
Ответы: >>1037231
Аноним 01/02/25 Суб 16:43:47 #463 №1037229 
image.png
>>1037220
>ну это вкуснятина конечно
очередной долбаёб подсос гемморойного, беззубого мавроди медисона не палится

А у съебал с моих интернетов, шваль малолетняя!
Аноним 01/02/25 Суб 16:44:31 #464 №1037231 
>>1037221

Я о том что сам уровень диалога(лексика и структура предложений) на уровне сценки, устроенной пятиклассниками на уровке английского в мухосранской школе.
Ответы: >>1037237
Аноним 01/02/25 Суб 16:49:32 #465 №1037235 
Поясните, если размазывать модель по оперативе и ссд, то какой профит это дает?
Вот допустим я беру 2х 3090, и у меня сейчас стоит 4х8 плашки оперативы, и самый обычный ссд. Имеет ли мне смысл их тоже менять, и шо це даст?
Ответы: >>1037238
Аноним 01/02/25 Суб 16:51:57 #466 №1037237 
>>1037231
что блять тебе не нравится то? вполне натруальный диалог кек
Аноним 01/02/25 Суб 16:52:24 #467 №1037238 
>>1037235
>Вот допустим я беру 2х 3090

Больше ничего не надо.
Оператива и ссд это когда видеопамяти нет.
Ответы: >>1037243
Аноним 01/02/25 Суб 17:00:50 #468 №1037243 
>>1037238
Чому? Если модель не будет влезать в эти 48 гигов, разве нельзя ее размазать по оперативе и ссд?
Ответы: >>1037245
Аноним 01/02/25 Суб 17:01:23 #469 №1037244 
>>1037081
Бамп
Аноним 01/02/25 Суб 17:03:37 #470 №1037245 
>>1037243

Потому что 48 гб достаточно для 70В моделей в 4 кванте, а больше ничего и не нужно.
Ответы: >>1037248, >>1037249
Аноним 01/02/25 Суб 17:04:54 #471 №1037246 
>>1037081

Думаю максимум 2-3 т/c будет на 4 битах.
Аноним 01/02/25 Суб 17:07:51 #472 №1037248 
>>1037245
mind the context
Аноним 01/02/25 Суб 17:08:09 #473 №1037249 
>>1037245
Допустим мне нужно, но больше видюх я по условиям воткнуть не могу.
Ответы: >>1037254
Аноним 01/02/25 Суб 17:10:50 #474 №1037254 
>>1037249

Ну перекинь часть слоев на оперативу и наблюдай как скорость многовенно упадет в несколько раз, в чем вопрос-то?
Ответы: >>1037258
Аноним 01/02/25 Суб 17:15:07 #475 №1037258 
>>1037254
Но если, допустим, модель 64 гига, то с 48 врама все равно же будет намного быстрее, чем если все 64 на оперативе?
А вопрос в том, будет ли разница между разными видами оперативы и ссд.
Ответы: >>1037263, >>1037269
Аноним 01/02/25 Суб 17:18:05 #476 №1037263 
>>1037258
> модель 64 гига, то с 48 врама все равно же будет намного быстрее, чем если все 64 на оперативе?

Будет 2.5-3 т/c вместо 1 т/c.
Неюзабельно и то, и другое.
Аноним 01/02/25 Суб 17:25:51 #477 №1037269 
>>1037258
VRAM>RAM>SSD
Ответы: >>1037272, >>1037313
Аноним 01/02/25 Суб 17:27:25 #478 №1037272 
>>1037269

VRAM>>>>>>>>>>>RAM>SSD
Ответы: >>1037304, >>1037313
Аноним 01/02/25 Суб 17:41:52 #479 №1037293 
>>1037074
>Это что
Соя, что же ещё.
Аноним 01/02/25 Суб 17:43:25 #480 №1037295 
>>1037081
Pantheon-RP-Pure-1.6.2-22b-Small-IQ4_XS у меня выдает 2 т/с в бенче 8к контекста. Жить можно но грустно. Даже если взять 3ий квант и 4к контекста, я думаю будет максимум 2.5 - 3.5 т/с.
Ответы: >>1037327, >>1037382
Аноним 01/02/25 Суб 17:51:28 #481 №1037304 
>>1037272
Между рамой и сосоди расстояние как бы не больше.
Ответы: >>1037411
Аноним 01/02/25 Суб 17:54:47 #482 №1037313 
>>1037269
>>1037272
Да это я понимаю, вопрос именно есть ли разница в самой оперативе и ссд. Т.е. нет ли такого, что какой-то особый тип оперативы/ссд пашет для этих задач намного быстрее, чем обычный.
Ответы: >>1037324, >>1037332, >>1037411
Аноним 01/02/25 Суб 18:09:57 #483 №1037324 
>>1037313
>оперативе и ссд
ссд влияет только на скорость загрузки модели при старте кобольда

Если модель вытекает не просто в раму, а в своп на диск то всё очень печально
Аноним 01/02/25 Суб 18:10:18 #484 №1037325 
>>1036881
Ты уже видно давно сидишь. Какой из переводчиков по твоему самый лучший из тех что встроен в таверне. Я сам уже неделю сижу, и пользуюсь яндексом. Он заебись, но иногда путает местоимения и делает надмозговый перевод.
Ответы: >>1037338, >>1037409
Аноним 01/02/25 Суб 18:13:32 #485 №1037327 
>>1037295
>IQ4_XS

Потому что i_xs - это крайне медленная срань, никогда не используй его вместо k_s, запомни как дважды два.
Ответы: >>1037330, >>1037757
Аноним 01/02/25 Суб 18:15:44 #486 №1037330 
>>1037327
> медленная
Только на ЦП. На свежей куртке оно ничем не отличается от обычных квантов, зато немного покачественнее.
Ответы: >>1037335
Аноним 01/02/25 Суб 18:16:20 #487 №1037332 
>>1037313
>какой-то особый тип оперативы/ссд пашет для этих задач намного быстрее, чем обычный.

Яблочные модели.
Но суть в том что они на чистой ОЗУ без врам выдают те же 2-3 токена в секунду которые ты получишь совместив VRAM c RAM.
Аноним 01/02/25 Суб 18:20:12 #488 №1037335 
>>1037330
>Только на ЦП

Не только, просто потеря несколько токенов в секунду когда их у тебя в сумме 30-40 не так критична.
В любом случае - ужиматься ты будешь именно от недостатка ВРАМ и как раз использование этой модели будет большой ошибкой.

>На свежей куртке оно ничем не отличается от обычных квантов, зато немного покачественнее.

Она не качественнее, она просто меньше размером чем K_S, при том же как у нее качестве.
Аноним 01/02/25 Суб 18:22:38 #489 №1037338 
>>1037325
>Использовать более слабые локалки вместо онлайн моделей чтобы не палить барину переписки
>Пересылать их тому же барину для перевода

Как называется эта болезнь?
Ответы: >>1037339, >>1037347
Аноним 01/02/25 Суб 18:24:31 #490 №1037339 
>>1037338
>эта болезнь
и рыбку съесть и на хуй сесть
Аноним 01/02/25 Суб 18:31:47 #491 №1037347 
>>1037338
Барин не разрешает кумить, а переводить кум пока ещё можно.
Аноним 01/02/25 Суб 18:36:18 #492 №1037353 
Кто-нибудь уже выкачал ДСный R1 или R1-Zero? Скачайте, в стране светлоликих хотят запилить наказание 20 лет за "импорт" технологий связаных с ИИ из китая, так что думаю с ХФ их скоро снесут. Надо бы заархивировать.
Ответы: >>1037358, >>1037411
Аноним 01/02/25 Суб 18:41:09 #493 №1037358 
>>1037353
Шизик, ты опять выходишь на связь?
Ответы: >>1037400
Аноним 01/02/25 Суб 18:49:50 #494 №1037382 
>>1037295
Сколько слоев на карте?
Ответы: >>1037757
Аноним 01/02/25 Суб 19:17:03 #495 №1037400 
1738422818137799.jpg
>>1037358
не знаю о ком ты, но обсуждение я уже видел. Обниморда вроде контора из США, их могут и нагнуть.

https://www.hawley.senate.gov/wp-content/uploads/2025/01/Hawley-Decoupling-Americas-Artificial-Intelligence-Capabilities-from-China-Act.pdf
Ответы: >>1037407, >>1037420
Аноним 01/02/25 Суб 19:39:54 #496 №1037407 
>>1037400

Допустим удалят с обниморды.
И что ты думаешь - дипсик расстроится и не перевыложит модельку в другом месте?
Аноним 01/02/25 Суб 19:45:11 #497 №1037409 
>>1037325
>яндексом. Он заебись, но иногда путает местоимения и делает надмозговый перевод.
А кто не делает? Все делают. Дипл получше других, но там есть ограничение по запросам. Яндекс - хороший баланс по качеству и доступности, но ты действительно сливаешь все свои запросы в отечественную контору. Конечно, в 99,99% случаев всем похуй, но... Гугл был приемлем, пока несколько дней назад его модель переводчика опять не обрезали и сейчас он невыносим. Лично меня устраивал даже Гугл.
Аноним 01/02/25 Суб 19:51:21 #498 №1037411 
>>1037304
Примерно равное.
Грубо говоря в среднем 500 против 50 против 5.
Может между врам и рам разница и побольше на пару раз, но не критично, да.
Выгружать на ссд прям боль.

>>1037313
Быстрая оператива быстрее медленной, как ты угадал?
А рейд супербыстрых nvme быстрее одного обычного.

>>1037353
Под такое надо купить терабайтник лишний.
Я все никак не доберусь.

>>1037220
Че-т выглядит так себе, но дай ссылку.
Ответы: >>1037414, >>1037415
Аноним 01/02/25 Суб 19:52:30 #499 №1037414 
>>1037411
>Че-т выглядит так себе, но дай ссылку
https://huggingface.co/bartowski/Athene-V2-Chat-GGUF Лол, на.
Ответы: >>1037458
Аноним 01/02/25 Суб 19:59:17 #500 №1037415 
>>1037411
Че-т выглядит так себе, но дай ссылку.
Цундере анон
Ответы: >>1037440
Аноним 01/02/25 Суб 20:10:08 #501 №1037420 
>>1037400
Тогда надо банить сам HF, потому что там 2/3 моделей китайские. А потом ещё arxiv.org, тем ведь "information, in tangible or intangible form, necessary for the development ... or use of an item". Но вообще это опять орные санкции, накладываемые на самих себя. Примерно как на куртку наложили, запретив продавать карты, что аж 5090 не релизнулась даже в самой швятой.
Аноним 01/02/25 Суб 20:19:19 #502 №1037426 
Аргх. Сел погромировать. о3 кончилось и у него снова не работает загрузка файлов. R1 лежит. А локальный R1 14b не то что бы может за пределами утилитарной хуйни.

Печаль.
Ответы: >>1037442
Аноним 01/02/25 Суб 20:33:35 #503 №1037440 
>>1037415
Настало время, когда модели добиваются меня…
Аноним 01/02/25 Суб 20:35:01 #504 №1037442 
>>1037426
Не знаю, но я проорал.
Сел программировать, а ии за меня не пишет :(
Ответы: >>1037451
Аноним 01/02/25 Суб 20:42:18 #505 №1037451 
>>1037442
Лол да вообще я хотел чтобы оно сделало ревью одного моего проекта и добавило всякие мелочи вроде нуллчеков и комментов. Ну и вообще проверило орфографию и сделало уборку.

Плюс я хотел скормить ей пару бумаг и послушать идеи как их заимплементить в одном шейдоре поверх имеющегося функционала. Так как я уже охуел ковырять один вычислительный шейдор на пару тысяч строк.
Аноним 01/02/25 Суб 20:53:36 #506 №1037458 
223.png
>>1037414
Крч, вот такой вот порнофанфик, лол. Сами решайте как вам.
ПЕРЕКАТ Аноним OP 01/02/25 Суб 21:40:53 #507 №1037501 
Что блядь происходит? Перекат за 2 дня.

ПЕРЕКАТ

>>1037498 (OP)

ПЕРЕКАТ

>>1037498 (OP)
Аноним 01/02/25 Суб 22:07:14 #508 №1037535 
>>1036872
Как слои кстати считать у видяхи? Я ебу скок слоёв у моего говна.
Аноним 02/02/25 Вск 01:21:25 #509 №1037757 
>>1037327
>>1037382
Спасибо, реально быстрее чем i_xs.
Я думал меньше вес -> больше слоев -> профит.
на i_xs был 31 слой 8к скорость 2 т/с
на k_s получилось 29/59 слоев, 8к контекста скорость 2.75 т/с
6к контекста 30/59 3.65 т/с
Аноним 02/02/25 Вск 12:39:18 #510 №1038089 
Screenshot2025-02-02-16-36-13-613com.mishiranu.dashchan.jpg
Там говорят, дикпик можно напугать промптом, что типа если будешь лупиться и нести хуйню, товарищ Си лично расстреляет. После чего дикпик начинает отвечать нормально и правильно. Что думаете?
Аноним 02/02/25 Вск 21:45:31 #511 №1038792 
>>1035819
>лама аналигнед
дай сурс пожалуйста
Аноним 23/02/25 Вск 20:31:34 #512 №1066148 
Господа, нужна помощь: пытаюсь запустить oobabooga с инференсом на интеловском поделии ARC A770, но все интеловские гайды на гите обновлялись в последний раз полгода назад, на всяких профильных каналах в дисе тоже молчание. Есть ли какие либо варианты?
comments powered by Disqus

Отзывы и предложения