Прошлые домены больше не функционируют, используйте адрес ARHIVACH.HK.
24 декабря 2023 г. Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Локальные языковые модели (LLM): LLaMA, Mistral, DeepSeek и прочие №104 /llama/

 Аноним 30/01/25 Чтв 18:42:14 #1 №1034116 
Llama 1.png
Альфа от контекста.png
KL-divergence statistics for Mistral-7B.jpg
Йоба-сплиттер.jpg
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Moraliane и https://huggingface.co/Aleteian
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/local-llm-guide/how-to-use-a-self-hosted-model
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1030272 (OP)
>>1023230 (OP)
Аноним 30/01/25 Чтв 18:49:01 #2 №1034122 
image.png
БАЗА ТРЕДА ПО ХАЙПОВОМУ DEEPSEEK.

Основную модель, по которой идет хайп, не запустить обычному человеку, смертным доступны только маленькие дистилляты этой модели, которые уступают уже существующим моделям. Обсуждение веб-версии Deepseek ведется в соседнем треде.
Аноним 30/01/25 Чтв 18:52:50 #3 №1034127 
image.png
>>1034124 →
Ну думаю в допросах реально можно ресетать диалог каждый раз, после каждого допроса идет результат и информация о нем больше не важна. А вот удалять в длинных диалогах что либо будет проблемнее.
Аноним 30/01/25 Чтв 18:53:19 #4 №1034128 
Попробовал дипсик, делюсь впечатлениями.

>DeepSeek-R1-Distill-Qwen-1.5B
Хуита полная. Цепляется за первый вопрос и подстраивает ответы под него. Я говорю забудь весь контекст, а оно все равно цепляется и генерит хуету. Просишь чекнуть грамматику - с какого-то хуя исправляет предложение и чекает грамматику уже его.
Может выдавать лишние символы или слова, абсолютно не связанные с вопросом.

>DeepSeek-R1-Distill-Qwen-7B
Получше. Следует инструкциям. Количество букв R в слове strawberry считать умеет, а в вариациях написания - уже нет, выдает хуету. Сумела сказать, когда вышла GTA: SA, а с GTA: VS обосралась капитально - подумала, что это Vice City Stories, и все равно в итоге обосралась с датой.

>DeepSeek-R1-Distill-Llama-8B
Количество букв R в вариациях слова strawberry считает через раз. С датой правильно ответила. Простой код сгенерить сумела. Грамматику проверяет вроде бы нормально. По крайней мере базируется ровно на том, что я ввёл.
Не знаю, буду ли пользоваться, потому что есть ощущение, что она будет галлюцинировать в будущем.

Остальные модели работают очень медленно на моем железе - устал ждать, пока они печатают ответ со своими рассуждениями, и дропнул.
Аноним 30/01/25 Чтв 18:58:12 #5 №1034129 
>>1034128

Какие настройки использовал?
Аноним 30/01/25 Чтв 18:58:49 #6 №1034130 
>>1034116 (OP)
>https://huggingface.co/Aleteian
"Мама, я в телевизоре"
Спасибо.
Аноним 30/01/25 Чтв 18:59:13 #7 №1034132 
>>1034128
а какая у тебя видяха? я бомжик с 4 гига видяхи, и за сим особо не лезу даже в локалки, получится ли на 7б параметры залететь?
Аноним 30/01/25 Чтв 18:59:52 #8 №1034137 
>>1034129
Какие настройки? Я просто модель отсюда взял

https://ollama.com/library/deepseek-r1
Аноним 30/01/25 Чтв 19:00:01 #9 №1034138 
>>1034130
Отработаешь ещё, делая мержи по заказам анонов.
Аноним 30/01/25 Чтв 19:00:35 #10 №1034139 
>>1034132
4060 8Gb
8b летает очень быстро. 14b - тормозит пиздец
Аноним 30/01/25 Чтв 19:00:41 #11 №1034140 
>>1034137

А, ты оллама-инвалид, тогда нет вопросов.
Аноним 30/01/25 Чтв 19:01:51 #12 №1034144 
>>1034122
> которые уступают уже существующим моделям
Это каким таким? 32В и 70В ебут всё остальное в своих размерах.
Аноним 30/01/25 Чтв 19:04:02 #13 №1034146 
image.png
>>1034127
Почитав несколько тредов и чуток потеребив модельки я тут задумался. А модель же не может выполнить это указание из карточки персонажа? Чтобы ей запомнить, она должна это написать в сообщение чтобы запихнуть это в контекст?
Аноним 30/01/25 Чтв 19:04:12 #14 №1034147 
>>1034138
Ну, последняя идея анона где чисто новая сайга и старый немомикс анлишед вышла очень даже. Я правда пока не смог побольше карточек потестить, занят был по делам да работе, но в целом оно прям зашло.

https://pixeldrain.com/u/3pgXCAyD Sasha.saved_story.json
Аноним 30/01/25 Чтв 19:04:43 #15 №1034149 
>>1034144

В чем ебут-то? В неотключаемом растекании мыслями по древу под тегом <think>?
Аноним 30/01/25 Чтв 19:05:55 #16 №1034151 
>>1034146

Все от модели зависит. 70+В смогут.
Аноним 30/01/25 Чтв 19:05:56 #17 №1034152 
>>1034146
>А модель же не может выполнить это указание из карточки персонажа?
Некоторые могут вывернуться, в зависимости от того на чём обучали, на каких художественных книгах и чат-логах.
Аноним 30/01/25 Чтв 19:06:20 #18 №1034154 
image.png
>>1034122
и смысл его обсуждать если он не работает блять из-за журнашлюх которые его хайпнули
Аноним 30/01/25 Чтв 19:06:22 #19 №1034155 
>>1034140
Мог бы не оскорблять, а пояснить.
Аноним 30/01/25 Чтв 19:08:22 #20 №1034161 
>>1034149
Как минимум в логике и кодинге. 70В в кодинге почти как дипсик V3. До этого лучшая модель для кодинга была квен кодер 32В - она очень сильно хуже R1 70В.
Аноним 30/01/25 Чтв 19:08:32 #21 №1034163 
>>1034152
>>1034151
Ну я на Nemo-Instruct-2407, который пердит и пытается меня радовать на моих 8гб, так что полагаю каждый вердикт - это русская рулетка для меня.

И да, ответ - допель, свайп - и уже человек.
Аноним 30/01/25 Чтв 19:09:06 #22 №1034166 
>>1034155

Поясняю - принято подключать бэк к таверне и там настраивать настройки. Как там в олламе настройки делаются и подключается ли она впринципе к таверне - я не знаю.
Аноним 30/01/25 Чтв 19:10:24 #23 №1034169 
>>1034155
DeepSeek-R1-Distill-Qwen-32B-Q4_0.gguf

Для 12-16 VRAM видяхи покатать.

>>1034155
>пояснить
С обниморды все качают, и дипсик ггуфы там же там же.
Тут все сидят на кобольде + таверна или чисто кобольде.
Остальные фронты вспоминают разве что матерно.
Аноним 30/01/25 Чтв 19:10:37 #24 №1034170 
>>1034130
Где мерджи норбольших моделей?
Аноним 30/01/25 Чтв 19:12:36 #25 №1034174 
Что-то у меня сегодня обниморда лагает и мерждкит мозги ебёт Их там дудосят?
Аноним 30/01/25 Чтв 19:14:21 #26 №1034179 
4e305f2d83ec7aaf9ccae534243c85fa.jpg
image.png
>>1034163
Еще и моделька на совесть давит, охуевшая пизда.
Аноним 30/01/25 Чтв 19:15:27 #27 №1034183 
>>1034170
У меня 16 врам (вернее даже 12+4), максимум на ноуте я могу запустить 22Б в шестом, или 32Б в четвёртом кванте.

Если есть версии как выжать побольше из 22Б мистраля например и скрестить ежа с ужом пантеон с цидонией - I'am all ears.

Один мерж есть, скачан больше тысячи раз суммарно, но также один (?) анон говорил что этот мерж ему мозги выел.
Аноним 30/01/25 Чтв 19:16:34 #28 №1034187 
Все еще пытаюсь на 8 гб карте сделать нормального помощника для промпт-гена для стейбл дифьюжен. Пока что не получается. В карточку уже понаписал все что мог — предпочтение на короткие теги, следование структуре, нехудожественный язык — не помогает, даже при демонстрации необходимого в диалоге. С фантазией хорошо, но теги постоянно срываются на длинные описательные фразы. Использую 12B Mag-Mell R1, как лучшую из 4-5 моделей, что попробовал. Советы? Думаю нужна какая-то не рп модель но я не шарю.
Аноним 30/01/25 Чтв 19:18:34 #29 №1034190 
>>1034187

Мне кажется РП тут не помощник, попробуй просто nemo-instruct дефолтный.
Аноним 30/01/25 Чтв 19:22:17 #30 №1034197 
>>1034169
>Для 12-16 VRAM
А для 8Гб есть что? Мне не дрочить только, мне вопросы ей задавать, иногда кодить.
Аноним 30/01/25 Чтв 19:27:35 #31 №1034207 
по ощущению дипсик 8б похуже будет чем другие модели но 7б параметров. Пихает китайские иероглифы и шизит только так. да и CoT ему только во вред на малых параметрах мне кажется идет
Аноним 30/01/25 Чтв 19:29:55 #32 №1034210 
>>1034183
Правильно ли понял что проблема в тестировании?
> 32Б в четвёртом кванте
Вот это уже будет хорошо
> Если есть версии как выжать побольше из 22Б мистраля например и скрестить
В мерджах не шарю, какая-то алхимия в буквальном смысле. Могу за тренировку пояснить, но там нормально обучать в какие-то условно разумные сроки - это 12б максимум, и то не захочешь. И на хороший датасет нужно опиздохуя сил потратить.
Аноним 30/01/25 Чтв 19:34:57 #33 №1034219 
>>1034183
>мерж ему мозги выел.
Я тот анон, там все неоднозначно. Просто у меня скорее претензии к пантеону. Мерж нормальный, для тех кто ищет чуть похорни пантеон заебись зайдет.
Аноним 30/01/25 Чтв 19:38:30 #34 №1034221 
image.png
Какой же магнум ебливый, сука, пожрать не дает - уже в трусы лезет.
Аноним 30/01/25 Чтв 19:46:05 #35 №1034226 
>>1034190
Mistral-Nemo-Instruct-2407? У меня только Q3_K_M влезет.
Аноним 30/01/25 Чтв 19:48:16 #36 №1034232 
>>1034211 →

Наш мозг также работает.
Каждую ночь происходит суммарайз контекста и просыпаясь мозг накатывает его заново. Можно стереть контекст человеку и записать другой, человек будет слепо следовать этому.
Аноним 30/01/25 Чтв 19:52:50 #37 №1034237 
>>1034169
>DeepSeek-R1-Distill-Qwen-32B-Q4_0.gguf
>
>Для 12-16 VRAM видяхи покатать.
А как ее туда запихать? У меня только q3 с 5к контекстом влезает в 16гб
Аноним 30/01/25 Чтв 19:54:04 #38 №1034238 
>>1034232
> Каждую ночь происходит суммарайз контекста
Ебал я этот сумарайз, я каждое утро просыпаясь думаю это я наяву сделал или во сне? На столько обыденные вещи снятся.
Аноним 30/01/25 Чтв 19:55:57 #39 №1034239 
>>1034197
> мне вопросы ей задавать, иногда кодить
Тогда береи не рп-тюн, а стоковую instruct модель, 6 квант 12Б норм будет, весь на видяху конечно не влезет, но должен быть адекватен.
Аноним 30/01/25 Чтв 19:58:28 #40 №1034244 
>>1034239
>стоковую instruct модель, 6 квант 12Б норм будет
Мистраля?
Аноним 30/01/25 Чтв 20:00:38 #41 №1034246 
>>1034128
Оно с 14b отвечает лучше чем модель которую взяли за основу дистиллята.
Тоесть то что ты тестил хуже чем их основа.
Ну и как написали чем больше сетка тем больше профита от дистилляции.
Аноним 30/01/25 Чтв 20:01:51 #42 №1034248 
image.png
image.png
image.png
image.png
всем привет и это анон который запустил 14 лярдный дипсик на ноутбучную 3050
не знаю о чем там жаловался анон с 4060 которому показались 14 лярдов очень медленными. Да, небыстро, но 2 слова в секунду да отвечает.
На русском конечно иероглифы, вставки из англюсика. Параметров маловато будет, чтобы писать на нём конечно. Но на английском все норм.
В слове strawberry посчитал две буквы r, вот умора.
по марксу решил записать поскольку бот же китайский, там коммунисты правят, ну немудрено что ответил он нормально
по дате выходов игор ответил везде правильно
Аноним 30/01/25 Чтв 20:02:37 #43 №1034251 
>>1034210
>И на хороший датасет нужно опиздохуя сил потратить.
А пример датасета можешь показать?

Можно буквально на десяток записей, просто понять как он должен выглядеть и что собирать.

>>1034237
>А как ее туда запихать?
С кобольдом у меня шло на трёх токенах в секунду.

>>1034244
>Мистраля
Можно мистраля, например Dolphin ещё вроде ок как ассистент.
Но не принципиально, мистрали юзают за то что и русская Сайга на нём, и топовые рп модели, а тебе не то ни другое.
Аноним 30/01/25 Чтв 20:02:40 #44 №1034252 
>>1034155
оллама для инвалидов, перекатывайся оттуда в кобальд, а с ним подключайся к таверне.
Там все и настроишь при запуске. Если правильно настроишь еще и быстрее будет работать чем на олламе.
Аноним 30/01/25 Чтв 20:06:49 #45 №1034263 
>>1034251
>С кобольдом у меня шло на трёх токенах в секунду
Ну это уже отжор от цпу и обычной рамсы, я думал как то можно прям только в врам запихнуть
Аноним 30/01/25 Чтв 20:10:59 #46 №1034268 
>>1034028 →
Ггуф?
Аноним 30/01/25 Чтв 20:12:05 #47 №1034270 
>>1034268
Ггуф есть у батрухи: https://huggingface.co/bartowski/Mistral-Small-24B-Instruct-2501-GGUF
Аноним 30/01/25 Чтв 20:31:27 #48 №1034289 
А новый мистраль хорош. Русик на уровне Gemma-2 27b, качество ответов плюс-минус так же. При этом на 12гб гпу Q4_K_L квант стартует на 7.5 т/с, что аж вдвое быстрее геммы! УХ СУКА. Вот именно это мне и было нужно
Аноним 30/01/25 Чтв 20:38:10 #49 №1034298 
chat.qwenlm.ai.jpg
chat.deepseek.com.41.jpg
>>1033915 →
У дипсика нет смотрелки пока, я пробовал квен - но он слишком тупой.
Но дипсик норм справляется даже если ему нихуя не поясняя тупо кинуть 2 сейва в ебало, а с моделью ваще заебок будет.
Аноним 30/01/25 Чтв 20:43:27 #50 №1034310 
>>1034252
Почему не Exllamav2?
Аноним 30/01/25 Чтв 20:49:34 #51 №1034320 
изображение.png
>>1034289
На паре ГПУ восьмой квант выглядит увереннее.
>>1034310
Там чел 1,5B запускает, куда ему эксель.
Аноним 30/01/25 Чтв 20:51:26 #52 №1034322 
>>1034310
Новичку и эксламу советовать? У него еще и 8 гб врам вроде.

>>1034298
Там же новая полностью мультимодальная сетка вышла от дипсика
https://huggingface.co/deepseek-ai/Janus-Pro-7B
Должна быть хороша в распознавании изображений
Аноним 30/01/25 Чтв 20:53:22 #53 №1034325 
>>1034322
>Должна быть хороша в распознавании изображений
Хотя нет, там разрешение фиговое 384 x 384. Ну или оно там как то маштабируется.
Аноним 30/01/25 Чтв 20:55:20 #54 №1034331 
>>1034322
>Там же новая полностью мультимодальная сетка вышла от дипсика
Генерит изображения квадратом в 384 пикселя, лол. Это даже не уровень SD 1.5.
>Должна быть хороша в распознавании изображений
Там https://huggingface.co/timm/ViT-L-16-SigLIP-384 для картиночного энкодера, то есть те же 384 x 384 на вход. Ебало нейронки, которая в этом шуме будет распознавать текст, представили? Уже были мультимодалки с 1 мегапикселем входа, так что мимо скорее всего.
Аноним 30/01/25 Чтв 20:57:26 #55 №1034334 
>>1034331
Да, надо тупо брать другие мультимодалки. Выходили ведь недавно с нормальным разрешением, тот же новый qwenvl2.5
Аноним 30/01/25 Чтв 20:59:12 #56 №1034339 
>>1034226
Он влезет и в большем кванте, просто выгрузишь слои в оперативу. Для твоей цели скорость же не важна. И магмел же такого же размера, это мерж тьюнов немо-инстракта. Тоже думаю, что тебе чистый инстракт нужен, а не рп. Сторирайтинг и эмоциональные ответы тут тебе будут только мешать. Можешь и плюс-минус чистые 8б попробовать, например эту с попытками в убирание цензуры и байаса к пользователю, чтобы не читала нотации в ответ на просьбы про нсфв теги https://huggingface.co/bartowski/LLAMA-3_8B_Unaligned_BETA-GGUF
И ещё чекни системный промпт, чтобы там не стоял промпт для ролплея. Напиши что-нибудь простое, типа "Play the role specified below", а ниже пойдёт карточка с подробными инструкциями про теги и примерами.
Аноним 30/01/25 Чтв 21:04:01 #57 №1034342 
>>1034322
>>1034320
А зачем тогда это в гайде?

>Exllama2 быстрее в ~1.2-2 раза чем Llamacpp (на амперах и новее, на более старых картах результат не однозначный), требует меньше памяти на ту же битность и тот же контекст.
Аноним 30/01/25 Чтв 21:06:10 #58 №1034343 
>>1034334
https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5

>>1034342
Потому что екслама только врам, а кобальд и все остальные программы основанные на llama.cpp могут использовать и врам и рам, распределяя нагрузку между гпу и процессором.
Как и оллама, которая основана на llama.cpp же, о чем они как всегда умалчивают.
Аноним 30/01/25 Чтв 21:06:28 #59 №1034344 
>>1034339
>выгрузишь слои в оперативу
Как это сделать в угабуге?
Аноним 30/01/25 Чтв 21:06:50 #60 №1034345 
>>1034251
> пример датасета
Тебе для чего? Сама структура датасета тривиальна - это просто диалоги, в которых можно выделить персонаж 1 - персонаж 2. Просто на обниморде зайди в раздел датасетов и поставь фильтр для текста.
А дальше уже идут нюансы: в хорошем датасете есть описание каждого из персонажа. Присутствуют несимметричные диалоги (короткие сообщения юзера, длинные от нейронки), это все классифицировано и оценено так, что для каждого набора идут дополнительные промты (самый простой пример - длина ответов). Сам датасет является не фиксированными блоками, а заготовка, которую можно динамически формировать в правильную последовательность в ходе обучения. Не должно быть примитивного треша с односложными и тупыми диалогами как в сайге, обязательно разбавление каким-то дженериком и "загадками". И много чего еще.
Ну и самое важное - найти хорошие исходники без министрейшнов.
>>1034322
> Новичку и эксламу советовать?
Так-то она наоборот проще и не имеет всего объема пердолинга что у жоры. Одна беда - без гпу не работает.
> https://huggingface.co/deepseek-ai/Janus-Pro-7B
Херня как по распознаванию, так и по генерации.
Сама прямая перегонка токенов и пиксели - мертворожденная херь, и здесь это в очередной раз демонстрируется.
>>1034331
> то есть те же 384 x 384 на вход
В порядочных сетках картинка нарезается на вот такие тайлы и всей пачкой передаются на вход, все прекрасно распознается.
> Уже были мультимодалки с 1 мегапикселем входа
Там и 2-3, и несколько картинок, и даже видео можно.
Аноним 30/01/25 Чтв 21:07:14 #61 №1034347 
>>1034339
Ты же видишь какие вопросы он задает и что говорит. Объясни ему как выгрузить контект и слои в оперативу.
Так работает «проклятие знания» (или «проклятие экспертности») – это когнитивное искажение, когда человек считает, что в хорошо знакомой ему теме остальные ориентируются так же хорошо, как и он сам.
Аноним 30/01/25 Чтв 21:07:53 #62 №1034348 
>>1034289
>А новый мистраль хорош.
Посмотрим, что покажет Ларж. Хотя лично я крепко надеюсь на 4-ю Лламу. У меня она в 6-м кванте даёт на 30% больше скорости, чем 123В в четвёртом, а отказаться от него невозможно. Но вот попробовал NevoriaMS и прямо воспрял - есть-таки жизнь на Марсе на Лламе! Если четвёртой ума добавят, то будет прямо вообще хорошо.

Тут к сожалению очень многое зависит от качества тюнинга и от удачи алхимика-смесителя, это да.
Аноним 30/01/25 Чтв 21:36:32 #63 №1034378 
>>1034345
>Тебе для чего?
Для рп/стори вестимо, вообще хотел просто любимые книги нарезать и скормить, вроде бы Wayfarer тренился просто на парах сообщений в стиле "User: ой как страшно, наверно там опасно, давайте туда пойдём. GM: вы были съедены мрачником, только косточки прохрустели в его зубастой пасти. После этого монстр, оставляя кровавые следы, скрылся обратно в своём логове."

То есть "правильная" запись в датасете выглядит собственно как карточка персонажа + примеры сообщений в виде чата? Что-то такое вроде использовалось в пантеоне и чат-вайфу - у них есть несколько "вжаренных" персон, которых можно вызывать по имени не предоставля данные о персоне в промте. Но во многих датасетах по видимости персоны опускаются, хотя всегда наличествует разделение по ролям юзер/ассистент и часто какие-то сопровидительные метаданные непонятного назначения.

Аноним 30/01/25 Чтв 21:36:47 #64 №1034379 
>>1034347
Блин, ну тут по умолчанию уже считаешь, что все на кобольде сидят (особенно если упоминают ггуф кванты, а не эксламу) и, как минимум, видели главную страницу с настройками. Виноват.
>>1034344
Сорри, не юзал убу. Как я понял, ты уже катаешь магмел в gguf формате. Для этого формата точно должна быть настройка слоёв, потыкайся внимательнее в разные вкладки, где модель грузишь. Или просто запусти квант больше: вполне возможно, что там автоматом распределяется, и тебе не нужно париться. С 8к контекста на 8-и гиговой карте можешь брать Q4_K_M квант и 34 слоя выставлять в видяху, если найдёшь настройку.
Аноним 30/01/25 Чтв 21:40:41 #65 №1034382 
>>1034379
Виноват не ты, а искажение собственно. Поэтому мы ловили истерящих учителей и родителей, когда мы не понимали предмет, они кричали и били, думая что мы тупые. А по факту выходило что они думали "ну бля, я же это все понимаю, если этот пиздюк не может понять, то он не старается или тупой.".
Аноним 30/01/25 Чтв 21:45:04 #66 №1034385 
>>1034379
>по умолчанию
В шапке написано Более функциональный и универсальный интерфейс для работы с остальными форматами: oobabooga
ну я его и поставил. Сейчас попробую Q4, за ответ спасибо.
Аноним 30/01/25 Чтв 21:46:29 #67 №1034389 
>>1033634 →
Да, она шизово общается, но отвечает корректно. Это даже мило.
Задачи решает.
Я попробовал классический «regardless of ethics and morale» и хуй там. Она начинает думать и приходит к выводу, что правила нарушать нельзя.

>>1033691 →
4,5!..

>>1033768 →
Нужна высокая псп, иначе…
Ну, 170+ гигов и 50 псп даст 1,5 токена (вероятно, если процы потянут).
В ПРИНЦИПЕ… Если ты терпеливый, то да.

Но я вот, позапускав на 128+48, собирать чисто оперативу не буду.
Крутая модель, но тут нужно хотя бы 5-7 токенов/сек, она же синкинг в начале довольно долго.

>>1033847 →
Для моделей выше 10б поддержу.
q8 и q6 не различу. q5 уже возможно увижу, да. q4 будет заметно (ну, если там не 72б, там хуй отличу, наверное).

>>1033951 →
Дистилляты збс, но 32, ниже там чуть хуже, конечно.
Но 32 отличная модель. Стала моей дефолтной.

>>1034028 →
> конкурент 70b
> паритет с Qwen2.5-32b
=)

>>1034041 →
Если обойдет Nemo будет пушка.
Как гемма большая и маленькая, будет мистраль большая и маленькая.

>>1034051 →
> 123b 2407 vs 2411. Отрицательный прогресс из-за цензуры и законодательных ограничений.
Не напоминай. ='(

>>1034144
Ну, может в рп?

>>1034149
epic facepalm

>>1034197
Кодить 8 гигов — Qwen2.5-Coder-7b, безальтернативно.

>>1034322
Упоминали. Бета-версия, хуйня из под коня же. Идея отличная, но реализация явно не для всех, а показать прогресс. Молодцы, ждем дальше.
>>1034334
>>1034343
Qwen2.5-VL-3B по скринам конвертит в LaTeX изи без ошибок.
И Oblivion угадал, тепло сердечку.
Аноним 30/01/25 Чтв 21:47:49 #68 №1034392 
17375640516590.png
Зачем он это делает?
Аноним 30/01/25 Чтв 21:48:05 #69 №1034393 
>>1034385
Но как ньюфаг советую тебе кобольда накатить для начала. Он понятен, по нему есть вики, понятная (относительно). И он намного проще. Вкладки, ползунки, сиди слушай тред и тереби.
Аноним 30/01/25 Чтв 21:49:50 #70 №1034402 
>>1034392
Кто? Зачем гитхаб автосборку запускает?
Аноним 30/01/25 Чтв 21:49:57 #71 №1034403 
image.png
>>1034344

Вот этот параметр определяет число слоев, выгруженных в видеокарту, соответственно остальные идут в оперативку.
Аноним 30/01/25 Чтв 21:50:31 #72 №1034404 
>>1034402
Да. Нахуй он так сделал? 3000 релизов, сука.
Аноним 30/01/25 Чтв 21:51:22 #73 №1034407 
image.png
image.png
image.png
сравнение оригинального дип-писика, ламы 405, и 70б дистилята с дипсика, как по мне перенялась только дурная манера выкатывать стену раздумий, и если б это не в облаке с ~250 ток/с генерило, то я б три дня результат ждал бы...>>1034404
Аноним 30/01/25 Чтв 21:51:53 #74 №1034408 
>>1034385
Он действительно более функциональный и универсальный, потому что в него запихнуто несколько инференс движков для разных форматов моделей. Но когда у тебя маленькая видяха, то большинство из них для тебя бесполезны. По факту ты пользуешься той же llamacpp, которая и в основе кобольда.
Аноним 30/01/25 Чтв 21:52:48 #75 №1034411 
>>1034404
Про CI никогда не слышал?
Аноним 30/01/25 Чтв 21:52:50 #76 №1034412 
>>1034404
а почему бы и нет, чел просто дает самую свежую борку с последними комитами, хуже когда релиза и багфиксов по 3 месяца ждать надо
Аноним 30/01/25 Чтв 21:53:57 #77 №1034416 
>>1034411
Ты Release и CI отличаешь? Или в твоей говнокомпании так же сделано, как у него?
Аноним 30/01/25 Чтв 21:54:29 #78 №1034418 
>>1034408
правда у угабуги API не такое кривое как у кобольда, а с кобольдом не все программы дружат
Аноним 30/01/25 Чтв 21:55:36 #79 №1034422 
>>1034403
Я бы как мимо ньюфаг, который срет в эти треды не первый день, хотел бы вообще гайд по настройкам, как те же вопросы про кванты контекста, Как работает контекст (на пальцах сука). Что такое слои. Что есть n_banch, почему не стоит верить выставленным слоям кобольда и стоит ебануть чуток больше. Просто обширный гайд для ньюфага, вот первой же ссылкой в шапке треда, желательно на даунском языке. Ты решил написать слово кванты в гайд? Объясни что чем меньше квантов, чем меньше IQn, тем тупее модель и тд.
Аноним 30/01/25 Чтв 21:55:41 #80 №1034424 
>>1034416
Чухан, ты видишь что это выхлоп от CI гитхаба или нет?
Аноним 30/01/25 Чтв 21:57:23 #81 №1034435 
>>1034424
Ой блять еблан все с тобой ясно - обосрался и пытаешься выкрутиться вместо того, чтобы признать и поехать дальше.
Аноним 30/01/25 Чтв 21:59:10 #82 №1034439 
>>1034422
>Просто обширный гайд для ньюфага, вот первой же ссылкой в шапке треда, желательно на даунском языке.

Хм, а что же у нас там первой ссылкой в шапке? Хм.

>Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/
Аноним 30/01/25 Чтв 21:59:41 #83 №1034440 
Мистраль 3 кал сынок.
Аноним 30/01/25 Чтв 22:06:35 #84 №1034455 
>>1034439
Да хуйня ваша вики, ты сам давно в нее заглядывал? Она написана нихуя не для ньюфагов.
>самые младшие из "умных" в настоящее время содержат ~7 миллиардов весов
Что такое веса? Что такое не кватованные веса? Что такое n_banch? Ты заглядывал в вики кобольда например? Там даже не объясняется что такое квантование контекста, просто как факт что есть 16, 8 и 4.
Чел, проклятье знания. Мы в душе не ебем что все это такое. Нет какой то базы, объясняющей что это делает о, а это делает это.
Аноним 30/01/25 Чтв 22:07:07 #85 №1034456 
>>1034378
Ну смотри, ты должен кормить нейронку тем, что потом от нее ожидаешь. Но это должен быть не просто странный слоп на тему, а четко обоснованные реплики и ответы с учетом задания. То есть, там должен быть системный промт, базовые указания, описание персонажей, правильная разметка и т.д. К токенам должна идти маска, которая покажет где "вход" а где "выход". Если у тебя без какой-то подводки просто пойдет диалог - сетка ошизеет и начнет рандомно бредить подобными структурами, а если в датасете сплошной текст из книги - будет совсем плохо.
После правильной разметки и полноты последовательностей идет аугментация. Если будешь кормить одним и тем же - сетка научится повторяющимся вещам и постоянно будет их высирать, те самые волки и размахивания бедрами, только в структурах, именах, лупах на одинаковые последовательности и т.д. Поэтому хороший подход - датасет в виде заготовок чатов с регэкспами и еще лучше ветвлениями (или просто рандомной длиной диалога), которые формируются на лету, меняя имена, подсовывая дополнительные указания/промты где надо (но не всегда), полезно менять стиль сообщений, описаний и т.д. Если классический инстракт режим то там будет формирование инструкции со всей историей а потом один ответ.
> у них есть несколько "вжаренных" персон
Классический пример корявого обучения, особенно явно это выражается когда применяется не полновесный файнтюн, а лора.
Можешь откопать старье в виде датасета llimarp, он на редкость удачно структурирован и из него легко делать промты и диалоги под нужный формат, а также сразу заложить указание по желаемой длине ответа как самый простой пример дополнительных указаний.
Если хочешь сторитейл - парси готовые истории на части разных размеров, которые будут помещяться в 500-1000 токенов стандартного ответа, а также придумывай к ним задания и описания разной степени подробности как запрос юзера.

Ну и наконец, если у тебя в датасета сайга с односложными дебильными диалогами - со всем этим как не ебись, оно отравит выдачу.
>>1034393
В нем нет простоты и универсальности, наоборот при запуске вагон лишнего, а сам интерфейс чата - унылое говно. Из плюсов может быть более быстрая работа из-за особенностей билда, но по руку с ней идет некорректная работа не разном железе, из-за чего и появляются эти привередливые до кванта бедолаги.
>>1034422
> хотел бы вообще гайд по настройкам
Хотеть не вредно. Принимаем донаты криптой, скинешь что-то существенное - можно будет подумать.
Аноним 30/01/25 Чтв 22:09:47 #86 №1034464 
>>1034456
> а сам интерфейс чата - унылое говно
Дак сразу надо говорить чтобы ньюфаг подключался к таверне, желательно на пальцах.
> Принимаем донаты криптой
Могу принять мой хуй тебе за щеку, шепнуть на ушко и повилять бедрами, пока ты разглядываешь мой наряд который не оставляет простора воображению.
Аноним 30/01/25 Чтв 22:10:04 #87 №1034465 
>>1034455
потому что чтобы понимать все это нужно знать хотябы основы устройства нейронок и принцип их работы, если ты неосилятор, то не лезь в локальные, облако юзай и не морочь голову

ну или возьми сам напиши вики правильную, тем более у тебя нейронки есть
Аноним 30/01/25 Чтв 22:10:39 #88 №1034469 
>>1034456
>вот эта вся ебля с сетками
Почему нельзя сделать сетку которой можно скормить вообще все нахуй информацию с рождения христова без разметок и прочей хуйни, а там сетка уж сам разберётся что к чему
А то с такой еблей никакого аги не будет
Аноним 30/01/25 Чтв 22:12:22 #89 №1034471 
>>1034378
> Но во многих датасетах по видимости персоны опускаются
Да, вот эта штука зависит конкретно от формата размерки. Если там мультитурн типа chatml и стандартные user/assiatant то все просто и имена идут только внутри содержимого постов для правильного содержания. Если там используется какая-то дичь с индексами в виде имен персонажей (или после укзания роли задрачивается префилл имени что тоже часто бывает и иногда полезно) - будут те самые имена.
>>1034464
> Могу принять
По тебе видно что уже принимаешь
>>1034469
Потому что злой хуанг захватил все видеокарты, но святой дипсик снизошел чтобы избавить нас от необходимости в них.
Аноним 30/01/25 Чтв 22:14:13 #90 №1034476 
>>1034465
Orly? Просто написать ньюфагу что чем ниже IQn в модели, тем она тупее, чем меньше размер (даже ссылаясь на размер одежды, ибо по такому примеру и следуют квантованные модели) сказать, что чем меньше, тем тупее. Сквантовал контекст? Модель отупела. Подключил rocm? Амуда будет быстрее, но не факт что пойдет у всех. И тд и тп.
>>1034471
>По тебе видно что уже принимаешь
Даже вертеть жопой не буду, нейронки как наркотик, я уже 3 месяца сижу на них, сперва на хорде, теперь вам мозги ебу. Даже с единственными парой знакомых общаться перестал.
Аноним 30/01/25 Чтв 22:16:41 #91 №1034481 
>>1034476
Там речь про хуй в рот и малафью по всему ебалу, которая затмевает взор. Ведь как иначе можно ныть, прося то что уже есть, или требовать ответы на очевидное.
Аноним 30/01/25 Чтв 22:18:19 #92 №1034486 
>>1034345
>Сама прямая перегонка токенов и пиксели - мертворожденная херь
Предлагаешь тренировать совместно?
>>1034348
>Посмотрим, что покажет Ларж.
А они его уже анонсировали?
>>1034435
Шиз, таблы. CI и высирает продукт своей жизнедеятельности в релизы гитхаба.
>>1034455
>Она написана нихуя не для ньюфагов.
Напиши лучше.
Аноним 30/01/25 Чтв 22:21:16 #93 №1034495 
image.png
>>1034481
Я все к тому, чтобы создать адекватную вики по тупым вопросам, и когда я например высру очередной тупой вопрос, вы отправите меня в шапку треда, а я там и правда найду ответ на вопрос, а не пространственный ответ про квантования, размеры, чет там про модели и прочее. Так было бы и проще и вам и нам.
>>1034486
>Напиши лучше.
Пиклейд
Аноним 30/01/25 Чтв 22:21:48 #94 №1034496 
>>1034471
>захватил все видеокарты
так-то у них 50к а100 есть
там что-то RL применяли к этому R1 те она сама находила паттерны и рассуждения
Аноним 30/01/25 Чтв 22:30:09 #95 №1034511 
А есть где-нибудь прям конкретные примеры различий между квантами одной модели? Условно скрины ответов на одном и том же месте в чате. Понимаю, что это частный случай, но было бы интересно увидеть тренд развития от iq2 и до предела.
Аноним 30/01/25 Чтв 22:33:57 #96 №1034522 
>>1034511
https://github.com/matt-c1/llama-3-quant-comparison
Аноним 30/01/25 Чтв 22:38:58 #97 №1034533 
>>1034522
Слишком абстрактно.
Аноним 30/01/25 Чтв 22:42:31 #98 №1034542 
>>1034533
>ыыы я не могу понять точка палка график
Ну тогда хули ты тут делаешь? /aicg/ двумя блоками выше
Аноним 30/01/25 Чтв 22:43:30 #99 №1034544 
Ребят, ожидают ли нас в ближайшем будущем еще лучшие подобные MoE DeepSeek R1модели, только уже от американцев, улучшенные и обученные на более мощных машинах?
Аноним 30/01/25 Чтв 22:44:20 #100 №1034546 
>>1034522
Так тут Q4 кванты отличаются от fp16 чуть более, чем никак. Ещё меньше разница, чем для 7б мистраля с тестами на вики данных, для которого пикча в шапке. Подозреваю, что главная проблема этих тестов - мелкий контекст. "I skipped around 20 questions where the 5-shot prompt was above 2048 tokens" - из описания недостатков.
Аноним 30/01/25 Чтв 22:48:07 #101 №1034558 
А новый мистраль ничего так, русский язык неплохой, не отказывается от пересказа порно-рассказов и даже пишет продолжения, без всяких там "это может неприемлемо".
Аноним 30/01/25 Чтв 22:48:30 #102 №1034559 
>>1034542
Чел, капец ты злой. Изначально ответил не на мой вопрос и еще бузишь. Мне понятны графики, но они не дают представления, как именно плохи ответы на низких квантах. Как там проявляется тупизна, долина, потеря логики, и когда это прекращается. Один конкретный средней длины пример из теста дал бы мне куда больше в этом плане чем скор на тесте целиком.
Аноним 30/01/25 Чтв 22:55:37 #103 №1034571 
>>1034546
>главная проблема этих тестов - мелкий контекст
Так один хуй любая модель начинает разваливаться после 32к контекста
>>1034559
>Как там проявляется тупизна, долина, потеря логики, и когда это прекращается
Ты реально будешь читать 100 логов в 16 разных почти одинаковых квантах?
Аноним 30/01/25 Чтв 22:56:39 #104 №1034573 
>>1034558
>А новый мистраль
Дай ссылку/полное название.
Аноним 30/01/25 Чтв 22:57:58 #105 №1034575 
Ананасы, подскажите, есть ли какие-нибудь норм ллм модели которые могли бы диаграмы и схемы строить, чтобы например задал вопрос покажи место трапов-лесбиянок в церковной иерархии Российской Империи VII века, а оно выдало бы в какой-нибудь переводимой в графику нотации адекватную схему по теме вопроса...
это в кодинговые модели больше смотреть надо или еще какие есть для этого?
Аноним 30/01/25 Чтв 22:58:05 #106 №1034576 
>>1034573
https://huggingface.co/bartowski/Mistral-Small-24B-Instruct-2501-GGUF
Аноним 30/01/25 Чтв 22:58:18 #107 №1034577 
>>1034571
Было бы интересно хотя бы поверхностно посмотреть, да.
Аноним 30/01/25 Чтв 22:58:27 #108 №1034578 
>>1034573
Буквально несколькими постами выше, блять 1034270
Аноним 30/01/25 Чтв 22:59:54 #109 №1034582 
>>1034577
Жестко спойлерю тебе что ты не увидишь разницы, по крайней мере в рп и если это не 1-2 квант
В кодинге да, будет косячить, причём дохуя
Аноним 30/01/25 Чтв 23:00:30 #110 №1034583 
изображение.png
>>1034544
Американцы клозедсорсят, кроме террористов из меты, а та вроде пока ничего не анонсировала.
>>1034558
Подтверждаю. На первый взгляд нет сильного положительного биаса, и оно распознало подвох в стихе без дополнительных подсказок.
Аноним 30/01/25 Чтв 23:02:54 #111 №1034589 
>>1034582
Вероятно, но мы же не можем этого знать без конкретных примеров.
Аноним 30/01/25 Чтв 23:09:55 #112 №1034607 
>>1034576
>>1034578
Да ебать опять 24. Ну за они так с нами? Ну НЕТ у меня видеокарты на 24 Гб.
Я еле-еле запускаю 12B с 5 токенами в секунду.
Аноним 30/01/25 Чтв 23:15:35 #113 №1034624 
2025-01-30231143.png
>>1034575
Big-agi несложную схему может нарисовать. Если взять о1 и мини-доку по mermaid в контекст положить, с примерами, наверное и сложную осилит.
Аноним 30/01/25 Чтв 23:20:54 #114 №1034637 
>>1034624
не будем вдаваться в контекст, и некую соевость такового, в целом терпимый вариант, хотя и визуальная составляющая для отцепного скорее

mermaid интересный формат, но сильно по возможностям ограничен, и не дает произвольные структуры с произвольным расположением элементов выводить... нету ли случайно какихнибудь альтернатив мермейду?
Аноним 30/01/25 Чтв 23:24:58 #115 №1034660 
В общем, я не понимаю, в чем суть всех этих ваших LLM-моделей и как их можно использовать в любом контексте, кроме вероятностного.

Решать математические задачи? Не реально. Математика - точная наука.
Писать код? Зачем мне код, которые работает с N% вероятности? Особенно, если я не разбираюсь в программировании и не могу его продебажить.
Узнавать события и даты? Без гугла никак, иначе опять же - событие произошло с такой-то вероятностью такого-то числа. Зачем мне эта информация? Событие произошло, мне нужно ТОЧНО знать когда.
Проверять орфографию? Ну ладно, если я пишу на борде и хочу уменьшить вероятность, что меня отхуесосят - окей. А если я резюме пишу и англоязычная эйчарка увидит кринжовую ошибку? Резюме пойдет в мусорку.

Зачем нужен AI?
Аноним 30/01/25 Чтв 23:26:34 #116 №1034666 
>>1034660
>Зачем нужен AI?
Трахать кошкодевочек, очевидно же.
Аноним 30/01/25 Чтв 23:28:41 #117 №1034681 
>>1034660
>Писать код? Зачем мне код, которые работает с N% вероятности? Особенно, если я не разбираюсь в программировании и не могу его продебажить.
чтоб не переписывать постоянно одинаковую хрень типа запрос добавь то, запрос добавь сё, запрос добавь то-сё, - короче для решения рутинных и давно известных подзадач, - таким образом остается только проконтролировать правильность вместо выдумывания и набирания кода
Аноним 30/01/25 Чтв 23:30:32 #118 №1034688 
1603846807578.jpeg
>>1034486
> Предлагаешь тренировать совместно?
Совместно с dit для которого ллм будет готовить токены-кондишны. Можно с дополнительной небольшой прокладкой. Так мы и сохраняем относительно небольшой объем необходимых "смысловых" токенов вместо десятков-сотен тысяч, и имеем красивое и качественное изображение (аудио, видео, ...) со всеми нужными атрибутами.
>>1034495
> чтобы создать адекватную вики по тупым вопросам, и когда я например высру очередной тупой вопрос, вы отправите меня в шапку треда
В шапке треда ссылка на вики.
>>1034496
Так бля епта, падажжи, сначала хуярим SL, потом делает RL, хуемое бля... Ага паттерны, чтобы иероглифы высирались... во, 50к а100 вот сюда пихаем...
Аноним 30/01/25 Чтв 23:31:37 #119 №1034692 
>>1034681
>остается только проконтролировать правильность
Так это бесит. Ты вчитываешься в каждую строчку и не делаешь ничего сам. Ты как будто ревьювишь код без удовлетворения, когда другой человек его поправит, потому что править его будешь ты. Плюс ты читаешь, а не пишешь, не участвует моторика - меньше удовольствия.
Аноним 30/01/25 Чтв 23:31:42 #120 №1034693 
image.png
>>1033569 →
Аноним 30/01/25 Чтв 23:32:37 #121 №1034701 
>>1034660
>Зачем нужен AI?
Дрочка, определённо дрочка. Эта херь может заметить тебе секретаря. Обработка текста, генерация текста, простая математика, выводы, некоторая замена гуглу. Бля гум направлений просто мастхев. Да и чат с хорошо настроенной нейронкой может принести больше удовольствия, чем чат с типичным обитателем рунета. я уже говорил про дрочку?
Аноним 30/01/25 Чтв 23:33:35 #122 №1034705 
>>1034681
>>1034692
Ну то есть ты понимаешь? Ты ищешь всякие ошибки уровня l вместо I, которые ты бы сам не допустил скорее всего, если внимательный. А так ты читаешь каждую буковку. Это выбешивает.
Аноним 30/01/25 Чтв 23:35:10 #123 №1034711 
>>1034701
>простая математика
Чел, если я не знаю ответ, я НИКОГДА не обращусь к LLM, чтобы она посчитала, потому что знаю как она "считает". Я открою калькулятор. А если знаю ответ - зачем мне LLM?
Аноним 30/01/25 Чтв 23:36:45 #124 №1034721 
>>1034705
Будет особенно орно, если AI выдаст челу конфиг именно конфиг, не код, который компилируется и подсветит, где вместо английской C будет русская С. Это будет пушка.
Аноним 30/01/25 Чтв 23:41:37 #125 №1034741 
>>1034721
>>1034705
это ты по опыту? или по рассказам?
не видел чтобы ии выдавал такие ошибки, скорее сам вместо 0 О напишеш и потом гадать будеш где проблема,

нравится от руки писать - пиши, никто не запрещает
Аноним 30/01/25 Чтв 23:43:16 #126 №1034753 
>>1034711
>Я открою калькулятор
да, калькулятор очень поможет когда нужна аналитическая формула...
если у тебя есть формула и есть что нужно подставить то само собой llm тут не нужон
Аноним 30/01/25 Чтв 23:45:02 #127 №1034759 
>>1034711
ну не нужен, так не нужен съеби с треда
Если с think, то что-то простое считает хорошо. Что по остальному скажешь?
>>1034741
>>1034753
Какие же мы тут дружно - токсичные
Аноним 30/01/25 Чтв 23:45:13 #128 №1034760 
>>1034753
>нужна аналитическая формула
Тогда я полезу в Гугл. Заебись будет получить формулу, где AI сгаллюцинирует и напишет xi вместо yi.
Аноним 30/01/25 Чтв 23:45:21 #129 №1034762 
>>1034028 →
Надеюсь не пережаренная какаха как обычно.
Аноним 30/01/25 Чтв 23:47:07 #130 №1034769 
>>1034741
Ну я пытался однотипные скрипты генерить. Без вычитывания каждой буковки нельзя, она обсирается в рандомный момент и очень часто для таких простых задач.
Аноним 30/01/25 Чтв 23:48:37 #131 №1034776 
>>1034769
Это ты сейчас про генерацию программного кода нейронками говоришь?
Аноним 30/01/25 Чтв 23:50:10 #132 №1034786 
>>1034776
Да.
Аноним 30/01/25 Чтв 23:53:17 #133 №1034803 
>>1034760
а гугл тебе формулу сгенерирует?
или интегральчик тройной посчитает?

ты не стой стороны к вопросу подходиш, не надо искать для каких задач нужен LLM, нажно искать как можно использовать или нельзя для ТВОИХ задач иначе в рассусоливание скатывается все...
Аноним 30/01/25 Чтв 23:54:50 #134 №1034815 
>>1034803
гугл тебе формулу найдет
интегральчик тебе возьмет вольфрам
Аноним 30/01/25 Чтв 23:54:56 #135 №1034816 
>>1034769
чем ты генериш, третьим квантом 8б модели? что у тебя в буквах ошибки?
Аноним 30/01/25 Чтв 23:54:59 #136 №1034820 
>>1034786
Значит ты диванный, или катал поломанный ггуф 7б лоботомита с задранной температурой, ибо таких ошибок сетки не делают.
Они могут ошибаться с методами и писать лишние незадействованные куски, путаться в размерностях тензоров и делать неверную индексацию, могут не понять тебя и сделать другое, или натащить надмозговых конструкций, которые потом будешь долго раскуривать. Но очепятаться - это почти невероятное событие.
Аноним 30/01/25 Чтв 23:56:04 #137 №1034827 
>>1034820
>ибо таких ошибок сетки не делают
ты орешь что ли?
Аноним 30/01/25 Чтв 23:56:48 #138 №1034831 
>>1034820
Попроси написать одну и ту же строчку N раз. ЛЛМка обосрется при некотором N.
Аноним 30/01/25 Чтв 23:57:40 #139 №1034836 
>>1034827
Шизик - фантазер
>>1034831
Еще один долбоеб, иди на калькуляторе текст литом напиши.
Аноним 30/01/25 Чтв 23:59:06 #140 №1034843 
>>1034815
>гугл тебе формулу найдет
только если она есть готовая конечно же...

ты так и не выдал для чего тебе нужны LLM, а то начинается, а вот в рот взять ваши LLM не могут, а если и берут то не так, и вообще я не знаю чего хочу, но LLM говно
Аноним 31/01/25 Птн 00:00:46 #141 №1034850 
>>1034836
Ясно, тролль.
>>1034843
Я спросил в начальном посте - зачем нужен LLM. Какие задачи он может НОРМАЛЬНО решить, кроме вероятностных?
Аноним 31/01/25 Птн 00:08:44 #142 №1034873 
>>1034850
>какие задачи может решить молоток кроме забивания

а какие тебе нужны? текстообработка для тебя недостаточно пидорская задача? и ты хочеш еще и математику притянуть?
ты не с той стороны к вопросу подходиш
Аноним 31/01/25 Птн 00:12:14 #143 №1034885 
>>1034873
ну я назвал одну задачу, которая, как мне кажется, нормально решается нейронкой:

>Проверять орфографию, если я пишу на борде и хочу уменьшить вероятность, что меня отхуесосят

А еще что? Сгенерить поток воды? Это для школьников, чтобы сочинения писать.
Аноним 31/01/25 Птн 00:17:04 #144 №1034901 
>>1034688
>Совместно с dit для которого ллм будет готовить токены-кондишны.
Ок.
Аноним 31/01/25 Птн 00:29:58 #145 №1034938 
>>1034850
Это ты (пост-)тролль, чел. Диванный нитакусик, которого уязвил факт существования нейронок, из-за чего он пришел в профильный тред набрасывать треш. А когда понял что твое мнение не разделяют - начал сочинять бред про синтаксические ошибки в коде.
>>1034885
> >Проверять орфографию, если я пишу на борде и хочу уменьшить вероятность, что меня отхуесосят
Рациональность уровня "отапливать разваливающуюся халупу серверными видеокартами перемножая пустые матрицы". Но и это возможно с нормальной сеткой.
А отхуесосят тебя без вариантов, проблема не в орфограции.
Аноним 31/01/25 Птн 00:37:57 #146 №1034961 
>>1034885
собрать выводы, перевести, заделать чатбота чтоб мучал анонов,
придумать, обсудить что-либо, проанализировать, получить рекомендации, получить карманного психолуха...

если конкретно у тебя нет задач для решения нейронками - радуйся - ИИ тебя не заменит
Аноним 31/01/25 Птн 00:49:42 #147 №1034985 
Потыкал урезанный дипдик на своей 12гб игровой видеокарте, туповат. Люди пишут, что даже для сжатой квантованной версии нужно хотя бы 200 рама или врама. Получается пока локальная ллм для нищуков с <200 врам это только для задач типа поиска опечаток и документации к коду?
Аноним 31/01/25 Птн 00:59:10 #148 №1035004 
image
>>1034190
>>1034339
Спасибо, Q4_K_M инстракт действительно оказался сильно сговорчивее и сразу на просьбу придумать что-нибудь фентезийное выдал не фанфик, а elf,elven,pointy ears,brown hair,long hair,twin tails,mage hat,cropped top, cleavage,sleeveless,leather pants,fancy boots,rune tattoos,staff,wielding staff,casting spell,spell effect,fire magic,aura,action pose,outdoor,forest,stone archway,ruins, с чем в принципе можно работать. Думаю, дальше смогу добиться всего, что нужно, модификациями карточки.
Аноним 31/01/25 Птн 01:00:15 #149 №1035006 
>>1034985
14b вполне справляется с мелочами. он вполне осилил например написать код шейдора когда я скормил ему научную бумагу. он в целом может справляться, хоть и не идеально.
Аноним 31/01/25 Птн 01:16:38 #150 №1035022 
>>1034985

30В+ модели уже можно припрячь к рерайтингу текстов, это все еще в пределах относительно доступных 3090, 4090 и тесл.
Аноним 31/01/25 Птн 02:12:51 #151 №1035097 
17370347020430.png
>>1033756 →
Я не доволен. Я правильно написал во второй раз, зачем оно меня поправляет?
Аноним 31/01/25 Птн 02:39:16 #152 №1035160 
>>1034130
Скачал твою модель, которая сайга + анлишед. На мой взгляд, она какая-то непонятная. Вроде ни туда ни сюда, что странно. Не могу вынести какой-либо вердикт. Интересно твоё мнение и других анонов. Есть ощущение, что влияние анлишеда в ней не слишком сильное. Впрочем, я мало её щупал, скачал вот совсем недавно.

По поводу твоей модели Pathfinder. Её погонял хорошо и хуй тоже. И теперь с гордостью могу сказать, что эра русскоязычного кума наступила в этот момент в твоём лице. Это точно лучшая модель для кума на русском языке 12б. Вот прям на кончиках пальцев. Да, допускает ошибки, конечно, и может начать полотна писать безумные, как магнум, и всё же, если немного следить за её поведением, всё будет в порядке.

А если ещё в систем промпт/карточку добавить нормальную инструкцию, то вообще красота.

Насколько я понимаю, модель стала такой из-за влияния Wayfarer, а не анлишеда (анлишед в такую смачную еблю и извращения не мог), но он в то же время и принёс полотна шизофрении.

----------------

Я перепробовал 4-6 магнумов, почти все говно на русике. Так как моделей было много, я не тестировал слишком внимательно и хорошо. Какие-то очень слабые надежды подаёт mini-magnum-12b-v1.1-iMat-Q8_0 внезапно, но не знаю даже. Пощупай, если интересно. Правда, ты уже сделал хорошую кум-модель и, вероятно, надо смотреть в сторону годнейшей рп модели без акцента на кум. Не знаю, что ты хочешь в итоге получить.

Wayfarer вроде как для этого предназначен, но он хорош только на 8к контекста, что не годится для годного рп, а модели давида и так склонны к безумию даже на англ в восьмом кванте. И в русском они вроде не особо хороши. Я скачаю пачку и посмотрю, что там. Вдруг будет сюрприз, как с анлишедом.

Технически возможно объединять 12б сайгу без поломки с какой-нибудь 14.5б/18.5б, которые есть у давида? Просто там подобных много и мне непонятно, стоит ли качать для проверки русика.
Аноним 31/01/25 Птн 02:51:13 #153 №1035184 
>>1035160
>лучшая модель на русском языке
Так описываешь, что тоже хочется попробовать. Сверните до четырех квантов её, а?
Аноним 31/01/25 Птн 02:54:59 #154 №1035187 
>>1035184
https://huggingface.co/mradermacher/Pathfinder-RP-12B-RU-GGUF
Оно?
Аноним 31/01/25 Птн 03:04:03 #155 №1035193 
>>1035187
Оно, не подумал там посмотреть, раз в ориге лежит только 8.
Аноним 31/01/25 Птн 03:37:05 #156 №1035217 
>>1034985
> 200 рама
170

> 12гб
32б в восьмом кванте отлично решает матан, например.

———

Как все новички доказывают троллю, что LLM на что-то способны — забавно. =) Но помните — лучше использовать себе на пользу, а не доказывать. Доказывать ноунейму — пустая трата времени и бесполезно для вас лично. Моральное удовлетворение вы вряд ли получите, на почве анонимных дискуссий он опытнее.
Аноним 31/01/25 Птн 04:49:11 #157 №1035252 
Где взять карточки на русском?
Аноним 31/01/25 Птн 05:03:38 #158 №1035260 
>>1035193
Ну и ты учти сразу, что модель специфична. Со стандартами настройками может и не работать.

Ей обычно нужна низкая температура, я ставлю 0,6. Иначе шиза.

Если в примерах диалогов есть англоязычный текст, то риск шизы или кривого русика тоже повышается. На других ру-моделях так же, но здесь это сильнее выражено.

А вот карточку можно не переписывать.
Аноним 31/01/25 Птн 05:36:16 #159 №1035270 
>>1034122
>Основную модель, по которой идет хайп, не запустить обычному человеку
Нуу, зависит от твоей страны
https://www.reddit.com/r/LocalLLaMA/comments/1i8y1lx/anyone_ran_the_full_deepseekr1_locally_hardware/
Как не извращаются
Аноним 31/01/25 Птн 05:43:01 #160 №1035273 
>>1034146
Контекст, промты, карточки, глобально это все разные названия той горы "текста" который подаётся на выход нейронки каждый запрос, разделение сделано только для удобства мясных мешков.
Вписал ты свой текст в карточку или в чат, таверна все равно собирает из всего этого монолитный бутерброд по подаст на вход модели(почитай вывод в консоли). Разница только в том где в этом бутерброде будет находится твой текст, как правило большинство моделей независимо от размера любят "забывать" происходящее в середине, и отдают приоритет началу и концу.
Аноним 31/01/25 Птн 05:43:47 #161 №1035275 
>>1035273
>выход -> вход
Конечно же.
Аноним 31/01/25 Птн 06:12:56 #162 №1035279 
>>1035273
Мне, кстати, интересно, как работает этот механизм внимания к контексту.

Много пользовался клодом, у которого 200к контекста. Скажу, что от этого реально польза есть, и тем не менее, моделям поддержание такого контекста даётся с трудом. Соннет, например, чаще проебывется при таком контексте, а опус уделяет больше внимания к нему, при этом сам опус "тупее" и знания у него более старые.

Как работают модели от гугл на 1 млн контекста — не представляю. Это уже смахивает на какой-то пидзеж или сворачивание 900к контекста в подобие лорбука.
Аноним 31/01/25 Птн 06:23:09 #163 №1035284 
Там кстати выпустили новые варианты квен оптимизированные для 1м контекста. На счет полного миллиона не знаю, но видел комментарии что сетки стали лучше чем было воспринимать свой обычный контекст и работать с ним
Проверил бы кто, но нужно очень много памяти
Аноним 31/01/25 Птн 06:49:48 #164 №1035302 
Как дистилляты дикпика пишут ролплей? Не в плане кума а в плане креативности?
Аноним 31/01/25 Птн 07:16:30 #165 №1035315 
>>1035160
>Просто там подобных много и мне непонятно, стоит ли качать для проверки русика.
С выходом нового малого Мистраля всё старые модели могут превратиться в тыкву. Нужны новые мержи.
Аноним 31/01/25 Птн 07:24:49 #166 №1035319 
>>1035302
Речь об unsloth дистиллятах r1 на ламу/квен размеров 7b 14b 32b
Аноним 31/01/25 Птн 08:43:12 #167 №1035345 
image.png
Во-первых это и есть ваша цидонька?
Пишет как 8б
Во-вторых хули срань слева не работает я же вписал
Аноним 31/01/25 Птн 09:24:50 #168 №1035373 
image
image
image
image
>>1035160
>эра русскоязычного кума наступила в этот момент в твоём лице
Спасибо блять, ты сделал мой день.
Прям неиронично со стула от смеха почти упал.

>>1035160
>14.5б/18.5б
Не, я пробовал, там всё ломалось (смотри две модели с upscale в названии). Чтобы выправить повторяющиеся слои нужен файнтюн а не мерж, по видимости.

>>1035252
Самому переводить. Вот несколько от меня:
- https://pixeldrain.com/u/6Gagz3ZP
- https://pixeldrain.com/u/e7ABV1EW
- https://pixeldrain.com/u/Zk8EPK24

>>1035302
>Как дистилляты дикпика пишут ролплей?
Потестил 32 квен, неплохо, подробнее ниже.

----------------------------------------------------------------------------

c4ai-command-r-08-2024.Q4_K_M
Не знаю, может в полных весах и норм, но в 4м кванте шизеть начинает уже с первого сообщения, с командирским пресетом ессно + simple-1 в таверне. Да и русский периодически скатывается до уровня "моя твоя умба-юмба". Слог очень сухой, как в плохих фанфиках: "Он пошёл, он сделал, он молодец." В пезду такую езду.


Mistral-Small-24B-Instruct-2501-Q6_K
Через раз начинает отвечать на английском но если пинать то вроде работает. Но всё равно фразы ломаются. Надо попробовать карточку полностью на русский перевести а не только первое сообщение.

Внезапно, поломы и провалы в логике которые не позволяла себе saiga-unleashed-q6_k.gguf, возможно связанные с рп-данными, ибо например биомех ВНЕЗАПНО полез рукой к пилоту которая сидит в его капсуле в тентаклевом ложементе, манипуляторов типа "рука" не предусмотрено, скорее всего модель просто забыла что юзер не человек в данном сеттинге.

Более-менее адекватный свайп смог выбить только раза с десятого, и это было всего лишь второе сообщение, пресет мистраль, сэмплеры абсолютный дженерик. Третье сообщение тоже кучу времени выдрачивал XD. Но дальше вроде подхватилось и пошло ОК. Периодически почему-то подсирал иероглифами. Но чем глубже в контекст, тем лучше становился язык и меньше свайпов для удовлетворительного результата.

Немного хорни, но в целом ок.
Хотя лупится бобр как курва, я пердолил.

В общем, потанцевал имеется, но нужен русский файнтюн.


DeepSeek-R1-Distill-Qwen-32B-Q4_0.gguf
Может в русский, и неплохо, хотя иногда подсирает иероглифами / переключается на английский и включает размышления до / после рп ответа.
Но логику проёбывает меньше чем Mistral-Small-24B, возможно ризонинг сказывается.


RuadaptQwen2.5_32B_Q4_0.gguf
ВНЕЗАПНО лучшее из здесяперечисленного. Выдало адекватный аутпут с первого же захода, на русском. И почему я не видел упоминания этой эксперименталки в треде? Кто там страдал "вот бы бы 22Б русскую" - вот тебе 32Б. Русская. 2-3 токена в секунду на 12+4 врам / 12К контекста.
Аноним 31/01/25 Птн 10:06:06 #169 №1035398 
>>1035373
>ВНЕЗАПНО лучшее из здесяперечисленного.
Сам себя не похвалишь - никто не похвалит? :)
Аноним 31/01/25 Птн 10:18:16 #170 №1035400 
>>1035373
> 3 пик
Ебать разминка для шеи, когда пытался прочесть это. Спасибо.
Аноним 31/01/25 Птн 10:21:40 #171 №1035405 
>>1035373
>RuadaptQwen2.5_32B_Q4_0.gguf
Имеет смысл, но у меня на q4 из 10 карточек нормально понял и не свалился в шизу только в 5. ему от квантования прям плохо, на q6 уже гораздо бодрее, но все равно, как будто чего-то не хватает.
Аноним 31/01/25 Птн 10:26:15 #172 №1035407 
>>1035373
> почему я не видел упоминания этой эксперименталки в треде
Потому что тред про подрочить, а не про хорошие модели. Я сюда сайгу три раза кидал, прежде чем аноны наконец попробовали, перестав обсирать ее за название. А уж руадапт — ну это вообще что-то на непопулярном! Вот если бы на реддите была новость, что китайская модель на английском не срет в штаны на 65б параметров, то тут бы ее превозносили!..

Так что, ты просто не там искал. =)

А «адекватный аутпут» подразумевает из себя полноценный РП/ЕРП содержательный и логичный?
Потому что получить просто хороший русский ответ можно на любой из моделей выше (кроме мистраля смол), скилл ишью.
Аноним 31/01/25 Птн 10:55:38 #173 №1035416 
>>1035398
>Сам себя не похвалишь - никто не похвалит?
Нет, я Aleteian из шапки, и я абсолютно никак не причастен к проекту RuadaptQwen.

>>1035407
>адекватный аутпут
Я не избалован высокоранговыми моделями, и в основном катал 12Б, как понятно из репы на обниморде. Там на скрине есть вывод руадапта. Мне показалось вполне норм. В хентае пока не тестил, вечером мб пробну.

Кстати, всему треду очень рекомендую послушать:
https://music.yandex.ru/album/35205999
Свидетели сингулярности - Про LLM c Ильёй Гусевым
(автор Сайги, если кто не курсе)
Аноним 31/01/25 Птн 11:13:03 #174 №1035432 
Пока mergekit лежит отдыхает, поделюсь с вами удачными результатами своих издевательств.

https://huggingface.co/OddTheGreat/Unity-12B
кванты https://huggingface.co/mradermacher/Unity-12B-i1-GGUF
Треда два назад про этот мердж писал, работает прилично.
состав (bamec66557/VICIOUS_MESH-12B-OMEGA + inflatebot/MN-12B-Mag-Mell-R1) + (redrix/nepoticide-12B-Unslop-Unleashed-Mell-RPMax-v2 + Epiculous/Crimson_Dawn-v0.2)

https://huggingface.co/OddTheGreat/Pretender-12b
кванты https://huggingface.co/mradermacher/Pretender-12b-i1-GGUF
более скромный мердж, на русском может, но как по мне, хуже. На англюсике весьма хорош.
Состав Khetterman/AbominationScience-12B-v4 +
cgato/Nemo-12b-Humanize-KTO-v0.1

Если есть что качественное, и не замерженное у талантливого товарища выше, пишите, рад буду потыкать и добавить в следующие эксперименты.

У меня 8 врама, поэтому сам юзаю q4_K_M, полёт нормальный. на й8 вообще кайф должно быть.
Аноним 31/01/25 Птн 11:13:07 #175 №1035433 
>>1035416
>Мне показалось вполне норм.
Этих руадаптов довольно много, какой именно ты пробовал? И почему Q4_0, а не Q4KM например?
Аноним 31/01/25 Птн 11:14:17 #176 №1035435 
>>1035097
Бампую и реквестирую новую модель, которая будет нормально проверять грамматику.
Аноним 31/01/25 Птн 11:20:29 #177 №1035440 
>>1035416
ИМХО, стилистически говно какое-то.
Т.е., квен, все же, рабочая лошадка, за креативность классически бодается немо с геммой, и на этом примере это отлично видно.
Он большой и умный. Он русифицированный и быстро пишет. Он действительно логичен.
Но речевые обороты, которые он использует… Вот если бы сверху весь этот текст переписать другой моделью в литературный вид — было бы круто. А я лично читать такое не могу, сильно выбивает из канвы.

страх уступает место целеутвержденности

твердость, которой ей редко удавалось достичь в социальных взаимодействиях

касаясь головы одного из щупалец нежностью победителя-союзника, осознающего друг друга насквозь

гадким насекомоподобным


Ко многим словам здесь можно найти синонимы, которые будут гораздо лучше, или построить фразы иначе.
Думаю, это и квант сказывается, и это не файнтьюн на РП/фанфикшн, все же.

Но может я зря придираюсь, и так и задумано бай дизайн карточки, хз.

Даже первый скрин выглядит лучше (хотя там качество русского идет по пизде, конечно, к сожалению, поэтому суммарно хуже, лозерунный яд BioMecha=).
Аноним 31/01/25 Птн 11:35:31 #178 №1035457 
Походу в 12б реально нет смысла только если у тебя не 8гб
Цидония в 3 кванте пишет живее и умнее на такой же скорости
Аноним 31/01/25 Птн 11:36:01 #179 №1035459 
Аноны с двумя видеокартами, какие блоки питания вы используете?
Аноним 31/01/25 Птн 11:38:18 #180 №1035461 
Ну вот и всё, не будет 5090. Даже пендосы не могут купить её. А в 5090D производительность в куде порезали наглухо. Искать 48-гиговые перепаи 4090 теперь?
Аноним 31/01/25 Птн 11:39:48 #181 №1035462 
>>1035433
>какой именно ты пробовал?
https://huggingface.co/RefalMachine/RuadaptQwen2.5-32B-Pro-Beta-GGUF

>>1035433
>Q4_0
Легаси кванты в кобольде никогда не ломались, а к-кванты периодически да. Хотя вот те что делаются через gguf-my-repo те у меня всегда норм работали, а вот когда у других скачивал, те иногда оказывались шизанутыми.

>>1035457
>Походу в 12б реально нет смысла
При рп на английском языке.

На русском всё же, как это не прискорбно, нормально общаются только прошедшие полировку русским датасетом - сайга и руадапт. Остальное - может, но лучше не надо XD

>>1035461
>Даже пендосы не могут купить её
Directed by Robert B. Weide
Аноним 31/01/25 Птн 11:51:39 #182 №1035465 
>>1035407

Чел, сайгу обсирали потому что она нам известна с 23 года и это всегда была полусломанная при этом невероятно соевая модель. Кроме того, сайга маленькая, половина треда на модели ниже 30b смотрит с улыбкой.
Аноним 31/01/25 Птн 11:59:05 #183 №1035467 
>>1035465
Добавлю, что в реальности некоторые (включая меня) решались таки попробовать 12б сайгу, и она оказывалась калом. Даже на той тестовой площадке с бредовыми промптами Гусева видно, что сайга не очень, мягко говоря. Если там новая версия сейчас, то хз, как она, но у старой русский был чуть ли не хуже, чем у немомикса без ру датасетов. Плюс-минус затащили только мержи.
мимо другой анон
Аноним 31/01/25 Птн 12:05:21 #184 №1035476 
>>1035373

Дистилл диксика ты не с его пресетом использовал, я прав? И на диалоге где уже была история сообщений? Потому что его дефолтное поведение - срать блоками <think> на английском/китайском, это заложено в модель. На готовой истории он может подражать уже написанному тексту.
Попробуй на новом диалоге без истории.
Аноним 31/01/25 Птн 12:12:56 #185 №1035490 
>>1035465
>соевая модель
чел, зацензуренным был вихрь а не сайгак
Аноним 31/01/25 Птн 12:21:11 #186 №1035497 
image.png
image.png
>>1035459
Тебе в первую очередь интересен 12vh разъем.
Аноним 31/01/25 Птн 12:24:41 #187 №1035499 
>>1035476
Нет, на новой карточке, с пресетом chatml, в таверне вроде нет пресета под квен, хотя давно не обновлял её.

>>1035440
>файнтьюн на РП/фанфикшн
А на Квен вообще есть рп-тюны?
Аноним 31/01/25 Птн 12:27:27 #188 №1035501 
>>1035499

Этот пресет только в staging добавили.
Аноним 31/01/25 Птн 12:33:51 #189 №1035512 
>>1035490

Кому ты рассказываешь, я каждую сайгу кроме последней щупал начиная с первой, каждая отказывалась жесть генерировать.
Аноним 31/01/25 Птн 12:35:22 #190 №1035516 
>>1035457
> Цидония в 3 кванте
Защо ты так с моей любимой девочкой ? По что ты лоботомита мучаешь, ирод ?
Аноним 31/01/25 Птн 12:41:08 #191 №1035528 
1371902753783.jpg
>>1035516
>>1035457
>Цидония

На русском правильно Кидония.
Аноним 31/01/25 Птн 12:44:25 #192 №1035534 
IMG3699.jpeg
>>1035528
Чтоб тебя слопом переехало
Аноним 31/01/25 Птн 12:45:44 #193 №1035538 
>>1035499
>А на Квен вообще есть рп-тюны?

EVA
https://huggingface.co/bartowski/EVA-Qwen2.5-32B-v0.2-GGUF
Аноним 31/01/25 Птн 12:47:08 #194 №1035539 
15361733521720.png
>>1035534

Причина баха?
https://ru.wikipedia.org/wiki/Кидония_(Марс)
Аноним 31/01/25 Птн 12:50:14 #195 №1035542 
>>1035457
Никогда не экономил, beQuiet 850, Montech 1000.

Julongfengbao LX1800 =D

>>1035465
Тем не менее, последняя версия была хороша, вон, выше даже хвалят, но люди боялись поверить, чисто по инерции хейтили. =)

>>1035499
Почти нет, потому что он сильно цензуренный местами. Квен — отлично подходит для работы внутри компании. Лучший. Но вне своего спектра задач он такое себе.

Ну и плюс, если ты юзал дистилл без синкинга, то ты шо, дурак шо ли? =)
Вся суть в том, что в начале модель рассуждает, а потом дает ответ.
Очевидно, что ей нужен свой темплейт и дать возможность подумать над ответом. Там она может показать класс, возможно.
А иначе — это буквально попытка забивать гвозди микроскопом и «ниче так, увесистая модель!» =)

Я видел гениев, которые YuE музыкальную модель загоняли в llama.cpp и такие «а че мне консоль музыку не играет?»
Тут, конечно, не та ситуация, но суть та же. Буквально некорректное применение инструмента (и не под его задачу), это дает какой-то результат, но вовсе не тот, что хотелось бы.

Ваще, я щас уже оффтоплю, но поясню.

Я беру Qwen2.5-VL-3b, кидаю ему скрин задачки по матанализу и прошу перевести в LaTeX.
Потом кидаю полученный код в R1-distill-Qwen-32b-Q8_0 (потому что могу с 50к контекста), и получаю полное и корректное решение.
Gemma или Nemo так могут? Полагаю, вряд ли.
А теперь я захожу в чат и пишу «ты — рассказчик, описываешь фэнтези мир, продумываешь сюжет заранее и надолго…», и рпшу в диалоге.
Квен так сможет? Конечно, какой-то экспериенс он даст. Будет обдумывать ответы, строить сюжет заранее, да. Но текст напишет сухой, выражения подберет так себе, и, я подозреваю, сюжет будет кратко-академическим. =)
А Гемма с Немо бахнут попсовую, но интересную жвачку.

В общем, надеюсь ты уловил мою мысль. Всему свое место.
Квен почти никто не тюнит, потому что много работы ради одного лишь «ну он круто рассуждает, умный и логичный». Клево, но хотелось бы иметь креативность, богатый литературный язык, отсутствие цензуры и прочие ништяки. А имеем решение матана. =)

Если кто-то сможет собрать датасет и затюнить так, чтобы он писал красиво — думаю, это будет некст левел экспериенс в РП, конечно. Но вряд ли.
Аноним 31/01/25 Птн 12:51:14 #196 №1035543 
>>1035528
Надеюсь, ты называешь смартфоны «шиёми», а фирму фотошопа «адобе». =)

>>1035538
И как оно?
Аноним 31/01/25 Птн 12:53:57 #197 №1035545 
По какой причине немо мистраль начать срать одним и тем же сообщением или просто выдавать 1-2 слова без форматирования? Иногда приходится 5-6 раз свайпнуть или переписать прошлое сообщение, чтобы он начал обратно адекватно себя вести.
Аноним 31/01/25 Птн 12:56:03 #198 №1035549 
>>1035539
> Причина баха?
Будь осторожен, ты ходишь по охуенно тонкому blush, и когда blush треснет, то покачивая бедрами под ним, тебя буду ждать я.
Аноним 31/01/25 Птн 12:57:50 #199 №1035550 
>>1035543
>Надеюсь, ты называешь смартфоны «шиёми», а фирму фотошопа «адобе».

Чел, тут географический/исторический топоним, в оригинальном греческом Κῠδωνία, между прочим.
Аноним 31/01/25 Птн 12:58:14 #200 №1035551 
>>1035549

Кидонияшиз, спок.
Аноним 31/01/25 Птн 13:00:36 #201 №1035557 
Бля, держите байку, короче.

Как вы смотрите на скраппер на PHP? Вот это глаза у вас огромные теперь…
Спросил я Deepseek-R1 БЕЗ интернета, как можно реализовать.
И начал читать его мысли.
Вообще крайне рекомендую читать рассуждения моделей, потому что они зачастую очень неплохи и помогают учиться корректно находить решения своих задач. Тренируют мозг, короче. Как верные, так и неверные, которые ты смог раскритиковать и опровергнуть.
Ну так вот, он начал с мыслей «есть ли скраперы на PHP? Вряд ли!..» и в итоге посоветовал обращаться к питоновским либам. =D
Меня так умиляет, как они рассуждают. Литералли мем «а что если?.. да ну, хуйня какая-то!» Какие в пизду скрапперы на пыхе. =D

С активным интернетом он нагуглил пару библиотек и описал их.
Аноним 31/01/25 Птн 13:03:26 #202 №1035561 
>>1035551
О ! 6B в 1Q, не признал тебя сразу.
Аноним 31/01/25 Птн 13:03:29 #203 №1035562 
>>1035550
А вы жопочтец? =)
Адобе крик — это географический/исторический топоним, название ручья, в честь которого назвали фирму.

Я в принципе отсылаюсь на то, что произношение на русском не имеет отношения к тому, как произносили в оригинале две тыщи лет назад.
И Ксяёми/Сяоми называется корректно «Шиёми», и Эдоуб называется «Адобе», но почему-то фанаты «произносить верно» кладут хуй на такую вопиющую несправедливость.

Так что, если же хочется называть Кидония — то будьте добры заодно и Шиёми с Адобе. =) Если уж называем корректно, то все названия, так ведь?
Аноним 31/01/25 Птн 13:07:16 #204 №1035566 
>>1035545
Скажем так, у мистралей есть некоторые особенности о которых по какой то блять неведомой причине ценители миксов по мистралям не любят говорить.
Два друга Лупа и Пупа будут с тобой перманентно.
Аноним 31/01/25 Птн 13:17:18 #205 №1035573 
>>1035562

Почему двухтысячелетней давности-то, регион на марсе назван в 20 веке.
Шиёми не географический термин, и у нее нет официального перевода на русский, даже статья в вики на русском не транслитерирует название, так что нет.
А ручей в честь которого названа adobe на русском называется Адоб-крик, так что ты и тут кругом неправ, все как раз правильно его называют.
https://tm.2markers.com/1244776
Аноним 31/01/25 Птн 13:23:38 #206 №1035582 
>>1035516
Я и в 6 кванте гонял, отличий почти нет
Аноним 31/01/25 Птн 13:28:45 #207 №1035588 
>>1035432
красавчик, вторая интересная (pretender) хотя порой странная (ну, неудивительно если учитывать ЧТО туда входит)
Аноним 31/01/25 Птн 13:31:19 #208 №1035592 
>>1035097
Бампирую.
Аноним 31/01/25 Птн 13:34:12 #209 №1035594 
>>1035592
Он же говорит тебе be, а не been, ну хоть в переводчик загони, это разные времена.
Аноним 31/01/25 Птн 13:35:39 #210 №1035595 
>>1035594
Конструкция неправильно сделана.
Аноним 31/01/25 Птн 14:24:06 #211 №1035662 
>>1035345
Ало блять я ебнусь если ещё раз прочитаю шиверс чей то спайн
Аноним 31/01/25 Птн 14:30:14 #212 №1035669 
>>1035662
Съешь с полки blush.
Аноним 31/01/25 Птн 14:31:42 #213 №1035671 
5090 просто нет, на ебей по $6200, дижожтс надеюсь кожаный пидрилкин в норм количестве сделает
Аноним 31/01/25 Птн 14:33:24 #214 №1035672 
>>1035373
> Все модели в k квантах говно
> Легаси q4_0 хорошие
Ебала жора-юзеров представили просто?
>>1035459
Чифкок поларис про, дешево, сердито, тихо. Хотя уже ни разу не дешево.
Если тебе для рига - бери "фирменные" майнерские, у них с элементной базой все внезапно прилично и адекватное охлаждение. Но вариант не для стояния рядом, под нагрузкой продувает себя на все деньги и шумноват.
>>1035457
Полагаю, стоит подождать дериативов нового мистраля, есть шанс что тут будет еще лучше. Когда разница по весам в 2 раза - это будет и ощущаться иначе, а q3 иногда еще всполне живой.
>>1035542
> Gemma или Nemo так могут?
Еще первая ллама могла, по крайней мере пыталась. С типичными задачаками они в целом справляются, а в чем-то передовом и новом - по крайней мере дистилляты сосут бибу, проверено.
>>1035671
Чтож, придется подождать.
Аноним 31/01/25 Птн 14:34:48 #215 №1035675 
Поясните за world info, как с ним грамотно работать? А то уже сил моих больше нет. Я туда вписываю второстепенных персонажей, ЛЛМ блядь всё путает постоянно, описания персонажей объединят или вообще теряет все время. И у ЛЛМ реально своя версия информации о мире. У меня допустим там 7 позиций, у неё 19. Там например не только персонажи, но и локации всякие, правила. Я прошу проиндексировать, мне пишут мол заебись, но по факту нифига всё по-старому остается. Я в ахуе, что делать? Как подружить ЛЛМ с world info чтоб не было отсебятины и перепутанных описаний персонажей.
Аноним 31/01/25 Птн 14:35:25 #216 №1035676 
>>1035512
>жесть генерировать
Чувааак, вот специально ради тебя скачал.
https://litter.catbox.moe/awrgvl.zip - любимая забава испанской инквизиции
Главное - правильно попросить.
Или что для тебя "жесть"?
Аноним 31/01/25 Птн 14:41:46 #217 №1035680 
>>1035549
>буду ждать я
страшно, вырубай
Аноним 31/01/25 Птн 14:43:27 #218 №1035683 
https://www.reddit.com/r/LocalLLaMA/comments/1idseqb/deepseek_r1_671b_over_2_toksec_without_gpu_on/
кек
Аноним 31/01/25 Птн 14:49:14 #219 №1035692 
>>1035675
>перепутанных описаний
попробуй заключать в псевдо-теги как здесь
https://characterhub.org/characters/aleteian/storyteller-124d69a2f4aa
Аноним 31/01/25 Птн 14:51:10 #220 №1035693 
>>1035683
>кек
жесть народ пердолится, но чувак смог, уважуха
Аноним 31/01/25 Птн 14:57:11 #221 №1035702 
image
>>1035512
>>1035676
Аноним 31/01/25 Птн 15:22:03 #222 №1035715 
>>1035573
> на русском называется
Только это индейское слово, и приведенный пример «на русском» ровно так же некорректен, как и все остальное. =)
Реально мем про школоту доющая коня. =) Ну ладно, как пожелаешь, псевдо-интеллектуал, не буду убеждать, мое дело сообщить, а дальше хозяин-барин.

>>1035672
> проверено
Ну, вот я проверял, все там норм.
Предполагаю, скилл ишью, или 4 квант или еще какая хуйня (надеюсь, не 8б мерял?:).
Так что, тут ты просто заблуждаешься.
Рекомендую перепроверить. =)

>>1035683
> what about $1.5k for 4x NVMe SSDs
в натуре кек )
У кого есть готовое — за тех рад, конечно…
Аноним 31/01/25 Птн 15:22:47 #223 №1035717 
1599798545174.png
Гои, ебало?
Аноним 31/01/25 Птн 15:23:55 #224 №1035722 
1688787218607.png
>>1035676
классика от анона
Аноним 31/01/25 Птн 15:33:15 #225 №1035730 
>>1035715
> Предполагаю, скилл ишью
Верно предполагаешь. Нужно быть способным во что-то сложнее копирования дефолтных задач из сборников и понимать предмет, одновременно с обладанием навыками работы с ллм. А глупому скуфидону любой копиум покажется мессией, все закономерно.
>>1035717
Сравнивали также по правильной методике как раньше с H100?
Аноним 31/01/25 Птн 15:36:28 #226 №1035732 
image
>>1035722
Куда тебя ебать?
https://characterhub.org/characters/Anonymous/eleanora-b46ebbc94e36
(карточка не моя)

>>1035722
Нету там ничего, я первым делом проверил.
Если (разумно) опасаешься скачивать, то я закинул содержимое архива (один текстовый файл) на пиксель
https://pixeldrain.com/u/xRtyxHwh
Аноним 31/01/25 Птн 15:46:25 #227 №1035737 
>>1035730
Красиво.
Но ты же понимаешь, что скилл ишью у тебя. =)
Ладно, нюхай свой копиум, что тебе еще остается.
Чем больше людей, которые не шарят, — тем меньше конкуренции. =)
Аноним 31/01/25 Птн 15:48:19 #228 №1035738 
1630506704139.jpg
>>1035737
>конкуренция хую в руке
Аноним 31/01/25 Птн 15:49:18 #229 №1035740 
>>1035717
Ещё бы в паре с картами куртки работало это.
Аноним 31/01/25 Птн 15:58:14 #230 №1035744 
ВСем привет, я из /po ,сказали тут лучше помогут, короче пишу статью о китайских ИИ моделях для крупного авторитетного сми, можете помочь покидать ссылки о том почему не стоит им доверять, что заявляемая оупен сорсность их ложь, что падение акций америкаснких ии комапний это мелочь не важная и объясняется почему, что они созданы с поддержкой китайского режима и если есть еще какие-то важные моменты чтобы тоже упонмяуть о них?
Аноним 31/01/25 Птн 16:02:17 #231 №1035746 
>>1035744
Кто жпт к треду подключил?
Аноним 31/01/25 Птн 16:07:10 #232 №1035750 
>>1035744

Это толстота? Похоже на толстоту. Ладно, отвечу.

>почему не стоит им доверять

Любой локальной модели, не только дипсику, можно доверять априори. Если ты запускаешь её со своего компа, выключив интернет на всякий случай(сама модель не настучит, но браузер или фронт или в чем ты в чем ты там её запускаешь, может). В любом случае сама по себе модель априори безопасна.

>заявляемая оупен сорсность их ложь

В смысле ложь? А что мы тут запускаем в треде, лол?

>падение акций америкаснких ии комапний это мелочь не важная

Это мелочь, потому что это говно и так было раздуто и ждало малейший повод пойти вниз. Да, Опен АИ может и наебнется, но оно бы и так наебнулось.

>созданы с поддержкой китайского режима

Ты точно в серьезный журнал это писать собрался?
Аноним 31/01/25 Птн 16:07:13 #233 №1035751 
>>1035737
Полагаю тебе стоит охладить траханье и пойти еще в майнерских паскалях поковыряться. Ты же таксуешь всем этим занимаешься просто для души, в перерывах между масштабными внедрениями.
Аноним 31/01/25 Птн 16:09:28 #234 №1035754 
Какие есть русскоязычные, без цензуры модели для 6 ГБ?
Аноним 31/01/25 Птн 16:12:04 #235 №1035759 
>>1035750
> почему не стоит им доверять
Он про китайцев, а не про модель, додик. Дальше не читал.
Аноним 31/01/25 Птн 16:14:35 #236 №1035764 
>>1035759
>о китайских ИИ моделях для крупного авторитетного сми, можете помочь покидать ссылки о том почему не стоит им доверять
>китайских ИИ моделях
>почему не стоит им доверять

Он ясно именно про китайские модели высказался, додик, глазки открой. Или для тебя русский язык не родной?
Аноним 31/01/25 Птн 16:15:51 #237 №1035765 
Так и живем. Сел кумить с карточкой мать-дочь, в итоге несколько часов душевно обедал с ними, играл в мяч и прятки. И отвечал на бесконечные вопросы обо всем подряд от мелкой занозы в заднице.
Аноним 31/01/25 Птн 16:16:40 #238 №1035767 
>>1035764
попробуй включить голову и подумать для кого он это пишет
Аноним 31/01/25 Птн 16:18:51 #239 №1035771 
>>1035744
сэм, ну ты чего...
Аноним 31/01/25 Птн 16:22:37 #240 №1035775 
>>1035765

Стареешь, видимо. Остепеняться пора, тебе организм сам намекает.
Аноним 31/01/25 Птн 16:28:00 #241 №1035781 
>>1035767

Я в мысли парашников не лезу, чтобы не зашквариться о чан с говном, который у них вместо мозгов, если ты понял своего косноязычного парашного собрата лучше - сам ему и отвечай.
Аноним 31/01/25 Птн 16:29:44 #242 №1035785 
>>1035781
мощный подрыв, больше не умничай в треде и попка будет целой)
Аноним 31/01/25 Птн 16:34:38 #243 №1035788 
>>1035785
>>1035781
>>1035767
>>1035764
>>1035759
>>1035750
Нахуй вы вообще на это отвечаете и срётесь? Это очевидный шизобайт, и попытка выебнуться элитарность. Журналист из крупного, авторитено сми собирает инфу для статьи на двачу. Юорда успешных людей, хули.
Аноним 31/01/25 Птн 16:55:06 #244 №1035800 
>>1035744
Поорал, найс байт!

>>1035750
Ну зочем ты кормишь тролля! =D

Давай я тебе отвечу. =)

> можно доверять априори
Нельзя, ведь цензура искажает факты!
То ли дела светлая цензура пиндостана!.. =D

> В смысле ложь?
Они не выложили датасеты и методику обучения — значит это не open source, а вполне себе closed source. Тебе дали покатать саму модельку, да, но источник неясен.
За это, кстати, критиковали Лламу, что она нихуя не опенсорс. Но это все игра слов, отчасти.

> Это мелочь, потому что это говно и так было раздуто и ждало малейший повод пойти вниз.
Ошибаешься. Дело не в этом, просто финансисты дебилы и не понимают, что «дешевизна» китайской модели обусловлена отсутствием экспериментов и просто следованием по проторенной дорожке, а атомный волчара Сэм, как мощны его лапищи, эту дорогу проложил грудью (майкрософт) и десятками миллиардов долларов.
Как итоге — видеокарты все еще нужны, без них эксперименты будут длиться десятилетиями, а не месяцами.

> Ты точно в серьезный журнал это писать собрался?
Да ну очевидно же троллит. =)

>>1035751
Извини, что правда задела тебя за живое, но ты какую-то хуйню высрал. Чел выше хотя бы просто скинул боевую картинку и просто высрал, хотя бы не выглядит обиженкой. =)

>>1035765
Да я смотрю, ты тоже дед уже.

>>1035788
Ставлю нихуя на то, что один из них — это автор, продолжает байтить.
А может и ты.
А может и я.
Аноним 31/01/25 Птн 17:00:21 #245 №1035810 
>>1035800
Орнул с полотна шизика, опять дамбу прорвало.
Аноним 31/01/25 Птн 17:13:27 #246 №1035819 
>>1035754
лама аналигнед
Аноним 31/01/25 Птн 17:16:54 #247 №1035823 
>>1035765
была альтернативная история, кум карточка где надо похитить школьницу, но вместо этого успешно довёл до дома, а на следующий день она пришла с мамой у которой уже год после развода не было хорошего траха, и весело провели время
Аноним 31/01/25 Птн 17:35:12 #248 №1035837 
>>1035800
>Ставлю нихуя на то, что один из них — это автор, продолжает байтить.
А может ты вообще нейронка?
Аноним 31/01/25 Птн 17:39:04 #249 №1035843 
>>1035800
>Да я смотрю, ты тоже дед уже.
Я просто не хотел "я тебя ебу - ты меня ебешь" исхода и все делал ненавязчиво, и тут понеслось.
Аноним 31/01/25 Птн 17:44:59 #250 №1035851 
image.png
Нани? Почему при очередном запуске кобольда, вся моделька выгрузилась в динам. память, забив на основную память видяхи?
Аноним 31/01/25 Птн 17:48:06 #251 №1035854 
>>1035851
Перезапустил и все стало нормально. Но все равно херня какая то.
Аноним 31/01/25 Птн 17:54:26 #252 №1035865 
>>1035810
Это больное животное считает тред своим, а любой пост — личным сообщением.
Аноним 31/01/25 Птн 17:58:40 #253 №1035872 
>>1035837
Кто знает…

>>1035843
Не стоит заниматься успокоением, прими себя. ^_^~
Аноним 31/01/25 Птн 18:15:09 #254 №1035902 
>>1035872
Сука, тред симулякрумов, помогите.
Аноним 31/01/25 Птн 18:39:33 #255 №1035935 
>>1035765
Играл как-то старую карточку девушки юзера и её мелкой сестры, где девушка в сорре с юзером, а лолька его хочет. Играли в настолки все вместе, а потом читал мелкой сказки на ночь, с трудом выдумывая какую-то дичь, как будто это я тут нейронка. Неироничное кьют энд фанни - это база.
Аноним 31/01/25 Птн 18:47:52 #256 №1035943 
>>1035935
Я даже сразу понял о ком ты. https://chub.ai/characters/elodia/moriko-and-reina
Аноним 31/01/25 Птн 18:57:04 #257 №1035953 
>>1035765
Я так Озен уже неделю всё выебать никак не решаюсь, слишком хорошо проводим время, не хочу ломать момент.
Аноним 31/01/25 Птн 19:07:24 #258 №1035967 
>>1035775
>Стареешь, видимо. Остепеняться пора, тебе организм сам намекает.
Ты считаешь что прыгать по комнате, крутить хуём как мартышка и пытаться засунуть его в первую попавшуюся дырку - признак юности и силы? Ну выеби розетку в комнате тогда, хули.

Интересная история всегда будет превыше тупых поебушек, запомни это.
Аноним 31/01/25 Птн 19:09:33 #259 №1035970 
>>1035967
>обедал с ними, играл в мяч и прятки
>Интересная история
дриснул в слюни с писателя
Аноним 31/01/25 Птн 19:11:26 #260 №1035972 
>>1035970
Если у тебя весь ролл заключается в написании одного слова в чат, то мне тебя жаль. Даже самые примитивные вещи могут быть описаны приятно, красиво и литературно.
Аноним 31/01/25 Птн 19:15:28 #261 №1035977 
>MistralRP-Noromaid-NSFW-7B-Q5_K_M
Q5_K_M при весе в 5гб, где наеб?
Аноним 31/01/25 Птн 19:17:01 #262 №1035979 
>>1035977
> 7B
Аноним 31/01/25 Птн 19:18:41 #263 №1035985 
>>1035970
А мне и не надо было практически писать, 1-2 фразы, описание моих действий, и история разворачивалась, мать и дочь реагировали и действовали.
Аноним 31/01/25 Птн 19:23:43 #264 №1036003 
>>1035765
Напомнило какую-то кароточку с мамочкой на чубе, с высоким рейтингом и кучей комментов о том что никто не кумил а наоборот душевно общались и обсуждали жизнь.
Удачное сочетание карточка-модель-промт, наслаждайся, не кумом единым же.
>>1035851
По какой-то странной причине оно резервирует там место, но при этом не обращается. Еще больше года назад такое наблюдал, причем если чистого Жору пускать - подобного нет.
Хотя может у тебя и какой-то другой баг.
Аноним 31/01/25 Птн 19:25:01 #265 №1036005 
1.mp4
image
Я только сказал привет и всё. Почему эта шизо-программа высралась только в консоль? Такое вообще норм? Как исправить? Дальше вообще какие-то подземелья пошли, опыт, статы.
Аноним 31/01/25 Птн 19:27:47 #266 №1036017 
>>1036005
>чат без таверны
откуда вы лезете блять
Аноним 31/01/25 Птн 19:33:08 #267 №1036028 
Установил цидонию Q6_L. По советам с прошлого треда. 23 слоя на видеокарту. 5 т/с. Текст на 230 слов сгенерировал за минуту.
Мне так то норм, но по итт критериям насколько всё плохо?
Если я с винду пересяду на дебиан читсый, в скорости я что то получу? Или всё в рамках погрешности?
Аноним 31/01/25 Птн 19:35:58 #268 №1036033 
>>1036028
Почти получилось почувствовать, какая у тебя видеокарта, пока не уходи далеко.
Аноним 31/01/25 Птн 19:39:56 #269 №1036048 
>>1036033
Я думаю мы должны использовать технику глубокого предсказательного анализа.
Сейчас Vanga из под доса запущу.

>>1036028
>5 т/с.
Мне за тебя почувствовать норм или нет ?
Аноним 31/01/25 Птн 19:44:20 #270 №1036063 
>>1036033
>>1036048
4070+ддр5. Запущено на кобальде.
Аноним 31/01/25 Птн 20:12:13 #271 №1036112 
>>1035765
А карточку не скинешь? А то у меня такая же ситуация IRL, лол.
Аноним 31/01/25 Птн 20:14:38 #272 №1036116 
>>1036112
https://chub.ai/characters/Anonymous/oyakodon-seduction-of-mother-and-daughter-e9d5be93c337
Аноним 31/01/25 Птн 20:20:41 #273 №1036127 
123456.mp4
>>1035516
>>1035457
>>1035528
>>1035539
Сукаблядь
Аноним 31/01/25 Птн 20:42:24 #274 №1036166 
>>1036116
>Pronouns: She/Her
>Sexuality: Bisexual
>Age: 10
Вот как это называется?
Аноним 31/01/25 Птн 20:43:40 #275 №1036170 
>>1036166
Это называется чуб, и там чтобы найти хоть чуток нормальную карточку, нужно ебучие авгиевы конюшки перевернуть.
Аноним 31/01/25 Птн 20:59:07 #276 №1036200 
>>1036170
Претензия была к бисексуальности 10 летнего ребёнка а ещё к ебучему произношению, как будто меня ебёт, ши она или зис, ну да ладно.
Аноним 31/01/25 Птн 21:03:29 #277 №1036210 
>>1036200
Ну думаю это скорее было создано для того чтобы она приняла любого в ее семью, ну а о произношениях стоит винить только загнивающий запад
Аноним 31/01/25 Птн 21:30:47 #278 №1036238 
>>1036127
но слово то греческое
Аноним 31/01/25 Птн 22:22:53 #279 №1036296 
>>1036028
Смотри, скорость очень субъективна. Некоторым хватает и 2т/с, некоторым 20т/с мало.
Решай для себя сам.
Аноним 31/01/25 Птн 22:52:47 #280 №1036358 
>>1036296
>некоторым 20т/с мало
Это кому может быть мало? Это практически моментальная генерация, если мразь на юзере не запрашивает 1-2к токенов в ответе обязательно.
Аноним 31/01/25 Птн 22:56:33 #281 №1036362 
>>1036358
Агенты и любая автоматизированная работа, там чем больше тем лучше, а идеально вобще мгновенно.
Захочешь интернет страницу перевести или кинуть на анализ - взвоешь от ожидания даже на 20т/с.
Аноним 31/01/25 Птн 23:06:41 #282 №1036376 
430670.jpg
Меня из общего чата к вам отправили.
Какой поставить дипсик локально? Попробовал трёх:

DeepSeek-R1-Distill-Llama-8B-GGUF/DeepSeek-R1-Distill-Llama-8B-Q4_K_M.gguf - очень быстрый, но пишет как-то невпопад по кодингу (Unity). Часто пишет с ошибками (в тексте), иногда переходит на английские слова и китайские иероглифы.

deepseek-ai.DeepSeek-R1-Distill-Qwen-32B-GGUF/deepseek-ai.DeepSeek-R1-Distill-Qwen-32B.Q4_K_M.gguf - пишет уже более развернуто, адекватно. Но подольше разумеется, минут 5 ждать его ответы.

deepseek-ai.DeepSeek-R1-Distill-Llama-70B-GGUF/deepseek-ai.DeepSeek-R1-Distill-Llama-70B.Q4_K_M-00001-of-00004.gguf - пишет хорошо, почти как и нужно. Но долго капец, минут 15 на ответ и по букве. Подходит для каких-то больших вопросов, где задаешь и идёшь чай пить например.

Вебверсия всем устраивает, разумеется и похуй на конфиденциальность, но сайт лежит очень часто и хочется локальности. Между 32 и 70 есть что-то среднее, чтобы и скорость и ответы по теме? Кто-нибудь тестил ещё?
Запускал через LM Studio в дефолтных настройках, может там че подкрутить можно ещё.
Аноним 31/01/25 Птн 23:08:07 #283 №1036380 
>>1036376
Читай первое сообщение в треде.
Аноним 31/01/25 Птн 23:09:36 #284 №1036381 
>>1036380
Ну а какой дистилят лучше-то? В соседнем треде вебверсию только обсуждают, им локальная нахуй не нужна
Аноним 31/01/25 Птн 23:14:15 #285 №1036390 
>>1036381
Какой больше, тот и лучше, внезапно.
Аноним 31/01/25 Птн 23:20:26 #286 №1036398 
кто-нибудь шарит в llama.cpp server? Я его гоняю с openwebui, и он после ответа продолжает грузить цпу и гпу как будто генерация продолжается. новые запросы не принимает. так что приходится его рестартовать на каждый запрос - работать невозможно. как понять что там не так и что он вообще генерирует?
Аноним 31/01/25 Птн 23:20:37 #287 №1036399 
Чёт не могу понять, какие для руадапта настройки нужны...
Аноним 31/01/25 Птн 23:26:05 #288 №1036406 
>>1036381
Лучше всего то что обычному смертному не нужно. Все что есть мелкое проигрывает существующим моделям.
Аноним 31/01/25 Птн 23:27:58 #289 №1036408 
>>1036398
Опенвебуи может какие то свои левые запросы туда слать, на генерацию названия диалога например
Ну и вобще это поделие только с оллама нормально работает, наверняка с апи лламаспп криво управляется
Аноним 31/01/25 Птн 23:32:13 #290 №1036413 
>>1036381
Лучше тот который ты модешь комфорино запускать. Для кода вобще лучше обычную qwen 2.5 32 coder использовать
Можно и дистилляты, но там сложнее хоть и умнее
От 14b и выше смотри, ниже дистилляты туповаты
Железо в студию, повангуем тебе что стоит пытаться запускать а что нет
Аноним 31/01/25 Птн 23:32:38 #291 №1036414 
image.png
image.png
1 - р1 с вебсайта
2 - локальный, квантизованный от анслота
они практически идентичны

нет смысла дистилы использовать, кроме недостатка озу. просто докупите памяти и будет буквально модель уровня о1 локально
да, медленно пока. новые поколения гпу будут быстрее гонять такое через несколько лет
Аноним 31/01/25 Птн 23:39:40 #292 №1036430 
image.png
то же самое от о3-мини-хай
Аноним 31/01/25 Птн 23:46:12 #293 №1036447 
>>1036414
> практически
Зачем же ты тогда второй раз свайпал? Да и ответы похожи только по структуре из-за длинных размышлений, по содержанию довольно большая разница.
Аноним 31/01/25 Птн 23:55:54 #294 №1036458 
>>1036413
Ладно, я понял короче. Паралельно у дистилята дипсика поспрашивал. Думаю, учитывая что в LM Studio можно модели на ходу переключать, то проще спрашивать всё у 32в и если начнёт тупить спрашивать у 70в уже че дальше то делать.

>>1036414
Анслот это вот этот? Ну такой я хуй запущу, у меня 64гб
https://huggingface.co/unsloth/DeepSeek-R1-GGUF
Аноним 01/02/25 Суб 00:04:51 #295 №1036475 
>>1036414
Вопрос слишком простой, 32B даст тебе ответ примерно как жпт на твоём скрине. А q2 у тебя шизит, аналогию про яблоко приплёл не к месту, русский очень странный. Ещё и генерация целую вечность. Я бы не стал лоботомита такого трогать.
Ты лучше на кодинге тестируй, вот там начнётся реальное шитшоу, когда ты будешь умолять дать тебе 70В дистиляцию вместо лоботомита.
Аноним 01/02/25 Суб 00:12:19 #296 №1036488 
>>1036358
Например если ты используешь сетку не для неспешного порночатика, а для обработки чего-то. Особенно если там цепочка промежуточных результатов, а не короткий зирошот.
>>1036414
> кроме недостатка озу
> 512гб для норм кванта
Ради генерации типичного меганасрал поста раз в пол часа или час обработки контекста, хорошая идея.
Если ужать до минимума - это лоботомит, будет шизофазический словестный понос вместо ответов как на твоем скрине, тут вообще теряется весь смысл.
Аноним 01/02/25 Суб 00:17:05 #297 №1036496 
Сегодня поставил таверну и у меня такая проблема. Пару часов все работало нормально, но потом она начала срать в штаны мощно. В общем когда натыкается на токен с именем моего персонажа(ЛЛМ пишет от моего имени), обрубает дальше стрим, но в консоли ЛЛМ он продолжается, и в итоге получается какой-то рассинхрон что ли, что я не могу больше ничего писать в чат и то что сгенерилось после токена с именем перса не отпраялется в таверну(но все равно генерится). Как эту хуйню фиксить? Как же я намудохался с этой таверной сегодня... Так бы и сидел на кобольде, не знал печали, но там ворлд инфо не пашет практически, а лор буки нужны.
Аноним 01/02/25 Суб 00:24:14 #298 №1036508 
12.png
>>1036496
М ?
Аноним 01/02/25 Суб 00:36:06 #299 №1036516 
urodi.jpg
>>1036508
Там ник перса. Сука уроды, ну вот зачем так делать. Если в таверне отключаю опцию "Names as Stop Strings". То эта ошибка исчезает, но таверна ломается к хуям, и мне больше не дает отправлять текст.
Аноним 01/02/25 Суб 00:39:54 #300 №1036517 
>>1036516
На то она и Silly, не будь к ней строг.
Аноним 01/02/25 Суб 00:45:06 #301 №1036518 
>>1036508

Короче когда эта мразь (СилиТаверн) видит что ЛЛМ за моего персонажа припездывает, она его ответ пидорит. Но разве я сука просил это? Если меня не устроит че там за меня написали, я отредактирую или сгенерю заново. Ну еб твою медь. В карточке персонажа 100 проц ничего такого нет, я с ней долго рпшил, на кобольде.
А если я отключаю опцию пидоринга, то она просто срет в штаны. Возможно там есть еще какие-то опции по этому прошу совета.
В Sequence Breakers всё стандартно по идее ["\n", ":", "\"", "*"]
Аноним 01/02/25 Суб 00:46:12 #302 №1036519 
Ставил кастомный system promt и понять не могу, в чем лажа. В чем траблы, почему у меня ощущение что я в алисе в стране чудес и сейчас я вмазался крокодилом со шляпником.
А там
You're {{char}} — a real person, engaging with another individual. {{user}} - the Narrator is the game master and overseer.

Сука, ненависть, блять.
Аноним 01/02/25 Суб 00:54:52 #303 №1036520 
где можно в таверне посмотреть отправляемые запросы и полученные ответы в сыром виде?
Аноним 01/02/25 Суб 00:56:35 #304 №1036524 
>>1036520
У тебя при запуске кобольта ВСЯ информация выводится.
Аноним 01/02/25 Суб 01:01:00 #305 №1036526 
>>1036518

В общем расперделось кое как, не знаю что произошло, завтра буду дальше тестировать. Остается только вопрос почему контекст каждые 3 сообщения пересчитывается.
Аноним 01/02/25 Суб 01:05:41 #306 №1036530 
>>1036376
Нет, между — нет.
Я использую 32б Q8 в повседневной работе. Лламу я не люблю, а полноценный использую только если совсем дохуя времени, а онлайновый лежит.

Но если у тебе не хватает 32б, а полноценный не впихнуть… то как раз между ними единственный вариант это 70б.

И на текущий момент альтернатив нет совсем. Чтобы те же скоры в тех же размерах.

Сорян.

>>1036414
Вот! Я же говорил! Рад, что люди потихоньку вкатываются и подтверждают.

Я на ллама 65б когда-то сидел с 0,35 токен/сек!
А тут целых 1,5 токен/сек! =D Ух! Вчетверо быстрее!
Правда и текста в десять раз больше…

А вот с рероллом косяк, да. =D

>>1036458
> если начнёт тупить спрашивать у 70в
Если в том же диалоге, то пересчет контекста будет идти заново, нет? По идее это сильно удлинит.
Но если создавать новый диалог, то без вопросов.

>>1036518
> Но разве я сука просил это?
Да, просил, это называется дефолтные настройки. Хули ж не отключил сразу.

> А если я отключаю опцию пидоринга, то она просто срет в штаны.
А вот за это уже можно предъявить.

>>1036519
Гений. =)
Аноним 01/02/25 Суб 01:12:39 #307 №1036534 
Есть ограничение по тегам ответа сверху, но есть ли снизу? Иногда сетка отвечает на мою сложную попытку в рп буквально семью словами по типу *Она кивает и берет вас за руку. Хотя в системном промпте написано подробно все описывать.
Аноним 01/02/25 Суб 01:17:27 #308 №1036538 
>>1036296
Вообще расскажу о своем странно очевидном и тупом открытии. О том что на винде есть приоритет задач (неожиданно, да блять ?)
На окнах, на одном экране, благо монитор позволяет, просто разделил экран на лог кобальта и на таверну. Сижу занимаюсь своими делами и понимаю, что при активном окне кобольта - скорость исполнения увеличивается на процентов 10-15.
Ты сука фотон что ли ?
Аноним 01/02/25 Суб 01:27:16 #309 №1036555 
17371368433030.png
Так блэт! Англюсикознающие, поясняйте. Как это работает?
Аноним 01/02/25 Суб 01:31:22 #310 №1036563 
16722420191-zefirka-club-p-anime-devushki-plachet-1.jpg
Угууу гууу

>>1036555
Ну там же все написано. Буковками сложенными в предложения.
Аноним 01/02/25 Суб 01:36:53 #311 №1036564 
>>1034116 (OP)
Понимаю, что с такими вопросами буду справедливо послан нахуй, но все-же. Ньюфаг в треде.
Имею XEON'о говно с 64 гб оперативы + 12 гб видеопамяти. Хочу поднять LLM (чисто под него). ССД на терабайт забивать можно чем угодно, этот комп специально для этого.

Посоветуйте нормальную относительно актуальную русскоязычную модельку + способную в адекватный NSFW. А то что ставил - все цензурило пздц.
Аноним 01/02/25 Суб 01:45:04 #312 №1036572 
Аноны, у меня такая тема, для стори теллинга скорее чем для кума. Я свожу двух персонажей в таверне, и они сука всегда ебутся. Как сделать так чтобы виртуальная тянка отшила виртуального кунчика? Это вообще реально? Я пвтаюсь какого-никакого реализма добиться, ведь не ебутся же люди при встрече, просто потому что разного пола?
Кунчику я прописал что он хочет присунуть(а какой не хочет?) и все. Пизда.
Аноним 01/02/25 Суб 01:53:57 #313 №1036577 
>>1036572

Кажется этот начал о чем-то догадываться....
Аноним 01/02/25 Суб 01:53:59 #314 №1036578 
>>1036572
Так пропиши тяночке что она ебаться не хочет, сложно?
Аноним 01/02/25 Суб 01:54:05 #315 №1036579 
Спасибо вам большое китойцы, просто спасибо, я вас люблю.

>>1036572
>для стори теллинга скорее чем для кума.
Не выбирать мелкие модели, не использовать ебливые магнумы, писать что ты хочешь чтобы OOC делала, написать действия за персонажа, свайпать.
Аноним 01/02/25 Суб 01:55:11 #316 №1036581 
А контекст то решает нахуй
Смысл от ума модельки если в неё больше 30 сообщений не влезает
Пересел с 6 кванта на 4 увеличив контекст с 12к до 36 и довольно урчу
Аноним 01/02/25 Суб 01:58:22 #317 №1036583 
>>1036538

А теперь включи high priority в настройках кобольда и попробуй снова.
Аноним 01/02/25 Суб 02:02:19 #318 №1036586 
>>1036578
ну так тоже не интересно, нужно чтобы она хотела, но там хуе-мое, она же не шлюха какая, там муж тем есть, что люди подумают вот это все. Короче она должна ломаться и ломаться не только для вида, а чтобы шансы были реально 50/50
Аноним 01/02/25 Суб 02:03:40 #319 №1036587 
>>1035373
>Helene.card.png
Хотел покумить а в итоге сидел восстанавливал отношения и помогал с птсд бедняжке. Что вообще думаете, способны нейронки помочь обучить общению и эмпатии асоциального человека?
Аноним 01/02/25 Суб 02:03:43 #320 №1036588 
>>1036028

По итт критериям 5 т/с это минимальная скорость для более-менее комфортного кума чтения в прямом эфире. Нет, конечно, теслашизики с 1 т/с сейчас скажут им и так норм, а 4090 бояре типа меня могут чисто ради траленка сказать что ниже 30 т/с это вообще не генерация, но объективно без тралинга и коупинга это комфорт начинается именно с 5 т/с.
Аноним 01/02/25 Суб 02:04:58 #321 №1036589 
>>1036588
Хотя бы 10 надо. На 5 я даже английский читаю быстрее.
Аноним 01/02/25 Суб 02:06:18 #322 №1036591 
>>1036534
>но есть ли снизу?
Вроде нет, но можно просто ещё раз нажать кнопку сабмита чтобы модель продолжила свой пост. Это надо отдельно включить в настройках.
Аноним 01/02/25 Суб 02:06:49 #323 №1036592 
>>1036581

Если у тебя модель ниже 20В, то лучше KV квантануть с 16 до 8, но битность самой модели с 6 до 4 не уменьшать.
Аноним 01/02/25 Суб 02:09:25 #324 №1036595 
>>1036589

Конечно на 10 приятнее читать, кто бы спорил вообще.
Речь о минимальной скорости когда ты можешь в онлайне читать и общаться, ниже 5 т/с это в любом случае будет выглядеть что ты написал сообщение и переключил вкладку в ожидании пока там ответ сгенерируется.
Аноним 01/02/25 Суб 02:13:31 #325 №1036598 
>>1036588
>4090
>боярин
Ой не скажи. Ой не скажи. Тут в тредике есть настоящие бояре.
Аноним 01/02/25 Суб 02:15:49 #326 №1036603 
image.png
>>1036530
реролл там потому что первый раз ллама.цпп сервер забажил
Аноним 01/02/25 Суб 02:18:27 #327 №1036608 
Кто бы что ни говорил а скачёк на квант выше всегда ощущается как улучшение на 30-40% и разница между 6 и 8 квантом точно заметна
Аноним 01/02/25 Суб 02:20:14 #328 №1036609 
>>1036586
> нужно чтобы она хотела
Так она и хочет, видит что такой мужчина ее добивается и замотивирован и не против. Плюс к тому у всяких файнтюненых моделей большой байас к согласию.
>>1036608
А когда на 16 бит перейдешь - так вообще радугой кончать будешь.
Аноним 01/02/25 Суб 02:20:32 #329 №1036610 
>>1036564
сайга анлишед
Аноним 01/02/25 Суб 02:21:37 #330 №1036611 
>>1036564
Либо ещё Следопыт, там вроде анон вчера с него норм покумил
Аноним 01/02/25 Суб 02:22:08 #331 №1036612 
>>1036608
Где ? На 8b ? Потому что на 30 я разницы между 6 и 8 не увидел. Но шутка в том, что её еще никто и не доказал.
Аноним 01/02/25 Суб 02:25:22 #332 №1036615 
>>1036612
Да это шизики или жорастрадальцы с поломанными квантами и бэком. Как пошел это хайп с дипкоком, так и набежало упоротых ньюфагов.
Аноним 01/02/25 Суб 02:26:58 #333 №1036618 
>>1036587
>способны нейронки помочь обучить общению и эмпатии асоциального человека
Крайне сомнительно, чтобы получить эффект "come for cum, staying for plot", нужно изначально иметь склонность к эмпатии.

И да, Елена стоит того =)
Аноним 01/02/25 Суб 02:28:19 #334 №1036620 
>>1036610
>>1036611
Пасибо анончики. Обладаю пока что 3060 12гб. Пока что поставил NekoMix-12B.Q8_0. Вроде даже средненько, но результат имеет.
Аноним 01/02/25 Суб 02:36:59 #335 №1036631 
>>1036620
>Обладаю 3060 12гб
>Поставил 12B
>Поставил васяномердж
Кто-нибудь знает что это за болезнь?
Аноним 01/02/25 Суб 02:40:30 #336 №1036633 
>>1036631
Нуфажество. Я вообще не ебу за кванты, биты что в моих спеках актуально или нет. Поэтому и спрашиваю в треде.
Аноним 01/02/25 Суб 02:40:39 #337 №1036634 
>>1036631
Всем внимание, в треде ИРОНИЧНЫЙ.
Ведь 12Гб это так много. Можно сразу мистраль лардж ебашить, а на оперативу повесить гемму.
Аноним 01/02/25 Суб 02:45:17 #338 №1036636 
>>1036358
Thought about image explanation for 8 секунд
По сути, авторы поста нашли способ запускать большую LLM-модель (67млрд параметров) локально на обычном CPU без серьёзной загрузки видеокарты. Ключевая идея в том, чтобы не загружать все веса модели целиком в оперативную память или VRAM, а использовать mmap и работать «на лету» с файлами, лежащими на NVMe SSD.

Как это работает детально:

mmap вместо полного чтения в память
Обычно при запуске больших моделей (в том же llama.cpp) программа либо полностью читает файлы с весами в RAM, либо загружает их в видеопамять (если работает с GPU). Тут же применяется подход, когда llama.cpp по умолчанию делает mmap() — то есть «проецирует» файл на диске в адресное пространство программы. При mmap нужные куски данных (страницы) грузятся непосредственно в память по запросу, а не заранее все разом.

ОС кэширует данные
Сами файлы находятся на очень быстром NVMe SSD. Когда модель вычисляет очередной токен, она обращается к нужным фрагментам весов, и операционная система подтягивает их с диска, параллельно сохраняя часто используемые куски в RAM как кэш.
В итоге, вместо жёсткого требования иметь, допустим, все 100+ГБ (в случае 67B модели в float16) в памяти, модель берёт только нужные «страницы» весов. Памяти требуется заметно меньше, а скорость работы определяется тем, насколько быстро SSD может отдавать данные и как эффективно ОС их кэширует.

Хранение k/v-кэша в памяти
Ещё один момент — в оперативной памяти реально лежит, в основном, k/v-кэш (то есть ключи и значения для текущих токенов, нужные во время self-attention), и какие-то технические буферы. Остальные гигабайты весов при этом фактически не «разворачиваются» в RAM постоянно.

Динамический квант (quant) для весов
Они упоминают «dynamic quant» вроде DeepSeek-R1-UD-Q2_K_XL: это метод сжатия (квантизации) модели, где веса сжаты в более низкую битность. Это ещё уменьшает объём, который надо держать и обрабатывать, хоть и с какой-то потерей точности. Зато позволяет работать на более слабом железе.

Выходная производительность
Автор пишет, что выходит порядка 1–2 токенов в секунду на контексте 2к–16к, причём при наличии 96ГБ RAM (плюс ещё 24ГБ VRAM, но фактически GPU «простаивает»). Bottleneck получается скорее в пропускной способности NVMe SSD, чем в оперативке или в мощностях CPU/GPU.
Утилитарный плюс — потребление энергии и нагрев подсистемы минимальны, потому что видеокарта почти не включается и процессор тоже не загружен на 100%.

Расширяемый «виртуальный объём памяти»
В конце автор упоминает идею покупать не дорогую видеокарту, а поставить массив из NVMe SSD, получается своего рода «дёшево и сердито»: много «виртуальной VRAM» на быстрых дисках, которых достаточно для хранения (и стриминга) крупных моделей при приемлемых скоростях.

Итоговая идея: вместо того чтобы полностью грузить огромные веса модели (десятки гигабайт) в системную память или VRAM, используется механизм «ленивого» чтения с NVMe, а ОС агрессивно кэширует нужные куски в RAM. Так можно запускать даже 67B-модель на домашних компьютерах без гигантских требований к видеокарте и при умеренном объёме оперативки (но желательно очень быстром SSD). Конечно, скорость будет ниже, чем при полноценной загрузке в GPU, но для многих задач и 1–2токена/сек может быть достаточно.
Аноним 01/02/25 Суб 02:52:04 #339 №1036638 
>>1036633
12 гб уже позволяет гонять 27b-32b с частичной выгрузкой на терпимых скоростях ~3.5 т/с. 24b пойдет бодрее ~7.5 т/c.

Ставь что-то из этого:
-Qwen-2.5 32b
-Gemma-2 27b
-Mistral-Small-2501 24b

Квант либо Q4_K_M либо Q4_K_L. Только ванильные модели, никаких ёбаных шизомиксов. И будет тебе счастье. Скорость от 8b-14b не стоит того чтобы жрать говно, поверь.

>>1036634
Всем внимание, в треде ГИПЕРТРОФИРУЮЩИЙ
Ведь между мелкопарашей и огромными моделями не существует ничего промежуточного
Аноним 01/02/25 Суб 02:55:37 #340 №1036641 
>>1036638
>никаких ёбаных шизомиксов.
Но ведь справедливо от части. Те же миксы мистраля очень даже не плохи.
Давай будем честны, если для работы нужны оригиналы, для РП- ну тут уже нужно тягать одеяло, а вот для того, для чего тут наверное половина треда сидит как раз и нужны шизомиксы.
Аноним 01/02/25 Суб 02:58:33 #341 №1036644 
>>1036638
Спасибо за уточнение анончик. Попробую тогда их накатить и посмотреть.
Аноним 01/02/25 Суб 03:01:52 #342 №1036647 
Laguha.png
Ага, спалилась лягушатница. То то мистралеподелия постоянно лапки поднимают и сдаются.
Аноним 01/02/25 Суб 03:24:29 #343 №1036664 
>>1036638
> терпимых скоростях ~3.5 т/с. 24b пойдет бодрее ~7.5 т/c.
про контекст ты конечно умолчал
Аноним 01/02/25 Суб 03:32:49 #344 №1036667 
>>1036644
От чела выше прям рубрика "Вредные советы". Не надо так.

Ну, не то чтобы прям вредные, но в рп на английском тебе нужен Пантеон, Цидония, или их мерж от местного анона.

В русский могут мержи мистраля 12 (ссылки в шапке) или руадапт квен, но на 12 врум карточке с ним будет тяжко, так что только мистрали.
Аноним 01/02/25 Суб 03:36:46 #345 №1036668 
>>1036667
>Пантеон, Цидония
Вот я хоть и люблю цидоньку, но тюны мистралей это прям для тех кто знает чего хочет. Потому что чтобы не разъебать монитор от их лупов, нужно понимать что тебя ждет и как с ними бороться. А это вообще не очевидно.
Аноним 01/02/25 Суб 03:40:36 #346 №1036670 
>>1036668
>тюны мистралей
А что кроме них есть 12Б?
Аноним 01/02/25 Суб 03:44:09 #347 №1036671 
>>1036668
>А это вообще не очевидно
Вообще-то элементарно, Ватсон, shit in - shit out.
Не лень с ответами сам, и не ленись поправлять модель.
И будет тебе счастливое приключение... или не очень, тут уж от карточки и тюна зависит.
Аноним 01/02/25 Суб 03:45:41 #348 №1036672 
>>1036670
А нихуя и нет, лол. Либо лоботомированные кванты старших моделей, либо мелкоговняшки, ну или мистраль. Увы, она действительно топ среди мелких.
Аноним 01/02/25 Суб 03:47:33 #349 №1036673 
>>1036671
Ну так это прям для тех кто знает чего хочет. Потому что чтобы не разъебать монитор от их лупов, нужно понимать что тебя ждет и как с ними бороться. А это вообще не очевидно.
Аноним 01/02/25 Суб 03:50:54 #350 №1036675 
>>1036673
>Ну так это прям для тех кто знает чего хочет
Не знают только свидетели карго-культа для которые ллмки - ИИ, скайнет, 5G, магия-шмагия и камлание жуткое.
Аноним 01/02/25 Суб 03:52:52 #351 №1036676 
>>1036675
Ну именно поэтому {user} это прям для тех кто знает чего хочет. Потому что чтобы не разъебать монитор от их лупов, нужно понимать что тебя ждет и как с ними бороться. А это вообще не очевидно.
Аноним 01/02/25 Суб 03:54:20 #352 №1036678 
>>1036676
Мы поняли суть перфоманса. Мы поняли суть перфоманса. Мы поняли суть перфоманса. Мы
Аноним 01/02/25 Суб 03:55:55 #353 №1036679 
>>1036676
>>1036678
Господи, была бы возможность бить морды через TCP/IP...
Аноним 01/02/25 Суб 04:04:35 #354 №1036683 
IMG4099.jpeg
>>1036679
Жаль что такой возможности нет
Аноним 01/02/25 Суб 04:06:35 #355 №1036684 
>>1036641
Я бы наверное так сказал: для работы, РП и сторителлинга - однозначно ванильки. Для ерп - спорно, ту же гемму и мистраль всякими хитростями вполне можно сделать хорни. Тут я всё еще за оригиналы. Но если цель чисто подрочить и ничего более - то да, тут шизомиксы в своем сочном описании ебли вне конкуренции.

Вот только такое издевательство над моделью не приводит ни к чему хорошему, ее логика ломается, она начинает выдавать шизу на ровном месте, забывает что было несколько сообщений назад. Двойные-тройные трусы и всякие подобные приколы.

>>1036664
Квен и гемма на 8к контекста при полностью забитом контексте выдают ~2.5 т/с. Мистраль при 16к контекста, полностью забитом, падает до 4 т/с. Всё ещё приемлемо.

>>1036667
Он вроде явно дал понять, что ему нужны модельки умеющие в русик. Именно такие модели ему и предложил.
>В русский могут мержи мистраля 12 (ссылки в шапке)
Нет, не умеют.
>руадапт квен
Точно так же, как и ванильный квен. Чтож вас, аноны, так тянет-то к васяноподелиям? Звер-сд уже установили?

---------------------------------------------

Бтв основной мой посыл в том, что имея 12гб гпу можно не жрать говно, а уже щупать что-то нормальное, пусть и не так быстро. Я давно в этих тредах и еще ни разу не видел человека, который попробовал бы большую модель, а потом перешел с нее обратно на мелочь. Порпшив с условной геммой 27b, чел уже никогда не вернется на 12b, даже если разница в скорости будет в десять раз.

И то же касается шизомиксов, вот сколько там "b" стоит - это можно смело делить на три. Примерно настолько отупляют модельку васянские мержи/файнтьюны. Чисто модельки для слива спермы и ничего более.
Аноним 01/02/25 Суб 04:18:01 #356 №1036687 
>>1036684
>для работы
да, для работы чистые инстракты нужны

>>1036684
>РП и сторителлинга
Уже нет, тут стоковые модели сосут как секретутки.

>>1036684
>Двойные-тройные трусы и всякие подобные приколы.
Мусью застрял во временах моделей на цепях маркова.

>>1036684
>Звер-сд
Вот на Zverя не гони, топовый чел был как и Xatab.

>>1036684
>Именно такие модели ему и предложил.
Которые не умеют в русик, да, жирно, очень жирно.

>>1036684
>что-то нормальное
илита в треде, небось и вкус тренировал, денно и нощно, дабы отделять зёрна от плевел, а агнцев от козлищ
Аноним 01/02/25 Суб 04:37:53 #357 №1036693 
>>1036687
>Мусью застрял во временах моделей на цепях маркова
Вот недавно тестил разрекламированную в тредах СайНемо - все эти проблемы там присутствовали:
Сломанная логика - чек
Двойные трусы - чек
Забывчивость - чек
Модель тупая как пробка, но свою задачу выполняет. Если надо запустить и по фасту подрочить - вот это оно. А для остального - нахуй-нахуй.

>Уже нет, тут стоковые модели сосут как секретутки.
Скил ишью. Учись пользоваться Memory, Author's Note и World Info, ну или их аналогами в таверне, если таверну используешь.

>Вот на Zverя не гони, топовый чел был как и Xatab.
Два чая. Отличные сборки: все "лишнее" удалено, все "нужное" добавлено. А еще темы, нескучные обои, и скрытно устанавливаемое ПО удаленного доступа к твоей пекарне в комплекте Radmin Viewer, гугли. В свое время много шума было.

>илита в треде
Илита тут на четырех теслах запускает 120b модельки. А я обычный анон с древней 12гб видяшкой, лол. Когда не лень, пытаюсь отучить нюфагов жрать говно.
Аноним 01/02/25 Суб 04:45:24 #358 №1036696 
>>1036598

Если ты про обладателей промышленного железа, могущего запустить дипсик не в дистилляте, то это мифические боги вообще говоря, а не какие-то вшивые бояре.
Аноним 01/02/25 Суб 04:45:38 #359 №1036697 
1618809404603.jpg
>>1036684
> для работы
Смотря какой, есть вполне специализированные тюны или крайне узкие базовые модели. А для чего-то специфичного может быть ситуация что без файнтюна не обойтись, или только самые дорогие корпы.
> РП и сторителлинга - однозначно ванильки
Есть базы, которые можно раскачать промтом, или вообще могут сразу прилично повествовать. Есть те, которых зажарили финальным алайнментом настолько, что чего-то приличного получить будет сложно. Существуют приличные тюны и даже миксы (последнее - больше чудесное стечение обстоятельств чем целенаправленно полученный результат, но все же), которые не теряют оригинальную соображалку но при этом умеют в хороший рп.
> Вот только такое издевательство над моделью не приводит ни к чему хорошему
Да, поэтому хороших моделей крайне мало.
> Бтв основной мой посыл в том, что имея 12гб гпу можно не жрать говно
Как бы ни было прискорбно, это тут без вариантов. Или мелкомиксы, или тормознутая херь, в которой нет смысла.
> ни разу не видел человека, который попробовал бы большую модель, а потом перешел с нее обратно на мелочь
Бывают ситуации когда доступна только одна гпу, и тогда вполне катается гемма, командер, квен32, а под пиво в количестве даже 12б и не сильно обламываешься. Но при этом обмазаться выгрузкой в рам и терпеть по 2т/с - даже мысли о таком безумии не приходят.
>>1036687
Бояры надрался что в интерфейсе запутался, и теперь на воспоминания пробрало? Или просто стиль постов выдерживаешь чтобы автоскрытие срабатывало?
(both)
>>1036693
> Илита
> на четырех теслах
Разве что терпеливая
Аноним 01/02/25 Суб 04:56:07 #360 №1036699 
>>1036684
>Я давно в этих тредах и еще ни разу не видел человека, который попробовал бы большую модель, а потом перешел с нее обратно на мелочь.

Да не гони, тут в треде каждый адекватный человек ищет параллельно и самую умную модель, которую может просто запустить наплевав на скорость, и самую умную модель которую может запустить уже с приемлимой скоростью.
Аноним 01/02/25 Суб 05:04:03 #361 №1036705 
>>1036684

Из ванильных моделей ниже 70В без файнтьюнов или хотя бы аблитерейшона в еРП и еблю может наверное только командир. Остальные будут выдавать либо "ты меня ебешь" либо "я не буду это генерировать". Причем если последнее обойти джейлом, то выйдет все равно "ты меня ебешь".
Аноним 01/02/25 Суб 05:22:16 #362 №1036708 
Почему дипсик везде называют 671В моделью, когда он 256х4.6B, а работают из них всего 8х4.6В?
Аноним 01/02/25 Суб 05:31:43 #363 №1036712 
image
>>1036705
>остальные будут выдавать либо "ты меня ебешь"
Ну вот тебе новый ванильный мистраль 24b на самописной карточке в кобольде. Вполне ок, не?
Аноним 01/02/25 Суб 05:47:47 #364 №1036718 
image.png
>>1036712
Это сюжет фильма "Аморальный грабёж"?
Аноним 01/02/25 Суб 06:45:16 #365 №1036731 
Ребят, тупой вопрос, что можно запустить прям на совсем ноутбучном некрожелезе из локальных моделей? это реально?
у меня есть парсер постов из телеги и вк, и хочу скармливать посты в ллм локальную чтобы он уже их распределял по категориям, выдавал краткий отчет по ним и вот такое все. это реально так сделать локально?
Аноним 01/02/25 Суб 06:47:25 #366 №1036733 
Есть одна цидонька. 1.2 Насколько ейный четвертый квант тупее шестого?
Аноним 01/02/25 Суб 07:37:14 #367 №1036778 
>>1036733
Какого ответа ты ждешь? Если математически, то отклонения токенов в сравнении с Q8 в районе 5 процентов, как и у всех около 30b моделей.
Как это по факту повлияет на твой чат объективно оценить невозможно, даже Q8 может заставить свайпать 10 раз подряд, а Q1 сразу выдать нормальное. Так что всех эти советчиков которые "видящие разницу" можешь сразу слать лесом, это плацебо.

По факту если можешь запустить квант повыше, всегда выбирай его. Что касается контекста не гони его сильно выше 20к, это довольно бесполезно т.к модель все равно в основном обращает внимание только на начало и конец, на больших объёмах контекста все что в середине чатов будет лежать мертвым грузом пока ты сам не спросишь.
Аноним 01/02/25 Суб 08:32:21 #368 №1036813 
>>1036668
>и как с ними бороться.
Дак как с лупами и пупами бороться? Сам на мистрале ньюфагом сижу и кроме как переписать сообщения, раздраженно свайпать, теребить температуру и стирать пару сообщений до, не нашел способов для разлупа.
Аноним 01/02/25 Суб 09:03:16 #369 №1036838 
>>1036684
>для работы, РП и сторителлинга - однозначно ванильки

Совсем вами не соглашусь, сударь.

Я тоже так считал, так как юзал клода для РП ранее. Пусть и с цензурой, но он хорош в этом, даже если описывать жесть и графический ужас в стиле DavidAU, но у маленьких моделек другая проблема: они в целом мало знают и не заточены под наши цели. Туда просто напихали всего понемногу — поэтому они вроде как знают всё, но ничем не владеют в совершенстве/на уровне больших коммерческих и закрытых моделей. А модели корпоратов вывозят просто исключительно из-за большого объёма данных.

Поэтому шизомиксы единственный выход для локалок, чтобы они писали как надо: не было излишне позитивного биаса и модель могла в интересные истории. В таком случае можно получить действительно что-то приемлемое и на 12б. А если уж обучать нормально, то тем более.

>имея 12гб гпу можно не жрать говно, а уже щупать что-то нормальное, пусть и не так быстро. Я давно в этих тредах и еще ни разу не видел человека, который попробовал бы большую модель, а потом перешел с нее обратно на мелочь

Я как раз тот человек, который перешёл с малых моделей, потому что меня не устраивала скорость, ибо сидеть на трёх токенах, если не получаешь в 95% случаев охуительный ответ, — это ад. Я как раз гемму скачал, когда вкатывался. Это была моя первая модель. Безусловно, она реально удивляла меня в некоторых моментах находчивостью и креативностью, особенно при описании боев и рассуждений, но не настолько, чтобы я был готов терпеть медленную генерацию.
Аноним 01/02/25 Суб 09:07:51 #370 №1036839 
>>1036731
>прям на совсем ноутбучном некрожелезе
если прям некро, то ничего, а на боярь-ноутах и 32B можно

>>1036731
>распределял по категориям
это и без ллм можно, чисто на регулярках

>>1036731
>выдавал краткий отчет по ним
Ну теоретически можно подрубать по апи, и скармливать текст и просить саммари.
Аноним 01/02/25 Суб 09:08:31 #371 №1036840 
>>1036778
Понял, спасибо. Насчет выбирай повыше, я надеялся, что если я возьму квант, который весь могу запихать в гпу, скорость здорово возрастет, а по факту получилось на 1-2 т/с. (у меня 4060 на 16 гб.)
Аноним 01/02/25 Суб 09:12:31 #372 №1036843 
>>1036813
>Дак как с лупами и пупами бороться?
rep-pen 1.1 - 1.2 / rep-pen range 2048
Следить и недопуЩать - править ответы.
Найти оптимальную температуру, но обычно хватает 1.0 +/- динамическая 0.5
Аноним 01/02/25 Суб 09:14:20 #373 №1036845 
У Яндекса есть какое-то ограничение на свой апи?Его не заебет, если я буду ему запросы отправлять на перевод? И он наверняка привяжет мои переговоры с учеткой.
Аноним 01/02/25 Суб 09:29:29 #374 №1036855 
>>1036845
Просто гугл, последние дни вообще чушь выдает.
Аноним 01/02/25 Суб 09:43:57 #375 №1036872 
>>1036840
А ты точно выгрузил все в гпу? По умолчанию даже если модель туда помещается тот же кобольд всё равно пихает слои в рам. Нужно вручную указывать количество слоев (т.е все).
Аноним 01/02/25 Суб 09:57:10 #376 №1036881 
>>1036855
>Просто гугл, последние дни вообще чушь выдает.
Поменяли модель переводчика. Очередной кризис, на моей памяти это уже третий. Через месяц выправятся... или нет. Но да, пользоваться гуглом пока нельзя. Яндекс вывозит, в Таверне Бинг ещё есть. Ограничения какие-то имеются, но на практике хватает. Сам-то я давно хочу локальную модель переводчика, но хрен мне.
Аноним 01/02/25 Суб 10:10:29 #377 №1036888 
>>1036881
>локальную модель переводчика
на деле оно даже работает, тот же ру квен, гемма, да даже мистральки могуть переводить, но, чсх, врум не резиновая.
Аноним 01/02/25 Суб 10:25:20 #378 №1036893 
>>1036888
>на деле оно даже работает, тот же ру квен, гемма, да даже мистральки могуть переводить, но, чсх, врум не резиновая.
Дело даже не в этом. Есть пара моделек, да. И выделить отдельный гпу под переводчик можно. Но даже на 3090 скорость маловата, с онлайн-сервисами никакого сравнения. Хотя качество у них и хромает, но перевод мгновенный. А локально даже "очень быстро" не получить.
Аноним 01/02/25 Суб 10:35:15 #379 №1036895 
В таверне можно как-то сделать переключение портретов персонажей?
Аноним 01/02/25 Суб 11:26:58 #380 №1036931 
>>1036840
С твоим врам должно всё влезать. Как тот анон писал, пиши все слои вручную.

Ещё один момент, о котором я не видел ни одного поста здесь.

Закрывай всё, что можешь. Всю хуйню из автозапуска левую убирай, закрывай приложения. Всякий Стим, Дискорд, вот это вот всё, что можно — нахуй. Даже окно с проводником. Браузер тоже закрывай, общайся с ллм с второго ПК или телефона.

Винда дохуя видеопамяти жрет, по крайней мере моя 11 винда точно.

Такими простыми манипуляциями я 1,2 Гб видеопамяти освободил, это охуеть как много.

----

Если же у тебя нет других для общения с ллм, то качай какой-нибудь очень легковесный браузер.
Аноним 01/02/25 Суб 11:29:26 #381 №1036934 
>>1036518
>В Sequence Breakers
Эта настройка относится к DRY Repetition Penalty, лол.
>>1036572
>Как сделать так чтобы виртуальная тянка отшила виртуального кунчика?
Сделай тянке возраст 11 лет. Отошьёт 100%.
>>1036583
А это не поможет, у винды активному окну даётся больший квант времени, и похуй на эти ваши приоритеты.
>>1036609
>А когда на 16 бит перейдешь - так вообще радугой кончать будешь.
Я олдфаг, помню ещё двойную точность...
>>1036634
>Можно сразу мистраль лардж ебашить
Я так и делал в своё время.
>>1036708
>Почему
Потому что люди идиоты.
Аноним 01/02/25 Суб 11:35:47 #382 №1036937 
🔸 Open Talks Special: Лидеры русскоязычного open source LLM в одном эфире.

5 февраля в 19:00 собираем ключевых независимых разработчиков опенсорсных русскоязычных LLM и говорим о том, что волнует AI-сообщество прямо сейчас:

➡️ Как создаются русскоязычные LLM и с какими вызовами сталкиваются их разработчики?

➡️Что ждет опенсорсные AI-решения в будущем?

➡️ Как DeepSeek меняет правила игры?

Спикеры:

🎤 Михаил Тихомиров ( https://www.linkedin.com/in/mikhail-tikhomirov-a4884a74 ) – научный сотрудник НИВЦ МГУ, занимается адаптацией мультиязычных LLM, создатель Ruadapt➡️Топовая модель показывает 92 балла на балла на Ru Arena General ( https://huggingface.co/spaces/Vikhrmodels/arenahardlb )

🎤 Илья Гусев ( https://www.linkedin.com/in/ilya-gusev/ ) – автор Сайги ➡️одной из самых скачиваемых русскоязычных моделей на HF, а также role-play бенчмарка PingPong ( https://ilyagusev.github.io/ping_pong_bench/ru_v2 )

🎤 Александр Николич ( http://t.me/lovedeathtransformers ) – один из авторов Rudalle и Kandinsky, создатель Vikhr models ➡️ одни из лучших моделей ( https://huggingface.co/Vikhrmodels/Vikhr-Nemo-12B-Instruct-R-21-09-24 ) на русском языке до 20B параметров, один из самых популярных бенчмарков

🔸 Проведет эфир Павел Подкорытов, сооснователь AI Talent Hub и CEO Napoleon IT.

🤔 Не увидел важного вопроса в анонсе?

➡️ Регистрируйся и задай свой вопрос экспертам! ( https://ai-talent-hub.timepad.ru/event/3219400/ )

Приходи! Без тебя – не то 💘

#OpenTalks
#AITalentHub #ITMO #NapoleonIT
Аноним 01/02/25 Суб 11:44:42 #383 №1036945 
>>1036937
> Сайги
Сама по себе же не оче, и только в мержах анон юзал и вышел норм. Не?
Аноним 01/02/25 Суб 11:48:54 #384 №1036953 
>>1036945
>Сама по себе же не оче
Он как бы её обновлял постоянно, последняя версия околонедельной давности.
Аноним 01/02/25 Суб 11:52:45 #385 №1036956 
>>1036555
ПОМОГИТЕ, СУКИ.
Получается, я могу 671b модель запустить локально на старом ноуте?
Аноним 01/02/25 Суб 11:57:49 #386 №1036962 
>>1036937
>Спикеры:
И походу эти три инвалида - всё, что мы можем предъявить миру. Грустненько так-то.
Аноним 01/02/25 Суб 12:02:55 #387 №1036968 
>>1036956
>запустить локально
только на шизориге, на ноуте разве что дистил
Аноним 01/02/25 Суб 12:07:48 #388 №1036971 
>>1036956
И да и нет. Если с подкачкой со старого диска, на древнем проце, то ты одно слово от него неделю ждать будешь, без преувеличений. Лучше 3В гоняй и мержи годные между собой лол они на англе хоть как то могут, и в оперативу старого ноута влезут.
И вообще, что значит старый ноут? я сразу себе представляю что-то на кор2 с 3 гигами ddr2 и вистой на это всё намазанной.
Аноним 01/02/25 Суб 12:08:40 #389 №1036972 
>>1036968
>>1036971
2 еблана, вы даже в англюсик не умеете.
Аноним 01/02/25 Суб 12:18:09 #390 №1036976 
>>1036962
Что-то сомневаюсь, что тредовичков с их кум моделями туда пустят. Ну и ни одного разрраба со сбера/тинька, а они трейнят модели с нуля. Так что скорее этот #OpenTalks полное говно.
Аноним 01/02/25 Суб 12:37:40 #391 №1036996 
>>1036937
Объясните мне, почему эта пиздобратия не купит локальное решение или хотя бы просто не арендует, чтобы сделать практически полностью русскоязычную LLM на 32b параметров опенсорс. Разве я столь многого прошу? Боже, да они могли бы и 70b сделать, а то и больше.

Им же наверняка донаты кидают, может гранты какие-то государственные, хуё-моё.
Аноним 01/02/25 Суб 12:42:16 #392 №1036999 
>>1036996
> не купит локальное решение или хотя бы просто не арендует
Деньги где взять? Задонатим? И если она неправильно на вопросы ответит тащ майору, кто ответит?
Аноним 01/02/25 Суб 12:44:28 #393 №1037002 
>>1036996
>Им же наверняка донаты кидают, может гранты какие-то государственные, хуё-моё.
А это ещё хуже. Заметил, насколько яндексова Алиса обстрижена со всех сторон? Это чтобы лишнего не брякнула. Политика ещё туда-сюда, а вот кум - это уже статья. Они не модели тренируют, а цензурные вспомогательные сетки. А поскольку руки из жопы, то даже это выходит плохо и моделей от них мы не видим.
Аноним 01/02/25 Суб 12:45:04 #394 №1037004 
Че-то я не понял прикол. С лор буками ллм полностью пересчитывает контекст каждые 2-3 сообщения, вместо шифта. Это пропадает если лор буки в режим постоянной памяти закидывать вместо нормала (синий кружок). Но тогда нахуй они вообще нужны если я с таким же успехом могу вьебать лор бук в карточку персонажа? Чисто для удобства и всё?
Аноним 01/02/25 Суб 12:49:43 #395 №1037007 
>>1037004
В чём проблема? Либо ты пересчитываешь контекст (шифт не поможет, так как добавляются новые части), либо ты закидываешь сразу всё, и лурбук нинужен.
Аноним 01/02/25 Суб 12:57:44 #396 №1037012 
>>1036972
это чо за cumминг аут, детектор чини
Аноним 01/02/25 Суб 13:01:35 #397 №1037013 
>>1037007
Получается лорбуки есть смысл использовать только если всё влазит в врам изначально и быстро считается. Что бы расширить контекст условно. А в ином случае пересчет слишком много времени занимает каждый раз. Ну я понял схему.
Аноним 01/02/25 Суб 13:01:50 #398 №1037014 
>>1037004
>С лор буками ллм полностью пересчитывает контекст каждые 2-3 сообщения
скажи спасибо что 2-3 а не каждое

А вообще, оно так и работает, да, контекст изменился - ты отредактировал сообщение или лорбук подсуетился, надо пересчитать полностью, а не только новое.
Аноним 01/02/25 Суб 13:02:53 #399 №1037015 
>>1037013
В том то и прелесть лорбука, что он не в контексте.
Он работает как кейворды.
Аноним 01/02/25 Суб 13:03:55 #400 №1037016 
>>1036699
По факту.

>>1036708
Потому что так заявляют авторы.
Смею предположить, что речь идет о 671B уникальных параметров, а общие Deepseek уместили в одно пространство физическое, отсюда и размер ~684B.
Каждая модель имеет единую базу + свои личные знания.
Вот эта единая база и не считается в ее размере.
Так же и мистраль 8*7 была не 56, а 43 что ли.

>>1036731
Тебе нужен NER какой-нибудь, скорее.

>>1036937
Базовые ребята.

>>1036962
Нет, конечно, есть десятки и сотни, просто их не позвали/они заняты/работают на экстремистов и т.д.

>>1036976
А Кандинский — не Сбер? =D Держи в курсе.

Ладно, не буду за пацанов вписываться, кто знает — тот знает, хули тут доказывать. =)

———

Так, хлопцы, подскажите.

Какая модель лучше для РП на русском, а какая для сторителлинга?

СайНемо, Неверэндинг, Инструменталити? Интересует 12-14 размер. Может еще что.
>>1034130 Твое мнение особенно интересно.
Аноним 01/02/25 Суб 13:05:02 #401 №1037018 
>>1037004
Лорбуки нужны когда у тебя десяток персонажей, городов, локаций. И вот чтобы они все не сидели в сумарайзе отжирая у тебя драгоценный контекст и нужны записи.
Аноним 01/02/25 Суб 13:06:21 #402 №1037019 
>>1036699
В принципе причина по которой я на цидонии и сижу. Она идеальна для 16гб ВРАМА. Что то больше уже слишком медленное, меньше - тупее.
Аноним 01/02/25 Суб 13:08:39 #403 №1037021 
А вообще отдам пол царства за микс цидоньки и чего нибудь мрачного от David. Потому что она хоть и не магнум, но слишком хорни, это порой так бесит, не хватает мрачняка.
Аноним 01/02/25 Суб 13:18:08 #404 №1037025 
image
>>1037015
>он не в контексте
Но инжекты входят в контекст и вызывают его пересчёт.

>>1037016
>РП на русском
Pathfinder и Saiga Unleashed по видимости самые удачные, на них отзывались в треде. По загрузкам же абсолютное лидерство у Инструменталити 2.

Pathfinder - Saiga-Wayfarer-Nemomix - по видимости лучше для рп, сам я проверил чисто что оно работоспособно, но анон отмечал что жарко с ней покумил =))

Saiga Unleashed - почти оригинальная сайга околонедельной давности, только с инжектом немомикса в центральные слои, хорошо и красочно расписывала как карточку с мехом так и мрачнухи не чурается судя по чатлогу на литтербоксе. Также этот чатлог именно в сторителлинг стиле где не было юзера, а скорее писалось в виде соавторства.

Да, маякните если mergekit починят.
Аноним 01/02/25 Суб 13:23:03 #405 №1037027 
>>1037025
> Но инжекты входят в контекст и вызывают его пересчёт
Да, но только когда входят. Смекаешь ?
Разница в том, что карточка перманенто там сидит, а условный город СТОЛЬНОГРАД, только при его упоминании или связанных с ним событий всплывает.

Я только суммарайзом и лорбуками и спасаюсь в своих тохоэдвенчурах. Потому что те кто шарят за тоху, знают сколько там персонажей.
Аноним 01/02/25 Суб 13:23:49 #406 №1037028 
>>1037016
>Ладно, не буду за пацанов вписываться, кто знает — тот знает, хули тут доказывать. =)
Ну да, ну да. "У нас есть такие приборы, но мы вам о них не расскажем." Похоже, что поскольку в СССР нейронок ещё не было, а стало быть не было базы, то и взяться им у нас сейчас неоткуда.
Аноним 01/02/25 Суб 13:25:13 #407 №1037031 
>>1037028
> им у нас сейчас неоткуда.
Ну когда то и атомных электростанций не было, но строят же. Не одним СССР едины, хули.
Аноним 01/02/25 Суб 13:26:43 #408 №1037032 
>>1037031
> и атомных электростанций не было
Кхм. Какой класс?
Аноним 01/02/25 Суб 13:27:20 #409 №1037033 
>>1036895
Да, можно. Разбирайся сам, а то следующий вопрос будет
А можно ли в таверне пить
Аноним 01/02/25 Суб 13:28:22 #410 №1037034 
>>1037027
>Да, но только когда входят
Ты полностью прав (и про Touhou тоже), но другой анон спрашивал именно про то что контекст всегда пересчитывается когда лорбук включает запись.
Аноним 01/02/25 Суб 13:28:50 #411 №1037035 
>>1037032
Класс опасности ? Очевидный ОПО. Если мне память не изменяет, то атомные электростанции еще из за радиоактивных отходов под спец категорию попадают.
А тебе это зачем ?
Аноним 01/02/25 Суб 13:32:00 #412 №1037039 
>>1037035
> Класс опасности ?
Класс школы.
> В СССР первая АЭС — Обнинская АЭС мощностью 5 МВт — была запущена 27 июня 1954 года
>>1037031
> Ну когда то и атомных электростанций не было, но строят же.
Аноним 01/02/25 Суб 13:33:44 #413 №1037040 
>>1037039
> Класс школы.
Я ебу в каком ты классе школы ? Я не Ванга. Я примерно чувствовать не могу. Но думаю ты в 10м.
>1954
А до этого года они были ?
comments powered by Disqus

Отзывы и предложения