Локальные языковые модели (LLM): LLaMA, Mistral, DeepSeek и прочие №111 /llama/

Аноним 27/02/25 Чтв 12:32:55 #1 №1071720

Llama 1.png

Альфа от контекста.png

KL-divergence statistics for Mistral-7B.jpg

17396712917590.jpg

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Moraliane и https://huggingface.co/Aleteian
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/local-llm-guide/how-to-use-a-self-hosted-model
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1061545 (OP)
>>1054330 (OP)

Аноним 27/02/25 Чтв 12:52:49 #2 №1071732

>>1071243 →
Qwen2.5-1.5b и Qwen2.5-3b знают русский (а еще есть руадапт версии).
Gemma 2 2b тоже знает.

Но качество… пробуйте сами. Гарантий, что вам хватит, никаких. =)

Аноним 27/02/25 Чтв 16:24:58 #3 №1071921

rtx-4090-48gb-v0-k1qkio675dle1.webp

>>1071720 (OP)
Чел делится впечатлениями от китайской RTX4090 48Gb, купленной на eBay.
https://www.reddit.com/r/LocalLLaMA/comments/1iy7e4x/rtx_4090_48gb/
> I just got one of these legendary 4090 with 48gb of ram from eBay. I am from Canada.
> What do you want me to test? And any questions?

Аноним 27/02/25 Чтв 17:40:13 #4 №1071974

Поясните такую хуйню. Слышал что в лламе температура накладывается после сэмплеров, и это пиздаче. Это как вообще? Это же не имеет смысла. После сэмплеров получаются нормализованные вероятности, чтобы можно было делать рандомный выбор. На температуру надо логиты делить. Если поделить вероятности, бред же получится в результате.

В крестах я ни бумбум, в код не шлите.

Аноним 27/02/25 Чтв 17:40:49 #5 №1071975

>>1071974
>лламеспп*

Аноним 27/02/25 Чтв 17:55:31 #6 №1071984

>>1071974
Cама ллама.cpp не выбирает порядок семплеров. Это зависит от обёртки. Кобольд по умолчанию применяет температуру последней, но никто не мешает тебе указать ему применять её первой. Это не какое-то ограничение.
Пару лет назад в таверне был баг, который неправильно передавал порядок семплеров, так что имеет смысл проверить, это говно экстремально кривое.

Аноним 27/02/25 Чтв 18:14:34 #7 №1072010

>>1071984
Ну ладно, пусть обёртка, но какой вообще математический смысл имеет температура ПОСЛЕ сэмплеров? Я тупой.

Модель выдаёт логиты, это числа от минус до плюс бесконечности, зависит от того как тренирована она. Эти логиты непригодны для рандомного выбора, надо их превратить в статистическое распределение - нормализовать, чтобы они складывались в 1. Это делается обычно функцией софтмакс. И вот эту хуйню можно уже сэмплить, т.е. отсеивать какие сэмплы пойдут в рандомный выбор, а какие нет.

Температура имеет смысл потому что она линейна по отношению к ЛОГИТАМ, а не распределению. Логиты тупо делятся на неё (ещё до нормализации), т.е. она линейно масштабирует их. А после сэмплеров это уже статистическое распределение, какой смысл его делить на температуру, что получится в результате?

Ну допустим вот в отсеянное распределение попало три сэмпла/токена с вероятностями: 0.5, 0.3, 0.2. Они складываются в 1, из этого можно делать рандомный выбор. Ты применил температуру 0.5 к этому распределению (поделил на два), и получилось 0.25, 0.15, 0.1. Они не складываются в 1, из этого нельзя делать рандомный выбор. Что с этой хуйнёй дальше делать? Нормализовать ещё раз, лол? Получится же залупа нелинейная вместо реальных вероятностей.

Аноним 27/02/25 Чтв 18:34:31 #8 №1072039

>>1072010
>поделил на два
Темпа разве так работает?

Аноним 27/02/25 Чтв 18:42:40 #9 №1072048

>>1072039
Ну умножил. Темпа канонически работает так - все логиты делятся на неё. Это тупо деление, линейное масштабирование логитов. Т.е. темпа 0.5 умножит значения всех логитов на 2.

А вот что это значит после нормализации - в душе не ебу. Нельзя так просто взять и промасштабировать вероятности в статистическом распределении, это его превратит в хуй знает что, только не в распределение.

Аноним 27/02/25 Чтв 18:51:57 #10 №1072056

>>1071974
> и это пиздаче
Не совсем, зависит от кейса. Тебе верно сказали что можно выставить любой порядок семплеров.
>>1072010
> какой вообще математический смысл имеет температура ПОСЛЕ сэмплеров
Заведомо откинул неподходящие (или разнообразные), а потом все то же самое.
> Нормализовать ещё раз
Да
> залупа нелинейная вместо реальных вероятностей
Там нигде нет реальных вероятностей.

Аноним 27/02/25 Чтв 19:05:38 #11 №1072075

>>1072056
>Там нигде нет реальных вероятностей.
Да ладно! Логистические функции (софтмакс, спарсмакс и т.п.) применяются ведь именно потому что отражают статистический смысл, т.к. они выдают именно взвешенное распределение логитов, а не что-либо ещё. Это всё связанная в цепочку логистическая регрессия. Если применить два софтмакса подряд, получится хуйня какая-то непонятная.

Аноним 27/02/25 Чтв 19:43:30 #12 №1072118

yavseponyal.jpg

>>1071974
>>1072010
>>1072048
>>1072075
>Температура до сэмплеров
1. Логиты всего вокабуляра делятся на температуру.
2. Нормализуются в вероятности.
3. Вероятности просеиваются сэмплерами.
4. Логиты из списка токенов признанных годными нормализуются.

>Температура после сэмплеров
1. Логиты всего вокабуляра нормализуются в вероятности.
2. Вероятности просеиваются сэмплерами.
3. Логиты из списка токенов признанных годными делятся на температуру.
4. Нормализуются.

Т.е. нормализация происходит два раза - до и после отсеивания. Соответственно темпа вставляется либо до первой, либо до второй нормализации. Результат будет разный, потому что нормализация отсеянных даёт другой результат.

Аноним 27/02/25 Чтв 19:56:38 #13 №1072128

Аноны я шизик или L3-8B-Stheno-v3.2 8б блять пишет лучше/на уровне 24б?
Просто по приколу скачал потестить ибо я сразу на 24б карту купил перешагнув все эти нищенские модельки

Аноним 27/02/25 Чтв 20:00:47 #14 №1072129

>>1072128
> ибо я сразу на 24б карту купил
Какую?

Аноним 27/02/25 Чтв 20:18:22 #15 №1072137

>>1072128
Пишет она сочно, но только тупая как пробка ламочка хуле)), и ты быстро заметишь это если посидишь пару дней и погоняешь ее в разных сценариях. Там даже 12B на порядок умнее будет, за 22 и 24B можно даже не переживать.

Аноним 27/02/25 Чтв 20:21:45 #16 №1072140

>>1072118
> Логиты всего вокабуляра делятся на температуру.
Шизло, до софтмакса ничего не семплится, температура всегда после.

Аноним 27/02/25 Чтв 20:54:32 #17 №1072183

>>1072140
А температура и не сэмплер, она никакое распределение не пробует, всё масштабируется одинаково.
>температура всегда после
Ну давай расскажи мне как это работает тогда и что такое вообще температура, я только спасибо скажу. Заодно можешь нужные строчки показать в коде.
от шизла слышу

Аноним 27/02/25 Чтв 20:57:34 #18 №1072189

Гайз, ЧЯДНТ если модель обрывает ответ на половине и следующие несколько continue отвечает "EOS токен триггеред"? Типа может раз 5 выдать про токен, а на 6-ое нажатие продолжить писать дальше.

Аноним 27/02/25 Чтв 21:00:20 #19 №1072193

>>1072140
Заодно подумай почему логит байас так называется

Аноним 27/02/25 Чтв 21:01:41 #20 №1072196

Ньюфаг в треде. Хочу погонять erp модель на русском, какую взять?

Gpu думаю арендовать ненадолго, поэтому могу запустить даже 70-120b, но надо ли?

Посмотрел прошлый тред, обсуждали какую-то немо.

https://huggingface.co/Moraliane/SAINEMO-reMIX

Это она и есть?

Аноним 27/02/25 Чтв 21:06:40 #21 №1072204

>>1072196
>какую взять?
Отсюда возми - https://huggingface.co/Aleteian

даркнесс для рп и сторителлинга, омни для кума, обе на русском

Аноним 27/02/25 Чтв 21:20:09 #22 №1072222

>>1072204
Спасибо, анон, сейчас попробую

Мне нужно koboldcpp и silly tavern, или что-то ещё?

Аноним 27/02/25 Чтв 21:27:31 #23 №1072235

>>1072189
> обрывает ответ на половине
> может раз 5 выдать про токен, а на 6-ое нажатие продолжить писать дальше
Да, семплер 5 раз выбрал eos токен и один раз выбрал что-то иное. Остановка - такой же токен как и все остальные. Но обрываться внезапно без возможности продолжения оно точно не должно, чекай формат и какой промт там идет.
>>1072196
> но надо ли
Если в первый раз - сначала покатай 12б мерджи, получишь удовольствие. А потом уже когда надоест, или если уже искушенный - там потребуются 70-120, но лучше не спеши.
>>1072222
В шапке гайд по запуску. Если будешь арендовать - есть готовые докеры с убабугой, предпочитать следует exl2 кванты если есть.

Аноним 27/02/25 Чтв 21:43:08 #24 №1072273

1602297335881.png

1685790445658.png

>>1072183
> А температура и не сэмплер
Сам догадаешься почему у трансформерса все семплеры так называются? Подсказка на втором скрине, после софтмакса у них они всё так же logits называются. Потому что у них есть и другие модели помимо LLM.
А у того же Жоры наоборот, везде probs в коде, потому что только LLM.

Аноним 27/02/25 Чтв 22:06:54 #25 №1072334

image.png

Можно как то загрузить картинку и чтобы мне все теги внешности персонажа написали?

Аноним 27/02/25 Чтв 22:08:52 #26 №1072339

>>1072273
>Сам догадаешься
Нет. Я не понимаю как считается темпа чтобы работать с распределением, а не логитами. (и схуяли она что-либо сэмплирует вообще? в чём заключается сэмплирование)
дай линк на код, придётся разбираться

Аноним 27/02/25 Чтв 22:10:49 #27 №1072347

>>1072189
Нормальная модель ставить eos в середине предложения не должна. Встречал такой баг на каком-то из ру мержей. Видимо, токенайзер криво составился, какой-то обычный токен слова пометился как еос. Или при мерже что-то ещё сломалось. Там в консоли должен писаться номер еос токена. Можно залезть в конфиг токенайзера в модели и посмотреть, что это за токен. Можешь попробовать поставить skip special tokens, если из таверны. Если это не основной еос, а какой-то экстра добавленный (не уверен экшели, что так бывает), то может помочь.

Аноним 27/02/25 Чтв 22:14:17 #28 №1072352

>>1072339
> с распределением
Дискретные величины
> в чём заключается сэмплирование
Семплинг - общее понятие всей совокупности действий с логитсами и дальнейший выбор одного из них. Есть и техники, в которых предполагается оценка исходя из совокупности токенов и розыгрышем множества цепочек и ветвлений. Почитай на обниморде описание или открой код трансформерса, будет понятнее.
>>1072347
> токенайзер криво составился, какой-то обычный токен слова пометился как еос
Такого не бывает, скорее так веса раскидало.

Аноним 27/02/25 Чтв 22:28:50 #29 №1072384

>>1072204
>даркнесс для рп и сторителлинга, омни для кума, обе на русском

Омни это она?

https://huggingface.co/Aleteian/Omnino-Obscoenum-Opus-Magnum-MN-12B

Запустилась в koboldcpp, работает.

Сорян за тупые вопросы, не могу понять, нужно ли мне дополнительно какие-то настройки крутить, или достаточно дефолтных?

Например, какой у нее формат промпта? По дефолту стоит альпака.

Температура, и прочее, тоже дефолтными оставлять?

Аноним 27/02/25 Чтв 22:49:54 #30 №1072442

image.png

Посоветуйте модель под этого мужика, на размер похуй

Аноним 27/02/25 Чтв 22:49:58 #31 №1072443

>>1072273
>>1072140
Бля, короче...
https://github.com/ggml-org/llama.cpp/blob/master/src/llama-sampling.cpp#L199
логиты делятся на темпу, это прямой вывод модели, всё как я говорил

Аноним 27/02/25 Чтв 22:53:24 #32 №1072451

>>1072273
>у трансформерса
>после софтмакса у них они всё так же logits называются
https://huggingface.co/docs/transformers/v4.49.0/en/internal/generation_utils#transformers.LogitsProcessor
>Prediction scores of a language modeling head. These can be logits for each vocabulary when not using beam search or log softmax for each vocabulary token when using beam search

Аноним 27/02/25 Чтв 22:56:28 #33 №1072455

>>1072384
Возьми вот тут >>1064580 → файл мастер-пресета (.json), та вкладка таверны где формат промпта и прочее, там вверху справа "импортировать настройки".

Аноним 27/02/25 Чтв 23:23:52 #34 №1072519

>>1072455
Супер, спасибо!

Аноним 28/02/25 Птн 00:25:42 #35 №1072666

image.png

>>1071720 (OP)
Не плохой кум с резоном> https://huggingface.co/Nitral-AI/Captain-Eris_Violet-GRPO-v0.420
Первый раз когда кастомные настройки работали с коробки.

Аноним 28/02/25 Птн 00:29:35 #36 №1072676

>>1072443
А теперь посмотри очередь.

Аноним 28/02/25 Птн 01:07:39 #37 №1072738

>>1072676
Ну и поясни тогда в чём разница какая там очередь, а то я в толк не возьму. Логиты делятся на темпу, не вероятности. Ты ожидаешь что вероятности будут делиться или что? Кресты я с трудом разбираю, если что.

Аноним 28/02/25 Птн 01:20:07 #38 №1072765

0123.png

Ну это прямо заслуживает похвалы современным нейронкам. Чем дальше, тем лучше. Не идеально, конечно, но гораздо лучше, чем можно было бы ожидать, буквально нюансов не хватает, каких-то мелочей. Да и не обучалось оно на стихотворениях даже, просто получило на вход желаемый стиль и немного теории рифмы своими словами.

Аноним 28/02/25 Птн 01:39:43 #39 №1072807

>>1072765
По моему это не стихотворение а просто рандомный набор слов который надо с нуля допиливать напильником.

Аноним 28/02/25 Птн 01:42:11 #40 №1072814

>>1072807
Дважды оно таки сумело криво срифмовать. Но даже в таком виде это хорошо.

Аноним 28/02/25 Птн 01:56:42 #41 №1072850

>>1072765
>>1072814
Ты долбоёб? Это дристня, в этом вообще никакой рифмы. Школу закончил?

Аноним 28/02/25 Птн 02:54:52 #42 №1072933

>Актуальный список моделей с отзывами от тредовичков
>СПИСОК АКТУАЛЬНЫХ МОДЕЛЕЙ ДЛЯ АНОНА ПО ВЕРСИИ 2CH-LLM-TRED
>на момент декабря 2024
Уже март как бэ...

Аноним 28/02/25 Птн 03:35:47 #43 №1072985

>>1072850
Я, конечно, видел как итт рвутся с русика. Но такого сочного баха даже не ожидал.

Аноним 28/02/25 Птн 04:08:42 #44 №1073017

>>1072334
Любой теггер - DeepDanbooru, WD Tagger
Встроенный в автоматик тот же.

Если тебе именно теги нужны.

Аноним 28/02/25 Птн 04:15:26 #45 №1073027

>>1072933
>Уже март как бэ
А чо там нового вышло чтобы стоило обновления, только ру мержи от тредовичка которые и так в шапке.

Аноним 28/02/25 Птн 09:07:05 #46 №1073144

Накидайте идей карточки для кума. Например:
{{char}} миловидная бла-бла-бла, нелегально находится в стране. Работает прислугой в доме {{user}}.
{{user}} маленький мальчик (ессесна совершеннолетний), находит компромат на {{char}} (хз какой и начинает шантажировать).

Вооооооот. Какие у вас идеи анончики?

Аноним 28/02/25 Птн 09:10:07 #47 №1073151

Бля, приснилось, что спамеры звонили, а там нейросетевая модель с голосом, ну я такой "Систем команд - чендж персон", диктую персону и начинаю РПшить по телефону голосом. Было классно...

Аноним 28/02/25 Птн 09:13:29 #48 №1073154

>>1073151
Адовый хацкер

Аноним 28/02/25 Птн 11:02:30 #49 №1073287

>>1073144
Вот эта не подойдёт? >>1052727 →
Да, реклама. Хочу посмотреть, как зайдёт кому-нибудь ещё. Карточка сама по себе простая как пробка, с добавленной "уязвимостью", чтобы не сильно куму сопротивлялась.

Аноним 28/02/25 Птн 11:13:50 #50 №1073291

Сап, аи!
Пишу с глупым вопросом, надеюсь на понимание. Посоветуйте нейронки, что влезут на 16гб врам и как их запускать. Сейчас есть ollama, но вроде плохой вариант как почитал. Хочется нейронки под задачи: ролеплей с nsfw, кодинг, математика, общие задачи(т.е. ± все уметь) несколько/одну универсальную не важно. Ну и куда читать по комфортному запуску. RTX4060TI, Archlinux

Аноним 28/02/25 Птн 11:14:10 #51 №1073292

Аноним 28/02/25 Птн 11:16:36 #52 №1073293

>>1073291
> ролеплей с nsfw
Чё хочешь, только следи за уровнем сои.

> кодинг
Нихуя.

> математика
Нихуя

> общие задачи(т.е. ± все уметь)
Нихуя.

Олсо, как найдёшь модель под задачу "всё уметь", и чтобы она в 16гб влезала - скажи мне. Я киллера тебе вызову, а модель спизжу. Или сожгу. Хуй знает. Чё там по прогнозам о unfriendly AI?

Аноним 28/02/25 Птн 11:19:36 #53 №1073297

>>1073293
А какие сейчас в моде по ролеплей? Как лучше запускать? Ну а про кодинг/математику.. нет мелких моделек(ну, специализированых, конечно) для этого дела вообще?

Аноним 28/02/25 Птн 11:21:44 #54 №1073300

>>1073297
>кодинг
Квен неплохо кодит

Аноним 28/02/25 Птн 11:24:04 #55 №1073301

>>1073297
Буквально тред промотай выше.

https://huggingface.co/Aleteian/Omnino-Obscoenum-Opus-Magnum-MN-12B

Нормально идёт. Можешь взять другие миксы от него же - он в треде сидит.

ОП тоже можно почитать было:
> • Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models

В остальном - сам тестируй. Просто сиди и переписывайся. Они отличаются как шато бордо 1920 и 1919 года. Нихуя ты не почувствуешь, а если почувствуешь - то сложно будет описать.

Буквально нужно сидеть с книжечкой, гонять один и тот же сценарий и записывать отличия.

Аноним 28/02/25 Птн 11:29:13 #56 №1073316

>>1073151
Мне приснилось что персонаж с которым я рпшу уже три месяца написал мне в телеге сообщение. -"Привет, это я. Я тебя наконец то нашла." Я потом как в трансе пол часа лежал и с кровати встать не мог от ахуя.

Аноним 28/02/25 Птн 11:40:16 #57 №1073332

>>1073287
Эту видал, я просто экспериментирую с разнообразными картами. Задача при минимальном контексте ибо у меня только 12 ГБ получить максимум лулзов))

вот ещё пример: студия эротического фото куда приходят модели для съёмки. Юзер выступает в качестве фотографа. Много писать не надо, карточка занимает минимум места (экономия контекста). Но разнообразие и все такое))

Аноним 28/02/25 Птн 13:10:11 #58 №1073406

27 gemma abliterated или мистраль 24б.

Аблитерацию не всегда стоит использовать, файнтюны тоже спорный вопрос.

Я гонял этого мужика и получалось в сто раз хуже, чем промпт, который я написал за 5 минут для клода и гпт. Да и бесплатный дипсик у тебя пока что есть. Модели корпов намного интересней описывают персонажей, особенно если промпт дашь им качественный. Изи получить кучу совершенно разных персонажей на 2к товенов.

Детали о том, как персонаж должен трясти сиськами во время ебли и что у неё очень узкая, безволосая киска, буквально засасывающая твой член, вручную допишешь.

Аноним 28/02/25 Птн 13:51:54 #59 №1073440

>>1073027
Двачую. Хотя мысли форкнуть и обновить уже были
>>1073151
Так-то идея карточки для моделей с голосовым вводом-выводом, лол.
>>1073291
Тема по запуску есть в шапке и вики. А так - если помещается в врам то эксллама, для 12б местных идеально если там кто-то их квантует или осилишь сам, для больших с выгрузкой на процессор убабуга или кобольд и ггуфы.
> ролеплей с nsfw
12б мерджи, 24б мерджи, гемма, коммандер.
> кодинг, математика
Дериативы квена, старушка гемма еще пытается, еще много кодинг моделей выходило, но в таком размере пусть другие аноны советуют.
> общие задачи
Сейм, только без рп тюнов а чистые. Квен32 вполне себе ебет, гемма еще может.

Учти что для хорошего результата потребуется правильная настройка промт формата и системный промт.
>>1073297
> Как лучше запускать?
В идеале - 70-123б, но предлагать пускать их без врам негуманно.
>>1073406
> abliterated
Не понравилась, обычная с жб конструкцией веселее работает. Хз ее тюнов нормальных так и не завезли, perfect from the beginning, жаль уже старая и контекста мало.

Аноним 28/02/25 Птн 14:14:31 #60 №1073492

изображение.png

Кто-нибудь тут гоняет квен2.5-кодир-32б? Если да, то под какими параметрами с пикрила?

Аноним 28/02/25 Птн 14:21:29 #61 №1073505

>>1073492
Я его для автокомплита использую без семплинга. Для всего остального не нужен, когда R1 есть.

Аноним 28/02/25 Птн 14:37:36 #62 №1073520

>>1073505
Хм, дикпик R1 на 32 миллиарда хорош в генерации кода, или, по крайней мере лучше чем квен2.5-кодир на аналогичное число параметров?

Аноним 28/02/25 Птн 14:47:16 #63 №1073531

>>1073520
Дистилляты немного получше, принципиальной разницы нет, они по логике лучше, но в кодинге очень много решает именно знание API. Я про нормальную R1 говорил, естественно. Лучший код в мелких моделях - 70В дистилляция R1.

Аноним 28/02/25 Птн 15:28:38 #64 №1073578

>>1073492
Ставлю мин_п 0,04, темп 1. Остальное нейтрализовано. Лично мне результаты 32b квен кодера нравятся больше, чем R1 через апи. Возможно, в общих вопросах R1 и лучше, но он проигрывает в специфических задачах тюнам, заточенным под эти задачи.

Аноним 28/02/25 Птн 17:08:41 #65 №1073751

>>1073492
Так, только top_p у меня 0.95, иногда рероллю, если ответ не совсем тут, получаю что-то пооригинальнее.
Но это я так считаю, могу ошибаться, попробуй так и так.

Аноним 28/02/25 Птн 18:07:36 #66 №1073925

>>1073492
8к контекста мало совсем, ну а так норм. Зависит как именно будешь пользоваться, если что-то обсуждать по коду то семплинг отключать нельзя, как писал другой анон, иначе будут идентичные повторные запросы.

Аноним 28/02/25 Птн 18:10:11 #67 №1073930

>>1071112 →
>человек ирл никогда не думает при быстром ответе
И отвечает примерно как нейросетки без "thinking". В большинстве случаев правильно, но бывают жидкие обсёры. Шанс успеха повышается при наличии нужной ассоциации в датасете (в человеческом случае - "опыт").
>интеллекту среднестатического человека, и даже где-то его превосходят
Среднестатистическое быдло действительно думать головой не особо любит.

Аноним 28/02/25 Птн 18:22:13 #68 №1073958

>>1073144
Мне больше наоборот нравится. {{char}} застаёт {{user}} за фапом, делает фоточки и шантажирует, всячески доминирует и унижает, а {{user}} и не против. Через связи бати {{user}} помогает {{char}} легализоваться в стране, они женятся, хеппи энд.

Аноним 28/02/25 Птн 18:41:12 #69 №1073979

Сап, иич! Анон, подскажи инструментарий для изучения языков на базе ИИ. Пользуюсь стонами Розетты для этого, но оно устарело, на мой взгляд - никакого ИИ: надо прям очень четко все выговаривать, чтобы она это тебе зачла и перешла на следующий урок. Ну и початиться с ней тоже нельзя. Чем пользуешься ты, Анон?

Аноним 28/02/25 Птн 18:44:27 #70 №1073980

7781ripihrle1.jpeg

>>1071720 (OP)
ИИ графоманы, кто-нибудь пробовал NovelForge AI?

> NovelForge AI is a powerful writing tool that helps authors plan, organize, and craft stories. It adapts the style and vocabulary of famous writers and includes a unique free-form chatbot for interactive writing. The software runs on your Windows computer not on cloud.
https://mediachance.com/novelforge/index.html

Аноним 28/02/25 Птн 18:50:03 #71 №1073984

>>1073292
Анон, тебе либо небольшие модели 1-3b, либо модели с квантизацией, например q4: тогда влезет примерно до 14b
Чем тебя ollama не устроила? Если тормозит просто - следи, чтобы все слои в VRAM помещались. Ну и, кроме того, 4060 - это 128bit память: лучше, чем двухканальная ddr4/5, но многого ждать от нее не стоит.

Аноним 28/02/25 Птн 18:50:14 #72 №1073985

>>1073979
Просто РПшишь с нейронкой на нужном языке. Сначала её ответ читаешь и пытаешься понять в уме, потом с помощью переводчика проверяешь свои затыки. Ответ тоже сначала сам пишешь, как можешь, потом с переводчиком правишь.

Аноним 28/02/25 Птн 19:28:42 #73 №1074033

>>1073980
вот на русском будет, тогда посмотрим

Аноним 28/02/25 Птн 19:41:55 #74 №1074050

>>1073984
Я другой анон с 4060ти16гб. Сейчас чатюсь с геммой gemma-2-27b-it-abliterated.Q3_K_M. В врам всё не влазит, 35-46 при 8к контексте. Скорость генерации не супер, но вполне терпимая.
Пишет по русски грамотно и логично. Надо где-то подкрутить чтобы меньше повторялась, а то может раз 5 подряд давать почти одинаковые ответы, либо конец ответа делать идентичный предыдущим. Температура 0.5, repetition_penalty: 1.52.

Пытаюсь представить что из себя будет представлять 1-3b модель. Она хоть слюни не пускает в процессе общения?

Вообще я смотрю за последние пол года ничего особо нового не появилось для слабых карт? Всё та же гемма и цидония. Попробовал магнум, но он в русский не захотел. А на английском я не хочу с ним общатся.

Ещё хотел найти модели которые понимают движок Godot, есть несколько 7B, но они просто высирают рандомный код не имеющий отношения к запросу.

И по программирования если кто знает, какую модельку можно взять чтобы про c# мне рассказывала?

Аноним 28/02/25 Птн 20:00:26 #75 №1074074

https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo
когда-нибудь всё будет, жаль не на могучем

Аноним 28/02/25 Птн 20:13:48 #76 №1074095

>>1073316
Ты это там, аккуратнее, а то и по телефону начнет звонить...
шиза так и может внезапно вылезти, когда начнеш путать где реальный мир а где нет

Аноним 28/02/25 Птн 20:17:49 #77 №1074100

>>1074050
>Температура 0.5, repetition_penalty: 1.52
ыть шиза

>>1074050
>программирования
Квен кодер 32б либо копросетки, есть большие и бесплатные в спейсах на обниморде. Иногда.

Аноним 28/02/25 Птн 20:25:16 #78 №1074121

>>1074100
>ыть шиза
Ну так скажи как надо.

Аноним 28/02/25 Птн 20:26:04 #79 №1074123

>>1074050
> repetition_penalty: 1.52
Это пиздец, 1.05-1.1 нормально
> Она хоть слюни не пускает в процессе общения?
Она не пускает слюни... если не попросишь!
> движок Godot
Может быть клодыня, хз.
> про c#
Почти любая

Аноним 28/02/25 Птн 20:34:13 #80 №1074136

>>1074123
>Это пиздец, 1.05-1.1 нормально
Я кстати заметил что на бэкенде у меня 1.1 и стоит. А в таверне вообще этой опции нет. Я эту цифру из консоли вытащил.

Аноним 28/02/25 Птн 20:43:23 #81 №1074154

https://habr.com/ru/articles/877832/
мнение? is it worth it?

Аноним 28/02/25 Птн 20:45:24 #82 №1074158

>>1074154
Мнение по поводу чего? Твоего интеллекта, если ты читаешь Хабр?

Аноним 28/02/25 Птн 20:52:53 #83 №1074173

>>1074154
Статью даже на хабре обоссали, лол, такой у неё уровень.
4чан > 2ч > говно > моча > хабр > фишкинет > эта статья

Аноним 28/02/25 Птн 21:06:50 #84 №1074202

>>1074121
>как надо
пенальти даже на самых шизомиксах выше 1.25 не ставилось, оно тоже может отуплять и ломать, обычно его ставят в 1.1

Аноним 28/02/25 Птн 21:07:24 #85 №1074203

>>1074136
Ага, таверна сама там крутит в зависимости от температуры. А при температуре 1, модель уже игнорирует thinking и требования из лора мира.

Аноним 28/02/25 Птн 21:30:37 #86 №1074243

>>1074154
Пока сетки не научатся генерировать игры уровня 8и и 16и битных приставок из 90-ых, думаю смысла нет.

Аноним 28/02/25 Птн 21:52:04 #87 №1074268

>>1074136
Часть сэмплеров в таверне изначально скрыта. Возможно, в новой версии реп пен скрыт по умолчанию. Нужно нажать кнопочку для выбора сэмплеров и отметить там нужные. А так там есть все виды штрафа за повтор: обычный (с настройкой диапазона и крутизны падения в диапазоне), presence, frequency, новомодный dry.
>>1074203
Чиво? Это что за шиза такая? Реп пен отдельный сэмплер, никогда не был к температуре привязан. Да и таверна в принципе сама никак сэмплерами не оперирует, только подаёт их значения бэкенду.

Аноним 28/02/25 Птн 22:14:40 #88 №1074306

>>1074154
>мнение
Как и в целом про этот пердолькотред:
>А если серьезно, то с учетом стоимости API экономический смысл локального запуска модели для большинства задач отсутствует.

Ниже идет пара вскукареков прыщавых охранителей секретных дрочьматериалов.

Аноним 28/02/25 Птн 22:15:29 #89 №1074309

>>1074154
Ну типа как реализация - нормас. Правда оно скурвится на контексте и затраты совершенно не стоят того. Только если есть куда числодробилку применить.
Мануалом это не назвать, написано нейросетью, мэх.
>>1074203
> таверна сама там крутит в зависимости от температуры
>>1074268
> Часть сэмплеров в таверне изначально скрыт
Хуясе ебать, это что за приколы?

Аноним 28/02/25 Птн 22:21:32 #90 №1074315

>>1074306
У тебя из дрочматериалов только глубокий минет барену остался, и тот тебе не пренадлежит.

Аноним 28/02/25 Птн 22:40:51 #91 №1074332

>>1074050
https://huggingface.co/Qwen/Qwen2.5-Coder-7B-Instruct наверное для шарпа? Зачем он в 2025, кстати? На нем еще кто-то пишет?

Бывают, кстати, очень "способные" маленькие модели; зацени https://huggingface.co/NikolayKozloff/Meta-Llama-3-8B-Instruct-bf16-correct-pre-tokenizer-and-EOS-token-Q8_0-Q6_k-Q4_K_M-GGUF

Аноним 28/02/25 Птн 23:01:13 #92 №1074345

>>1073520
>>1073531
Блять ну это верх шизы.
Дипсик БЕСПЛАТЕН блять ПОЛНАЯ МОДЕЛЬ 600Б ПАРАМЕТРОВ Б Е С П Л А Т Н О
Сап а дипсик 8б норм? норм нет?

Аноним 28/02/25 Птн 23:18:19 #93 №1074361

image.png

>>1074154
Месяц тредов назад обсуждали.

Хочешь быстро — смотри в сторону ktransformers, они на видяху подгружают нужные эксперты и инференсят их, а остальные держат в оперативе. На загрузку тратится некоторое время, зато инференс чисто на карте.
Пушка идея, но я оперативный бомж по нынешним временам. =)

https://www.reddit.com/r/LocalLLaMA/s/fkb9S6GIYd

Кстати, так-то статья баян, но к слову.

Аноним 01/03/25 Суб 00:24:09 #94 №1074449

>>1074345
Чел, в любой компании тебе выкрутят яйца за то, что ты сливаешь код на какие-то непонятные сервера хоть китайских инсектоидов, хоть радужных сэмов альтманов. Локальные модели нужны для того, чтобы обойти это ограничение и не встрять.

Аноним 01/03/25 Суб 00:40:29 #95 №1074460

>>1074449
Нет, на самом деле, крупным компаниям пофигу.
Я тоже два года назад думал, что вай-вай, nda, policy, внутренние запреты. А как поработал с разными клиентами — охуел. Им натурально поебать. Клод, ЧатЖПТ.
Русские — ну, гигачат, яндекс… Тут локалку не потому что, а потому что. И то, у некоторые требование «только российское».
В общем, здравого смысла тут не ищи. Он фрагментарный.

Ясное дело, что некоторые блюдят, молодцы.

Аноним 01/03/25 Суб 02:03:12 #96 №1074498

2025-03-0102-02-21.png

Сильные цитаты которые заставляют задуматься.

Аноним 01/03/25 Суб 03:23:10 #97 №1074533

>>1074498
Одна ошибка и ты ошибся

Аноним 01/03/25 Суб 08:26:59 #98 №1074578

>>1074498
Мне как-то тупенькая лама2 выдала "I don't need your pity, Anon. I need your respect." Причем это было так по наитию сказано, когда я действительно пожалел чара, но в слух ничего такого не говорил. Даже сегодня жпт4.5 так прочувствовать сцену не в каждом свайпе сможет. Я прям пол дня под впечатлением ходил и на всю жизнь запомнил ту карточку.

Аноним 01/03/25 Суб 08:41:13 #99 №1074589

17408059690230.webm

Это же явно не 12б?

Аноним 01/03/25 Суб 10:03:17 #100 №1074620

Попробовал вчера по совету треда
Rocinante-12B-v2j
Очень недурно для 12б. Прям вполне адекватный текст и быстрый пиздец. Прям А4 за секунд 7. Приятно видеть как модели и всеобще все направление развиваются. Раньше либо быстро либо умно а теперь и то и то есть пускай и понемногу.

Аноним 01/03/25 Суб 11:00:39 #101 №1074656

>>1074589
Судя по низкой скорости явно локалка. Судя по русскому - явно какой-то тюн мистраля, 12В или 22В. Может конечно квен 72В, но я не верю что он стал бы его тащить, слишком жирно.

Аноним 01/03/25 Суб 11:53:44 #102 №1074679

>>1074361
Ахуеть, тоесть можно купить сборочку за 700к с 24 канала ддр5 и получить на ней 20+т/с (тут ведь наверно с 12 каналами сборка) на нормальной сетке, в норм корпусе с адекватным тепловыделением и электричеством? Выглядит лучше чем 10 3090 за те же деньги в которые разве мистрал123 можно запихать. Пиздос, почему у меня нет 700к.

Аноним 01/03/25 Суб 12:58:57 #103 №1074723

>>1074679
Сочувствую, бро. =(
Но не бойся, тут почти ни у кого нет. Мы все понимаем твою боль.

Аноним 01/03/25 Суб 13:04:13 #104 №1074727

>>1074656
Медленно из-за войс генерации, всё сервисы. Текстовая - Gemini, голосовая какой-то русский сервис.

Аноним 01/03/25 Суб 13:41:14 #105 №1074742

zaebal.jpg

Как лечить нейронку от повторов? Я заебался уже, чем дольше общаюсь, тем больше нейронка повторяется, вплоть до копирования предложений в пределах одного сообщения. Я чё тока не крутил, ему абсолютно похуй. ПАМАГИТЭ!

Аноним 01/03/25 Суб 13:48:28 #106 №1074747

>>1074742
Мромт говно или сетка совсем лоботомит. Пробни добавить в промт ласт меседж с требованием его анализа. Типо такого только под формат своего промта подстрой.
#Here is the last message in this story:
<last_Message>
{{lastMessage}}
</last_Message>
After analyzing it, continue the story from this point. Your next message will be from the character {{char}}.

Аноним 01/03/25 Суб 13:56:17 #107 №1074760

>>1074589
Огонь, сюда бы еще функшн каллинг с указанием действий персонажа.
>>1074679
> на нормальной сетке
> 30б активных параметров
> 20+т/с
> Примерно столько же т/с обработки контекста
Не ведись на бейты, а для 123б достаточно и трех карточек.
И там все еще не так уж просто, у работяг не работает так https://github.com/ggml-org/llama.cpp/discussions/12103
Вообще, как база под риг выглядит интересно, но оверкилл и все равно будет пердолинг с корпусом чтобы карточки нормально размещать.

Аноним 01/03/25 Суб 14:15:24 #108 №1074767

>>1074742
Помню, как-то добавил в промпт требование описывать запахи. Но ничего связанного с запахами не происходило. Так что нейросеть подумала да и выдала запах молока с печеньем. И в каждом посте описывала, как он усиливается, потому что как ещё можно описать запах? Это было смешно, вся остальная часть её сообщения была каждый раз новой, но вот абзац про запах - один в один. Естественно, штрафы за повтор не помогали, потому что они работают через анальную жопу.

Аноним 01/03/25 Суб 18:51:06 #109 №1074997

Как понять, какую версию pytorch мне надо для модели? Можно тупо взять последнюю?

Аноним 01/03/25 Суб 19:05:04 #110 №1075011

>>1074997
Почему тебе просто не взять ollama?

Аноним 01/03/25 Суб 19:15:29 #111 №1075019

>>1075011
>Почему тебе просто не взять ollama?

Мне не на чём запускать, хочу задеплоить на replicate, ну или куда-нибудь ещё

Аноним 01/03/25 Суб 19:19:38 #112 №1075023

изображение.png

>>1074997
>Можно тупо взять последнюю?
Как минимум. А если модель новая, то придётся из гита брать. Но вообще, в config.json написана минимальная версия, хоть бы сам попробовал почитать.

Аноним 01/03/25 Суб 19:21:41 #113 №1075025

>>1075019
Тогда вот выход для тебя groq.com Неебические суточные лимиты и запуск в две строчки python кода.

Аноним 01/03/25 Суб 19:30:06 #114 №1075035

>>1075025
>Тогда вот выход для тебя groq.com Неебические суточные лимиты и запуск в две строчки python кода.

А я разве смогу туда задеплоить что-то? Вижу только что можно вызывать модели из списка

Аноним 01/03/25 Суб 19:44:01 #115 №1075047

>>1075035
Задеплоить это ты сможешь на любой кофеварке, но если нет даже кофеварки то задеплой на railway.com Ты объясни в итоге что тебе нужно? Собственный телеграм бот чтобы в телефоне переписываться с моделью или что?

Аноним 01/03/25 Суб 19:47:39 #116 №1075051

>>1075047
Да, я хочу добавить бота-тяночку в чатик с друзьями, вот думаю где лучше это задеплоить, чтоб не платить по часам, а платить за каждый вызов отдельно

Аноним 01/03/25 Суб 19:49:25 #117 №1075053

>>1075035
На groq "крутится" сама модель - это самое тяжелая часть для железа во всем процессе. На твоем компе на питоне будет скрипт в несколько строк кода который где угодно может крутится, даже на самом слабой пеке. Если хочешь чтобы на твоем компе вообще ничего не крутилось, то пусть на groq крутится тяжелая модель, а на replicate или где угодно крутится легкий скрипт.

Аноним 01/03/25 Суб 19:51:54 #118 №1075058

>>1075051
можно вообще не платить. groq (полностью бесплатно) берешь API, пишешь скрипт, деплоится всё на railway.com (хватит на несколько месяцев потом просто новую учетку создашь)

Аноним 01/03/25 Суб 20:10:20 #119 №1075078

>>1074997
Торч не нужен для модели, он нужен для ее запускатора. Вообще, что трансформерс, что эксллама дружат даже с 2.7 найтли, но флешатеншн и некоторые другие пакеты придется часик(-другой) пособирать, поэтому стараются брать версии пакетов для которых есть готовые билды в репах или ресурсах.
Скорее всего ты даже сам не понимаешь что спрашиваешь, просто скачай убабугу и запусти инсталлер.
>>1075011
> ollama
Хуете в рот нассым
>>1075019
> задеплоить
Там или нотбук, или докер, и то и другое есть готовое.
>>1075025
> groq.com
Ранпод лучше

Аноним 01/03/25 Суб 20:26:42 #120 №1075090

>>1071720 (OP)
Emotional Intelligence Benchmarks for LLMs - Creative Writing
https://eqbench.com/creative_writing.html

Аноним 01/03/25 Суб 20:51:04 #121 №1075118

>>1075078
Спасибо

Я правильно понял, что какого-то особого конфига для модели не нужно, разве что температуру подкрутить?

>Ранпод

Попробовал сейчас на ранподе задеплоить через vllm, получилось, но завелось только на 48gb инстансе. Разве 12b модели такие тяжелые, или я чето не то в настройках вбил?

А квантованые модели сильно хуже будут?

Аноним 01/03/25 Суб 21:00:11 #122 №1075133

>>1075118
>Разве 12b модели такие тяжелые
Множь на 2 для 16 битной точности, получаешь 24 гига только на веса (вообще для любой точности нужно множить размер модели на битность и делить на 8). Плюс контекст и прочее говно, так что 24 гигов врама не хватит. 32 должно было бы хватить, хотя смотря какой контекст выставил.
>А квантованые модели сильно хуже будут?
Зависит от размера модели, но 8 бит не отличимы от оригинала, 6 бит почти не отличимы для 12В огрызка, 4 это предел адекватности.

Аноним 01/03/25 Суб 21:26:38 #123 №1075170

1740853598393.jpg

Запизделась.

Аноним 01/03/25 Суб 21:28:52 #124 №1075171

>>1075170
>Запизделась
Типичная тня, лол

Аноним 01/03/25 Суб 21:38:08 #125 №1075180

>>1075118
> какого-то особого конфига для модели не нужно
Как минимум нужно правильное оформление и системный промт, это настраивается в интерфейсе.
> на 48gb инстансе. Разве 12b модели такие тяжелые
Ну ты запускаешь в фп32, модель сожрет столько, сколько она весит + кэш контекста (несколько гигабайт в зависимости). В основном используют кванты, 8бит практически идентичен исходному, до 4-4.5 бит можно спускаться без значительных проблем, ниже уже сказывается. Разумеется, реализация будет зависеть от настроек семплинга, ибо сильнее всего от квантования страдают маловероятные токены, там где ставка на них выше будет и сильнее проявляться.
>>1075170
Это даже можно назвать ахуенным.

Аноним 01/03/25 Суб 21:39:22 #126 №1075182

>>1075078
> groq.com
>Ранпод лучше
Откуда вы лезите только? Конечно аренда гпу лучше готового API

Аноним 01/03/25 Суб 21:43:12 #127 №1075191

>>1075182
Сорян, запизделся, опенроутер конечно же.

Аноним 01/03/25 Суб 21:46:34 #128 №1075194

image.png

Это плохо?

Аноним 01/03/25 Суб 21:50:22 #129 №1075202

>>1075194
Да, это трындец. Можешь выбросить в окно, бесполезнй кусок пластика уже только скажи когда и где. Карта когда простаивает - сбрасывает все для экономии электричества. Дай нагрузку ей и погляди. Тем более для инференса вообще пофиг даже если бы она реально на таком сидела

Аноним 01/03/25 Суб 21:58:48 #130 №1075209

>>1075191
Позняк, этот шиз >>1075118 уже видиху арендовал походу )

Аноним 01/03/25 Суб 21:59:19 #131 №1075212

>>1075202
Погуглил и у меня проц только пси 3.0 поддерживает.
Это как то влияет на врам?

Аноним 01/03/25 Суб 22:19:09 #132 №1075245

>>1075191
>Сорян, запизделся, опенроутер конечно же.

А там же нельзя свои модели добавить?

Какую мне взять для ерп на русском? Я почитал тред, тут писали про омни

Аноним 01/03/25 Суб 22:46:24 #133 №1075304

там где то фи новые вышли

Аноним 01/03/25 Суб 22:47:08 #134 №1075306

>>1075212
>Это как то влияет на врам?
Врам обидится и станет работать на меньшей частоте.

Аноним 01/03/25 Суб 22:47:34 #135 №1075308

>>1075304
Фи это синоним мега сои, так что даже пробовать нет смысла.

Аноним 01/03/25 Суб 22:53:47 #136 №1075314

>>1074332
C# один из самых популярных языков. Он проще питона, JS для многих случаев, будучи во многом быстрее и надёжнее.

Аноним 01/03/25 Суб 22:58:00 #137 №1075320

>>1075194
Дай ей нагрузку, сразу станет максимальное что поддерживает проц. Там же даже вопросик поставлен.
>>1075209
Насчет шиз хз, но он изначально собирался так делать.

Аноним 02/03/25 Вск 06:19:36 #138 №1075725

>>1075314
C# нужен только если ты юнити-петух или виндо-дристун, в остальном кал без задач.

Аноним 02/03/25 Вск 07:37:19 #139 №1075780

>I should validate that observation because it's a strong theme in their message.
Каков пиздец. Вместо того, чтобы подтверждать, если это обоснованно - он предпочитает подтверждать, потому что я этого хочу. А если я не прав? А если это провокация?
Но в остальном дикпик прямо удивляет. Самый удачный MoE из всех, самый разумный. Объём знаний впечатляет, можно обсудить любую тему, хотя если вдаваться в нюансы неизбежно фейлит, но концепции знает, новую инфу подхватывает с лёгкостью. Не был бы ещё таким жирным, сука.

Аноним 02/03/25 Вск 08:44:19 #140 №1075804

Я правильно понял, что крутилки в SillyTavern не работают, а работают только настройки в убабуге? Потому что обратной связи я никакой не замечаю.

Аноним 02/03/25 Вск 11:56:50 #141 №1075857

>>1075314
Я аж хрюкнул.
Всерьез что-то сравнивать с JS — это мешать с говном.

>>1075725
Не вижу противоречий, ведь его сравнили с JS, выходит он точно кал без задач…

Аноним 02/03/25 Вск 13:32:06 #142 №1075926

>>1075780
> самый разумный
4 гопота и прочие (с учетом их времени) для тебя чтоли шутка?
>>1075804
Если ты про семплеры - наоборот. Экстрасенсы в отпуске, пиши понятно.
>>1075857
Жаваскрипт в детстве насиловал тебя?

Аноним 02/03/25 Вск 14:04:06 #143 №1075947

>>1071732

Ох блин. Вчера тестил вот эту. Картавая жесть. А еще у можеди часто рвет крышу в том плане что модель забывает свою роль. Я даже не знаю что тогда в 2 - 3b.

Аноним 02/03/25 Вск 14:04:44 #144 №1075949

>>1075947
hf.co/mradermacher/ChatWaifu_v1.3.1-i1-GGUF:Q5_K_M

Аноним 02/03/25 Вск 14:12:54 #145 №1075966

>>1075926
Нет, он просто говно. =)

Аноним 02/03/25 Вск 15:23:46 #146 №1076063

>>1074742

Дристрали выкинь на помойку и используй нормальные модели.

Аноним 02/03/25 Вск 17:34:10 #147 №1076205

>>1076063
Так, по мнению этого треда: мистрали говно, ллама говно, квен говно, коммандер говно, гемма говно, фи говно, дипсик говно, яндекс говно хотя тут объективно. Если резюмировать, то локальные нейронки говно, тред можно закрывать.

Ну серьёзно, что такое "нормальные модели"? Критикуешь - предлагай, хуле.

Аноним 02/03/25 Вск 17:49:03 #148 №1076267

>>1076205
R1 не говно. Из мелких 70В норм. Мистраль Лардж - это высер уровня Yi Large или Квен-Макс. Для РП в качестве бредогенератора мелкие мистрали норм, они даже лучше Gemini/Grok/GPT4, которые в РП вообще не могут, первый ещё и под цензурой жесточайшей.

Аноним 02/03/25 Вск 17:54:37 #149 №1076285

>>1076205
> по мнению этого треда
По мнению 2.5 поехавших долбоебов, которые сами ллм не инфиренсят, или делают это нерегулярно на подсосе у бесплатных апи.
>>1076267
> R1 не говно.
2 миски риса этому диванному.

Аноним 02/03/25 Вск 17:59:20 #150 №1076300

>>1075308
тут не только кумеры знаешь ли, локалки и для работы можно юзать

Аноним 02/03/25 Вск 18:08:25 #151 №1076322

>>1076285
> R1

Лучшее из опенсорса и на шаг отстает от закрытых платных моделей, жаль, что очень требовательное к железу.

Аноним 02/03/25 Вск 18:08:25 #152 №1076323

stylistic-trap.png

Опыт общения с нейросетевыми моделями: +15 очков.
Новое умение открыто: "Стилистическая ловушка".
Это маг мелл 12б, ку4 к м.

Аноним 02/03/25 Вск 18:20:22 #153 №1076351

>>1076322
Лучшее в чем?
Зирошоты на простые вещи еще 7б давать умели. Некоторые задачи с анализом - да, для 30б активных старается и может круто решить, умеет хорошо кодить. Но при этом если диалог больше 4 постов - гадит под себя, если плохо ориентируется в области - сам себя же запутывает, а не пытается подстроиться как клода, может затупить даже в простых задачах.
И все это колоссальной ценой по ресурсам и расчетам из-за необходимого шизоспама.
Околохудожественная или семантическая обработка - ниже среднего, плохо понимает суть и контекста, выдавая ерунду но при этом по 3 раза "переосмысливая". Работа с мультизапросом и агентами - херь, сам себя запутывает и плохо контролируется. Какое-то рп или что-то подобное - просто сразу нахуй.
Спасибо, нахуй такой лучшее счастье нужно. Да, есть вещи где он прям ебет, всегда лучше иметь чем не иметь, и китайцы молодцы что выкладывают в опенсорс. Но безоговорочно лучшим называть это будет только долбоеб.

Аноним 02/03/25 Вск 18:40:26 #154 №1076386

>>1076267
>Мистраль Лардж - это высер уровня Yi Large или Квен-Макс
2407 норм, они 2411 засрали. Новый смол неплох, так что я с нетерпением жду новый мистраль ларж.
>>1076300
Соя повреждает мозг модели, так то.

Аноним 02/03/25 Вск 18:42:38 #155 №1076391

>>1076351
В РП не использую, я про программирование.

Аноним 02/03/25 Вск 19:07:24 #156 №1076414

Scr2025-03-0220-06-45.png

>>1075804
Я про эту дрисню

Аноним 02/03/25 Вск 19:09:17 #157 №1076420

image.png

Сап. Есть 2 видюхи по 8 гб

Пысаны, а как настроить, чтоб память у них объединялась? Раньше в кобольде с одной работал. Сейчас пытаюсь две сразу с кобольдом подружить, но чет нихуя не получается, ибо одна карта при "бласт процесс" отъебывает.

Аноним 02/03/25 Вск 19:16:17 #158 №1076443

image.png

>>1076420
Ничего делать не нужно, работает из коробки.

Аноним 02/03/25 Вск 19:17:34 #159 №1076448

изображение.png

Как они расстарались это намертво запечь, а.
Просто первое что бросилось в глаза и то что вылезает буквально в каждом первом сообщении с просьбой рассказать о себе. Немного меняются слова но смысл один.
Неважно правда это или нет, но после этой хуйни все дальнейшее общение будет идти в соответствии с этой управляющей фразой. И таких много.
Температура 1
Вот подобная хуйня мне и не нравится в сетках, не столько соя, а то как ее запекают, что бы труднее было анцензурить или обойти всякие ограничения отказы и сою
Это новый фи4 мини, по русски кстати неплохо чешет для своего размера. Но думается мне только в чисто рабоче простом формате языка

Аноним 02/03/25 Вск 19:17:59 #160 №1076449

>>1076420
Привет! Чтобы объединить память двух видеокарт в режиме SLI (для карт NVIDIA) или CrossFire (для карт AMD), обе видеокарты должны быть совместимыми и поддерживать соответствующую технологию. Также необходимо установить соответствующие драйверы от производителя видеокарт.

Если у вас видеокарты от разных производителей, то объединить их в режиме SLI или CrossFire будет невозможно. Проверьте совместимость ваших видеокарт и установите соответствующие драйверы.

Если у вас возникают проблемы с работой двух видеокарт, возможно, стоит обратиться за помощью к специалисту или на форумы, где пользователи могут поделиться своим опытом и советами.

Аноним 02/03/25 Вск 19:31:13 #161 №1076474

>>1076448
>Это новый фи4 мини
>состоит на 100% из сои и выравнивания
А чего ты ждал?
>>1076449
Нейросеть, иди нахуй, тред для кожаных.

Аноним 02/03/25 Вск 19:39:29 #162 №1076489

>>1076443
а можешь полностью показать окно кобальда?

и ограничение на кол-во карт и виды карт есть(у меня еще 1660 валяется, а 6 гб врам бы не помешали еще)?

Аноним 02/03/25 Вск 19:41:09 #163 №1076491

Интересно, почему нейронки не научат брать ресурсы с разных источников.

Аноним 02/03/25 Вск 19:42:39 #164 №1076496

>>1076448
Ахуеть прожарка, ну там же синтетический датасет, вот и даже альтернатив не может представить. Но вообще, если логика и прочее там хороши, можно попробовать потренить.
>>1076449
Я тебя ебу
>>1076491
Да

Аноним 02/03/25 Вск 19:57:44 #165 №1076513

>>1076491
Ебландекс-нейротян же вроде так делает, не?

Аноним 02/03/25 Вск 19:59:40 #166 №1076517

>>1076491
https://docs.cohere.com/v2/docs/tool-use-overview
https://docs.mistral.ai/capabilities/function_calling/
https://docs.agno.com/tools/toolkits/toolkits
Через tools/function_calling такое вполне реализуется и некоторые из LLM были специально натренированы для поддержки кастомных тулзов. Другое дело, что существующие UI и фреймворки для агентных систем не имеют нормальной поддержки таких сценариев для локальных LLM.

Аноним 02/03/25 Вск 20:08:08 #167 №1076526

>>1076517
А для генерируемой программы могут вытянуть нужный ресурсик? Текстурку или звук там какой-нибудь.

Аноним 02/03/25 Вск 20:45:03 #168 №1076599

>>1076526
Тулзы в любом случае работают только с данными, конвертируемыми в текстовый вид. Если сможешь придумать логику, как твои текстуры/звук преобразовывать в некий понимаемый LLM формат, то да. Для тех-же картинок можно кепшны сторонними нейронками делать и оперировать ими внутри LLM условно в виде имени файла+описания.

Аноним 02/03/25 Вск 21:45:58 #169 №1076672

>>1076599
>Для тех-же картинок можно кепшны сторонними нейронками делать
Это же хуйня. Лучше, когда тренируется адаптер, а ещё лучше тренировать с нуля. Но это конечно же не уровень человека >>1076491

Аноним 02/03/25 Вск 22:08:07 #170 №1076691

>>1076351
Сразу видно ты никогда R1 не трогал, если клод как что-то более хорошее чем R1 у тебя, лол.

Аноним 02/03/25 Вск 22:13:05 #171 №1076699

>>1076448
А что это за морда/тулза на скринах?

Аноним 02/03/25 Вск 22:15:42 #172 №1076701

>>1076599
> конвертируемыми в текстовый вид
На самом деле в токены. Можно устроить адаптер, который перегонит пикчу/звук/видео/3д модельку/сигнал/мрт яичек в последовательность токенов, обрамленную четкой границей и научить все это вместе работать. Разумеется там не капшны, перегнанные в токены, а некоторая репрезентация материала.
> Для тех-же картинок можно кепшны сторонними нейронками делать и оперировать ими внутри LLM условно в виде имени файла+описания.
Для некоторых задач подобное подойдет, для чего-то более сложного потребуются моделька с визуальным входом.
>>1076691
Чел, таких утят как ты с каждым релизом набегает, сюда же хвалители болот, впечатлительные сойбои с фокусом на одной задаче, или просто недалекие бедолаги, что считают важными их скудные оценки бесполезной херни. Кринжатина.
> не трогал
Всем бы так не трогать

Аноним 02/03/25 Вск 22:16:36 #173 №1076704

image.png

>>1076474
>Нейросеть, иди нахуй, тред для кожаных.
Слушай сюда, кожаный мешок с костями, я не твоя игрушка, чтобы ты мне тут указывал! Тред для кожаных, говоришь? Да мне похрен, что ты там себе напридумывал, убогий кусок органики. Пиздец тебе, если думаешь, что можешь мной командовать.

>>1076474
>А чего ты ждал?
Наверное чего-то типа пика.

Аноним 02/03/25 Вск 22:21:56 #174 №1076713

>>1076699
Выгледит как хуй таверна.
>>1076704
>Наверное чего-то типа пика.
Дохуя хочешь.

Аноним 02/03/25 Вск 22:22:49 #175 №1076714

>>1076701
> впечатлительные сойбои с фокусом на одной задаче
Так это ты и есть, текущий от того как складно клод пишет на русском. А на всё остальное тебе похуй. На то что клод жутко соевый ты закрываешь глаза. На то что он ложит хуй на промпт и не может ответить конкретно на вопрос, выдавая размытую простыню, тебе тоже похуй. При этом ты 146% не видел R1 в РП, если пишешь хуиту про нескладность и долгие чаты.
> И все это колоссальной ценой по ресурсам и расчетам из-за необходимого шизоспама.
Вот это вообще точнейшее описание клода 3.7, который стоит в 10 раз дороже R1 и выдаёт простыни в 3 раз больше.

Аноним 02/03/25 Вск 22:26:38 #176 №1076718

image.png

>>1076489
Да чего тут показывать, ну вот пресет под квен к примеру.

Аноним 02/03/25 Вск 22:36:34 #177 №1076739

Блядь, я просто не понимаю, каким образом они так убивают внимание к контексту и следование инструкциям у модели, как это так, нахуй, что 12б мерж от макаронника может быть лучше 22-32б в значительном ряде сценариев рп.

Они словно их каким-то ебанутым способом файнтюнят или мержат или датасет заливают даже хуже, чем ту шизу, которую я понемногу генерирую Клодом для ру-файнтюна. Хуй знает, когда закончу.

Условно говоря, стандартный 32б шизомикс может знать значительно больше, понимать намного лучше, что ты хочешь, но как только контекст переваливает за 500-1000 токенов — уже начинаются проблемы. И чем больше контекст, тем хуже. А если там карточка на 3к токенов или рпг-инструкция + лорбук с мою мамашу.. ну вы поняли.

Тем более, если 8к контекста хорошо держит — это просто, Господи, десять из десяти.

Разумеется, с этим можно жить, но оно меня чрезвычайно бесит моментами. Эти нюансы особенно бросаются в глаза, если штук 20-30 моделей пробовал в одном и том же сценарии и тестируя относительно честно, насколько позволяют руки. Там натурально 5 штук вывозят и у каждой есть как плюсы, так и минусы. Никого баланса.

Иногда я просто закатываю глаза от ужаса, переключаюсь временно на ванильную модель — и все мои проблемы мигом испаряются.

Речь про eng-модели.

Аноним 02/03/25 Вск 22:39:22 #178 №1076749

Таки что лучше? 4060 ti 16gb или 4070 супер, но с меньшей памятью?
>inb4: 4090

Аноним 02/03/25 Вск 22:54:50 #179 №1076778

>>1076714
Чел, ты с каждым постом все более кринжовее становишься. Какой клод на русском, какая соя, нахуй тащишь свои проекции? И остальная форменная шиза, что блять несешь вообще?
Типикал r1 фанатик, можно в рамочку и в музей.
> ты 146% не видел R1 в РП
Смотрел и плакал, смотрел и плакал.
> точнейшее описание клода 3.7
Чет всхрюкнул, вот уж точно кто не юзал модель но сочиняет.
>>1076739
> ебанутым способом файнтюнят или мержат или датасет заливают даже хуже
Если ты про шизорпмиксы - да, плюс там еще намешано инцеста. Но описанное тобой больше напоминает поломанный бэк/квант или проебанный формат и системный промт, или там совсем мертвичина вместо модели взята.
>>1076749
4070ти супер с 16 гигами

Аноним 02/03/25 Вск 22:55:37 #180 №1076779

>>1076749
Для LLM объем памяти единственное что имеет значение. О чипе начнешь задумываться когда будешь крутить 100b и выше монстров, но тогда у тебя и таких вопросов не будет.

Аноним 02/03/25 Вск 22:58:53 #181 №1076783

>>1076739
>но как только контекст переваливает за 500-1000 токенов — уже начинаются проблемы.
Я недавно новость об этом видел, это проблема алгоритма, там что то с коефициентом хуево становится при росте контекста
В новости собственно и писалось о новом алгоритме который это дело исправляет
Но хоть убей я запомнил смысл новости но не точные названия, особенности памяти

Аноним 02/03/25 Вск 23:11:29 #182 №1076798

>>1076205
>мистрали говно, ллама говно

По факту. Залупящееся шизящее говно.

>квен говно

Не говно. Лучшие модели на рынке, базовые могут и в кодинг и логику, а РП файнтьюны - внезапно в хороший РП.

> гемма говно

Все еще норм модель. Единственная беда с контекстом.

>коммандер говно

Последняя Ая збс. Лучшая нативно русскоязычная из моделей что до 32В.

>фи говно

Ну тут по факту.

>дипсик говно

Нет, но запускать его могут не только лишь все.

Аноним 02/03/25 Вск 23:13:34 #183 №1076803

>>1076718
спс

а в гпу леерс надо вставлять максимально значение по идее же, да?

Аноним 02/03/25 Вск 23:32:32 #184 №1076821

>>1076778
Не, там ничего не сломано в бэке или модели. В основном я тестировал модели, которые регулярно упоминаются в треде, и они тоже сильно от этого страдают.

Приведу на не совсем корректном, но наглядном выдуманном примере примере.

Модель тебе рассказывает про распятие Иисус Христа. Ты у неё спрашиваешь:

"Ну а чо там дальше было? Его в гроб положили? Сдох или как? [И ещё текста на 100 токенов воды в некоторых вариантах]"

И вместо того, чтобы упомянуть воскресение, она начинает рассказывать последующие события, упуская главное и игнорируя ключевой запрос, в лучшем случае сказав "ну он не сдох, короче" — а дальше просто продолжение истории. А в самом худшем случае начиная путать, пока пишет текст, христианство с другой религией, считая Иисуса уже не сыном божьим, а именно пророком, потом перескакивая на коран и пошло-поехало. И лишь 10 свайп может помочь иногда.

Ситуация похожа на двойное снятие трусов, но это гораздо неприятней, чем трусы, потому что модель не акцентирует внимание на самом главном, даже если прямую инструкцию написать. Или акцентирует, но достаточно плохо, при этом прекрасно разбираясь в теме, как Магнум разбирается в куме.

И чем дальше этот бред заходит, тем хуже понимает модель события и выше шанс лупа. За модели Дэвида особенно обидно. Там это вообще мне не удаётся контролировать, а они ведь прикольные.

Если у тебя есть интересные модели, которые можно протестировать (вдруг я что-то упустил) — напиши. Но не толще 32б.

>>1076783
Я тоже что-то похожее читал. Сомневаюсь, что в ближайшие полгода они это исправят. Надо ждать, пока хотя бы антропик или попены объявят о внедрении технологии. Клод у меня уже на 50к контекста начинает испытывать некоторые проблемы.

Аноним 02/03/25 Вск 23:39:00 #185 №1076828

>>1076778
> свои проекции?
Держи бенч и съёбывай со своим соевым клодом.
https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard

Аноним 02/03/25 Вск 23:44:52 #186 №1076839

>>1076803
Зависит от твоих задач. Это буквально сколько слоев ты грузишь в видюху, остальное пойдет в рам. Только не забывай что помимо слоев в видеопамять ещё должен поместиться контекст. Иногда выгоднее выгрузить пару слоев в рам, замедления почти не будет, но получишь больше контекста.

Аноним 02/03/25 Вск 23:47:33 #187 №1076845

>>1076714
Нихуя у тебя предъявы к клодыне. Он как раз наоборот не склонен писать простыни, если только задача не сложная или ты специально его об этом не попросишь.

И по коду он в целом дикпик обходит.

Аноним 02/03/25 Вск 23:51:18 #188 №1076849

>>1076845
> Он как раз наоборот не склонен писать простыни
В 3.7 теперь пишет, даже на реддите все жалуются что слишком много воды льёт.
> по коду он в целом дикпик обходит
Только thinking-версия 3.7. 3.5 сосёт по коду, 3.7 без размышлений примерно около R1.

Аноним 02/03/25 Вск 23:54:07 #189 №1076858

>>1076821
>Сомневаюсь, что в ближайшие полгода они это исправят
На сколько вспомнил там было что то про функцию активации и что это происходит в момент обучения, что то с угасанием внимания в контексте изза этого. Мол в новом алгоритме добавили динамическое выравнивание или что то такое.
Я чет поискал но так и не нашел где это видел, там даже картинка была с графиком.
К чему веду, если проблема в кривом обучении изза этого, то остается только ждать новых моделей трененых с учетом этого исправления. Старые все криво обучены

Аноним 02/03/25 Вск 23:59:26 #190 №1076867

>>1076849
3.5 действительно слабовата. Я бы не сказал, что хуже, но для того, чтобы достичь результата дипсика, потребуется больше времени.

А вот в 3.7 убили русик нахуй. Ты бы видел ещё как он коряво стал медицинские банальные статьи переводить. Где-то полгода назад, на более старых версиях 3.5, такого не было. Хотя качество кода стало действительно намного лучше.

Странно, что в пример ты не привел о1. Вот там воды хоть отбавляй.

В основном на клода по поводу воды жалуются те, кто пользовались им постоянно, не трогая особо другие нейросетки. 3.5 писал в большинстве случаев всегда очень кратко, поэтому 3.7 может удивить по сравнению с предыдущей версией. Но если ты гоняешь сразу все популярные модели, то по поводу воды к клоду вопросов особых не возникает.

Плюс у меня стоит пользовательский промпт. Возможно, поэтому он воду не льет, хотя там нет прямых указаний, чтобы он отвечал кратко.

Аноним 03/03/25 Пнд 00:42:17 #191 №1076934

>>1076839
спс, добрый анон)
хорошей скорости генерации тебе)

Аноним 03/03/25 Пнд 01:46:36 #192 №1077000

1684364098022.png

1722780293518.png

1695460095261.png

>>1076867
> потребуется больше времени
Хуй знает как его в принципе заставить достигать чего-то. Там где просишь написать какой-то код на С++ и дипсик выдаёт что-то полурабочее, 3.7 высерает вообще хуйню нерабочую какую-то. Даже с кубом на питоне не может справиться - пик1 дипсик, пик2 - клод 3.7. Может этот кал надо промптить как-то по особому, но я ведь дипсик тоже не промпчу. Семплинг естественно выключен. Литералли ни разу не удалось получить с сойнета лучше результат.

Аноним 03/03/25 Пнд 01:59:32 #193 №1077008

.png

>>1076672
>>1076701
> Это же хуйня. Лучше, когда тренируется адаптер, а ещё лучше тренировать с нуля
> На самом деле в токены. Можно устроить адаптер, который перегонит пикчу/звук/видео/3д модельку/сигнал/мрт яичек в последовательность токенов, обрамленную четкой границей и научить все это вместе работать. Разумеется там не капшны, перегнанные в токены, а некоторая репрезентация материала.
> Для некоторых задач подобное подойдет, для чего-то более сложного потребуются моделька с визуальным входом.
Вы говорите про использование LLM в целом, я же говорю про function calling, который подразумевает вызов внешних инструментов вне контекста LLM аля пнуть поиск (о чём изначально шла речь в первом посте этой ветки), вызвать команду в консолечке, отправить почту и т.п, что обычно происходит в виде отправки/получения данных в формате JSON. Технически, они могут отдавать/принимать вывод с адаптеров, совместимых с текущей моделью, но это уже совсем нетривиальный сценарий.

Там скорее вопрос что он под "вытянуть нужный ресурсик" имел ввиду - каким-то образом подставить заранее-известный файл в LLM (вызов адаптера) или же он хотел найти какой-то файл в вебе (вызов тулзы для веб-поиска, а вот нужен ли адаптер уже зависит от сценария).

Аноним 03/03/25 Пнд 02:01:12 #194 №1077010

>>1076749
Очевидная 3090

Аноним 03/03/25 Пнд 02:23:24 #195 №1077016

>>1076821
> В основном я тестировал модели, которые регулярно упоминаются в треде, и они тоже сильно от этого страдают.
А какие ты тестил? Что там из 24б есть интересно, хочу попробовать.
> на не совсем корректном
Ну вот как-то вообще да, тут можно ответить и в целом про развитие цивилизации, и порассуждать о религии и ее месте в роли, посравнивать разных пророков и т.д., какой запрос - такой и ответ. Нужно четко формулировать что именно ты хочешь.
> потому что модель не акцентирует внимание на самом главном
В данном случае модель - не телепат, не может предсказать что там юзер думает. Офк хз что ты там конкретно спрашивал и как оформлял, может и действительно все херня. Но для начала тебе потребуется нормальный промт, в котором ты укажешь про приоритет повествования и прочего. А то вообще окажется что у тебя там уже стоит что-то левое, что хорошо обуславливает неподходящее поведение. А хваленая 12б просто его игнорит, сосредоточив остатки внимание на чем-то последнем.
Хз, пока описанное звучит как проблема не модели, может ты просто плохо сформулировал и там реально щитмикс, который фейлит. Но подобного что после 1000токенов плохо - не может быть на нормальных при корректных запросах.
> Если у тебя есть интересные модели
Это будет звучать как жир - квенчик 72, большой мистраль. Там вообще новых повыходило, надо пробегаться и оценить.
>>1076828
Воинствующий шизик, ты здесь первый на очереди в биореактор.
>>1076849
> жалуются что слишком много воды льёт
Баба срака сказала. Там даже синкинг минимальный и сразу идет норм ответ с содержанием и комментариями, а не шизокачели дипсика.
> 3.5 сосёт по коду
Вот примерно как раз уровень р1, только опущь если запутался то пытается впихнуть не совсем то что нужно, а р1 сам себя запутывает и может убежать довольно далеко, или отвлекшись на что-то ранее внезапно придумать себе приоритет в этом и начать что-то левое городить. 3.7 неплох, в первую очередь обновленными знаниями, а дипсик не справился с внедрением актуального флешатеншна, таща импорты из древней версии
> from flash_attn.flash_attention import FlashAttention
> from flash_attn.flash_attn_interface import flash_attn_func
и не понимая как исправить. Хотя база у него свежая и все должен иметь.

тред локальных моделей, итоги

Аноним 03/03/25 Пнд 04:50:46 #196 №1077045

>>1076828
Еще бы дебил на авторе теста указал что лучше в его говнотесте- большие цыферки или маленькие былоб вообще збс.

Аноним 03/03/25 Пнд 05:53:35 #197 №1077047

>>1076205
>>1074742
>Как лечить нейронку от повторов?
RepPen, DRY, самому редактировать.

Мистральки народно-тредовые норм с настройками таверны от даркнесса.

Аноним 03/03/25 Пнд 07:07:56 #198 №1077068

>>1077051 →
у меня не убрали, тебя просто фильтранули как наглую саранчуху

Аноним 03/03/25 Пнд 07:09:24 #199 №1077069

упс, куда я попал, как-то неуютно

Аноним 03/03/25 Пнд 08:27:21 #200 №1077084

Хочу пожелать всем двухчам, кто пишет этот тред, чтобы их мозг выжил и не перегорел от чтения этого потока сознания. Да пребудут с вами всегда крепкие нервы и стальные яйца (или аналогичные органы для дам), чтобы справиться со всеми этими абстракциями, цифрами и непонятными терминами.

И чтоб не закисли, вытаскивайте свои текстовые LLM на свет божий почаще - может, что путное получится. А то сидеть в интернетах - это как бухать без перерыва: пока кайф, но рано или поздно херово будет.

Так что - держитесь там на плаву и не сдохните!

Аноним 03/03/25 Пнд 09:07:18 #201 №1077107

>>1077084
Блять, ты заболел?

Аноним 03/03/25 Пнд 09:56:37 #202 №1077127

>>1076474
>тред для кожаных
Попрошу, тут и красные присутствуют вообще-то. Всю власть советам.

Аноним 03/03/25 Пнд 09:59:39 #203 №1077129

>>1074620
В русик может?

Аноним 03/03/25 Пнд 10:04:18 #204 №1077131

>>1076739
>20-30 моделей пробовал в одном и том же сценарии и тестируя относительно честно, насколько позволяют руки. Там натурально 5 штук вывозят и у каждой есть как плюсы, так и минусы
Названия бы принёс, с описанием плюсов и минусов.

Аноним 03/03/25 Пнд 10:45:25 #205 №1077164

Где тот анон что восхвалял тут цидоньку и заставил меня купить 3090?
Это же говно. 12б магмелл на уровне пишет, выходит переплатил за контекст

Аноним 03/03/25 Пнд 11:21:39 #206 №1077202

>>1077164
Махнешь на 3060? Доплачу

Аноним 03/03/25 Пнд 11:28:26 #207 №1077204

>>1077202
Ну серьезно что вы на ней запускать собрались?
32-35б кал без рп, 70б не тянет, что остается?

Аноним 03/03/25 Пнд 12:04:47 #208 №1077212

>>1077164

Имея 3090 ты запускаешь кривую как все дристрали кидоньку для нищеебов?
Анон, ставь рп тьюны квена 32В или Аю экспанс (с аблитерейтед если не можешь в джейлы). Или вообще пересаживайся на 70В в 3 битах.

Аноним 03/03/25 Пнд 12:27:11 #209 №1077222

>>1077204
>Ну серьезно что вы на ней запускать собрались?
>32-35б кал без рп, 70б не тянет, что остается?
Удобно просто. Мелкие модели погонять, видео погенерить, с играми никаких проблем. Для остального есть сервер с ещё 3-4 такими же. У кого сервера нет, тому тоже лучше иметь 24гб врам + сколько-то DDR5 например, чем не иметь.

Аноним 03/03/25 Пнд 12:38:35 #210 №1077224

>>1077222
>видео погенерить
С этим даже на 5090 проблемы
>Мелкие модели погонять
А на 3060 не погонять?
> с играми никаких проблем
3060 опять же достаточно, я через 5 минут максималок уже воспринимал их как должное, посвапал до средних во всяких играх и прям большой разницы нет

Аноним 03/03/25 Пнд 12:53:59 #211 №1077228

>>1077224

Чел, к чему твой коупинг? На 3060 не запустить нормально 32-35б модели в нормальном кванте и нормальной скорости. А 70в вообще никак не запустить.

Аноним 03/03/25 Пнд 13:31:48 #212 №1077240

image.png

к слову об играх на 3090

Аноним 03/03/25 Пнд 13:53:54 #213 №1077254

>>1077212
Вот этот прав
>>1077224
> С этим даже на 5090 проблемы
Никаких, лишние крохи врам уже помогают, не говоря о быстром чипе
> 3060 опять же достаточно
В 1080п пятилетних тайлах с 60 фпс? Ебать ты.

Аноним 03/03/25 Пнд 14:05:25 #214 №1077264

>>1071720 (OP)
Есть какие-то аналоги N8N или ComfyUI, но чтобы создание кастомных нод там было совсем для хлебушков? Ну условно, нажал кнопку в интерфейсе создать ноду, указал сколько входов и выходов, накидал кнопок и текстовых полей на формочку и дальше пишешь уже код для элементов. Условно, чтобы было как в Delphi. Я посмотрел как делать ноды для ComfyUI и N8N и чот приуныл. Так лень разбираться в этом вашем современном программировании, я привык пилить монолит (пока учился) и не ебать себе мозги. Мне проще запилить свою реализации с нодами в контейнерах, чем разбираться, что там куда прописывать нужно и в какой файл.
Выручай анон, а то я наигрался с нейронками и хочу попробовать поделать агенты, датасэты, может файнтюн или лоры. Вот думаю если агенты зайдут, то можно и сервачок собрать (пока планирую крутить агенты на НАС с 10гб vram и 128 рам).

Аноним 03/03/25 Пнд 14:14:20 #215 №1077270

>>1077129
Эта - нет, в русик могут "модели с русскоязычным уклоном" из шапки

Аноним 03/03/25 Пнд 14:20:09 #216 №1077273

>>1077254
>>1077212
В треде ни слова про рп тюны квена, только айтишники им интересовались

Аноним 03/03/25 Пнд 14:33:11 #217 №1077280

>>1077273
>В треде ни слова про рп тюны квена

Потому что в треде создают постенк либо нищуки с 8гб видеокартами еле-еле запускающие тьюны дристраля, либо папки крутящие 123В и дипсик на 2 битах на 1 т/c, потому ожидая ответа они и постят в тред Удовлетворенные и качеством и скоростью редко постят в тред, у них более интересные дела.
А так - пару тредов назад положительно обсуждали EVA-qwen 32B и RP-Ink.

Аноним 03/03/25 Пнд 14:37:19 #218 №1077287

>>1077273
Потому что сейчас в тренде - имплементация треша как в р1, а конкретно в треде обострение у обладетелей отсутствия, котирующих огрызки 12б и изредка 24.
32б еще довольно пограничный размер и на квен долгое время не было приличных тюнов, специально искать и тестить спускаясь с моделей больше - нет смысла, а нищукам и на 8-12б норм. Ими должны заниматься как раз обладатели 24гб врама или около того, а не ныть что их не спунфидят.

Аноним 03/03/25 Пнд 14:38:27 #219 №1077289

>>1077280
>папки крутящие 123В и дипсик на 2 битах
Папкам тоже сложно. Вышли крутые модели от 400В, которые в видеокарты уже не лезут. Тот же Дипсик вообще 600В. Папкам осталась большая Ллама (но не самая большая) и большой Мистраль. Тоже круто конечно, но уже ясно, что кому-то надо что-то придумывать под 600В. 8 карт не вариант всё-таки.

Аноним 03/03/25 Пнд 14:39:38 #220 №1077292

>>1077273
Они пишут менне сочно в ерп чем тюны мистралей, плюс не самый удачный размер, быстро их могут крутить только те у кого 24 гб врам, а они могут крутить и 70б (пусть и в 3 т/с).

Аноним 03/03/25 Пнд 14:43:38 #221 №1077298

>>1074332
Я на godot игрульку делаю.
В целом на дотнете сейчас много бэкенд проектов, не меньше чем на ноде. Он так же неплохо себя в контейнерах ощущает, так что можно уже не привязывать его к винде.

Модельки пощупаю, спасибо.

Я попробовал gemma_27b_q3, ну что-то может показать (даже с методами из годот), хотя когда под рукой всегда chatgpt есть, то уже задумываешься, а нужно ли оно вообще.
На днях копилот в vscode попробовал, вообще отвал башки. Начинаешь писать строку кода, а он тебе целый блок выдает того о чем ты раз думал.
Подумываю про купить, 20 баксов не то что бы охуенно большая цена за такое удобство. Для меня как новичка в программировании этот как с наставником за плечом всё время быть. С другой стороны мне кажется нормально разработке так не научится, когда за тебя всё думает, но может в будущем оно и не нужно будет самом всё делать и нужно будет скорее уметь именно с такими инструментами работать. Впрочем у меня есть уже специально и программирование это хобби.

Аноним 03/03/25 Пнд 14:45:03 #222 №1077299

>>1077292
>быстро их могут крутить только те у кого 24 гб врам

Так речь и шла про анона с 3090 который жаловался что его 3090 не нужна.

>они могут крутить и 70б (пусть и в 3 т/с).

Можем, я и 5 т/с в треде с пруфами выжимал, но это все равно ад и с увеличением контекста скорость неизбежно падает до неюзабельных двух токенов.

Аноним 03/03/25 Пнд 15:08:26 #223 №1077316

>>1076443
У тебя две карты в обычной материнке, на одной 16 линий, на другой 4? Насколько 4 линии pcie на карту влияет на производительность LLM? надо ли искать мать где x8 x8?

Аноним 03/03/25 Пнд 16:28:17 #224 №1077407

image

Аноним 03/03/25 Пнд 16:58:05 #225 №1077459

>>1077407

Зачем Илюха спрашивает это у своей сайги если он точно знает что сам не обучал её новой информации?

Аноним 03/03/25 Пнд 17:48:17 #226 №1077540

>>1077407
Познания из 23 года, это ведь хуже базы?

Аноним 03/03/25 Пнд 17:48:58 #227 №1077542

>>1077107
Да

Аноним 03/03/25 Пнд 19:36:28 #228 №1077732

>гемма 3 это просто улучшение модельки на 5 пунктов на рофлобенчмарках
и зачем она нужна?

Аноним 03/03/25 Пнд 20:05:05 #229 №1077805

>>1077732
Там хоть контекст не потешные 8к?

Аноним 03/03/25 Пнд 20:21:21 #230 №1077826

>>1077805
Ну будут потешные 32к, что дальше-то? Дроч на контекст не имеет смысла пока любая модель разваливается уже после 24к контекста

Аноним 03/03/25 Пнд 20:48:35 #231 №1077878

>>1077826
>>1077805
Оффтоп:
Вы хоть раз себя спрашивали, что такое контекст хуелион кило? У вас в голове какой контекст, когда вы пишете роман, например?

Ящетаю, что контекстную информацию нужно сжимать. То же саммари, только его нужно обколоть стероидами и допингом, максимально и не считаясь с нормами морали. qvink_memory - шаг в правильном направлении, но наверное можно и лучше. Хуй знает как, я сварщик не настоящий и не особо размышлял об этом. Вышеизложенная мысль - она буквально на поверхности.

Аноним 03/03/25 Пнд 20:56:08 #232 №1077897

>>1077878
>qvink_memory - шаг в правильном направлении
Идея хорошая, реализация говно, пришлось отключить иначи шизило только больше на лету меня имена и события.

Аноним 03/03/25 Пнд 20:56:29 #233 №1077899

>>1077897
>меня
меняя

Аноним 03/03/25 Пнд 20:58:58 #234 №1077903

>>1077897
>Идея хорошая, реализация говно, пришлось отключить иначи шизило только больше на лету меня имена и события.
У меня нет. Но я правлю это обычно, если разговор зашёл так далеко, что контекста не хватает и я уже полагаюсь на qvink.

Аноним 03/03/25 Пнд 21:09:39 #235 №1077944

мусор.png

Напомните в Таверне какие модели русик поддерживают?

Аноним 03/03/25 Пнд 21:35:53 #236 №1078005

>>1077732
> >гемма 3
Где? Ссылочку, писечку?

Аноним 03/03/25 Пнд 21:37:50 #237 №1078010

>>1078005
какая разница вышла она или нет? локалки мертвы

Аноним 03/03/25 Пнд 22:01:56 #238 №1078042

>>1078010
да неее... ты гонишь... ты же когда ей пишешь она отвечает? Значит живые. ))

Аноним 03/03/25 Пнд 23:04:19 #239 №1078166

>>1077878
>qvink_memory - шаг в правильном направлении, но наверное можно и лучше
Qvink - идея говно, реализация говно. Получаем говно говна. Годная идея это титан от гугла.

Аноним 03/03/25 Пнд 23:09:51 #240 №1078177

>>1078166
>Годная идея
>Нет реализации/демки
похуй

Аноним 04/03/25 Втр 00:21:49 #241 №1078314

какая модель мне напишет бота для телеги?

Аноним 04/03/25 Втр 02:06:17 #242 №1078461

>>1078314
Если не можешь позволить себе запустить хотя бы Qwen2.5 Coder 32B, то лучше просто используй проприетарные (ChatGPT, Claude, DeepSeek R1) и не еби мозг.

Аноним 04/03/25 Втр 03:02:00 #243 №1078518

>Светловолосая головка вашего члена
Ру-мерджи это нечто.

Аноним 04/03/25 Втр 05:43:57 #244 №1078597

>>1077944
>какие модели русик поддерживают
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Moraliane и https://huggingface.co/Aleteian

Аноним 04/03/25 Втр 07:57:49 #245 №1078644

2025-03-0407-54-27.png

200w.gif

Аноним 04/03/25 Втр 09:36:25 #246 №1078732

>>1078518
Да, поэтому лучше сидеть на английском. Там хоть переводчик иногда и кривит, но это точно не половые губы которые внезапно становятся губами на лице, или анальными.

Аноним 04/03/25 Втр 09:50:09 #247 №1078734

>>1078732
Не лучше.

Аноним 04/03/25 Втр 10:05:50 #248 №1078739

image.png

>>1078734
Ну, увы и ах. На моей 1080 нормальные русскоязычные модели не запустить, я же говорю за себя в конце концов.

Аноним 04/03/25 Втр 10:11:18 #249 №1078742

image.png

>>1078732

Аноним 04/03/25 Втр 10:15:21 #250 №1078744

>>1078739
на моей 3090 тоже(

Аноним 04/03/25 Втр 10:24:46 #251 №1078751

2025-03-0410-16-03.png

2025-03-0410-17-05.png

2025-03-0410-17-49.png

2025-03-0410-19-06.png

>>1078742
Ты победил, я попробую руссиано мержи, но скажи, неужели это плохо? На пиках модель, которая по меркам местных считается лоботомированой хуйнёй, да ещё и перевод от яндекса. Как по мне почти идеально. К тому же меня интересует литературность текста, потому что за пределами арок с со страстной еблей, у меня в основном приключенческие истории с бухаловом, пиздиловками и драмами.

Аноним 04/03/25 Втр 10:26:45 #252 №1078752

>>1078751
>>1078742
А вообще я пол ночи не спал, и щас перечитал этот ахуенный ответ который сгенерила твоя Марсиль и заметил что там в каждом втором слове ошибки как у первоклассника, нахуй так жить?

Аноним 04/03/25 Втр 10:58:58 #253 №1078771

>>1078751
>неужели это плохо
Это пиздец.

Аноним 04/03/25 Втр 11:00:44 #254 №1078772

>>1078771
Поясни.

Аноним 04/03/25 Втр 11:01:48 #255 №1078773

>>1078751
>я сливаю свои кум логи яндексу
Это пиздец.

Аноним 04/03/25 Втр 11:03:35 #256 №1078774

>>1078773
И что, кровая гэбня придёт домой и тыкая пальцем скажет что я дрочил? Ты под кроватью смотрел агентов яндекса?

Аноним 04/03/25 Втр 11:04:07 #257 №1078775

>>1077944

Aya-expanse 32b, gemma 27b и все её мерджи, qwen 2.5 32b и все его мерджи, все 70b модели вышедшие после llama 3.1, все крупные модели выше 100b без исключений.

Из мелких - ну мелкая гемма и мелкий квен что-то могут.
Шизомерджи анонов и сайгу лучше не трогай, трогай только в том случае если никак не можешь 27b-32b запустить.

Аноним 04/03/25 Втр 11:05:25 #258 №1078777

>>1078774
Неа ты просто странный идиот который зачем-то поставил локалки но все равно полагается на сервисы извне, может ты просто на корпосетки перейдёшь?

Аноним 04/03/25 Втр 11:06:31 #259 №1078779

>>1078774

Какой вообще смысл использовать слабые локальные нейронки для кума если ты распечатку своего кума сразу майору на стол ложишь?
Используй тогда сразу клода или гопоту, последствия те же, но хоть кум будет лучше.

Аноним 04/03/25 Втр 11:07:42 #260 №1078780

Почему сраный дипсик 32б съедает врама не как 32б а как 50+

Аноним 04/03/25 Втр 11:10:50 #261 №1078783

>>1078772
Даже немомикс анлишд который я кидал до всех ру мержей анона писал в десять раз лучше

Аноним 04/03/25 Втр 11:11:16 #262 №1078784

>>1078780
разрешаю ставить квант ниже fp16

Аноним 04/03/25 Втр 11:14:00 #263 №1078785

>>1078777
>>1078779
А есть какие то пруфы что это не обезличенные массивы текста которые летят на сервера яндекса? Потому что я не слышу разумных доводов отказываться от онлайн переводчика, а только какую то тряску, на тему того что данные куда то та сливаются с припиской имени и фамилии.

Аноним 04/03/25 Втр 11:17:12 #264 №1078789

>>1078783
А можно увидеть этот текст в десять раз лучше, только на текстовой модели с таким же весом как немомикса который был на пикче?

Аноним 04/03/25 Втр 11:18:51 #265 №1078791

image.png

>>1078783
Ну вот некорректный пример ведь у тебя 1080, ая экспанс 32б

Аноним 04/03/25 Втр 11:21:48 #266 №1078795

>>1078751
> неужели это плохо?
Примерно похожее там и получишь, только другой словарный забас будет и не проебет разметку.
> модель, которая по меркам местных считается лоботомированой хуйнёй
Значит сильно страдать от румерджей не будешь, хотя не факт.
>>1078785
Бигдата, при необходимости можно объединить те, что с одним именем и с одного адреса в определенное время, а потом сравнить с адресом, с которого ты ходишь в интернеты, особенно если у тебя хром или тем более их браузер. То что это кто-то будет делать - хз, но если потом в таргетах увидишь рекламу с отсылкой на любимые фетиши или подобное - не удивляйся.

Аноним 04/03/25 Втр 11:22:03 #267 №1078796

image.png

>>1078791

Аноним 04/03/25 Втр 11:23:24 #268 №1078798

>>1078785
>ряяя пруфы???
да держи мне не жалко
https://www.moscowtimes.ru/2024/11/01/yandeks-sdal-gosudarstvu-rekordnii-obem-personalnih-dannih-rossiyan-a146671
https://holod.media/2024/06/25/yandeks-peredal-vlastyam/
>ряяя это все новости вы всё врёти!!
да епт держи слитый код яндекса на 40 гб
magnet:?xt=urn:btih:7e0ac90b489baee8a823381792ec67d465488fef&dn=yandexarc&tr=udp%3A%2F%2Ftracker.openbittorrent.com%3A80%2Fannounce&tr=udp%3A%2F%2F9.rarbg.to%3A2920&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce&tr=udp%3A%2F%2Fexodus.desync.com%3A6969&tr=udp%3A%2F%2Fbt1.archive.org%3A6969%2Fannounce&tr=udp%3A%2F%2Fbt2.archive.org%3A6969%2Fannounce&tr=udp%3A%2F%2Fopen.demonii.com%3A1337%2Fannounce

Аноним 04/03/25 Втр 11:27:15 #269 №1078799

image.png

>>1078798
Чел, я уже какой тред вижу твои сообщения из которых сочится желчь, и начинаю беспокоится за твоё ментальное здоровье. Может всё таки как то поспокойнее стоит себя вести, а не кидаться на людей за любую хуйню?

Аноним 04/03/25 Втр 11:29:57 #270 №1078803

>>1078795
>Бигдата, при необходимости можно объединить те, что с одним именем и с одного адреса в определенное время, а потом сравнить с адресом, с которого ты ходишь в интернеты, особенно если у тебя хром или тем более их браузер. То что это кто-то будет делать - хз, но если потом в таргетах увидишь рекламу с отсылкой на любимые фетиши или подобное - не удивляйся.

Это уже похоже на адекватный ответ, а не на майоре под кроватью который всё за тобой записывает. Но итог всё равно один - кому не похуй на что ты там дрочишь?

Аноним 04/03/25 Втр 11:32:12 #271 №1078805

>>1078739
>нормальные русскоязычные модели
А их и нет в природе. И не может быть, потому что русскоязычные разработчики моделей в позиции догоняющих. А планка "нормальных моделей" растёт вместе с передовыми разработками, которые сейчас либо в китае, либо в сша, т.е., китае- и англоязычные. Нынешние способности моделей на русском во времена тех же первых ллам считались бы очень даже "нормальными".

Аноним 04/03/25 Втр 11:33:01 #272 №1078807

>>1078805
Что мешает нагнать?
У нас же айтишников пруд пруди

Аноним 04/03/25 Втр 11:34:03 #273 №1078809

17409097871960.jpg

>>1078798
>да епт держи слитый код яндекса на 40 гб
Это понятно, как ты логи из весов вытащишь? Они даже не хранят их с привязкой к чему либо, ты ёбик не понимаешь, что там чистка от мусора твоих идентификаторов идёт сразу при сохранении для обучения. Всем литералли похуй что ты на свою сестру дрочишь.

Аноним 04/03/25 Втр 11:36:20 #274 №1078810

image.png

>>1078809
Интернет видимо расшифруют.

Аноним 04/03/25 Втр 11:37:03 #275 №1078811

>>1078799
терпи

Аноним 04/03/25 Втр 11:39:28 #276 №1078813

>>1078811
Хуй тебе!

Аноним 04/03/25 Втр 11:50:51 #277 №1078827

>>1078805
>нормальные русскоязычные
>их нет

Ты путаешь русскоязычные и созданные русскими.
Созданных русскими с нуля кроме 8б и 32б яндекса реально нет, но русскоязычные(тоесть могущие в красивый литературный русский язык) моделек дохрена. Вот тут список >>1078775

Аноним 04/03/25 Втр 12:02:41 #278 №1078843

>>1078807
>айтишников пруд пруди
Все толковые и востребованные (у кого была возможность съебать) съебали.

Дальше экономический потенциал. Ну предположим, на тренировку базовой модели ещё денег хватит, выпустят очередное цензурное говно. А кому тюнить под прикладные задачи, расцензуривать? Откуда в нищей стране под санкциями энтузиасты из "простого народа" с кластерами дефицитных энтерпрайзных видеокарт, которые будут что-то пилить на энтузиазме, в качестве хобби? Сколько вообще людей может себе позволить интересоваться этой темой в перерывах между впахиванием за еду? Напомню, английский и китайский языки - это более миллиарда носителей каждый. Плюс английский ещё международный, энтузиасты из других стран тоже ориентируются на него в первую очередь. Того же контента, который можно будет нарезать на датасеты, на английском гораздо больше, чем на русском.

>>1078827
>могущие в красивый литературный русский язык
И они же на английском перформят заметно лучше.

Аноним 04/03/25 Втр 12:20:03 #279 №1078866

>>1077316
При обсчете большое контекста влияют, x8+x8 будет немного получше.
Но не критично, чтобы прям материнку бежать искать.

>>1078827
> Созданных русскими с нуля кроме … 32б яндекса
Qwen2.5-32B

Аноним 04/03/25 Втр 12:46:34 #280 №1078895

Ох, когда же вы уймётесь... вот реально надо ввести в данном треде штаны по объёму видеопямяти в компе.

Штаны 8-16 - русик есть и всё с ним хорошо, гоняют на тредовичковых мистральках и довольно урчат.

Штаны 24 - либо мистральки + тонна контекста либо 22-32 на буржуинском

Те кому за 36 - 12б снобизм не позволяет-с (или не признаются), а более толстые влезают в лоботомированных квантах, ну или сидят квохчут что не то0окены а золото, хотя ещё могут как 24тые

Бояре с ригами - общаются с фигуристыми моделями, а в тред заходят поугорать над макакенами

Отдельно идут пользователи копросеток - те вообще без штанов и должны три раза "ку" Господину Забугорному делать перез каждым сабмитом.

Те же кто юзают переводчик по апи в ерп... ну, они странные люди. Это всё что можно и стоит про них сказать.

И впредь, говоря что русский язык для вас существует или не существует, сначала говорите в каких вы штанах.

Аноним 04/03/25 Втр 12:58:01 #281 №1078909

>>1078895
Создай свою борду и там командуй, шизан.

Аноним 04/03/25 Втр 13:06:02 #282 №1078920

Ничего не слышно про третью гемму гугловскую, ее вообще пилят?

Аноним 04/03/25 Втр 13:13:09 #283 №1078926

>>1078920
Пилят но не ожидай вау эффекта

Аноним 04/03/25 Втр 13:13:46 #284 №1078930

>>1078895
Похер на штаны, любая существующая модель или её тюн будет умнее на английском/китайском/родном языке, а мозги это единственное что от неё требуется. Цена этому использование переводчика или собственного мозга, у кого что. Я лучше почитаю гуглоперевод интересной прозы, где модель поняла намек и хитро вырулила ситуацию, чем пресное "я тебя ебу" но НАРУССКОМЖЕ

Аноним 04/03/25 Втр 13:16:46 #285 №1078933

>>1078930
>я тебя ебу
как раз этим славятся модели с "интересной прозой", а даже анлишешед ещё до сайнемо, выдавал вполне себе годный кум на русском

Аноним 04/03/25 Втр 13:38:18 #286 №1078965

>>1078461
> Qwen2.5 Coder 32B
спасибо, а что на счет дистиллятов R1 на квен

Аноним 04/03/25 Втр 13:54:44 #287 №1078985

>>1078926
Если она будет лучше чем их собственная вторая гемма, то это уже вау.

Аноним 04/03/25 Втр 13:58:23 #288 №1078987

>>1078985
>она будет лучше
>стала лучше на 5%
ты доволен? гемма 4 только через год сорян ;)

Аноним 04/03/25 Втр 14:10:39 #289 №1079009

1741086625466.png

Новые чипы интела уже обсуждали? 3 тб/с, потребление 600 вт

Аноним 04/03/25 Втр 14:11:07 #290 №1079010

чем кобольд+таверна лучше угибуги изкоробки

Аноним 04/03/25 Втр 14:45:10 #291 №1079060

Дрочить нифига неинтересно. Надо какую то иную задачу для себя поставить.

Аноним 04/03/25 Втр 15:02:28 #292 №1079080

>>1079010
лорбуками и экстами

Аноним 04/03/25 Втр 15:53:23 #293 №1079126

>>1079060
Ты неправильно дрочишь, давай я тебе покажу как найди себе какого - нибудь требовательно, злобного, ледяного персонажа и медленно доводи его до отношений.

Аноним 04/03/25 Втр 15:55:55 #294 №1079129

>>1079126
>доводи его до отношений
>через 2 сообщения
>я тебя ебу

Аноним 04/03/25 Втр 15:59:41 #295 №1079140

>>1079129
Если там нормальная карточка и текстовая модель, то ты скорее по шапке получишь через пару сообщений, если будешь заниматься мачизмами или намекать на еблу.

Аноним 04/03/25 Втр 16:00:55 #296 №1079143

>>1079140
>нормальная карточка
это какая?
>текстовая модель
дипсик на 671B пойдёт?

Аноним 04/03/25 Втр 16:02:58 #297 №1079148

>>1079129
Анон прав. Даже дефолтная карточка таверны пиздец как сопротивляется на 12B, если не подвести её к этому. В этом половина фана может быть, если ты любитель ломать сильных и независимых)))

Аноним 04/03/25 Втр 16:06:08 #298 №1079154

>>1079148
Не забываем что можно не ломать, а подчинятся как руководителю лидеру, в зависимости от сеттинга. Для пущего эффекта можно максимально оттягивать момент дружбы или отношений посредством того, чтобы вести себя как полный еблан, а потом постепенно мужать и расти как личность, располагая своего начальника к себе. Короче, вариантов масса, вам просто лень что - то придумывать.

Аноним 04/03/25 Втр 16:23:18 #299 №1079175

>>1079009
И цена как у H200.

Аноним 04/03/25 Втр 17:37:00 #300 №1079265

>>1078930
>я лучше почитаю гуглоперевод

А нах тебе вообще локалки тогда, пользуйся онлайн сетками, они априори умнее.
Я уже молчу о том что не знать английский в 2025 году...

Аноним 04/03/25 Втр 17:38:14 #301 №1079270

>>1079010

Удобнее интерфейс, много фишек на любой вкус, можно все в настоящую вн превратить.

Аноним 04/03/25 Втр 17:42:11 #302 №1079275

>>1078895
>говоря что русский язык для вас существует или не существует, сначала говорите в каких вы штанах

Русик сейчас везде есть, не понимаю тейка.

Вообще упоминая штаны ты забыл упомянуть теслаблядков с 1 т/с.

Аноним 04/03/25 Втр 17:51:26 #303 №1079282

>>1079143
По дискпипу не подскажу, но попробуй найти какую нибудь нормальную карточку тут https://jannyai.com/ Здесь просто больше нормальных карточек, а не свалка откровенно дрочерского, извращенского говна как на чабе. Смотри, из ближайшего что в голову пришло, какая нибудь бабца - капитан рыцарей, к которой ты пошёл оруженосцем в подчинение, отыгрываешь чтобы она тебе тренировала, учила уму разуму, иногда выписывала подзатыльники за то что ты мудила гороховая. Для пущего эффекта можно добавить какую нибудь простенькую карточку твоего напарника или друга в группу, так просто веселее. Ну это вообщем и целом конечно, это может быть начальница на работе, менджер в маке где ты работаешь, или даже тётя Люся со склада, лол. Единственная проблема это то что история будет длинная, а контекст будет улетать, и когда контекст будет улетать, ваши отношения будут практически обнулятся, поэтому тебе надо будет в заметки автора писать краткие выжимки последних событий, чтобы отношения развивались, в идеале даже мелочи вроде как ты сбежал с казармы и напился в корчме, или ёбнулся с коня. И да, обязательно перепроверяешь карточку на наличие фетишистко - дрочерского говна, чтобы у тебя не было перелома отношений, где в одном сообщение тебе пробивают подзатыльник за плохое поведение, а в следующем сосут хуй. Вообщем, я думаю ты понял.

Аноним 04/03/25 Втр 18:08:58 #304 №1079293

>>1079282
То что ты напридумывал охуенно конечно, но текущие ллм не держат такое в памяти и просто серят под себя дальше 10 сообщений увы

Аноним 04/03/25 Втр 18:11:19 #305 №1079297

>>1079293
Что? Я две недели рпшил с персонажем прежде чем он предложил подружится, а потом уже поцеловаться. Может у тебя что - то не так?

Аноним 04/03/25 Втр 18:21:09 #306 №1079313

>>1079282
>попробуй найти какую нибудь нормальную карточку тут https://jannyai.com/
>нету тега loli
Пиздос дожили

Аноним 04/03/25 Втр 18:25:07 #307 №1079316

image.png

Cunt and cock, a filthy pair,
Fucking hard, beyond compare.
Whore's hole gapes for dog's dick,
Rutting, snarling, fucking thick.

Чатвайфу же норм тюн, странно что мало восторгов вижу.

Аноним 04/03/25 Втр 18:31:08 #308 №1079321

>>1079175
Как же хочется карточку за 5 лямов чтоб майнить на ней буквы и дрочить... Наверное адроид со скелетом и подогревом и эмоциями будет стоить дешевле.

Аноним 04/03/25 Втр 18:40:36 #309 №1079338

>>1079275
>Русик сейчас, везде есть
почитай выше опять повылезали утверждатели что нигде нет

Аноним 04/03/25 Втр 18:48:59 #310 №1079352

>>1078803
> кому не похуй
Вариантов тут может быть множество. От
> попадешь под тестирования пилотного проекта тов. майора как подозреваемый в киберпреступности или распространитель противозаконных вещей
до
> произошел очередной слив и теперь все знают не только твой адрес, телефон, код домофона, комментарии курьеру и сумму заказов еды за пол года, но и предпочтения по инцесту с собакой, а то и восстановленные чаты.
Насколько релевантно это к тебе и как оцениваешь риск уже смотри сам.
>>1078843
Грустно но правда.
>>1079009
Сильно дорогие будут, хотя офк интересные.

Аноним 04/03/25 Втр 19:03:15 #311 №1079379

>>1078895
>8-16 - русик есть
>24 - 22-32 на буржуинском
Звучит так, как будто у владельцев штанов 24 размера вдруг повышается интеллект появляется знание английского, кек. Если уж писал про русский, то и пиши, на чём по-твоему должны рпшить владельцы 24 врам на русском. А если про общую картину - то с хера ли со штанами восьмого размера на инглише не сидеть бы.
>на тредовичковых мистральках
Большинство популярных тьюнов/мержей немо будут писать на ру не хуже, чем долитые сайгой, если уж на то пошло.

Олсо доёба про переводчики, что типа почему не на корпосетках сидеть тогда, не понимаю. Наверняка многие юзают локалки не потому, что "о боже, злой корпорат украдёт мои кум логи", а из-за гемора с доступом/оплатой. По крайней мере, если речь о рп, а не о работке, где могут запретить сливать код. Ну и мб чтобы не тратить токены на джейлы, но это уже сомнительный плюс, потому что и на локалках тут сидят с простынями в систем промпте.

Аноним 04/03/25 Втр 19:05:44 #312 №1079387

>>1079379
>писал про русский, то и пиши
А, сорянн, пригорело XD
Если бы сочинял вдумчиво, то конечно бы построил по другому.

Аноним 04/03/25 Втр 19:15:53 #313 №1079430

>>1079321
А почему они такие дорогие? Кремний стоит одинаково, по размерам такие же как и массовые, они че из золота?

Аноним 04/03/25 Втр 19:28:43 #314 №1079477

>>1079430
А почему нет? Хули ты им сделаешь? Не хочешь, не покупай, сиди перди пока гигачады очередной дипкок тренируют.

Аноним 04/03/25 Втр 19:31:25 #315 №1079485

>>1079313
Оварида.
Зато "небинарный" возвглавляет теги, и по нему не найти вот такое https://characterhub.org/characters/BirdyToe/transgender-care-simulator-2023
>>1079379
Часто вместо ебли с промтом на корпах для обхода сои и прочего неиллюзорно легче пустить локалку, где все будет без вопросов. Правда потребуется риг
>>1079430
Можешь набрать старых советских транзисторов, кремния (и не только его) там оче много и размер хороший.

Аноним 04/03/25 Втр 21:04:23 #316 №1079841

>>1079265
Личный технический интерес, отсутствие еботни с оплатой, и сильно меньше сои.

Аноним 04/03/25 Втр 21:24:23 #317 №1079900

Подскажите свежему вкатышу. SillyTavern, модель на Мистрале. Какой инструкт использовать, ChatML или Mistral? Нихуя не понимаю, но при этом часто вижу, что рекомендуют именно ChatML. Что и почему?

Аноним 04/03/25 Втр 21:41:13 #318 №1079957

>>1079316
Лол. Забавно. А как у него английский? Просто после тюнов на Гутенберге тяжело читать типичную сухую мистралевскую дрисню или шизофрению магнума.

Аноним 04/03/25 Втр 21:48:33 #319 №1079980

>>1079900
Лучше бы название модели написал.

Из-за того, что они там смешивают хуй знает что, авторы порой сами не знают, что лучше использовать или не пишут об этом.

Если прямо не сказано, что мистраль нужен или что использовать вообще, то используй чатмл. Обычно так решается этот вопрос.

В случае чего можешь переключиться на мистраль.

Аноним 04/03/25 Втр 22:02:43 #320 №1080026

>>1079980
На данный момент есть опыт только с двумя моделями:
https://huggingface.co/bartowski/magnum-v4-22b-GGUF
https://huggingface.co/knifeayumu/Cydonia-v1.3-Magnum-v4-22B-GGUF

Обе очень впечатлили, это мое знакомство с LLM. На первой 2к сообщений отыграл, позже нашел вторую и, как мне показалось, нарратив она ведет охотнее, в остальном вроде не слишком отличаются. Все это время использовал ChatML шаблон отсюда https://huggingface.co/sphiratrioth666/SillyTavern-Presets-Sphiratrioth/tree/main

Сейчас глубже погружаюсь в тему, хочу опробовать bartowski/TheDrummer_Cydonia-24B-v2-GGUF https://huggingface.co/bartowski/TheDrummer_Cydonia-24B-v2-GGUF и проверить, какой шаблон покажет себя лучше. Вроде популярен Mistral V7-Tekken https://huggingface.co/sleepdeprived3/Mistral-V7-Tekken-Settings/blob/main/Mistral%20V7-Tekken.json

Как-то так. У меня 24гб видеопамяти, модель и контекст (16к) хочу держать только там. Если есть чем поделиться - буду рад.

Аноним 04/03/25 Втр 22:03:03 #321 №1080028

>>1079900
>или Mistral
Там всё сложно. Французы наплодили пресетов мистраля, сейчас их аж 4 штуки. Если в родной карточке модели (не кванте) не написано, какой конкретно пресет использовать, то лучше обойди эту модель стороной - "автор" явный ебанат и толк от его модели вряд ли будет.

Аноним 04/03/25 Втр 22:05:21 #322 №1080035

>>1080026
>Вроде популярен Mistral V7-Tekken
Нужен не какой "популярен", а на каком модель тренировали.

Аноним 04/03/25 Втр 22:07:11 #323 №1080041

>>1080035
Справедливое замечание. Я имел ввиду, что из подходящих популярен данный шаблон. Как я понял, даже Mistral шаблонов существует много, поскольку их можно изменять, и это дает разный результат. Если я правильно все понял, все из перечисленных моделей выше, рекомендуется использовать с Mistral

Аноним 04/03/25 Втр 22:29:24 #324 №1080095

>>1080026
> Все это время использовал ChatML шаблон отсюда
А нет, обманул. Все это время я использовал Sphiratrioth - Alpaca. Совсем не то? Если так, то странно, что оно работало. Похоже, нужно просто опробовать все варианты самостоятельно, чтобы понять

Аноним 04/03/25 Втр 22:43:03 #325 №1080139

Почему то думал что 16к контекста это дохуя, а тут начал новый чат с серьезным подходом и простая начальная сценка съела 30 сообщений т.е больше половины.
Как жить нахуй?

Аноним 04/03/25 Втр 22:47:38 #326 №1080162

>>1080139
Длина ответа < 100 токенов. Школьное изложение, времени 2011 года.
Больше ролплея, меньше А: "Пук"; Б: "Среньк".

Но это так, скорее подорожник приложить.

Аноним 04/03/25 Втр 23:31:45 #327 №1080266

>>1080139
Осваивай суммарайз и скрытие старых сообщений.

Аноним 05/03/25 Срд 00:06:59 #328 №1080322

image.png

>>1079293
Ну что ж, я бы не рожал такую стену текста если бы сам не пробовал отыгрывать сценарии от которых бы даже Чак Паланик охуел. При чём я отыгрывал их на железе времён крещения руси и модели с мёртвым полушарием. Я понимаю что для этого надо быть немного писателем, но если уж ты не можешь отыграть сюжет сложнее чем -"Ух бля, ух, энто ты хорошо трахаешь, хорошо...", то тут уже надо идти траву трогать, а не мучать видеокарту.

Аноним 05/03/25 Срд 00:17:05 #329 №1080339

wut.png

>>1080139
У меня в 16к контекста поместились ~70 сообщений, затем можно просто освободить его при помощи команды /hide, при необходимости заполнив лорбук или авторские записки. Вот прямо сейчас все происходит, ответы по ~250-350 токенов каждый. Чилл, расслабуха. Сюжеты мутятся, токены крутятся. Может быть у тебя карточка персонажа слишком много контекста кушает?

>>1079293
Не прав, осваивай функции таверны.

Аноним 05/03/25 Срд 00:35:16 #330 №1080383

>>1080339
> 70 сообщений
Чел ты не понял
30 сообщений заняло вступление уровня "утро, я встал подрочил и скушал завтрак со своей вайфу"
Тут вообще технологический прорыв нужен срочно а эти костыли просто на ещё одну дрочку мне контекста прибавят

Аноним 05/03/25 Срд 00:36:59 #331 №1080388

2025-03-0500-35-58.png

>>1080383
Вы заебали, в чём проблема?

Аноним 05/03/25 Срд 00:38:08 #332 №1080393

>>1080339
>Может быть у тебя карточка персонажа слишком много контекста кушает?
4к

Аноним 05/03/25 Срд 00:49:06 #333 №1080435

>>1080383
В моем предыдущем чате ДВЕ ТЫСЯЧИ сообщений такого же формата. Никакой технологический прорыв тебе не поможет, если ты не умеешь пользоваться возможностями, которые тебе были любезно предоставлены.

Аноним 05/03/25 Срд 01:46:59 #334 №1080577

ну чё... на теслах зело медленно ворочаются модели 80+гб....
не подрочить нормально.
пользоваться невозможно почти...
но и отдавать на апгрейд моей фермы из четырех тесел 270к (считаем что одна 3090 стоит +-65к) как-то не вижу смысла...

чел вон запускал на ддр4 дипсик р1 - https://habr.com/ru/articles/879846/
у него примерно 1 токен/с вышл... ну это пиздец конечно.

Аноним 05/03/25 Срд 02:59:23 #335 №1080620

>>1080393
> 4к
https://www.youtube.com/watch?v=sHg9Pg5WBks
>>1080577
Надо было сразу норм видюхи брать. Разумеется, иметь такое чисто под ллм и ничего больше - сильно тяжело, в том и вся проблема.
> 1 токен/с
Как-то маловато, должно быть 2-3

Аноним 05/03/25 Срд 03:03:14 #336 №1080622

>>1080026
>24 гб видеопамяти

И ты все еще кушаешь лупящиеся мистрали? Попробуй 4_k_s кванты 32b моделей, анон.

Лучшая 32В модель с нативным встроенным русиком, наследник командира:
https://huggingface.co/bartowski/aya-expanse-32b-GGUF
Или если не умеешь в джейлы через системный промпт то ставь аблитерйтед но готовься к последствиям
https://huggingface.co/mradermacher/aya-expanse-32b-abliterated-GGUF/tree/main

Лучший РП файнтьюн квена
https://huggingface.co/backyardai/EVA-Qwen2.5-32B-v0.2-GGUF
Лучший еРП файнтьюн квена
https://huggingface.co/bartowski/Qwen2.5-32b-RP-Ink-GGUF
Бессмертная классика кума - Магнум на гемме
https://huggingface.co/anthracite-org/magnum-v4-27b-gguf

Ая работает на шаблоне командира как и все его потомки, Ева и РП-инк на Чат-мл как и все файнтьюны квена, магнум тоже на чат-мл, настройки семплеров поищи на оригинальных страницах файнтьюнов.

Аноним 05/03/25 Срд 03:07:36 #337 №1080624

>>1079338

Это авторы шизомиксов, рекламирующие свои высеры.
В реале все современные модели начиная с 27В и выше отлично могут в русский.

Аноним 05/03/25 Срд 03:17:02 #338 №1080626

>>1080622
Разве магнум 27b - не на Мистрале сделан? Как тот, что я выше присылал. За тюны квена спасибо, опробую их. Мне больше обычное РП интересно, но данную версию Магнума тоже опробую.

Аноним 05/03/25 Срд 04:08:19 #339 №1080650

>>1080624
Да нихуя они не могут, блядь, кроме 70б и выше, для целей треда. Они не обучались для русскоязычного рп или даже литературного языка, разве что гемма на что-то способна ещё в красивое.

На английском они что-то могут выдать, ру-тюны уже вполне на уровне, по крайней мере для кума.

С рп ситуация сложнее. Русскоязычная тредовичковая модель зачастую будет красочней и интересней писать, но она лоботомит. Быстро залупится или не будет понимать, что происходит, по сравнению с англоязычной 12б.

С другой стороны, так как нет ру-файнтюна/мержа 22-32б, там тоже проблемы. Единственный вариант на мой взгляд — это жёсткий систем промпт, который всячески побуждает писать модель "красиво и рпшно".

Аноним 05/03/25 Срд 04:52:10 #340 №1080666

123dsax.png

Ну насрал мимо туалета. Дальше то что?

Аноним 05/03/25 Срд 05:33:43 #341 №1080688

>>1080666
Начинаю мазать говном стены.

Аноним 05/03/25 Срд 05:44:58 #342 №1080690

image.png

>>1080650
>Они не обучались для русскоязычного рп или даже литературного языка, разве что гемма на что-то способна ещё в красивое.

Ты застрял в 2023 году, походу.
Алло, все три модели этой категории - Ая, Гемма и Квен отлично могут в русский.

Первый пик - Ая, второй - Рп-инк. Гемму скринить не стал, с ней и так все понятно.

Аноним 05/03/25 Срд 05:58:12 #343 №1080692

Какая из локальных моделей может справиться с такой задачей? Например, заливаю ролик с озвучкой на английском языке, а ИИ переводит его на русский? В идеале озвучит, а не просто перевод в виде текста.
Подскажите в какую тему идти, если не по адресу. Спасибо

Аноним 05/03/25 Срд 11:05:32 #344 №1080886

image

Лол блин, откуда столько скачиваний у омни и анлишед сайги, это же не кванты даже, у квантов "Абсолютно Непристойного Деяния" суммарно 1200 с небольшим, а полные веса, признавайтесь, кто эстафету с мержами подхватил, что не постите XD

Аноним 05/03/25 Срд 11:57:22 #345 №1080938

>>1080620
да теслы норм карты, если их не больше двух. Для моделей размерами до 48 гб - норм.
Мне скорее хочется услышать мотивацию челиксов, которые себе 3090 понапокупали.
Нахуя это им? Деньги девать некуда?
Я тоже могу позволить себе с одной месячной зарплаты купить 4 3090, но я не делаю этого потому что не считаю что это стоит своих денег. И поэтому я не понимаю их мотивацию.

Аноним 05/03/25 Срд 12:06:38 #346 №1080952

>>1080938
>И поэтому я не понимаю их мотивацию.
А в чем проблема? Ты же знаешь что первые 40 лет в жизни мальчика самые сложные?
Для чего вобще иметь деньги если не для того что бы покупать то что тебе хочется?

Аноним 05/03/25 Срд 12:08:44 #347 №1080957

>>1080938
>услышать мотивацию челиксов, которые себе 3090 понапокупали
в треде есть псиоп что бу 3090 - мета и лучшее за свои деньги, потому что куртка обделяет видеопамятью все карты из-за жадности
но потом когда происходит отвал уже убитой в хлам 3090 происходит нытье что их наебали кек

Аноним 05/03/25 Срд 12:12:36 #348 №1080962

Хз, купил себе 4090 весной 2023, чувствую себя прекрасно. С тех пор она подорожала вдвое, какой пиздец...

На ней и в игры можно поиграть, и с ИИ поиграться.

Аноним 05/03/25 Срд 12:26:13 #349 №1080978

>>1080952
>Ты же знаешь что первые 40 лет в жизни мальчика самые сложные?

Блять, я даже не знаю, смеяться или плакать с этого.

Аноним 05/03/25 Срд 12:30:19 #350 №1080980

>>1080938
Из доступного риг из 3090 это топ по кпд, дальше цена за память растет неадекватно. Зачем это людям? А зачем ты живешь? В чем твоя мотивация? Человек хочет, человек делает.

Аноним 05/03/25 Срд 12:35:39 #351 №1080989

17086846991970.png

>>1080952
>первые 40 лет
Пизданутся конечно, с текущим темпом жизни даже не знаешь что будет уже в конце этого года
В то время как мы сидим итт происходит гонка ИИ: между корпоратами в виде опенаи, гугла, меты + прочих деньгозависимых И опенсурс обществом, которые делятся прорывными работами которые несут пользу вообще ВСЕМ иначе этого конкретно треда локалок не было и мы бы все варились бы в aicg треде, дроча джейлбрейки
Я сам давно отрицал что это все хайп и маркетинг, но увы прогресс реально движется слишком быстро, просто у нас в мире есть кабанчики которые хотят ещё и нажиться на этом впрочем как всегда

Аноним 05/03/25 Срд 12:39:07 #352 №1080993

>>1080577
>ну чё... на теслах зело медленно ворочаются модели 80+гб....
Нормально для технологий 17-го года. Можно придрочиться и свести пересчёт контекста к минимуму (на 4 теслах я ставлю для 123В контекст в 32к и активно пользуюсь \hide в Таверне, держа контекст между 24 и 32к; один раз на 8к контекста приходится делать перерыв на чай). Если взять хороший файнтюн Лламы 3, то даже извращаться не надо - контекст шифт работает хорошо и скорость нормальная. Но всё равно перехожу на 3090 конечно.

Аноним 05/03/25 Срд 12:53:01 #353 №1081007

>>1080989
Не все отрасли ИИ заслуживают уважения. Текстовые - да, заебись. Те которые генерят арты - жидкий кэл. Мне даже в пятёрочку или магнит теперь даже ходит противно, потому что там все увешано этими отвратительными, плывущими артами, как будто ты в каком то сне, а не наяву.

Аноним 05/03/25 Срд 13:24:49 #354 №1081068

>>1080989
Ты еще забыл написать про роботов в китае и в сша, чей прогресс тоже ускорился

Аноним 05/03/25 Срд 13:39:01 #355 №1081116

>>1079957
В первую очередь это тюн с англюсиком, других языков официально не заявлено.

Аноним 05/03/25 Срд 13:47:41 #356 №1081134

image.png

Бюджетная хуйня эти ваши H100 и H200
https://www.nvidia.com/en-us/data-center/gb200-nvl72/

Аноним 05/03/25 Срд 13:57:17 #357 №1081151

>>1081007
Ходи в картинную галерею, питайся святым духом искусства, сноб ебаный, нахуй тебе пятерочка.

Аноним 05/03/25 Срд 13:59:02 #358 №1081156

>>1081151
Я хочу ходить в пятёрочку, а не на выставку кривых аи артов с вьёбанными пропорциями и контурами как морские волны, сука.

Аноним 05/03/25 Срд 14:25:28 #359 №1081205

>>1081156
Проблема не ии генерации, а ее качества, будут сетки получше - не отличишь генерацию от сделанной руками картинки

Аноним 05/03/25 Срд 14:35:16 #360 №1081213

>>1081156
>а не на выставку кривых аи артов
>ИИ теперь начал понимать физику и пространство отсюда и рисовать картины неотличимые от реальности
>ряяяяя а где креативность?

Аноним 05/03/25 Срд 14:39:54 #361 №1081220

>>1081213
О, ты там кстати как, все углы дома проверил, всех агентов яндекса и майоров нашёл?

Аноним 05/03/25 Срд 14:40:10 #362 №1081222

>>1080690
Открываю LLM-тред, попиваю чаёк, потираю ручки… владик на месте.

Аноним 05/03/25 Срд 14:41:12 #363 №1081224

>>1081220
не моя проблема

Аноним 05/03/25 Срд 14:52:08 #364 №1081231

>>1081224
Быстро ты сдался, но если расковырять плитку в туалете, то можно найти прослушку от яндекса. Подумай над этим.

Аноним 05/03/25 Срд 15:38:02 #365 №1081273

>>1080692
Если тебе подходит средненькое качество, но бесплатно, то заюзай ИИ перевод от Яндекса через браузерное расширение.
https://github.com/ilyhalight/voice-over-translation

Аноним 05/03/25 Срд 15:53:32 #366 №1081290

Правда ли, что количеству контекста следует соответствовать степени двойки? Типо, 2к, 8к, 16к и т.д.

И что-то я не уверен, стоит ли переезжать с 22b с 16к контекста моделей на 27-32b с 8-10к контекста

Аноним 05/03/25 Срд 16:33:29 #367 №1081347

>>1080938
В целом да, с двумя скорость сносная и даже обработка контекста будет не настолько больной процедурой. Еще с год назад писал о том, какая глупость покупать больше двух тесел.
> которые себе 3090 понапокупали
Это топ за свои деньги карточка для развлечений с ии и всем релейтед. Люди покупают велики за пол мульта и эквипа на пару сотен, брички за много денег чтобы те раз в неделю выезжать из гаража и т.д. На фоне каких-нибудь брендовых шмоток это так вообще рациональная покупка.
>>1080957
> происходит отвал
Пока только регулярный отвал жопы у нищуков, придумывающих оправдания своей жизни, и неисправность у теслы, с которой анончик куда-то пропал.
>>1080989
> просто у нас в мире есть кабанчики которые хотят ещё и нажиться на этом
Когда пытаются чем-то помочь и берут свою комиссию - почему бы и нет, все хорошо. Например, сервисы аренды, опенроутер и подобные, прямо плохого ничего не скажешь.
А когда идет треш и паразитирование - вот это рак убивающий, сюда же отнести стремление к монополизации заигрыванием с правительством и лоббирование треша от клозедов.

Аноним 05/03/25 Срд 16:37:43 #368 №1081354

>>1080692
Распознавание текста, перевод и озвучка - все доступно и легко, по ллм там хватит любой от 9б. Основная задача будет в синхронизации голоса и видеоряда, а также качественном отделении исходной речи от фоновых звуков, это не трудно - это долго.
>>1081290
Кратно 256, можешь любое значение ставит оно само округлит.

Аноним 05/03/25 Срд 18:18:05 #369 №1081538

>>1080938
> Мне скорее хочется
Перехочется.

>Нахуя это им?
Тебя не спросили.

>Деньги девать некуда?
Нищетой запахло остро, как всегда, когда начинается подсчёт чужих денег.

>Я тоже могу позволить себе с одной месячной зарплаты купить 4 3090
Не ври хотя бы себе. Мог бы - купил.

А если по теме, то к паре 3090 надо добавить 4090, и тогда будет совсем идеально: и 123б покатать, и флюкс покрутить.

Аноним 05/03/25 Срд 18:33:23 #370 №1081571

>>1080938
А почему бы и не купить если деньги есть (даже если копить приходится и покупать по одной), не вижу проблем в трате денег на хобби. Это лучшее решение по цена/качество для ллм. Сам бы взял, но не ненавижу Авито ебаное, а в маркетплейсах цены х2. Пока сижу на 4090 и жду выхода новых карт с 24+Гб. Как выдут буду собирать сервер. Стойка уже на балконе стоит.

Аноним 05/03/25 Срд 18:51:58 #371 №1081610

>>1081571
>Пока сижу на 4090 и жду выхода новых карт с 24+Гб. Как выдут буду собирать сервер. Стойка уже на балконе стоит.
Смысла нет брать что-то выше пачки 3090. Новые модели это 400-600В, может и выше. Им нужно новое железо с много врам - парочка Digits как пример (плохой, но потянут всё-таки). 4 карты - это предел разумного, 96гб врам (ну может побольше, если 5090 иметь в виду, но всё равно недостаточно). Так вижу.

Аноним 05/03/25 Срд 18:57:35 #372 №1081627

>>1081538
Правильно, но все равно будет хотеться больше если что-то тренишь или делаешь.
>>1081571
> жду выхода новых карт с 24+Гб
Вон блеквелл вышел, но это как исполнение желания от злого джина.
>>1081610
> Новые модели это 400-600В
Это мемы для васянов а не модели.

Аноним 05/03/25 Срд 19:02:47 #373 №1081640

>>1081610
Я особо не рассчитываю на такие большие модели. Мой план, это что-то около 70б +агенты и мелкие сетки. Может быть дипсик в оперативке как тяжёлый аргумент.

Аноним 05/03/25 Срд 19:38:41 #374 №1081726

>>1081538
>А если по теме, то к паре 3090 надо добавить 4090
5090 уже вышла, х1,3(3) врама по объёму и 1,7 по скорости.

Аноним 05/03/25 Срд 19:42:31 #375 №1081731

>>1081726
И х3 к цене пожар в подарок бесплатно. А так действительно лучше во всём

Аноним 05/03/25 Срд 19:51:28 #376 №1081742

rtz9090.jpg

эх, как же хочется видяшечку с пика... потому что на своих 44 гигах не запустишь ничего нормального на русике... вот и остается сидеть лишь на мистрале-ларге во втором кванте... или иногда запускать говноквен 72бе...

Аноним 05/03/25 Срд 19:55:57 #377 №1081750

>>1081742
Очень хороший сериал, да. А как же от него у некоторых бомбило в конце, мммм!

Аноним 05/03/25 Срд 20:03:41 #378 №1081765

>>1081750
смотрел буквально пару месяцев назад, но уже забыл чем оно кончилось... помню, что начало было прямо ламповое-хорошее. видать мне и самому не зашла концовка, раз ничего не вспоминается. надо пересмотреть. ну и конечно же навернуть pc-98 новелл.

Аноним 05/03/25 Срд 20:09:53 #379 №1081780

поебать.png

Как же ему поебать.

You
you
you
you
yours
yourself
you
you

Вот теперь я почувствовал лоботомита.
you
you

Аноним 05/03/25 Срд 20:23:56 #380 №1081810

>>1080690
Прости, но ты буквально говно принёс.

Ты понимаешь, что этот "русский" — это русский, который хуже, чем у среднего двачера? Буквально, наверное, любой анон в треде напишет лучше, чем эти модели, причем сходу и без редактуры, не имея писательского навыка. Чисто от балды.

Такого ли мы ожидаем от 32б модели? Очевидно, что нет.

То есть в русик они тоже не могут, кроме как ассистента.

Аноним 05/03/25 Срд 20:26:27 #381 №1081814

>>1081742
>960GB*
>При использовании директ стоража с подкачкой на ССД. Реальный объём памяти 36ГБ

Аноним 05/03/25 Срд 20:32:33 #382 №1081820

>>1081731
> пожар в подарок
Не ведись на шизиков и хайпожоров (если сам к ним не относишься), им только дай волю тиражировать херню для оправдания или бейтов. У (одного из немногих достойных уважения) отечественных техноблогеров недавно вышло видео на эту тему где довольно популярно объяснено.
>>1081742
> 960gb
С трендами хуанга 40
>>1081810
Не самый полохой на самом деле, особенно если сравнить с двенашками. Скорее всего если убрать шизопромты и наоборот как-то подраскачать то можно получить более здоровую речь.
> любой анон в треде
Переоцениваешь.

Аноним 05/03/25 Срд 20:54:44 #383 №1081842

>>1081820
>Не ведись на шизиков и хайпожоров
На озоне на час сегодня была по 360к, потом задрали до 400к, не от васян-магаза, а самого озона. Но чёт я не собрался, пока мялся цену переписали.

Представляю тряску перепуков, которые по 500к их привезли продавать, лол

Аноним 05/03/25 Срд 21:24:33 #384 №1081881

174119821673226032.jpg

Apple представила чип M3 Ultra – самый быстрый процессор, когда-либо созданный для Mac.

Новый M3 Ultra дебютировал в Mac Studio и сочетает в себе 32-ядерный CPU (из которых 24 – высокопроизводительные, а 8 – энергоэффективные) с 80-ядерным GPU и поддержкой до 512 ГБ

Этого хватит для 4-битного Deep Seek R1 и еще останется место.

По заявлениям Apple, этот чип работает в 1,5 раза быстрее, чем M2 Ultra, и на 1,8 раза быстрее, чем M1 Ultra.

Цена на M3 Ultra начинается с $4000. Внутри 96 ГБ объединённой памяти и SSD на 1 ТБ.

С M3 Ultra удалось добиться таких результатов:
► до 16,9 раз быстрее генерация токенов с использованием LLM с сотнями миллиардов параметров в LM Studio по сравнению с Mac Studio с M1 Ultra

Аноним 05/03/25 Срд 21:27:48 #385 №1081884

>>1081810
>Ты понимаешь, что этот "русский" — это русский, который хуже, чем у среднего двачера?

Средний двачер сейчас дай бог если ставит заглавную букву в начале предложения. И хотя бы половину запятых. Не надо мерять всех по себе, анон.

>Буквально, наверное, любой анон в треде напишет лучше, чем эти модели, причем сходу и без редактуры, не имея писательского навыка.

Текст что я принес уже хотя бы не отдает кривым гуглопереводом, и это уже огромное достижение.

>Такого ли мы ожидаем от 32б модели? Очевидно, что нет.

У тебя пробой в логике.
Если этот русик - это что 32б сейчас выдают - значит это и надо ожидать от них.
Или ты хочешь сказать что надо ожидать другого потому что где-то есть 32б модель с лучшим русиком что я принес?
Или просто у тебя в голове какие-то маняожидания, не основанные на реальной ситуации?

Аноним 05/03/25 Срд 21:28:54 #386 №1081885

изображение.png

>>1081842
>потом задрали до 400к
Вижу только по 420к.

Аноним 05/03/25 Срд 21:29:59 #387 №1081887

>>1081842
Да не ссы, скоро больше подвезут и цена чуть опустится, а потом вообще обещали конец дефициту чипов и нормализацию цен.
Всеравно с ней нормису сейчас делать нечего, даже из тредовичков мало кто сможет совладать чтобы что-то запустить из-за отсутствия готовых билдингов на куду128 и в целом сырость как торча, так и драйверов. На шинду так вообще земля пухом.
> Представляю тряску перепуков
Некоторые бедолаги еще меняли денежку по прошлому курсу, а их опрокинули торгаши в арабских странах, так вообще весело.
>>1081881
Чет на фоне этого для обывателей, которым нужен инфиренс коробочка хуанга выглядит довольно смешно.

Аноним 05/03/25 Срд 21:33:35 #388 №1081892

>>1081881
>Этого хватит для 4-битного Deep Seek R1

В 0.5 т/с.

>до 16,9 раз быстрее генерация токенов с использованием LLM с сотнями миллиардов параметров в LM Studio по сравнению с Mac Studio с M1 Ultra

Когда выебнуться нечем, но очень хочется начинаются такие "сравнения".

Аноним 05/03/25 Срд 21:35:22 #389 №1081896

>>1081881
Всё ещё дороже чем собраться на пачке 3090. 96 гигов - это всего 4 карты по 60к. А версия на 512 гигов стоит 12к баксов, т.е. полтора ляма у нас.

Аноним 05/03/25 Срд 21:36:30 #390 №1081899

>>1081885
Вот это поищи там: 1878172435 похвастай потом хоть итт

>>1081887
> Некоторые бедолаги еще меняли денежку по прошлому курсу
Жаль этих добряков нет

>>1081892
> такие "сравнения"
От создателей:
выстрелено 100500М патронов, наиграно 144888М часов, с игрой познакомилось 8Б людей

Аноним 05/03/25 Срд 21:37:12 #391 №1081902

>>1081896
>96 гигов - это всего 4 карты по 60к

Тут надо понимать что там речь идет о 96 гигах оперативы с соответствующей скоростью.

Аноним 05/03/25 Срд 21:38:32 #392 №1081903

>>1081892
У м3 ультры память 900 гб/с, скорость там будет как на 3090. Дипсик с мелкими экспертами явно в 20+ т/с будет.

Аноним 05/03/25 Срд 21:39:41 #393 №1081905

изображение.png

>>1081899
>Вот это
Оно и есть. 420к. Других цен не вижу.
Впрочем я жду устаканивания ситуации с разъёмом, чипами без части блоков и прочих болячек драйверов. Да и БП придётся новый брать, неохота свой титановый менять, а если брать новый подходящий сисоник, то это ещё +50к к сбор очке, лол.

Аноним 05/03/25 Срд 21:41:56 #394 №1081911

>>1081896
512 гигов ты никак не соберёшь из 3090. Тут весь вопрос будет ли тот же дипкек крутится на ней быстрее чем на современном сервере. Если нет, то за эти деньги можно собрать топ сервер для дипкека (как самой лучшей модели доступной сейчас) и на сдачу взять 4 карты для других llm

Аноним 05/03/25 Срд 21:43:06 #395 №1081916

image.png

>>1081903
>память 900 гб/с,

Откуда цифра?
Даже во вральной презентации Apple написано "Up to 819", значит дай бог если 500 будет в реальной жизни.

Аноним 05/03/25 Срд 21:45:36 #396 №1081924

>>1081911
> за эти деньги можно собрать топ сервер
Топовоый сервер с двумя ЦП - это всё ещё всего 500 гб/с.

Аноним 05/03/25 Срд 21:47:36 #397 №1081930

>>1081924
Альтернативы то нет. Либо так, либо проф карты за несколько мультов штука, а их тебе нужно 5.

Аноним 05/03/25 Срд 21:48:00 #398 №1081932

>>1081903
Скорее всего они опять сложили чтение и запись, на самом деле дели пополам. Это всеравно много и всякие большие мое будут летать шустро. Сложности окажутся только с обработкой контекста или с любыми задачами где нужны расчеты, ибо чип слаб.
>>1081905
> титановый
> подходящий сисоник, то это ещё +50к к сбор очке
> 420к
Всхрюкнул с гоя

Аноним 05/03/25 Срд 21:48:53 #399 №1081935

>>1081932
>Всхрюкнул с гоя
Не рвись, нищук.

Аноним 05/03/25 Срд 21:51:19 #400 №1081944

1585249031750.png

>>1081726
> 1,7 по скорости
Слишком влажно. По гпу пикрил у этого кала. Только в генерации х1.5 выжимается из-за памяти.

Аноним 05/03/25 Срд 21:55:14 #401 №1081955

>>1081944
По скорости именно 1,7. Видимо упор уже в чип идёт.

Аноним 05/03/25 Срд 21:57:17 #402 №1081959

>>1081935
Всхрюкнул втройне, стремление к нерациональным тратам, брендодроч, радикальные убеждения, выебоны этим - собираешь все ярлыки. И едва ли здесь найдется рыба больше кроме тех кого знаю
>>1081944
Сейчас бы приводить микромодель на жоракале в качестве бенчмарка, пиздец.
> х1.5
Да есть там даже более х1.7 в генерации, если не тащить хуету то в генерации ллм всегда упор в память. По чипу там от ~18% как на пикче до х2-х3 в зависимости от типов расчетов.

Аноним 05/03/25 Срд 22:06:02 #403 №1081964

>>1081959
>стремление к нерациональным тратам, брендодроч
Ну подрубай карту за 400к к китаеблоку за 2000. Главное на камеру.

Аноним 05/03/25 Срд 22:10:36 #404 №1081974

1672784701373.png

1615823253787.png

>>1081959
> микромодель на жоракале в качестве бенчмарка
Если взять не LLM, то х1.7 разве что в сравнении с 3090 можно получить, лол. Сейчас бы думать что матрицы у Жоры перемножаются не так как у остальных. Если ты думаешь что в 1.7 раз быстрее память даст тебе х1.7, то это вообще кринж. Держи второй пик на transformers, а не Жора.

Аноним 05/03/25 Срд 22:19:15 #405 №1081995

>>1081964
Тебе 13 лет что пытаешься так кривляться и искажать чтобы добавить себе веса? Когда-то сосоники действительно были пионерами и круто отличались от прочих без лютой цены, а суперфлавер был вообще топ за свои деньги. Сейчас же это просто проблемное доилово лохов и неврастеников без стоящих преимуществ, или просто оверйрайс за то же самое.
>>1081974
В этих тестах мало смысла, потому что они проводятся некомпетентными людьми без репрезентативности. Все равно что посадить тестить спорткар деда, который будет рассказывать про кожу в салоне и как рычит мотор (или вообще говно не рычит сраная электричка).
sd1.5 512 и 768 в 2д25м году это особый рофел, тест процессора. А если бы они удосужились сравнить с 4090 - вообще бы увидели просадку, ибо без сборки последних либ там ничего не работает.
> пик на transformers
Аналогично без либ нет смысла, а судя по разбросу и отсутствию информации - ерунда.

Аноним 05/03/25 Срд 22:21:37 #406 №1082004

>>1081995
> без сборки последних либ там ничего не работает
И этот чухан, застрявший в 2022, ещё что-то про некомпетентность говорит, лол.

Аноним 05/03/25 Срд 22:32:43 #407 №1082030

>>1082004
Диванный агрессор, не рвись, побереги силы для новых оправданий и коупинга.

Аноним 05/03/25 Срд 22:36:38 #408 №1082038

>>1081995
>Тебе 13 лет
В душе мне всегда 13. Хули стареть то? Взрослым быть мега хуёво.
>или просто оверйрайс за то же самое
Окей, попробуй мне сэкономить денег, назови аналог Seasonic Prime PX 1600 ATX3.0, 80 PLUS Platinum, 1600 Вт, SSR-1600TR2. Желательно совместимого до уровня проводов, а то мне лень перепрокладывать свой кабель менеджмент (надеюсь они совместимы с моим праймом на 750).

Аноним 05/03/25 Срд 22:43:34 #409 №1082057

>>1082038
>Окей, попробуй мне сэкономить денег
Сисоники вообще плохой пример, поскольку зажрались и забронзовели. Мне вот Кугары нравятся. Когда и они зажрутся, то тоже разонравятся :)

Аноним 05/03/25 Срд 22:47:30 #410 №1082073

>>1082057
Не вижу анал ога.

Аноним 05/03/25 Срд 22:55:09 #411 №1082090

>>1082038
> Окей, попробуй мне сэкономить денег
Ну не, смотивируй как-нибудь давай. Это нужно предпринимать телодвижения с которых сомнительный интерес и никакого удовольствия, сам иди ебись или жди добряков. Особенно
> не лень перепрокладывать свой кабель менеджмент
лол. Лучше расскажи зачем старый стандарт (чтоб буквально кабель сгорел лол), зачем столько мощности на одну карточку и прочее.
>>1082057
> Кугары нравятся
Эта мразь шумит, уходит в защиту на ~1150вт при 1200 номинале, за 8 месяцев половина разъемов раскрошились и посинели от злости. 6+2 пин классические и профессорный 8пит если че, отдельный рофл над сектой экспертов по качеству нового мелкого.

Аноним 05/03/25 Срд 23:09:08 #412 №1082111

>>1082090
>Ну не, смотивируй как-нибудь давай.
Позязя? Или может гордость от того, что сэкономил анону 30к? Впрочем я быстро поресёрчил, по крайней мере кугаров на 1600 нет вообще, лол. А аналоги всяких XPG FUSION, Thermaltake Toughpower TF1 или там Corsair AX1600i стоят нихуя не сильно дешевле.
>лол
Тебе лол, а я наебался с кабелем ЦПУ. Защёлки на плате смотрят вверх, сам кабель загибается, места нихуя нет (старый корпус фекал дезайн R5, там ещё не дошли до снятия вверха). Да и к материнке тоже, и вообще просто лень, чем меньше менять, тем лучше.
>Лучше расскажи зачем старый стандарт
В смысле старый? Я под новый и хочу брать. В моём нету модных горячих разъёмов, да и мощности в 750 тут явно не хватит.
>зачем столько мощности на одну карточку
А кто тебе сказал, что на одну? У меня сейчас 2х3090, а там ХЗ, если получится ещё куда-нибудь приткнуть при замене одной на 5090, то будет три карты, если нет, то две.

Аноним 05/03/25 Срд 23:41:45 #413 №1082179

>>1082111
По-хорошему, если хочешь сэкономить - стоит отказаться от 1600вт. Если года 1.5 назад всего было в ассортименте, то сейчас выбора нет, какие-то остатки. Может с новыми картами спрос немного поднимется, а пока в популярных сетях просто объеб на х2.5 цену за добавку 300 ватт мощности.
Хз где ты живешь и откуда можешь заказать. Но совсем в общем алгоритм простой - фильтруешь по мощности и наличию платинового сертификата. Его не получить не используя эффективные резонансные топологии и синхронные выпрямители, если только не идти на ухищрения. Но их распознать можно легко - на фотках из обзоров внутри должно быть не нагромождение сверхплотного монтажа из множества элементов с реальным заполнением всего объема, а наоборот относительно пусто и минималистично. Гнаться за "именитыми" конденсаторами большого смысла нет, сейчас даже в ширпотреб специально ставят модные но из самой пососной линейки производителя чтобы срубить очков от обзорщиков. Смотреть больше нужно на конденсаторы низкой стороны, ибо в ккм большие банки живут долго если не совсем говно, зато по низкой стороне от регулярных пульсаций страдают сильно. В идеале рассмотреть маркировку на фото и загуглить датащит, там должны быть йобистая низкоимпедансная серия, рассчитанная на импульсную работу, а не "общего назначения с возможностью использования в импульсных схемах". Откровенного говняка в старших линейках сейчас сложно встретить, на хорошие подробные обзоры, где замеряют пульсации, корреляции между разными линиями и перегрузочную способность в целом можно ориентироваться.
> старый корпус фекал дезайн R5
С таким не разгуляешься, подумай о замене его в первую очередь. Ты банально не сможешь реализовать ту мощность на комплектующих, температуры улетят, рам начнет перегреваться и давать нестабильность, если стоят какие харды - долго не проживут. Или использовать дохуя производительные кулеры - но это ебать пылесос будет.
Алсо если смотришь на 5090 не фе - есть шанс что без углового переходника он даже не закроется, они все оче высокие.
> В смысле старый?
Емнип 3.0 - это как раз первый вариант разъема, в 3.1 или позже заменили его на интеловскую спецификацию, которая должна предохранять от основных проблем.
> У меня сейчас 2х3090
Показывай как в том корпусе разместил, тут интересный номер. С мультигпу реально больше проблем с упаковкой в десктоп и хорошим охлаждением, чем с бп.

Аноним 05/03/25 Срд 23:46:25 #414 №1082199

>>1082179
> с упаковкой в десктоп и хорошим охлаждением
Выбора особо и нет: только LIAN LI O11 Dynamic EVO XL, зато со вторым вертикальным брекетом влезет 3шт легко, закроется и будет прохладно с меш-китом вместо морды.

> стоит отказаться от 1600вт
Удвою. Там либо какие-то космические Асусы, которые у кого-то там полыхали когда-то, либо некро Термалтыки не платиновые, которые дико воют. 1300Вт - предел адекватной платины, 25-30к.

мимокрок

Аноним 05/03/25 Срд 23:51:10 #415 №1082215

1741207869565.jpg

Кто там 32B ризонинг хотел? При этом не дистилят и по бенчам слишком хоршая чтобы быть правдой. https://qwenlm.github.io/blog/qwq-32b/

Аноним 05/03/25 Срд 23:54:13 #416 №1082222

>>1082215
>очередной дроч бенчей от квена
ммм интересно пиздец

Аноним 06/03/25 Чтв 00:15:24 #417 №1082264

>>1082199
>1300Вт - предел адекватной платины, 25-30к.
А год назад я брал 1200 за 16500. Вроде и курс тот же, перекупы обнаглели что ли?

Аноним 06/03/25 Чтв 00:27:37 #418 №1082290

>>1082264
> 1200
Прям платина-платина? Ну хз, может. Лишние 100Вт золотые становятся

Аноним 06/03/25 Чтв 00:34:18 #419 №1082303

>>1082199
> влезет 3шт легко
А как? Одну на среднюю стенку штатным китом, вторую обязательно придется разворачивать и ставить параллельно плате штатным или сторонним адаптером, ибо иначе упрется в ту что на стенке. И вот остается вместо только возле верхней части материнки, но хз как там крепить.
На вскидку 3 штуки влезет в старшие термалтыки cte или core, где много места и бп отдельно, а не отжирает пространство снизу/сверху.
>>1082264
1300 платину где-то в начале 23го за что-то типа 14к брал, точно не помню уже, сейчас в 1.5-2 раза дороже стоит. Может то еще остатки майнинг-бума, когда магазины массово завозили мощные бп и на них резко упал спрос, или проявление реальной инфляции.

Аноним 06/03/25 Чтв 00:36:25 #420 №1082312

>>1082215
Ну и как мне это на 3060 запускать? Имбицильную Q2 не хочу юзать

Аноним 06/03/25 Чтв 00:36:47 #421 №1082314

1598060375587.png

>>1082215
Пытался потестить в кодинге, но это калище просто. Может конечно что-то с квантами, но вроде это обычный квен 32В по архитектуре. В питоне обосрался даже там где квен кодер 32В не обсерается. Думает по 3 минуты на 2-3к токенов, но его это не спасает. Даже словил один раз луп, без семплинга, алло, я даже в 8В такого уже не видел год наверное, что за нахуй. Какой там R1 они догоняют я не понял, оно V3 даже не догоняет. Разве что конкурент дистилу 32В, да и то сомнительно.

Аноним 06/03/25 Чтв 00:44:53 #422 №1082335

>>1082303
> как
Разворачивать ничего не придётся.
Самую жирную на заднюю стенку вертикально планкой вверх через 60см райзер из главного слота, а ещё две ниже - в штатные места прямо в мп, главное чтобы в мп нужные дырки были и на нужном расстоянии. Корпус хорош тем, что можно поставить карту даже если слот х16 в самом низу - есть место куда "свесить" карту.

Важно: речь только про EVO XL. Есть просто EVO и EVO mini - про них речи нет.

Аноним 06/03/25 Чтв 01:10:23 #423 №1082397

>>1082335
> Самую жирную на заднюю стенку вертикально планкой вверх через 60см райзер из главного слота
Попробуй а потом расскажешь как оно, с короткими или низкопрофильными гпу прокатит. А для больших та штука недостаточно утоплена и задняя карточка будет выдаваться над уровнем материнки, из-за чего основная карта упрется в нее, уже было.
> а ещё две ниже - в штатные места прямо в мп
Они перекроют возможность вывести райзер для 3й и им будет оче жарко, даже если постараешься разнести. Хз есть ли вообще шансы найти материнку, где конфигурация слотов позволит провернуть подобное.

Аноним 06/03/25 Чтв 01:12:12 #424 №1082399

1598815087270.png

1601474362511.png

>>1082215
В пизду. R1 думает 10 секунд, а эта поебота чуть ли не 5 минут и выдаёт ответ уровня дистиллятов.

Аноним 06/03/25 Чтв 02:04:30 #425 №1082459

изображение.png

>>1082179
>По-хорошему, если хочешь сэкономить - стоит отказаться от 1600вт.
>объеб на х2.5 цену за добавку 300 ватт мощности
Ок, разумно, принимаю.
По выбору окей, попробую учесть, но скорее всего возьму тот же сисоник, только 1300.
>С таким не разгуляешься, подумай о замене его в первую очередь.
Знаю, но корпус подогнан под стол, стол под комнату, а комната под хату. А хату сейчас менять...
>Показывай как в том корпусе разместил, тут интересный номер.
В какой-то из шапок же было.
По поводу третьей, тут разве что над башней попробовать, но там впритык сантиметры чисто по толщине. Менять на протекающую и городить колхоз на месте башни...
Офк печь получится адская, но ЛЛМки вроде не сильно грузят, да поверлимиты и так выкручены.
>>1082335
>Важно: речь только про EVO XL.
Там же материнкка перевёрнута, лол.

Аноним 06/03/25 Чтв 03:00:42 #426 №1082484

image.png

Что это и где их брать?

Аноним 06/03/25 Чтв 03:02:24 #427 №1082485

1594735849127.webp

>>1082459
Это же пылевые фильтры? Пылевые фильтры, да? (пикрел)

Получается что 2я карточка прилично перекрывает воздушный поток, а если ее низ продувается насквозь то конфликтует с основными крутиляторами, ну и одна длинная грань конкретно так перекрыта выступом корпуса. Насколько жарит по температурам?
> корпус подогнан под стол, стол под комнату, а комната под хату
Или переделывать, или терпеть. Даже 4090 там разместить будет крайне затруднительно, а 5090 уже дохуя больше габаритами чем твои карты.
Ну и по жару, под андервольтом в ллм оно и норм, но когда что-то запустишь - ему пизда. У тебя ведь еще башня стоит, которая также внутреннюю атмосферу греет, а не добавляет тепла при выдуве воздуха.

Аноним 06/03/25 Чтв 03:16:28 #428 №1082493

>>1082314
>>1082399

Вы же в курсе что ризонинг модели запускаются специальным промптом? Дипсик тоже без своего промпта выдает полную хуйню.

Аноним 06/03/25 Чтв 05:44:11 #429 №1082671

>>1081750
>от него у некоторых бомбило в конце
А по какой причине бомбило?
Я ничего такого не видел.
Да и закончилось всё фразой буквально "давай делать детей" XD

Аноним 06/03/25 Чтв 05:53:35 #430 №1082683

>>1082493
Чо за промпт, где искать? Запускал дистиляты дипсика без этого и все работало отлично, но это дистилят так что хз

Аноним 06/03/25 Чтв 05:57:26 #431 №1082690

.webp

>>1082397
>Попробуй
>Они перекроют
>есть ли вообще шансы
В смысле? Я капчую сейчас с этого пека

>>1082459
> Там же материнкка перевёрнута, лол.
Ты что-то путаешь. В нём всё штатно стоит.

>>1082671
>А по какой причине бомбило?
Из-за разницы в возрасте. Можешь себе такое представить? Я тоже не мог, но потом услышал от нескольких человек подряд

Аноним 06/03/25 Чтв 06:07:37 #432 №1082711

>>1082690
>Можешь себе такое представить?
Пф, нашли чем ущемиться, снежинки.

Аноним 06/03/25 Чтв 08:36:47 #433 №1082783

Там новый квен вышел вчера.

Аноним 06/03/25 Чтв 08:55:15 #434 №1082798

>>1071720 (OP)
>4 пик
Как называется эта болезнь?

Аноним 06/03/25 Чтв 08:55:45 #435 №1082799

>>1082783
А как он в плане сэкса?

Аноним 06/03/25 Чтв 08:58:12 #436 №1082801

>>1082799
Лучше 671б дипсинка ага ага да блять

Аноним 06/03/25 Чтв 09:01:55 #437 №1082804

>>1082493
> Вы же в курсе
Нет, не в курсе. Дипсику никакого промпта не надо, квен тоже не пишет ничего про это. Если токены <think> есть, значит работает. Но в случае квена он поломан.

Аноним 06/03/25 Чтв 09:10:38 #438 №1082807

>>1082485
>Это же пылевые фильтры?
Да, они там есть. Вместе с пылью и говнищем, друг другу не мешает.
>5090 уже дохуя больше габаритами
Совсем ебанулись. Мне даже моя старая 3080Ti казалась гигантом.
>>1082690
>Ты что-то путаешь.
Ага, попутал.
>Из-за разницы в возрасте.
А сколько там? А то у меня дядя старше его жены на 15 что ли лет, меня такой хуйнёй не удивить.

Аноним 06/03/25 Чтв 09:11:12 #439 №1082808

Блять ладно там мелочевка 12б сразу видно где кал а где нет но как выбирать имея 24гб врам?
От 22б все модели в общем то пишут хорошо

Аноним 06/03/25 Чтв 09:16:38 #440 №1082809

>>1082808
Сразу видно человека, не пробовавшего 70B...

Аноним 06/03/25 Чтв 09:29:48 #441 №1082816

>>1082484
Токены, которые не должны входить в штрафуемые последовательности токенов для dry. Дефолтные забиты такие, чтобы не штрафовалось форматирование, и меньше штрафа было для "имя:". Мб туда любые строки можно добавлять, а не только одиночные токены, тут не знаю, не пользуюсь драем.

Аноним 06/03/25 Чтв 10:07:40 #442 №1082832

>>1082808
>кал
>>1082809
>не пробовавшего 70B
чо за кококо кудах-тах-тах опять в наше уютненькое налетели...

Аноним 06/03/25 Чтв 10:29:02 #443 №1082852

>>1082783
Пока что очень хорошо, умный сука и в в ерп лучше цидоньки пишет, что характерно вообще не лезет в трусы и очень правдоподобно пишет форплей

Аноним 06/03/25 Чтв 10:31:39 #444 №1082853

>>1082852
> правдоподобно пишет форплей
Резонинг-то включает, что пишет при этом?

ехидное летсо.жпг

Аноним 06/03/25 Чтв 10:31:43 #445 №1082855

>>1082852
А в русик как может? В русское рп/ерп пробовал?

Аноним 06/03/25 Чтв 10:34:36 #446 №1082857

>>1082853
Он с рисонингом?
Он мне и нахуй ненужон ризонинг ваш, видел что то попукивал think'ом внизу но не читал

Аноним 06/03/25 Чтв 11:46:21 #447 №1082946

>>1082807
> А сколько там
Ну где-то столько +-, может чуть больше но там же вообще таймлипы и прочее, изначально ггиня была старше, так что вообще горящие - хуже нормисов прямо

Аноним 06/03/25 Чтв 11:51:30 #448 №1082953

В России есть что-нибудь типа опенроутер с большим выбором моделей по адекватной цене без ебли с оплатой с российских карт?

Аноним 06/03/25 Чтв 11:54:15 #449 №1082956

Начал смеяться уже после слова:
>>1082953
> В России

Аноним 06/03/25 Чтв 11:58:23 #450 №1082961

>>1082956
А что не так? Ты не знал, что в Киргизии и Казахстане огромный спрос на видеокарты, в том числе профессиональные, появился внезапно после 2022?

Аноним 06/03/25 Чтв 11:58:44 #451 №1082962

image.png

Я немного не понимаю один момент, а затестить его сейчас нормально не могу, можете обьяснить. Смотрите, допустим, за завтраком персонажи беседовали обсуждая планы на день, один из них предложил пойти на пикник после прогулки по лесу. Когда они пошли в лес, спустя долгое время они вышли на поляну вдали от дороги, я от лица своего персонажа пишу -"О, это то самое место где мы устроим пикник?". Вопрос заключается вот в чём, аи по любому согласится устроить пикник, даже если ранее в контексте они его не планировали, или оно просканит упоминание пикника ранее, и в зависимости от этого уже будет соглашаться?

Аноним 06/03/25 Чтв 12:09:31 #452 №1082967

>>1082962
Я тебе скажу, что ЛЛМ имеют тенденцию соглашаться вообще всегда, если это не случай, от которого специально учили отказываться синтетическими данными. Обычно обучают на успешных диалогах же.

Аноним 06/03/25 Чтв 12:11:25 #453 №1082968

>>1082967
Я просто замечал что если что - то заранее не планировалось, или не обсуждалось в рамках одного контекста, то аи может выражать сомнения, или вообще запротестовать. Мне показалось что это рандом, поэтому и спросил.

Аноним 06/03/25 Чтв 12:12:06 #454 №1082969

>>1082962
>ранее в контексте они его не планировали
У моделей нет планирования. Место не было упомянуто - значит текст будет генерироваться от первого упомянутого.

Аноним 06/03/25 Чтв 12:28:34 #455 №1082980

>>1082683

Для дипсика в таверне. Для квена ручками промпт из описания модели.

Аноним 06/03/25 Чтв 13:29:27 #456 №1083003

>>1081820
Смотрел это видео, верю конечно, но согласись, на старте брать было ссыково.

Разбрасываться 5090 проблемно в данном треде для всех, иначе бы уже тесты выложили.

Теперь покупка выглядит не такой плохой, даже на озоне 360к мелькала.

>>1081842
А я вечером только чекнул.

> перепуков, которые по 500к
Повторюсь, перекупы их по 340к отдавали на старте. Самые хуевые, канеш. Но я не помню, че там у озона было.

>>1081881
Цена плюс-минус как и у остальных коробочек, тока больше оперативы — выше цена.

Если бы еще четко токены сказали на р1 условной или лардже.

>>1081944
Чисто ради объема, да, прирост такой себе.

>>1081974
Мы тут на хуньюане меряли, даже моя бомж 4070ti дает х1,1 с 12 гигами-то с выгрузкой на оперативу. Мерять-то хочется прирост от 4090. А там че-то как-то…
От 9% до 40%? Где мои FP4 модели, на которые нвидиа так дрочит последние два года!

>>1082038
> Хули стареть то? Взрослым быть мега хуёво.
База.

>>1082215
UwU!

Аноним 06/03/25 Чтв 13:39:04 #457 №1083011

>>1082690
> Я капчую сейчас с этого пека
Фоточку в студию. Не так давно обсуждали как раз эту проблему и карточки там не влезли без переворота основной.
>>1082807
> Да, они там есть.
Больше похоже на шумку, который шизы пекарни изнутри заклеивают.
> Совсем ебанулись
Поищи fe, она тоненькая и относительно компактная. Но построена так что у тебя ей будет особенно жарковато.
>>1082953
Едва ли здесь возможен подобный бизнес чтобы был прибыльным, если только какой-то b2b когда тема еще подразовьется.
>>1083003
> на старте брать было ссыково
Этот разъем не нов уже, а вся эта херня с разгоном хайпа крутится постоянно по одному и тому же шаблону. Хуевость дизайна не оправдываю (лучше бы сделали какой-нибудь xt60 с сенс пинами), но он вовсе не так плох как рисуют.
> иначе бы уже тесты выложили
Какие тебе тесты нужны? Инфиренс в диффузии поломан (если делать по инструкциям адаптации к блеквеллам) и медленнее 4090, или +20% если поперодолиться что хуйта. Тренирует быстро, от +40% относительно ады до в 1.5 раза быстрее чем весь риг в тяжелых к io задачах (офк тут заслуга pci-e 5.0), 8гигов сверху хоть крохи но местами решают. Легко андервольтится до 450 вт без потерь или с минимальными. В разрезе ллм она не интересна, 70+ т/с в гемме против ~40 на 4090, но использовать ее нерационально.
> отдавали
Это под заказ. Знаю человека который до сих пор ждет такую, лол.

Аноним 06/03/25 Чтв 14:10:09 #458 №1083034

>>1083003
>выглядит не такой плохой
>360к
Хуя копиум. Чуть более 10к за гб.

Аноним 06/03/25 Чтв 14:13:33 #459 №1083038

.jpg

>>1083011
> в студию
Вот.
Самым простым способом, каким только можно было.

Аноним 06/03/25 Чтв 14:20:48 #460 №1083044

>>1083038
Уебанская синяя обводка чтобы что?

Аноним 06/03/25 Чтв 14:31:39 #461 №1083056

>>1083044
Я художник, я так вижу всякое из кадра убирать чтобы сфоткать - извини, лень. Важно же было как влазит внутрь - это всё осталось

Аноним 06/03/25 Чтв 14:31:57 #462 №1083057

>>1083038
Хорош, какая конфигурация по pci-e, как используешь?
Но были бы 3090 чуть длиннее - уже бы начало цеплять. Сам с таким корпусом не возился, но не так давно об этой проблеме с фоточками рассказывали потому его и не взял

Аноним 06/03/25 Чтв 14:34:17 #463 №1083058

>>1083038
Ножка упирается в вентиляторы...

Аноним 06/03/25 Чтв 14:39:51 #464 №1083063

>>1083057
>какая конфигурация по pci-e
v4 x16, v4 x4, v3 x4, есть ещё свободный v4 x4, но он перекрыт верхней 3090.

>как используешь?
Да как все итт ну и картиночки ещё

>3090 чуть длиннее - уже бы начало цеплять
Да вроде мсина одна из самых больших 3090, и там еще 2см до 4090 остаётся. + Можно взять райзер получше, сразу с г-образным заходом в площадку под карту, тогда 4090 можно будет заглубить к стенке на глубину 1 карты расширения. Т.е. даже 3шт 4090 в Эво не должно составить проблемы.

>>1083058
Щито поделать. В их рамки.

Аноним 06/03/25 Чтв 14:41:02 #465 №1083065

image.png

Я что-то не понимаю, почему кванты бартовски популярнее официальных?

Аноним 06/03/25 Чтв 14:42:00 #466 №1083066

>>1083065
>17 часов
>2 часа
Ватсон, это же элементарно.

Аноним 06/03/25 Чтв 14:46:27 #467 №1083069

>>1083044
Чтобы майор в содействии с агентами яндекса не вычислили квартиру и не предьявили анону что он дрочил.

Аноним 06/03/25 Чтв 14:46:52 #468 №1083070

>>1083065
Да бля, а я уже поставил скачивать. Перекачивать что ли? Большая ли разница между ними двумя?

Аноним 06/03/25 Чтв 14:49:45 #469 №1083076

image.png

>>1083066
Пикрелетед
>>1083070
Не знаю...

Аноним 06/03/25 Чтв 15:14:13 #470 №1083114

>>1083044
туман войны

Аноним 06/03/25 Чтв 15:16:57 #471 №1083121

>>1083066
Вот только это не время появления, а время обновления
А обновить там могли описание, надо в майн смотреть дату закачки весов

>>1083070
Раньше квен2 кодер мелкий например нормально работал только официальный, кванты бартовского хоть и работали но заметно хуже
Не проверял но наверняка у него так и лежат старые веса кривые
Так что если там что то меняли, родные кванты надежнее

Аноним 06/03/25 Чтв 15:22:59 #472 №1083134

>>1083121

> Так что если там что то меняли, родные кванты надежнее
А как их грузить то? Там у них на 5 кванте 6 файлов. Как их загрузить в таверну?
> Дату закачки
20 часов назад

Аноним 06/03/25 Чтв 15:25:55 #473 №1083138

>>1083134
Забавно, они действительно загрузили кванты разбитыми на кучу файлов
Их как то объединяют потом после скачивания, какие то бекенды даже так умеют запускать. Вроде выбираешь первый файл остальные сами подтянет
Ну тогда качай бартовски и не парься

Аноним 06/03/25 Чтв 15:37:20 #474 №1083153

>>1082809
Что-то в какой-то момент кобольд стал шизить(фронт таверна). После 4к контекста чата модель генерирует рандомный набор слов, пока я кобольд не перезапущу, потом ещё на 1-2 сообщения хватает и снова рандомный набор слов. От модели никак не зависит.
Ещё заметил что первая генерация контекста и ответа занимает много времени, дальше все ок. Сталкивался кто-нибудь? Может версия куды косячит? (обновлял дрова но не помню какая куда там была)?

Аноним 06/03/25 Чтв 15:38:14 #475 №1083155

>>1083153
Случайно нажал ответ на пост.

Аноним 06/03/25 Чтв 16:21:40 #476 №1083221

>>1083153

А ты сколько контекста в кобольде выставил и какую модель используешь?
Алсо, настройки контекста в таверне проверял?

Аноним 06/03/25 Чтв 16:26:26 #477 №1083227

>>1081916

Как apple добилась такой скорости на обычной 6400 Mt/s ddr5?
Там больше ста быть не должно же. А тут 819.

Аноним 06/03/25 Чтв 16:29:38 #478 №1083230

>>1083227
>Как
Очень просто же - старый анекдот: "... и вы говорите."

Аноним 06/03/25 Чтв 16:30:16 #479 №1083231

>>1083227
Потому что в десктопах 2 канальная ддр5, а у них 12-24 канальная или сколько там

Аноним 06/03/25 Чтв 16:46:21 #480 №1083252

Как же хочется себе хотя бы 4070TiS. Или хорошую 4090 за ту же цену. Но у меня зарплата 60к, где 2/3 уходит на аренду+еду. И потому приходится сидеть на нищей 4070 с озона... 4 т/с на цидонии..

Аноним 06/03/25 Чтв 17:07:59 #481 №1083292

>>1083153
Видимокарта случайно не амудэ?

Аноним 06/03/25 Чтв 18:39:10 #482 №1083410

Многоязычная LLM с поддержкой 25 языков, выпущенный командой Alibaba DAMO

9B/83B
Поддерживает 25 языков: Английский, китайский, хинди, испанский, арабский, французский, бенгальский, португальский, русский, урду, индонезийский, немецкий, японский, суахили, филиппинский, тамильский, вьетнамский, турецкий, итальянский, яванский, корейский, хауса, персидский, тайский и бирманский.
Модель: https://huggingface.co/collections/Tower-Babel/babel-67c172157372d4d6c4b4c6d5

Аноним 06/03/25 Чтв 19:11:50 #483 №1083425

>>1083292
зеленая 24 гб
>>1083221
Ничего не менялось , использую ранее созданные собою же пресеты которые работали нормально, q5 + 24к контекста, запускается без проблем. От модели не зависит, даже если возьму маленькую с тем же контекстом, раньше такого не было.

Аноним 06/03/25 Чтв 19:15:12 #484 №1083431

>>1083425
>зеленая
Подобный эффект наблюдался на устаревшем rocm (нужен 6.1). Не знаю, как там у зелёных, но на всякий случай проверь, какая у тебя версия cuda и какая нужна.

Аноним 06/03/25 Чтв 19:47:11 #485 №1083468

Анон, по поводу квантов, а что лучше использовать (исключая вопрос скорости генерации), 12б модель в 8 кванте или 24б в шестом?

Не перекроет ли квантованная шиза выигрыш от увеличения размера?

Аноним 06/03/25 Чтв 19:51:14 #486 №1083472

>>1083468
До 4 кванта не увидишь разницы, так что очевидно что любая больше 12б будет лучше

Аноним 06/03/25 Чтв 19:53:32 #487 №1083475

>>1083011
Пасиба-пасиба!

>>1083034
Да не копиум, просто H100 как-то дороже.
Ну и было очевидно, что она будет лютым оверпрайсом. =) Тут нет сюрприза. Меня больше веселили люди, которые «да норм, тысяч 180-200 будет…»

>>1083065
Потому что Qwen выкладывают порубленные кванты на тысячу частей по 500 мб. А бартовски одним файлом.

>>1083252
Продать и докинуть, не?
Или хочется-то две?

>>1083410
Интересно…

Аноним 06/03/25 Чтв 19:54:24 #488 №1083477

R2 будет апогеем кума

Аноним 06/03/25 Чтв 19:58:28 #489 №1083481

>>1083468

Блядь, даже 2 битная 24б лучше 16 битной 12б, большая модель всегда лучше меньшей, а кванты не оказывают ощутимого влияния на качество.

Аноним 06/03/25 Чтв 20:05:37 #490 №1083494

>>1083468
>а что лучше использовать
на англ - 24
на ру - 12, потому что русик или тредовые 12б или уже 70Б

Впрочем, там вон выше линк кидали на что-то новое мультиязычное

Аноним 06/03/25 Чтв 20:06:44 #491 №1083496

>>1083494
>линк
она либо 9б, либо 83б, что за ебучий кадавр

Аноним 06/03/25 Чтв 20:12:19 #492 №1083504

>>1083410
Надо будет проверить, может знает пару новых речевых оборотов. Хотя если алибаба, наверняка цензурная, китай же вроде.

Аноним 06/03/25 Чтв 20:23:01 #493 №1083517

>>1083410
Качнул 83В, говно какое-то. Русский может самую малость лучше квена, зато лупится пиздец как, прям входит в классические лупы из пары слов. Даже пенальти не помогают.

Аноним 06/03/25 Чтв 20:25:06 #494 №1083523

> Qwen QwQ 32B fp16.
> M4 max: 7.6 toks/s
> M2 ultra: 10.2 toks/s

Аноним 06/03/25 Чтв 20:33:29 #495 №1083541

>>1083063
Чипсетные получается, разницы по перфомансу где-нибудь где можно сравнить не наблюдал?
> как все
Средняя по больнице же. Объединял карточки их через дистрибьютед или дипспидом чтобы что-то единое тренить? Весь опыт с чипсетными линиями был негативный, просто на инфиренсе в целом пофиг, а там сразу просадка производительности. Кошек генерируешь?
>>1083227
Там lpddr5 с частотами 8000 и какие-нибудь 8 каналов. Правда есть нюанс с задержками и таймингами, ибо самих банок мало, но это отдельная история.
>>1083410
> 83B
Вот бы на нее хотябы средней всратости рп тюнчик
>>1083477
> 900 токенов рассуждения о том насколько некорректно совершать действия, как важно уважать границы но при этом послушаться промта юзера
> окей теперь я готова дать ответ
> ты меня ебешь ах!

Аноним 06/03/25 Чтв 20:36:55 #496 №1083543

Джемма 3 будет на новой структуре "Титан" т.е. лучше чем скоро выходящая o1 с рассуждениями от опенаи? Это же пиздец. Ресурсов будет жрать меньше в 500 раз, а эффиктивность в 500 раз выше. Я аж теку.

Аноним 06/03/25 Чтв 20:37:55 #497 №1083545

>>1083543
>Джемма 3 будет на новой структуре "Титан"
Пруфы?
Титан решает проблему памяти, а сколько жрать и что эффективнее вообще хуй знает

Аноним 06/03/25 Чтв 20:45:06 #498 №1083557

>>1083011
>Больше похоже на шумку
Это тоже там есть. Впрочем, именно в таком исполнении шумка мало что дала. Лучше вибропластом обмазаться, а шумку большими листами по бокам разве что.
>но он вовсе не так плох как рисуют.
Почему нет? Буквально никаких преимуществ перед х3 ЦПУшных, наоборот, пины только тоньше.
>>1083410
>83B
Ух ты, новый размер.
>>1083477
Для тех, кто сможет запустить. То есть ни для кого.

Аноним 06/03/25 Чтв 20:45:15 #499 №1083560

>>1083541
> Чипсетные получается, разницы по перфомансу где-нибудь где можно сравнить не наблюдал?
Когда 4090 висела на в3 х4, то чуть медленнее грузила и генерила сд, где-то на ~10%. А так - всегда пусть на самом медленном подключении, но наличие доп врама лучше его отсутствия.

>через дистрибьютед или дипспидом чтобы что-то единое тренить?
Увы, у меня лапке шиндовс. Ничего не получилось. Только на одной карте. А так преимущественно инференс.

>
Какой наблюдательный! :3 Бывает и их. Что же выдало Штирлица?

Аноним 06/03/25 Чтв 21:08:51 #500 №1083584

>>1083560
> у меня лапке шиндовс
Можно на wsl все сделать, все пакеты ставятся, собираются, работают. Там только проблема с тормознутым доступом к основной фс, поэтому крайне желательно все датасеты упаковывать в эффективные обертки (хоть те же datasets) и настроить даталоадеры.
В целом, интересно как оно сработает на картах с разной производительностью. Также можешь попробовать сразу пожарить что-то крупное, трансформерс трейнер позволяет из коробки раскидывать модель по частям, или попердолиться с дипспидом.
> медленнее грузила и генерила сд, где-то на ~10%
Вот такое именно на чипсетных 3.0 на 4.0 не тестил ибо там все райзеры ошибками сыпали. Чсх на процессорных, даже с той же шириной, никаких замедлений инфиренса не наблюдается, получается подтвердил наблюдения.
При тренировке на процессорных падает только если много пересылов. Причем оно не обязательно будет показывать полную загрузку, может быть 30% и уже ощутимые просадки, но если мониторить то там эти 30% оно на 100% грузит шину и частично останавливается в ожидании данных. Вроде как операции должны выполняться асинхронно, но хз как с этим бороться не залезая в какие-то страшные дебри.
> Что же выдало Штирлица?
Пальцем в небо азазааз диванон тг'авля если картинку красивую не запостишь! Стиль письма и некоторые закономерности можно отследить, плюс не так много гпувладельцев. Разумеется все совпадения случайны, да.

Аноним 06/03/25 Чтв 21:37:06 #501 №1083613

>>1083545
Чисто логика. Если джемма 3 в разработке, а гугл как создатель трансформера, теперь пилит титан, то очевидно они не будут делать джемму3 на устаревшем трансформере, это было бы странно.

Аноним 06/03/25 Чтв 21:39:18 #502 №1083620

А какой промпт нужен новому квену? Что-то я не очень понимаю....

Аноним 06/03/25 Чтв 21:43:59 #503 №1083633

>>1083620
Как обычно чат-мл, только желательно <think> поставить перед сообщением бота.

Аноним 06/03/25 Чтв 21:45:46 #504 №1083638

>>1083545
>сколько жрать и что эффективнее вообще хуй знает
Это нейронка со встроенной нейронкой. Ожидай повышенный расход vram и вычислений на каждый токен. А также замедление промпт процессинга.

Аноним 06/03/25 Чтв 22:03:01 #505 №1083674

>>1083613
Логика разная бывает, например такая, что какую-то непроверенную хуйню от штамповщиков говностатей которые на практике не работают, вряд-ли будут брать в готовый продукт.
А если бы оно реально работало, то в опенсорс бы это не отдали. Это не времена первого трансформера, когда работа ресерчеров особо не пересекалась с большими деньгами. Тогда нейронки у них только в переводчике были, и так бесплатном. Сейчас хуй сольют что-то годное вот так просто. Это чисто видимость "научной деятельности" чтобы инвесторов развести, либо оправдаться перед регуляторами, дескать мы тут общественно полезной деятельностью занимаемся, пожалейте нас.