24 декабря 2023 г. Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №136 /llama/

 Аноним 31/05/25 Суб 15:35:53 #1 №1226628 
Llama 1.png
Альфа от контекста.png
Эффективность квантования EXL3.png
17472510346600.jpg
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/v6fpodzg (версия 2024-го https://rentry.co/llm-models )
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1221316 (OP)
>>1215508 (OP)
Аноним 31/05/25 Суб 15:36:41 #2 №1226629 
Короче добавил актуальный список (надеюсь его будут поддерживать) и инструкцию к плагину переводчика.
Аноним 31/05/25 Суб 15:38:17 #3 №1226639 
https://huggingface.co/allura-org/Gemma-3-Glitter-27B
Аноним 31/05/25 Суб 15:42:58 #4 №1226651 
база треда: меньше Q8 жизни нет, меньше 24B жизни нет
Аноним 31/05/25 Суб 15:44:38 #5 №1226657 
>>1226629
>>1225867 →
Кряк, твой выход XD

>>1226651
>база треда
Шиза треда.

Q4-5 гемма умничка
Аноним 31/05/25 Суб 15:48:44 #6 №1226667 
>>1226629
>инструкцию к плагину переводчика.
Молодец, но ты забыл самое главное - модели которые для него нужны и к кому написаны семплеры.
+ можно упомянуть как нибудь понятней что нужно создавать отдельный профиль в таверне для переводчка
Аноним 31/05/25 Суб 15:49:15 #7 №1226668 
>>1226407 →
Это изначально рассчитано или на фуллврам, или на совсем радикальную разницу между скоростями моделей. Для ускорения нужно иметь быструю обработку контекста на большой модели, иначе это все помножит на ноль.
> качество генерации не садится. А с драфтом - субъективно хуже
Если сделана корректная реализация - деградации быть не может. Только если в жору опять кривыми коммитами насрали.
>>1226502 →
> я изменил модель в убабуге, не трогая ничего в таверне
Нужно переконнектиться чтобы обновилось имя. Это не только с убабугой - на любом апи если не трогая ничего подхмануть модель - отображение в таверне на новую не сразу обновится.
>>1226538 →
> Text Completion
This. Полное формирование промта с гарантированного рабочими любые шаблонами на любой сетке (чатмл на мистрали, чатмл-неймз на совместимых и т.д.), любые инжекты токенов и прочее.
Чат комплишн полезен для пользования какими-то дополнительными функциями, потому что позволяет прикреплять что угодно помимо текста в каждое сообщение. Из отправленных данных, бэк потом сам будет формировать финальный промт, что может быть принципиальным, а в рп/чате найти применение подобному бывает трудно.
Потому дефолт для чатика в таверне - тексткомплишн, выбирать другое стоит если знаешь что делаешь.
Аноним 31/05/25 Суб 15:52:12 #8 №1226677 
>>1226629
>>1226657
Как и обещал, займусь допиливанием на выходных.
Все будет сделано и перепилено.
Аноним 31/05/25 Суб 15:54:43 #9 №1226683 
>>1226651
>база треда: меньше Q8 жизни нет
- Вы слишком много едите.
- В смысле?
- В смысле - зажрались!

Везде пишут что от q8 от q6 отличить даже у 7B моделей практически нереально вслепую. А чем больше модель, тем ниже квант эту планку держит. Для 12B - q5, для 24B - q4. Не в кеше, естественно.
Аноним 31/05/25 Суб 15:55:01 #10 №1226684 
кто-то в прошлом треде интересовался про тюны квена 2.5, почему их не упоминают. и я решил попробовать
https://huggingface.co/nbeerbower/EVA-Gutenberg3-Qwen2.5-32B
вот это прям неплохо. кто-то писал, что тюны квена 2.5 плохо следуют персонажам. хуй знает, не могу согласиться. еще и датасет непривычный для меня, оч приятные впечатления от модельки. юзаю q5, пресет взял у тредовичка https://pixeldrain.com/l/xGFnT1PY
может иногда излишне креативить, но сразу же решается свайпом. ну или можно темпу поменьше сделать или с минп поиграться, я не стал, оно и так работает
Аноним 31/05/25 Суб 15:56:21 #11 №1226687 
>>1226667
Чирканул пару строк одну строку.
Аноним 31/05/25 Суб 15:57:58 #12 №1226692 
>>1226684
ну тут надо еще уточнить, что на англюсике играл
на русском хз как оно. короче, не пожалел что попробовал, советую тоже заценить если будет нечем заняться
Аноним 31/05/25 Суб 15:58:54 #13 №1226694 
>>>1226684
Я уже 5 месяцев с покупки видюхи не могу выбрать модель, все мои карточки одни и те же, я не захожу дальше вступления/ебли, все 32б хороши но мне нужна та самая, смотрю на мои старые чаты с 300 сообщений за пару часов на 12б и плачу, как тогда всё было просто и по делу
Аноним 31/05/25 Суб 16:02:01 #14 №1226699 
>>1225747 →
> Товарищ смайлофаг, не рассматривал ее вместо некрокарт из видоса? Денег за гигабайт примерно столько же, но будет меньше мощность, больше линий на карту, и пропускная способность памяти в 3 раза выше.

И это четвертое упоминание за последние три дня.
Скорость в 3-4 раза выше, судя по тестам чувака одного, так что да, вариант очень хороший, судя по всему.
Единственный минус — она слегка горячая и не молодая уже. Если P104 умирает — пофиг, а если эти отваливаться начнут, чуть грустнее. Ну и собирать надо под ROCm, вероятно, но это детали, тащемта.

Я пока занят, но, думаю, дешевая цена может продержаться недолго (как было с Tesla P40), так что, кто планирует брать — я бы брал раньше, чем позже. Это правда выглядит хорошо.

> отпишусь, как придет
Очень жду! Будет круто, если она покажет свои 15-20 на гемме 27.

>>1225774 →
> Насчет mi50 забросил идею, читал где-то, что они между собой почему-то не ладят.
Тогда одна на 32 гига звучит тоже неплохо, согласись. =)

>>1225821 →
https://portegi.es/blog/running-llama-cpp-on-rocm-on-amd-instinct-mi50
Вот еще ссылка, можешь полистать, слюни попускать, пока ждешь. =)

>>1225924 →
Чисто по цене/производительность звучит лучше CMPиХ, вроде как.

>>1225867 →
База.
Алетейана не забыть с его тюнами.
Прям хорошо, прям хочется коммандера таки потыкать. =)
Уговорили.

>>1226060 →
Красавчик.

>>1226683
Я на завтра заказал 3,5 кило роллов и 3 пиццы.
Буду защищать своего внутреннего ребенка.
Да.
Вопросы?
=D
Аноним 31/05/25 Суб 16:06:33 #15 №1226711 
>>1226628 (OP)
>>1226629
Я б таки еще предложил в шапку после уги докинуть линк на TabbiAPI - хотя бы просто потому, что оно до четверти шустрее чем уга на exl2 может быть. И exl3 тоже пилят. https://github.com/theroyallab/tabbyAPI
Конечно, оно консольное, но кому надо - оценят.
Аноним 31/05/25 Суб 16:07:23 #16 №1226715 
Че я делаю не так? Че у меня квен3 в луп с первого сообщения уходит и повторяет первое сообщение от персонажа? Температуру и прочее взял с описания
Аноним 31/05/25 Суб 16:09:37 #17 №1226721 
>>1226715
no bos token в настройках кобольда и таверны
Аноним 31/05/25 Суб 16:15:49 #18 №1226742 
Как будто бы старый Мистраль 2408 тоже достоит упоминания в рентри. Хоть и тяжеловеснее, но зато не так сильно лупится как 2501.
Аноним 31/05/25 Суб 16:20:39 #19 №1226756 
>>1226694
хах, да, впрочем пара опредлённых фаворитов у меня есть - это гемма 27 и харбингер 24
Аноним 31/05/25 Суб 16:22:14 #20 №1226760 
>>1226756
> харбингер 24
чем он хорош? я его не пробовал. расскажи, чем заинтересовал
Аноним 31/05/25 Суб 16:23:05 #21 №1226761 
>>1226694
> не могу выбрать модель
Зачем? Зачем что-то там выбирать, и потом становиться поехавшим как мистралешиз? Юзай разные, отмечай в чем они хороши, в чем плохи, и загружай нужную, меняй по ходу. Ты же не используешь единственный комплект одежды для выступлений, для выезда на природу или занятий спортом?
> как тогда всё было просто и по делу
Не пытайся копировать какие-то старые чаты, которые тебе запомнились хорошими - они такие лишь в твоих воспоминаниях, сыграло совпадение и непритязательность. Просто стал требовательнее и внимательнее, потому так.
Открывай что-то новое, если хочешь двигать сюжет в конкретном направлении - понятно намекай и указывай это.
>>1226711
Правильно, ведь там еще много фич есть, которые в отличии от той же олламы работают.
Аноним 31/05/25 Суб 16:23:06 #22 №1226762 
>>1226756
Я просто хотел запустить цидоньку 22б, а потом навыходило моделей и понеслась...
Я просто хотел быть счастливым...
Аноним 31/05/25 Суб 16:30:43 #23 №1226774 
>>1226760
Мистраль 24 от создателей Wayfarer. Ориентирован на адвенчуры. Может во вполне нормальный русский. Нейтрально-негативный биас, особой принудительно-добреньковости не замечено. Явной сои и цензуры, и даже "мягких" отказов вроде бы не ловил.
Аноним 31/05/25 Суб 16:32:47 #24 №1226776 
image
>>1226761
>совпадение
А вот это кстати вполне реальный кейс, даже 8б лама аналигнед могла выдавать абсолют синему если звёзды в латентном море сойдутся.
Аноним 31/05/25 Суб 16:35:19 #25 №1226781 
>>1226628 (OP)
> Альфа от контекста.png

что такое альфа?
Аноним 31/05/25 Суб 16:47:01 #26 №1226793 
>>1226639
Такое себе, вроде бы работает неплохо - но она именно для сторителлинга - пишет за юзера, пишет МНОГО, промта слушается мало, в русском проёбывается не так уж часто, но чаще дпо-шной.
Аноним 31/05/25 Суб 16:47:48 #27 №1226794 
>>1226677
Еще бы вот это поправить:
>Qwen3-30B
>Версия 30B одной из базовых китайских моделей, теперь MOE и твое. Народная, быстрая, контекст 128к, неплоха в кодинге.

Имя модели Qwen3-30B-A3B а не просто Qwen3-30B. Важно - искать легче, и тюны используют тоже. Тем более там рядом уже есть Qwen3-32B, который не MOE.
Второе - контекст у нее 32К а не 128. Так то и вторую ламу до 32 растягивали, и мистраль до лимона, но это ж не их родное состояние.
И добавить бы туда упоминание капризности к семплам - о которой сами авторы предупреждают. (Усугубляется тем, что непохоже на большинство других моделей ставить надо, а то лупиться будет.) А лучше сразу предложение - о внимательном чтении readme к модели. Тонкостей хватает.
Аноним 31/05/25 Суб 16:50:58 #28 №1226802 
image.png
анслот выложили свои супер точные кванты на немотрончик
Аноним 31/05/25 Суб 16:51:31 #29 №1226803 
>>1226694
Тоже ебался, но выбор такой
Гемма - где нужно вгрызаться в контекст и не требуется налет мрачности. Она лучше всего переваривает даже хуевейшие карточки, которые после прочтения понятней не становятся. Лилит с чуба -яркий пример.
QwQ - CommandR - если нужен ЕРП совмещенный с РП
Всякие Туту - если хочется залить чат чистейшим, первородным слопом.
Аноним 31/05/25 Суб 16:52:58 #30 №1226806 
>>1226781
Это то, что зависит от контекста.
Аноним 31/05/25 Суб 16:56:09 #31 №1226812 
>>1226711
Будет в следующем перекате.
Аноним 31/05/25 Суб 16:58:32 #32 №1226816 
Для будущих Арк-шизов делюсь опытом: забейте на IPEX. По крайней мере пока. Llama-cpp вполне по человечески работает через SYCL и без него, а поддержка обновлений и моделей шире. Скорости не такие феерические на малых моделях (которые в 16-32ГБ влезают) как с IPEX, но читаемую скорость вполне можно получить.

Кста, какая сейчас расстановка с моделями для текстовых игр без кума?
Аноним 31/05/25 Суб 16:58:32 #33 №1226817 
image.png
image.png
Мечта...
Ну когда уже...
Не вижу смысла обновляться с одной 4090 если это не 671б...
Аноним 31/05/25 Суб 16:59:19 #34 №1226819 
image.png
>>1226817
не тот скрин
Аноним 31/05/25 Суб 17:12:45 #35 №1226834 
>>1226819
Правильно ли я понял, что ты не хочешь обновляться на 4090 из за модели, где 3ий квант весит 270 гб ?
Сударь, ты совсем ебобо ? Даже если ты себе купишь хоппера, то не хватит.
Аноним 31/05/25 Суб 17:17:02 #36 №1226839 
>>1226819
> IQ1_S 168GB
мдааааааааааааааааа......
мимо vramцел 144GB
Аноним 31/05/25 Суб 17:17:46 #37 №1226842 
>>1226816
>текстовых игр без кума
100% гемма 3 если на 12-16-32ГБ
Ну, ещё шизотрон наверно можешь попробовать вкорячить.
Аноним 31/05/25 Суб 17:19:12 #38 №1226844 
>>1226834
Это немотронодебил. Да, он ебобо
Аноним 31/05/25 Суб 17:19:25 #39 №1226845 
>>1226839
Каково это, формально иметь цифры, но не мочь ими воспользоваться?
Аноним 31/05/25 Суб 17:29:22 #40 №1226858 
>>1226839
Каково оно ощущать себя нищуком ?
Я вот смотрю на эти цифры, они же больше того что заявлял клод или жпт. Ну вроде последний жпт где то в пределах 300 болтается.
Аноним 31/05/25 Суб 17:36:43 #41 №1226865 
image
>>1226858
>>1226845

только не опять боярьсрач на 2 треда, только по делу общение пошло
Аноним 31/05/25 Суб 17:53:20 #42 №1226873 
z.jpg
>>1226721
Ачевсмысле на ллама цпп нельзя нобостокен сделать? Это мне обратно на кобольд возвращаться?
Аноним 31/05/25 Суб 17:59:02 #43 №1226877 
image
>>1226873
это в таверне / другом фронте делается
Аноним 31/05/25 Суб 18:28:54 #44 №1226907 
Ой, бля...
Тестил сейчас Qwen-30B-A3B.
Я не знаю, какой из нее программист, но держать контекст она может чуть менее, чем никак. Уровень 12B, и то не лучшей части.

Есть у меня такой тест: типа RP чат, где первой строчкой каждого хода - "статус бар" - обернутый в xml тег status. Там текущая дата, одежда, деньги, вещи, кто вокруг персонажа. В карточке указано - "обновляй по ситуации."
Так вот... Лучшие образцы 12B с этим справляются. Средние - начинают пороть отсебятину, немного. Худшие - ломают разметку статуса.

ЭТО: 1 - Путает дату. Причем стабильно меняет год каждый раз. Рандомно меняет, даже назад откручивает. 2 - ломает разметку - запятые, точки с запятой, двоеточия - все это гуляет как придется. 3. Вместо имени NPC "Mira" -> Muro, Mara, Мира. Да - на русском. Которого в контексте вообще нету.

Сэмплерами не лечится никак (в отличии от некоторых 12B - лучше не становится, что не делай).
Это писец, товарищи. Такого себе ни одна другая модель сходных размеров не позволяет, из тех что я видел. Даже те же мистральки 24B никаких проблем со статусом не имеют, даже в шизомиксах, не говоря уже о чем то серьезнее. О гемме и прочем - вообще речи нету, там полный порядок как само собой разумеющееся.

В общем - эта модель полный гуманитарий. Точность - это не про нее. Скорость, IMHO, такое не компенсирует. Чисто поиграться. 3B под капотом, чуда не произошло.
Аноним 31/05/25 Суб 18:32:50 #45 №1226911 
>>1226865
Даешь боярьсрач! Все по делу!
>>1226907
3б же. Но, возможно, там еще какой-нибудь баг с разметкой, токенами и прочим.
Аноним 31/05/25 Суб 18:40:28 #46 №1226921 
>>1226911
> Даешь боярьсрач! Все по делу!
В этом треде не существует ни одного анона, который способен это поднять в третьем кванте. 270гб врама, охуеть и не встать.
Аноним 31/05/25 Суб 18:43:15 #47 №1226927 
>>1226921
Ktransformers
Прошлый дипсик того не стоит.
Аноним 31/05/25 Суб 18:43:51 #48 №1226928 
>>1226877
Спасибо, не смотря на галочку у меня сначала все равно был луп, но потом резко прошел.
Аноним 31/05/25 Суб 18:47:07 #49 №1226932 
>>1226907
> Уровень 12B
>>1226651
Аноним 31/05/25 Суб 19:12:17 #50 №1226967 
>>1226932
Ну в топах 12B жизнь таки есть. Там другие претензии, в основном - к стилю и сочности. (Если кривизну в русском не считать - чего от них ждешь по умолчанию.) Факты из контекста хорошие экземпляры вполне себе обрабатывают без таких косяков. Нюансы могут посеять, да. Но уж такое то - вполне по силам.
Аноним 31/05/25 Суб 19:12:50 #51 №1226969 
>>1226081 →
>Ни один фронт не доверяет обрезку контекста беку.
Ну да, логично, хотя я сделал обрезку почти через год после первой версии. Для карточки у меня вкладка init, текст из нее не удаляется.

>>1226089 →
Не особо, интересен будет только факт, что ее разлилось на стоимость одной 3090. Она инертна, не оставляет следов, и пары тяжелее воздуха, можно порешать шумных соседей снизу тактическим затоплением ночью. Интереснее что с железом произойдет, если под нагрузкой будет. Поэтому и хотел аквариум заказать, чтобы самому не разбираться, какой клей использовать.

>>1226101 →
Ну ничего себе, я как будто в 2011 вернулся.

>А в чем цель? Или просто привычка?
Скорее бунт против современной моды на воздушные интерфейсы. В универе был добровольный предмет по машинно-ориентированным языкам с офигенным преподом, изучали ассемблер x86 от первых процессоров до современных. Рассказывал нам про наследие 86 и как оно живет в современных чипах, про ошибки IBM-PC архитектуры, и как-то зашла мне тема оптимизаций. Потом пошла волна интерфейсов для дебилов с синдромом Паркинсона, все упростить, больше свободного места и скругленные углы везде, отвратительно. Пустое место легко не убрать, от этого страдает плотность информации, и чтобы просмотреть одинаковый ее объем, приходится пролистывать несколько экранов, больше времени уходит. И это идет везде, как рак. В итоге сказал им всем "идите нахуй" и прописал в uBlock правило на один шрифт(Segoe UI, конечно же) и радиус скругления всех элементов 2 пикселя, гораздо лучше стало, сайты чуть меньше пестрят голландскими штурвалами дизайнеров. Начал под себя подстраивать вещи, из андроида эмодзи выпилил и пару приложений с открытым исходным кодом доработал, в лламу и виспер свои модификации добавил. Искал компилируемый клиент, не нашел, пострадал месяц в командной строке и решил сделать свой.

>Просто сейчас обычно наоборот стараются скрыть настройки где-то под капотом, куда после настройки лезть не будешь
Я думал редко используемые параметры типа цветов и формата ходов спрятать в отдельное окно, которое будет по кнопке открываться, но клиент пилю сам, и есть другие проекты, так что сейчас пишу только самые нужные вещи. Да и скрывать пока не имеет смысла, настроек мало, съедают по горизонтали пространство, но монитор-то широкий, растяну окно.

>наиболее удобное пространство для самого чата
Это для меня и есть наиболее удобное, когда текст максимально доступную площадь занимает, потому что

>интерфейс для доп функций, переключения между историей/чатами/карточками и т.д.
пока не запилил. И опять же, мне лучше будет по горизонтали добавить панель, чем меню.

>Как раз интересен юскейс такого.
Так внизу же написал, рероллы с произвольного места и дописывание фрагментов своих ходов нейросетью. Со скриншотов, что видел, сложилось впечатление, что в таверне только реролл всего сообщения и свои сам пишешь полностью.

>структуризации тех же постов
Ты про приближение к виду чата? Могу сделать картинки слева/справа от постов, но придется подумать, как. Совсем красиво с пузырьками и рамками не хочу делать, хочу оставить начало и конец хода. Хотя можно и рисовать границы пузырьков вместо токенов начала/конца хода, но это уже продвинутая графика, пока до нее не дошел.
>возможность...
Не поверишь, почти все хотелось бы сделать, но нужно время. А какой юскейс у сокрытия сообщений? Остальные идеи - продолжение произвольного редактирования, на котором мой клиент и построен. Хочу сделать мультивселенную с отображением графа, как в гите, чтобы можно было перемещаться между любыми ходами, но это сложно с нескольких сторон. Сейчас почти все из того, что ты написал, иногда да использую, пока костыльно через историю отмен и кучу файлов без названия в Notepad++ а до этого в AkelPad, но внезапный BSOD больше чем через полгода бесперебойной работы унес около 50 вариантов отыгрышей, которые все ленился сохранить, нашел замену с бэкапами. Хочу переиграть старый фрагмент - отменяю до него, копирую, возвращаюсь на конец стека и вставляю. Рероллы тоже сохраняются. Надо переделать стек хотя бы, потому что стандартный в Qt каждую операцию заканчивает на новой строке, написала тебе модель 10 абзацев, получи 10 действий, хочу их соединять в одно, если последовательно идут. Но в целом текущее состояние меня устраивает, 95% времени я жду, пишу и рероллю. Начну помаленьку копать в эту сторону.

>возможности формирования промта в нужном формате
Опять время. Надо бы, но у меня не так много карточек, новые руками форматирую под себя. И надо разбираться с форматами, которые сейчас используются. Пока только придумал в сохраненном тексте моноширинными блоками обозначать пересказ фрагмента, чтобы не путаться, потом для клиента собираю историю из них руками.

>Самое разумное решение здесь - подробный суммарайз части постов и постановка его их место.
Я отыгрываю с контекстом 16384, после заполнения делаю пересказ 10-12 тысяч токенов до логичной паузы, редактирую его и продолжаю.

>Типа пишешь книжку-историю вместо чата?
Что-то в этом духе. Ходы по 500-1000 токенов, упор то на действия, то на разговоры, и последовательные реакции, чтобы не дробить ходы. Я 4 действия делаю, модель на 4 реагирует и пишет свои, но иногда возникают нестыковки во времени, когда одна последовательность действий тянется несколько ходов, хотя должна уже закончиться, надо подумать над другим форматом. Мало отыгрываю сейчас, жду контекста и скорости побольше. Сначала больше играл на эйфории, но там формат был 3-5 строк и Me:...\nCharacter:...\n и скорость около 5 в секунду, еще терпимо. Гемма такое не любит, даже старые диалоги раздувает за 3-5 ходов.

>Как тогда там промт формируется и где идет деление между новой и старой частью? Куда ставятся инструкции?
Все, что посылается на сервер - один кусок текста. Инструкции на вкладке init, текст в ней не удаляется из запроса. Сначала инструкция для сети, что она рассказчик и все такое, потом описание ее персонажа, потом моего, обычным текстом. Деления нету, есть индикатор начала контекста. Иногда забиваю на пересказ и отыгрываю с потерей первых сообщений.

>Проблемы с совместимостью и прочим.
Ну вот и протестирую, правда, только на лламе да виспере.

>Тензоры межслойных активаций, там мало.
А, ну тогда можно и x8 на две x4 разделить, подумаю.

>>1226699
>она слегка горячая
Потестирую уменьшение скорости с ограничением мощности, если получится ее ограничивать. 160 ватт и большая площадь чипа, если и греется, то из-за плохого радиатора. Водоблок поставлю, если выстрелит, но он $150, дороже карты, лол. На 60 и 100 их не делают.

>если эти отваливаться начнут
Разве карты сейчас часто отваливаются? Бывает брак, но он обычно через год максимум проявляется. Отвалы нулевых-десятых были от губошлепов европейских, которые запретили свинцовый припой, бессвинцовый хрупкий и трескался от расширения/сжатия при температурных циклах. Придумали пару составов без обратной связи, запустили производство, посмотрели на отвалы, улучшили, сейчас их меньше стало. Но все равно говнище лютое, я за свинцовый.

>Ну и собирать надо под ROCm
Уже не совсем, где-то видел обсуждение, что вулкан почти сравнялся по производительности и можно прекращать поддержку. Спасибо за ссылку, по сравнению с вулканом не сильно хуже, а вот 24 токена на 22B Q6_K это прям отлично, я около 10 предполагал. И в лламу недавно SWA добавили, контекст сильно меньше памяти съедает, но пока кэширование не работает. Может и 128к войдет, пиздос, если скорость 20 будет я на месяц из жизни выпаду.

>дешевая цена может продержаться недолго
Вроде не было поводов снижать или повышать, мало людей про них знает. Когда трехсотые анонсировали, MI100 за 600 баксов была, а 60 за 350, через месяца 2 поднялись. Надо было брать.

>Я на завтра заказал 3,5 кило роллов и 3 пиццы.
Нифига, это на неделю? А я пойду заточу огромный бургер. Может, ударим превентивно по зарождающейся ячейке чаепитных шизов, которые будут прогонять ньюфагов, и разведем здесь фагготрию образца 2014 года?
Аноним 31/05/25 Суб 19:13:18 #52 №1226970 
Протестировал немотрон. Я был приятно удивлен результатом. Почему я не сделал этого раньше? Ах да, токен в секунду на 4к контекста. Написал ему придумать небольшую вводную для ролеплея, гемма обычно сразу пишет текст. А немотрон начал с заголовка жирным. Думаю, ну ничего себе. В итоге получил несколько глав, и стиль даже глубже, чем у Геммы. Нет, я не хочу переходить на один токен, не надо. И в MI50 не влезет, заказать сразу вторую, что ли.
Аноним 31/05/25 Суб 19:23:56 #53 №1226989 
>>1226970
Даже не знаю. А немотрон сможет достать до трудноступных мест в моем контексте ?
Аноним 31/05/25 Суб 19:28:49 #54 №1226996 
>>1226907
>>1226911
>>1226932
А хотите еще поржать? Этот тест проходит даже та самая обосранная здесь сберовская GigaChat-20B-a3b (тоже MOE).
Плохо, меняя год (но всегда одинаково - не переваривает дату в будущем, меняет на "реальный год" откуда датасет), но проходит. Ни разметку не портит, ни имена не перевирает, ни факты.
Аноним 31/05/25 Суб 19:29:23 #55 №1226997 
>>1226907
Никакой. Я честно говоря не представляю, что это за покемон, потому что любая нормальная модель, пригодная для общения в той или иной форме, начинается с 20+ параметров. Потому все тянутся к Qwen3-235-A22B. Вот она действительно может что то изобразить, ибо как раз 22 активных параметра.

К слову о кодинге. Тут все же попробовал Девстрал, Qwen3-235-A22B и GLM4-32B-0414.
Просто протестировал их на банальной змейке в один заход без правок.
Девстрал не справился совсем, видно нужно ждать модель пожирнее. Потому что на глазок код стройный, но сам запрос на естественном языке понимается плохо. Будто написать змейку потенциально может, но что такое "змейка" не понимает.
Квен все сделал как по учебнику. Заработало с первого раза, но ничего примечательного в коде нет.
А ГЛМ - все сделал с первого раза и с достаточно высоким качеством, добавил от себя всяких мелочей типа счета, сообщений, глазки даже змейке нарисовал. Правда росла она через рот, а не жопу, но поправимо. Код в целом выглядит каким то избыточным, будь я погромистом, смог бы ужать на четверть. Модель кажется оч чувствительна к настройкам и системному промпту.

Ну т.е. локальное проганье это пока только ГЛМ и Квен. Все, что меньше не работает в чем то большем, чем автодополнение.
Аноним 31/05/25 Суб 19:35:17 #56 №1227002 
>>1226989
Не сомневаюсь. С такими глубокими описаниями и вниманию к каждому слову в моем запросе, сложилось впечатление, что он следит за контекстом в оба глаза.
Аноним 31/05/25 Суб 19:36:42 #57 №1227003 
>>1226907
Контекст квантовал? Какой квант? Какие семплеры? Ризонинг или без него?
Таких косяков за своей не замечал, тут что то ты накрутил
Аноним 31/05/25 Суб 19:41:32 #58 №1227006 
>>1226997
>Ну т.е. локальное проганье это пока только ГЛМ и Квен
Это не проганье, это хуйня какая та. Ты просто проверил на сколько точно сетки выдают задроченный код из датасета по стандартному типо-кодерскому запросу сделай мне змейку.
Там нет ни думанья, ни работы с кодом - просто сетка высрала тебе на очевидно популярный запрос код из датасета
Аноним 31/05/25 Суб 19:50:06 #59 №1227013 
>>1226970
>>1227002
Уу челикс ну немтрон это кринж, диагноз.
Тут таких не любят.
При весе 49б мозгов на 12, а про ассистента слыхал? Норм тебе вообще с ассистентом рпшить и списки читать?
А про софт рефузы слыхал вообще нет?
Не суетись ты и выбери нормальную модель
Аноним 31/05/25 Суб 19:55:13 #60 №1227023 
image.png
>>1226817
Квен все еще очень хорош. 235 который.
Как не крути, но они его сделали бодрым.

>>1226907
Я надеюсь, Q8 модель и кэш не квантованный? Ведь квантование кэша убивает на мое всю память…

Я надеюсь, сэмплеры взял официальные, для нужного тебе режима (они для синкинга и нон-синкинга разные)?

Тогда печально. =(

>>1226969
пикрил

Кстати, в Россию доставки нет видях, но, быть может, мне закинут штучку-другую.
Если идея выгорит, то протестирую тоже. Но это будет нескоро, за счет пересылки. Твоя придет явно раньше.

>>1226997
А вот это интересный отзыв, про глм! Это интересно.
Не забывай, что девстраль топ в их фронте, но нам его, как я понял, не дали, и вообще.

Дипсик Р1 тоже локальное прогание. =D

>>1227006
Это вайб-кодинг. Квен точно может написать что-то не классическое так же.
Другое дело, что важна глубина проекта.
Там всех ебет клод со своим агентом. Локально… вряд ли какая модель потянет хорошо средний проект хотя бы.
Аноним 31/05/25 Суб 19:57:25 #61 №1227030 
Блин, я Tesla P40 не верил сразу, и в итоге купил всего две штуки.
Надо не тупить, и если mi50 окажется хороший, урвать все пять.
Я бы посмотрел на Qwen3-235b на 5 видяхах по 32 гига.
Если они заведутся больше 1 штуки вместе. ^_^' А то ходят слухи, что вместе раньше не дружили.
Аноним 31/05/25 Суб 20:00:21 #62 №1227038 
>>1227023
>Не забывай, что девстраль топ в их фронте, но нам его, как я понял, не дали
Почему не дали? Опенхандс ставится локально, для него и создавали по сути.

>Это вайб-кодинг.
Нуу, в вайб кодинге хотя бы серия запросов идет (хотя бы), а это уровень "сколько р в слове".
Просто ваншот запрос по коду, какие выводы тут можно сделать?
Аноним 31/05/25 Суб 20:10:50 #63 №1227044 
Попытался в Квен3 рп. Это пиздец, пердолинг такой же, что и с немотроном. И результат снова сомнительный. Немотрон срет табличками и опциями действий/What do you want to do?, Квен3 - thinking блоками (хотя ты везде кричишь их не использовать, вплоть до инструкт шаблона уже доходит) и, внезапно, соей даже в относительно безобидных сценах. Для кода он мб и неплох (судя по бенчмаркам aider), но в рп не годится. Лупится еще как блядина, bos token на месте, реп пен выкручен, драй, все используется. Ужас ужасный
Аноним 31/05/25 Суб 20:10:53 #64 №1227045 
>>1227023
> пикрил
зачем ты себя убиваешь?
Аноним 31/05/25 Суб 20:11:57 #65 №1227049 
>>1227044
Попробуй пантеон на базе квена.
Аноним 31/05/25 Суб 20:12:43 #66 №1227052 
>>1227006
Просто как оказывается, не все модели справляются с заданиями из задроченных датасетов.
Ну и да, это не програмирование и что теперь, не мыться что ли? А здешний кум - это не общение с РЛ тян, и РП с нейронкой - это не партия в клубе. Но всех все устраивает и никто на эту тему не воняет. От нее трясет только всяких мартыханов-погромистов.
Аноним 31/05/25 Суб 20:12:51 #67 №1227053 
>>1227049
Позже мб попробую. Создатель Пантеона - один из тех кто работал над Wayfarer. Но у него вроде тюн на 30b модель?
Выше я писал про dense 32b базовую модель
Аноним 31/05/25 Суб 20:15:13 #68 №1227055 
>>1226969
> против современной моды
Помимо моды есть еще оптимизация действий и удобство, которые закладываются в интерфейс. Впереди ключевые вещи, используемые постоянно, в сторонах - эпизодические, где-то очень далеко - редко применяемые. Само расположение должно учитывать типичное использование и делать работу удобнее. В остальном лучше не перегружать, максимизируя рабочую область, минимизируя отвлекающие факторы и т.д.
Облачка, скругления, тени, шрифты и прочее - уже дело десятое. Хорошим примером может быть кастомизация вима, некоторые варианты демонстрируют, что интересные и удобные интерфейсы можно сделать даже без гуя и всего этого.
> с офигенным преподом
> Потом пошла волна интерфейсов для дебилов
Может в своем предмете он и ахуенный, но вот это - лишь брюзжание деда из другой эпохи в теме, в которой он не шарит, ретроградность и вкусовщина имеют мало общего с оптимизацией. Никто не идеален, ему можно и поныть, но воспринимать такое как истину - плохая идея.
> редко используемые параметры типа цветов
Все, что есть на правой панели в тех скринах относится к такому. Пустота или фоновая картинка будет лучше чем нагромождение информационного шума. Зато отсутствующая структурная разметка постов необходима.
> когда текст максимально доступную площадь занимает
Зависит от представляемых данных на самом деле. Но в целом для текста читать узкое - высокое удобнее чем широкое - низкое, так устроен человек.
> рероллы с произвольного места
Как реализовано? Это все по сути а ля нотбук в убабуге, со свободным полем, которое по нажатию целиком отправляется в тексткомплишн?
> в таверне только реролл всего сообщения и свои сам пишешь полностью
Помимо свайпов, можно менять посты чара и заставлять продолжить текст в них. Если нажать продолжение с предзаполненным полем юзера - оно станет сообщением, которое будет направлено для продолжения. Можно комбинировать это с инперсонейтом.
> Ты про приближение к виду чата?
Да. Когда чат будет большой и сложный - напряжение для того чтобы просто понять где находишься и сориентироваться среди служебных токенов будет изрядно напрягать. Помимо пузырьков вариантов оформления превеликое множество.
> А какой юскейс у сокрытия сообщений?
Заготовленные варианты того где не определился (можно иметь по 2-3 сообщения), удаления подробной кум сессии из контекста чтобы избежать отвлечения на нее, работа с сумарайзом и прочее.
> продолжение произвольного редактирования
Заложение этого в основы подрывает возможные перспективы будущего. Для достижения наилучших результатов отправляемый в ллм контекст должен быть динамический. Старые сообщения оформлены по-своему, перед новым дополнительная инструкция и префилл, популярны также дополнительные запросы и ризонинг, из которых в контекст должны быть включены только самые последние (или на несколько в глубину) и т.д. Как реализовывать такое тут - хз.
Если хочется редактирования - достаточно к имеющимся интерфейсам сообщений добавить по клику превращения сообщения в редактируемое поле и кнопку продолжения.
> пока костыльно через историю отмен и кучу файлов без названия в Notepad++
Очень костыльно, сам же понимаешь. Когда рпшишь - хочется погрузиться, рефлексировать, получать удовольствие, а не дергаться туда-сюда.
> Что-то в этом духе. Ходы по 500-1000 токенов
Ну это таки чат формат, а не монолитное.
> и последовательные реакции, чтобы не дробить ходы. Я 4 действия делаю, модель на 4 реагирует и пишет свои
Со временем эта херня ужасно заебет, когда в таких многоходовочках модель просто не позволит тебе сделать то что хочешь, убегая далеко, подробно обсудить что-то, устроить естественный диалог с мгновенным откликом, реакцию на действие из которого ты уже сам будешь реагировать и т.д. В остальных случаях идеально было бы подхватывание единичных событий, хорошая и подробная реакций на них, но ровно какая нужно, с остановкой или наоборот своей инициативой и конкретным полотном. Общаться, сочиняя что-то типа
> Насчет того что ты говоришь там - х
> после действия 1 - у
> услышав это - й
> на высказывание 2 - н
> после ее действия 2 - я
тотальное уебище.
Это больше собственное нытье в общем, не касательно твоего интерфейса. Хороша модель, которая может в это не скатываться, сохраняя баланс. Идеальна - которая может варьировать от 50 до 3000 токенов с максимальной уместностью.
> естыковки во времени, когда одна последовательность действий тянется несколько ходов, хотя должна уже закончиться, надо подумать над другим форматом
Вот, оно.
Аноним 31/05/25 Суб 20:15:17 #69 №1227056 
>>1227038
Значит не понял. =)
Оке, надо будет потыкать, раз ставится. Может в нем и правда расцветет.

> Просто ваншот запрос по коду, какие выводы тут можно сделать?
Хороший вопрос.
На самом деле, как часть теста — действительно хорошо, ваншот тоже сорт задачи. Другое дело, что поспрашивать, пофиксить, и поменять — тоже стоит, конечно.

>>1227045
Разок можно. Я спецом пару дней ел поменьше, сбросил пару килограмчиков.
А потом все лето буду норм питаться. Ибо с 66 до 72 набрал за НГ~первомай. Там праздники, днюхи, сплошная еда была.

Я не враг своему здоровью, культурно отдыхать умею.

Но завтра — обожрусь. Это будет вкусно…
Аноним 31/05/25 Суб 20:16:57 #70 №1227059 
>>1227044
> срет табличками и опциями действий
> thinking блоками
> соей даже в относительно безобидных сценах
> Лупится еще как блядин
Что-то делаешь не так. Сейчас еще окажется что квен на жоре сломан.
Аноним 31/05/25 Суб 20:20:16 #71 №1227065 
>>1227053
Этих квенов как китайцев.
Просто пантеон то я добавил в список, но сам конечно же его не запускал (я буквально вчера узнал о его существовании) вот и будешь первоиспытателем.
Аноним 31/05/25 Суб 20:22:56 #72 №1227068 
>>1227059
Проверял и ггуф на Кобольде, и Экслламу3 через Табби. Уверен, что делаю все правильно. Проверяй пресет, если оно тебе надо: https://pastebin.com/raw/ALcPnHNR
Два часа проебал на пердолинг
Аноним 31/05/25 Суб 20:27:17 #73 №1227079 
>>1227068
Если руки дойдут то отпишу. Именно 32б отвалилась?
Аноним 31/05/25 Суб 20:29:55 #74 №1227084 
Она не отвалилась. Модель просто не подходит для рп по указанным выше причинам. Пресет состоит из правильной разметки, предпочтительного систем промпта, рекомендуемых настроек со страницы модели и отредактированным инструктом, чтобы зафорсить /no_think. Что не всегда помогает. Железно отрубить можно только через reasoning prefix <think></think>, а не тегом /no_think, как это предлагают в Квене3. Даже если опустить конкретно эту проблему, рпшить на базовом Квене3 нет никакого смысла
Аноним 31/05/25 Суб 20:32:12 #75 №1227089 
>>1227079
Да, dense 32b модель, и выше сообщение тоже мое, забыл приклеить
Аноним 31/05/25 Суб 20:35:32 #76 №1227095 
>>1227052
Вот уж не сравнивай хуй с пальцем, здешнее рп это мультитурн вызовы на кучу контекста, а типо тестики кода выше - зирошот одиночные генерации формата вопрос ответ
Аноним 31/05/25 Суб 20:42:59 #77 №1227101 
>>1227003
>>1227023
Все настройки с офф readme, кеш fp16, кванты модели проверял до Q6_K офф репы. Выше смысла нету, прогресса по сравнению с IQ4 не видно никакого а скорость уже теряется. Тем более авторы хвалились, что низкий квант - это для их модели.

Не, тут из под капота явно лезет размер отдельного эксперта. Т.к. "в общем" - оно выглядит неплохо, обычный текст связный, разносторонний, особо без приколов. А вот там, где нужна точность и глубина анализа - оно и вылазит. Потому я ее гуманитарием и обозвал. Точность - не про нее, а вот что-то этакое писать она вполне горазда. Thinking режим же убивает RP - у нее персонаж тогда как ассистент становится.
Аноним 31/05/25 Суб 20:49:00 #78 №1227104 
aloha.png
>>1227065
Я видимо не понимаю как квен настраивать, но пантеон у меня на пикреле.
Аноним 31/05/25 Суб 20:49:36 #79 №1227105 
>>1227101
>Thinking режим же убивает RP - у нее персонаж тогда как ассистент становится.
Да вроде самый угар как раз с тсинкингом, ответы интересные дает
На счет точности и внимания соглашусь пожалуй, но особой проблемы из этого не делаю - просто кручу барабан
Аноним 31/05/25 Суб 20:52:36 #80 №1227107 
>>1227104
На базовой модели то же самое иногда происходит. >>1227044
Такие вот Квены3. Потому и нет никакого инфошума про них. Если кому и интересно, то только кодерам (и часть тех утверждает кто qwq лучше)
Аноним 31/05/25 Суб 21:01:26 #81 №1227111 
>>1227104
Она просто рада тебя видеть.

Ну что-же. Прпробую сам, покручу соски семплеры, будет тоже самое забудем как страшный сон.
Аноним 31/05/25 Суб 21:15:04 #82 №1227123 
>>1227101
Да, слушай, синкинг… Он бустит модель, видимо, но в РП с этим сложно, согласен.
Аноним 31/05/25 Суб 21:17:28 #83 №1227126 
Так какая гемма3 27 лучше всего? Там столько всяких аблитерейтед, дпо, уд... Не понятно ничего!!!
Аноним 31/05/25 Суб 21:25:00 #84 №1227133 
>>1227013
>про ассистента слыхал?
Нет, я вообще половину не понял. Какие списки? Генерирую третий ход, выдает описания лучше Геммы, они более медленные и подробные, понравились. Из подозрительного пока выяснил, что он все ходы с заголовка жирным начинает.
>При весе 49б
Мы точно про одну и ту же говорим? У меня Llama-3.1-Nemotron 70B. Я не шарю за модели больше 34, эта вроде неплохая. Отыграю ходов 10-20, у меня ролеплеи без эротики и совсем школоивельной жести, так что может и не возникнут проблемы, которые ты описал.

>>1227044
>What do you want to do?
О, первый ход тоже этим завершил, стер, второй уже нормальный выдал.

>хотя ты везде кричишь их не использовать
/nothink не помогает? Мне один в начале помогает.

>>1227023
>Кстати, в Россию доставки нет видях
И с алибабы? Может, через посредников получится, но цена подрастет. Или я бы мог отправить, но тогда еще больше подрастет, наверно. Весь этот цирк с санкциями разочаровывает, года полтора назад таможня тормознула шаблоны для паяльной пасты из Китая, потребовали доказательство, что в них российской стали нет, а там общий вес граммов 100 максимум.

>>1227055
>Впереди ключевые вещи, используемые постоянно, в сторонах - эпизодические, где-то очень далеко - редко применяемые.
Да, так и будет, но пока все настройки влезают на одну панель.

>кастомизация вима
Интересно, посмотрю.

>брюзжание деда из другой эпохи
И этот дед - я, лол. Плохо сформулировал, его предмет закончился на архитектуре, вдохновил меня на оптимизации, после предмета пошла волна интерфейсов. Они плохие по моему мнению, потому что скорость использования уменьшилась. Да, есть закон Фиттса и совсем мелкие элементы делать не стоит, но и гигантским кнопкам с большими полями на моем экране не место. И круглые картинки профилей мне напоминают ехидных колобков.

>Все, что есть на правой панели в тех скринах относится к такому.
Возможно. Сейчас понял, что кроме температуры уже и не играюсь ни с чем. Ну и размер контекста оставить с количеством токенов для генерации.

>для текста читать узкое - высокое удобнее чем широкое - низкое
Да, про площадь я имел в виду и плотность тоже, небольшие отступы и маленькие шрифты.

>Как реализовано?
Есть позиция, от которой хочу рероллить, удаляю текст до нее и прожимаю горячую клавишу. Есть 2, одна на отправку запроса, вторая на вставку конца хода и отправку. Отправляется текст. Наверно как ноутбук, в прошлый раз тоже про него сказали.

>Помимо свайпов, можно менять посты чара и заставлять продолжить текст в них
Интересно, тут бы сказал, что у меня это быстрее получается. Там же надо нажать на кнопку и выбрать редактирование? У меня выделил-стер-отправил.

>Когда чат будет большой и сложный
Насколько? Мне хватает выделения хода модели, была пара отыгрышей на 30 тысяч токенов, костылил в OOC краткий пересказ важной инфы, проблем с поиском определенных моментов не было. Обычно пробегаюсь по первым словам и в середине, чтобы понять, где нахожусь. Может, добавить пока сплошную заливку всех строк с текстом модели, чтобы был один подсвеченный блок, а не много абзацев?

Варианты я сейчас тоже в блокнот копирую, надо все-таки двигаться в сторону графа. Сокрытие можно реализовать легко, пометить ход, чтобы не включать в запрос, но для свайпов базы нет. Я не отслеживаю фрагметы текста, что где удалено, так что после модификации текста до свайпов они пропадут, начну с них.

>Старые сообщения оформлены по-своему, перед новым дополнительная инструкция и префилл
Вот это странно, что это улучшает? Ты же про предыдущие ходы и последний говоришь, не про пересказ? Я инструкции обычно в OOC пишу, но это больше пожелания по сюжету, не что-то фиксированное.

>Как реализовывать такое тут - хз.
Раскладывать текст на ходы и между ними добавлять что-то? Реализуется легко, но непонятно, что в них писать. Или это все основано на других запросах к сети? Тоже можно сделать. Ризонинг выкидывается заменой регулярными выражениями. Редактирование не помеха обработке перед отправкой.

>к имеющимся интерфейсам сообщений
Но у меня же фетиш на компилируемые программы, я не хочу веб-клиенты или что-то на питоне запускать прям совсем. Все вычистил, на питоне остался только Gajim для джаббера, и то потому что Dino даже с VxKex не запускается на семерке. К ним бы пришлось привыкать, а тут я все под себя делаю, ценой усилий, правда.

>Когда рпшишь - хочется погрузиться, рефлексировать, получать удовольствие, а не дергаться туда-сюда.
Не знаю, я привык уже, погружению не мешает. Тот же архитектор матрицы, но теперь ее иногда надо руками править. Первое время вообще кайфовал, смотри, характер.аи, просто белое поле с текстом, как тебе такое. И у него clownflare прям как тут, я даже забил на tor и на то, что на чужом сервере отыгрываю, и неделю играл там контрабандиста-оружейника из звездных войн со своего адреса, пока не отпустило.

>Со временем эта херня ужасно заебет
Да, уже разок переписал 5 ходов вручную, чтобы починить линии во времени. Буду экспериментировать с форматами. Аноны из треда копали в эту сторону? Гемма иногда скатывается в формат реакции и реплики в конце абзаца, вот что заметил.
Аноним 31/05/25 Суб 21:33:30 #85 №1227138 
>>1227101
>>1227105
>>1227123
Ы... Я ей сейчас поднял количество экспертов с 8 до 16 (ключом --moeexperts 16) - ее знатно попустило. Тест стала проходить не хуже Мистралек. Скорость разумеется упала. Но ума явно добавилось.
Аноним 31/05/25 Суб 21:42:26 #86 №1227153 
image.png
Точно не надо?
Сколько сборка стоит?
Аноним 31/05/25 Суб 21:47:26 #87 №1227165 
>>1227153
>Точно не надо?
>Сколько сборка стоит?
Немного заморочившись с выгрузкой тензоров ее запускают на 3060 12GB и 128GB оперативы. И даже 6t/s получают.
Аноним 31/05/25 Суб 21:48:06 #88 №1227168 
>>1227111
Попробуй попробуй, но у меня такое впечатление что 3 квен вообще несет несвязную хуйню и ему очень тяжело в рп. Отпишись если че получится, у меня как-то грустно все.
Аноним 31/05/25 Суб 21:58:07 #89 №1227188 
>>1227165
Это звучит как ебучий вин тысячелетия, так как оператива стоит копейки. Но никто не бегает с квен, квеночка, квенусик, молодец, умница, чмок чмок чмок.

Должен же быть какой то подвох.
Аноним 31/05/25 Суб 21:59:34 #90 №1227191 
>>1227188
Подвох в том что нужен топовый проц и хорошая ддр5, а это ну тыщ 120
Аноним 31/05/25 Суб 21:59:37 #91 №1227192 
>>1227138
Сцуко. В руководстве: PresencePenalty=1.5. Это сильно много для "статус бара". Убрал до 0.5 - и даже на 8-ми экспертах разглючило (уже на 1 почти не глючит).
Кстати, это именно та настройка, чтобы в лупы не вываливалось. У кого там было "Aloha!" - именно ее первой поднимать надо.

Зря, все же вначале тут >>1226907 столь активно наехал на нее. Таки чего-то может. Но ридми, походу, с оглядкой воспринимать надо. А на 16-ти экспертах вывод все-же приятнее смотрится.
Аноним 31/05/25 Суб 22:01:27 #92 №1227196 
>>1227126
аблитерейтед+дпо в кванте уд
Аноним 31/05/25 Суб 22:02:37 #93 №1227199 
>>1227165
Q4_K_M на 4090 и ддр4 = 5 t/s
на ддр5 может и будет 6 t/s
Аноним 31/05/25 Суб 22:06:05 #94 №1227207 
>>1227188
>Это звучит как ебучий вин тысячелетия, так как оператива стоит копейки
За копейки фигня получится. Там и задорого-то...
Аноним 31/05/25 Суб 22:10:25 #95 №1227219 
>>1227188
Подвох в том, что надо железку которая эти 128GB умеет запускать (а это последние поколения, либо самые топы более ранних), и желательно еще и пингвина туда, чтобы 3060 разгрузить полностью от GUI системы.
DDR5 желательна, но и на 4 шевелится будет, судя по отзывам. Лишь бы мать ее столько могла прожевать. Проц, кстати, топовый не нужен. Упор на скорость памяти а не на на проц. Затычка, конечно не пойдет, но все упрется в шину памяти. А ее загрузить - и серединки хватит.
Аноним 31/05/25 Суб 22:13:29 #96 №1227224 
>>1227199
На таком кванте - не хватит, в первую очередь обычной памяти. Там на втором запускают. И далеко не фигня получается - как раз восторги очень даже есть.
Аноним 31/05/25 Суб 22:18:11 #97 №1227233 
Народ, кто может, потыкайте, пожалуйста последние сборки лламы и сравните с 5449. У меня ощущение, что там бригада равшанов опять сломала что-то.
Аноним 31/05/25 Суб 22:26:17 #98 №1227246 
>>1227133
> И этот дед - я, лол.
Не пугай детишек и будь терпимее.
> тут бы сказал, что у меня это быстрее получается
+- то же, быстрее за счет того что редактирование уже начато, менее удобно из-за самого интерфейса.
> Насколько?
Настолько что перед сессией сначала читаешь суммарайз, вспоминая. Или можно и сам чат опять почитать да поумиляться. Оно так норм когда все на свежую, а если потом решишь даже просто назад отмотать, то без навигации и структуры это тяжело.
> сплошную заливку всех строк с текстом модели
Посмотри варианты исполнения в таверне, там много тем и юзеры пилят, есть где буквально идут подряд посты, разделенные плашками и по-разному оформленные где юзер, где модель, и без круглых аватарок.
> Варианты я сейчас тоже в блокнот копирую
Тут нужны свайпы или подобие. Все на месте, если хочется и не лень то можно из нескольких удачное надергать.
> Вот это странно, что это улучшает?
Это про само взаимодействие и более продвинутую разметку, а также дополнительные запросы по необходимости. Оос само собой.
> Раскладывать текст на ходы и между ними добавлять что-то?
Нужно формировать под них правильную разметку при запросе, а потом результат вставлять в промт иначе, без разметки как часть инструкции, или иначе обернутое. А потом исключать из промта по мере заглубления.
Когда сделано в виде постов то это трудностей не вызывает, формируются отдельным вызовом, при использовании нужным образом вставляются, могут быть скрыты/показаны юзеру, могут быть включены в контекст или удалены из него в зависимости от позиции и настроек.
А тут сложность появляется уже на самом первом этапе, когда нужно решать показывать ли пропмт по которому они сгенерированы, показывать ли то, как они уже будут интегрированы в контекст. И по самому принципу, они вроде как обязаны быть в текстовом поле всегда и нужно добавлять само скрытие в такую концепцию, автоматическое обращение к нему по мере наполнения постов. И юзер всегда будет видеть эти полотна.
> но непонятно, что в них писать
Почитай треды, тут описывали ряд интересных применений, помимо дефолтного обдумывания, статуса трусов, намерений-планов и т.д. Правда выдергивать из всего что пишут будет тяжело.
> у меня же фетиш на компилируемые программы
Больной ублюдок, лол, лучше бы на кошкодевок фапал и ступни облизывал.
Аноним 31/05/25 Суб 22:37:30 #99 №1227267 
>>1227224
это я написал, что у меня выходит
prompt eval time = 30282.81 ms / 1787 tokens ( 16.95 mspt, 59.01 tps)
eval time = 359736.80 ms / 1818 tokens ( 197.88 mspt, 5.05 tps)
total time = 390019.61 ms / 3605 tokens
Аноним 31/05/25 Суб 23:08:11 #100 №1227321 
Время опять запостить https://en.wikipedia.org/wiki/List_of_interface_bit_rates

>>1227219
>последние поколения, либо самые топы более ранних
Зачем? Нужна серверная плата. У DDR4-3200 пропускная способность 25ГБ/с на канал, если ты ее засунешь в пользовательские 2 канала, то получишь 50 всего. А в серверной их от 6 и больше. Большинство плат сейчас поддерживают по 32 на планку, вроде. А в серверную хоть 8 по 16 набрать можно. Но там ограничения по частоте, Genoa поддерживает только DDR5-4800, например, и у младших моделей процессоров ограничение пропускной способности памяти из-за организации чиплетов.

>>1227233
>сломала что-то
Что? Из-за SWA отрубили кэш, но он за пару коммитов до твоего как раз. Погонял, работает быстро, но из-за кэша на чуть более старой версии сижу.

>>1227246
>Посмотри варианты исполнения в таверне
Хорошо, гляну.

>если хочется и не лень то можно из нескольких удачное надергать.
Да, довольно часто такое делаю.

>А тут сложность появляется уже на самом первом этапе, когда нужно решать показывать ли пропмт по которому они сгенерированы, показывать ли то, как они уже будут интегрированы в контекст.
Пока не полностью понимаю, что там писать, но можно же добавить в текст что-то вроде иконок, типа "...", отформатировать их по-другому и по щелчку или наведению курсора показывать инфу. А как показывать, пусть пользователь решает. С зажатым Ctrl, например, подробно, а без него только то, что отправляется. Хочу оставить текстовое поле как главный элемент все-таки. Это даже не сильно поменяет концепцию но кто-то все равно обосрется, свободное редактирование внизу останется, а на нем всякие улучшатели, которые можно отключить. Сначала граф запилю, потом с этим разбираться буду. Спасибо за обратную связь.

>лучше бы на кошкодевок фапал и ступни облизывал.
А может я совмещаю, кто знает.
Аноним 31/05/25 Суб 23:18:23 #101 №1227333 
>>1226907
>Есть у меня такой тест: типа RP чат, где первой строчкой каждого хода - "статус бар" - обернутый в xml тег status. Там текущая дата, одежда, деньги, вещи, кто вокруг персонажа. В карточке указано - "обновляй по ситуации."
А можно кинуть этот промпт? Тоже хочу такой статус бар сделать. Заодно и проверю - пройдут ли мои любимые модели этот тест или нет.
Аноним 31/05/25 Суб 23:41:15 #102 №1227371 
>>1227333
Слушай, по экспериментируя сам. Я другой анон.
Я пишу это не потому что мне сложно поделиться подобным, но это полезно. Ты не будешь зависеть от других. Смотри : приходишь к чатжпт и тупо спрашивай его : хочу рпг вставку в Silkytavern с xml тегами. А потом меняй под себя. Не получится, я поделюсь.
Аноним 31/05/25 Суб 23:44:08 #103 №1227375 
>>1227333
Статус бар - это даже не промпт, а маленькая часть карточки персонажа. Добавлено в конец описания:

# Status block format and guidelines:
<status>Time: HH:MM, Date: Day/Month/Year; Location: place name;
Health: percent, Stamina: percent, Money: count, Wearing: outfit;</status>
- In 'Wearing' field print brief clothes state.
- In Location field print brief name of current location.
- Status shall be brief as possible.

Далее в таверне, в Reasoning Formatting (оно под системным промптом) добавляется <status> и </status> как маркеры reasoning блока, и <status> в поле "Start Reply With:". Ну и Auto parse с Auto expand галки поставить.

Нормальная модель сразу начинает нормально писать с первого сообщения. Правда, желательно, чтобы дата была явно гретинге карточки прописана, или просто вводи как часть первого сообщения - а то выдумает такое...
Далее просто ведем RP до заполнения контекста и смотрим на то как модель обновляет статус. В принципе, даже мистральки 24B неплохо справляются с большей частью - деньги считают, за часами смотрят, окружение и одежду учитывают. Вот Stamina - тут могут быть странности. Правдоподобно учитывают уже не все модели.

Независимо от модели включенный DRY Repetition Penalty сильно ломает стабильность. Чтобы не ломал - надо в его Sequence Breakers добавить как минимум : ; и /
(Но у меня с qwen3 он был выключен - не в нем проблема была.)
Аноним 31/05/25 Суб 23:44:42 #104 №1227378 
Господа, есть пара вопросов.

В карточке персонажа чётко прописано что он владеет саблей и пистолетом, но во время рп он внезапно достаёт щит. Это зависит от температруы или от тупости модели?

Во время стриминга генерации текста, токены\слова резко заменяются на другие, какой параметр за это отвечает?
Аноним 31/05/25 Суб 23:52:48 #105 №1227394 
>>1227375
>Добавлено в конец описания:
Спасибо, буду экспериментировать.
Аноним 01/06/25 Вск 00:06:13 #106 №1227415 
>>1227375
Эх, а я просто добавлял в конец наподобие
This stat sheet should appear at the END of every message. Every single one!:
"
<stats>
```
Equipment: ["(list equipped items)"]
Internal Thoughts: "them thoughts"
```
</stats>

И не всегда срабатывало, или в длинном сообщении лепило несколько раз.
Аноним 01/06/25 Вск 00:11:48 #107 №1227427 
>>1227378
>В карточке персонажа чётко прописано что он владеет саблей и пистолетом, но во время рп он внезапно достаёт щит. Это зависит от температруы или от тупости модели?

Даже самая лучшая модель не знает смысла того, что генерит. Она лишь продолжает то, что уже есть вероятными вариантами. Персонаж владеет саблей - это разновидность меча. А щит в текстах (датасета) часто встречается рядом с мечами, вот модель его и приплела. Ведь не было же явного указания что щита персонаж не имеет? Более тупая модель могла бы и копье, и пращу "найти". А температура лишь повлияла бы на такую вероятность. Но принципиально - и самая умная модель всегда может кролика из шляпы достать, потому, что тупо не имеет сознания, и на самом деле ничего не понимает, а лишь вытаскивает токены на основе закономерностей в датасете.
Аноним 01/06/25 Вск 00:19:52 #108 №1227448 
sq.jpg
Бля как же квену похуй на инструкции, чисто как паровоз ебашит напролом. Уже везде насрано что не надо отыгрывать за персонажа, а ему похуй. 100 сообщений без единой реплики персонажа? Да соси яйца юзерок, держи блять реплику из воздуха Я КВЕН Я ТАК ВИЖУ БЛЯТЬ, а еще МНЕ ПОХУЙ НА ТВОЙ БОС ТОКЕН ГАНДОН-ЮЗЕРОК, я в одном сообщении буду на галочку смотреть, а в другом ЗАЛУПЛЮ тебе нахуй твое предыдущее сообщение ЧТОБЫ НЕ РАССЛАБЛЯЛСЯ ЕПТА. Персонаж в латных доспехах? А МОЖЕТ ЛУЧШЕ В СПОРТИВНОМ КОСТЮМЕ ИЛИ ДЖИНСАХ МММ? Я КВЕН МНЕ ТАК БОЛЬШЕ НРАВИТСЯ...
Аноним 01/06/25 Вск 00:24:09 #109 №1227463 
>>1227427
Именно так. Когда это осознаёшь, становится не так интересно. Особенно когда видишь закономерности конкретных датасетов. Эх, а поначалу так легко было обмануться
Аноним 01/06/25 Вск 00:28:50 #110 №1227471 
>>1227427
Лучше не злоупотреблять markdown разметкой там, где речь о данных - модели то ее понимают, но именно как элемент декорации в основном, т.к. она для этого и используется обычно, а не как разметка именно данных. XML, JSON, YAML - работают лучше в таких случаях. До меня это долго доходило, пока не допер - датасет же содержит разметки, которые юзают для определенного назначения, и модель это типичное назначение "запоминает" вместе с самой разметкой.

А в большинстве случаев и простого "ключ: значение" через двоеточие, с разделением запятыми или точкой с запятой - за глаза хватает.

Но тут ключевым элементом фокуса является поле "Start Reply With:" - это основной пинок в нужном направлении. Без него только самые умные модели начинают генерить статус каждый раз, не теряя его через несколько сообщений. А вот продолжить формат - это им гораздо проще, с этим даже 12B справляются (хотя ошибки в данных они допускают).
Аноним 01/06/25 Вск 00:32:12 #111 №1227480 
>>1227023
>они для синкинга и нон-синкинга разные
Как ты себе это представляешь? Вот у тебя набрался мешок-пулл токенов для генерации - продолжения текста. Дальше в одном режиме у тебя дерьмо полнейшее в пулле, и надо почти всё выкидывать, а в другом всё нормально с выключенным сэмплингом, или как это происходит? Если так, то не кажется ли тебе, что когда ты получаешь мешок с говном, это означает, что модель не работает в этом режиме?
Это касается в принципе любой модели. Если для получения адекватного контексту ответа не достаточно отрезать совсем маленький хвостик, модель шлак. Я удивляюсь, откуда в треде берётся эта шиза про якобы особую чувствительность к сэмплингу. Такая чувствительность означает, что исходная выдача токенов до применения сэмплинга сломанная, и модель обучена неадекватно.
Аноним 01/06/25 Вск 00:46:11 #112 №1227496 
>>1227448
>Уже везде насрано что не надо отыгрывать за персонажа, а ему похуй
По моему опыту - всем моделям похуй на эту инструкцию в таком прямом ее виде.
Или модель будет юзать персонажа игрока, или нет. Если будет - или забить, или выкручиваться другими средствами.
В частности, некоторым моделям хорошо помогало, если в промпте объявить, что модель - это игровая система (или GM, или Storyteller), X - Player's character, а Y (персонаж карточки) и остальные - NPC. Причем даже не нужно было заикаться - не трогай X, в такой роли модель уже не лезла куда не просят.

А мне, в последнее время, вообще стало лень описывать все свои действия детально. Стал ценить модели, которые могут работать именно как полноценный GM, т.е. ведут и NPC, и персонажа игрока, но его - в меру. Чтобы я мог модели как GM'у сказать "Я иду в лес" - а модель мне в ответ распишет как я добрался до опушки и кого там встретил. Тут главное - чтобы основные решения за меня не принимались. Как ни странно - даже 12B так могут. Некоторые. С удачно написаным промптом.
Аноним 01/06/25 Вск 00:52:21 #113 №1227508 
>>1227496
Накидай примеров что-ли. на 12В
Аноним 01/06/25 Вск 00:59:03 #114 №1227511 
image.png
https://huggingface.co/Sukino/SillyTavern-Settings-and-Presets/raw/main/Banned%20Tokens.txt
Антислоп лист.
Мнение?
Аноним 01/06/25 Вск 01:20:14 #115 №1227530 
>>1227511
Не поможет.
Аноним 01/06/25 Вск 01:38:34 #116 №1227559 
>>1227448
>Бля как же квену похуй на инструкции, чисто как паровоз ебашит напролом. Уже везде насрано что не надо отыгрывать за персонажа, а ему похуй. 100 сообщений без единой реплики персонажа?
суть проблемы в том что ролеплей - говно формат и модели не могут в него. облачные ещё ладно, у них мозгов хватает любой формат на лету подхватить, но у глупеньких-миленьких моделек мозгов хватает только на обычное литературное повествование, которое в отличии от ролеплея присутствовало в тренировочных материалах в терабайтных объёмах.
Аноним 01/06/25 Вск 02:00:03 #117 №1227588 
>>1227559
>суть проблемы в том что ролеплей - говно формат и модели не могут в него.
Боюсь, что так. Нужны протоколы РП-партий в большом количестве - интересно, есть ли такие хотя бы для ДнД? С появлением интернета должны же были появиться и онлайн-клубы, партии по интернету и протоколы соответственно... Вот на них бы и дообучить модельку.
Аноним 01/06/25 Вск 02:01:29 #118 №1227589 
>>1227511
>Мнение?
Если сильно раздражает, можно и вставить. Узнаешь много нового слопа.

Некоторые вещи проще не замечать.
Аноним 01/06/25 Вск 02:08:30 #119 №1227596 
>>1227511
Замедлит генерацию (возможно, очень сильно), приведет к другому слопу и, возможно, отуплению модели. От слопа невозможно избавиться по определению
Аноним 01/06/25 Вск 03:09:33 #120 №1227633 
>>1227084
>>1227089
Да вот даже хз, ничего из описанного
> срет табличками и опциями действий
> thinking блоками
> соей даже в относительно безобидных сценах
> Лупится еще как блядин

Но вообще она немного припезднутая. Слишком пытается угодить, слишком гиперактивна. Надо отдать должное что по дефолту особо ничего не делает за юзера, но ну оче инициативна. Свайпы совершенно разные.
Кумботы если и раньше прыгали на хуй, то тут вообще с двух ног влет. Хотя пока суть до дело до первой активности так 50 постов пролетело. Лезет 大腿, лол.
На канничке раз был аположайз и что-то про pg рейтинг, но ушел с первым свайпом. Оос с указанием что описать или как изменить ответ воспринимает
Лупов не встретил, исключая структурные. Хоть и варьирует порядок диалоги-действия-вставки и меняет формат постов, но неоходно и часто вылезает подряд схожие.
На готовых сложных чатах что-то пытается, но не вытягивает как хотелось бы. Теряется под контекстом и шутеечками в конце, из-за чего чар ведет себя не так естественно, как ожидаешь. Тем не менее, по крайней мере старается там, где другие ломаются и точно без существенных просадок относительно одноклассников.
На запрос тяжелого суммарайза - выполнила критерии и в целом похоже, но местами перепутала порядок событий, придется заставлять делать кусками поменьше. Рабочий код тренера написала. Длинную инструкцию выполнила хорошо, но когда повторил с ризонингом - высрала там огромные полотна, чем себя запутала, и результат получился хуже.
Чисто для сравнения - qwq снежный на тех же тестах показывает себя стабильно хуже, не беря в учето какой-то стиль ответа.
Еще из минусов - серит глинтами, кладет палец на jawline, размахивает бедрами и т.д. Если у чара есть какие-то атрибуты - может начать неистово заебывать ими, акцентируя почти в каждом сообщении. Каждый раз по-разному, в разных местах поста и применяя типа уместно, но заебывает. Хз можно ли это назвать лупом, чинится через ooc или пару раз отредачить чтобы успокоилась.

tldr: Плохой точно не назвать, описанных проблем нет. Есть некоторая припезднутость, есть места где сработала удачно, восхититься пока не получается. Возможно если правильно приготовить то будет очень даже ничего.

Пресет из дефолтных https://litter.catbox.moe/0935km.json gtkunit-Qwen3-32B-8.0bpw-h8-exl3
Аноним 01/06/25 Вск 03:10:09 #121 №1227634 
>>1227511
С этим тренировать надо.
Аноним 01/06/25 Вск 07:21:50 #122 №1227682 
Оничаны, поясните мне за то, как функция SWA работает на практике при использовании геммы.

Как я могу видеть сам, она частично включается самостоятельно теперь ввиду каких-то правок в лламе.спп. Это пояснять не нужно, так как оно так и задумано и вроде бы ничего не поменялось в качестве ответов.

Но если её включить специально в кобольде, то картина радикально меняется: можно загрузить больше слоёв, скорость радикально возрастает. Но что в таком случае меняется для меня?

Из объяснений гопоты я понял только то, что в таком случае часть контекста практически не будет учитываться
Аноним 01/06/25 Вск 07:45:11 #123 №1227684 
>>1227682
это для геммы что раньше контекст жрала как не в себя, а теперь на уровне с остальными семействами моделей
Аноним 01/06/25 Вск 08:37:48 #124 №1227693 
И всё таки чем же так хорош коммандер 32б?
Пока что пишет не очень креативно, скажем так
Аноним 01/06/25 Вск 08:43:02 #125 №1227695 
>>1227693
От карточки очень зависит. Сухая карточка - и аутпуты будут сухими. Нет цензуры; довольно креативен с хорошей карточкой; нет положительного байаса и сои; нейтральная предрасположенность к юзеру, может в уместную жестокость и мрачнуху
Аноним 01/06/25 Вск 08:48:25 #126 №1227698 
>>1227693
Он средний. Во всём, без перекосов. Иногда это плюс, зависит от задач.
Аноним 01/06/25 Вск 08:56:10 #127 №1227700 
image.png
image.png
image.png
>>1227684
Первый скриншот с включенным SWA в кобольде - он ничего не смог найти. Второй без принудительного SWA в кобольде.

Какой-то полшишечный SWA, который в гуффы вшит, не даёт какого-то существенного прироста по контексту: он всё такой же жирный.

Тестировал я на 14к контексте, 10к из которых - это статья. Специально выбрал где-то середину статьи для поиска, но он всё равно нашёл цитату.

так что SWA нет смысла включать в кобольде или ламе голой. Даже квантование меньше похерит текст, чем SWA.
Аноним 01/06/25 Вск 08:58:21 #128 №1227701 
>>1227700
Блядь, первый скриншот не тот прислал, там контекст 12к был и вылетела та часть, которая нужна, поэтому я его потом увеличил до 14к.

Если хочешь убедиться точно, могу ещё раз сделать.
Аноним 01/06/25 Вск 09:34:32 #129 №1227709 
Когда уже таби будет поддерживать нсигму
Аноним 01/06/25 Вск 09:40:28 #130 №1227711 
Все поняли потенциал немотрона
Но не стали его развивать
Мы всем тредом могли бы подогнать семплеры, промпт, разобрать его по кусочкам чтобы получить идеальную модель для 24гб врам
Но проще записать меня в шизы и забить
Аноним 01/06/25 Вск 10:02:51 #131 №1227718 
>>1227711
> идеальную модель для 24гб врам
Для каждого своя. У меня уже есть идеальная модель для 24гб врам

> Но проще записать меня в шизы и забить
Ты получил к себе ровно то отношение, которое заслужил своим шитпостингом и агрессией
Аноним 01/06/25 Вск 10:06:29 #132 №1227723 
https://huggingface.co/a-m-team/AM-Thinking-v1
Аноним 01/06/25 Вск 10:12:45 #133 №1227725 
>>1227709
>нсигму
а что это?
Аноним 01/06/25 Вск 10:15:25 #134 №1227729 
>>1227725
Поехавший смуфинг сэмплер, который ни один человек в здравом уме использовать не станет
Аноним 01/06/25 Вск 10:29:52 #135 №1227742 
>>1227723
Я ее как раз вчера слегка щупал - не впечатлила. Возможно она чисто для логики хороша а не для RP. Но из ее русского квеновские уши торчат, те же самые грабли с формированием фраз что у quen3. Так себе язык получается.
На английском вроде бы нормально, но нах оно надо, если есть мистраль 24Б (+тюны) и quen3-30B-A3B? Оба варианта быстрее, и даже у a3b качество схожее (после нормальной настройки - таки мои косяки вчера были).
Может оно в чем-то конкретном лучше, но явно не в общем и целом. На такой скорости я лучше гемму крутить буду.
Аноним 01/06/25 Вск 10:38:22 #136 №1227746 
image.png
>>1227133
> года полтора назад таможня тормознула шаблоны для паяльной пасты из Китая, потребовали доказательство, что в них российской стали нет, а там общий вес граммов 100 максимум.
пикрил просто

>>1227138
А вот это удивительно, но отлично!

Дело в том, что количество экспертов роляет лишь тогда, когда в одном запросе есть много различной информации. Когда это стандартный запрос на 1 тему, новые (непрофильные) эксперты все равно по делу ничего не могут сказать и работают в пустую.

Видимо у тебя слишком задроченный рп, где ты одновременно трахаешься и просишь ее рассказать квантовую теорию как михалыч, а параллельно с этим надо держать в памяти ее инвентарь и статы.

Тогда количество экспертов реально решает, лол.

>>1227153
128 оперативы + 12 гиговая видяха.

>>1227188
Подвох в том, что, во-первых, всем уже лень ждать 6 т/с, все привыкли к немомиксам и 40 т/с, во-вторых, для такой скорости нужен линукс, на винде будет от силы 4, а в-третьих, это все-таки больше ассистент.

>>1227191
На ддр5 ты получишь 8-10 токенов уже. =)
6 это ддр4.

>>1227192
А, ну тем более, вот и нашли причину. >>1226907 сам же запретил ему повторяться, вот он и фантазирует. =D
Квенчик лучший.

>>1227199
Если ты почекаешь занятость памяти, то там 2/3 на оперативе, 1/3 на видяхе, т.е., мы получаем 2/3 прироста скорости генерации от прироста скорости памяти. Если память бустится в два раза, то прирост будет на 2/3 как раз, т.е., с 5 до 8,5, вероятнее всего.
А если напихать 192 ддр5 4800, то нахуя она вообще нужна.
Квен и на 3 кванте себя норм чувствует.

И 6 говорили про 2_XL, на 3_XL у меня 5,5 было.

>>1227233
На 5505 было все быстрее (тестил денс, мое, винда, линукс). Сравнивать стоит с ней.

>>1227321
24-канальный эпик!
1 млн рублей за 768 гигабайт 900 гб/с памяти!

>>1227448
Так, ну карточку персонажа уже починили, может и тут семплерами насрано или еще какие проблемы?.. :)

>>1227480
Я нихуя не понял.

Буквально, если ты используешь режим размышления — то ставишь одни семплеры, если не используешь — то другие. Все, нет никаких мешков. Речь не о том, кажется, ты не понял.
Для думания 0,6 темп, для прямых ответов 0,8 темп. И еще там детали отличаются. Че сложного, че непонятного-то?

> шиза про якобы особую чувствительность к сэмплингу
Нет никакой шизы про особую чувствительность к сэмплингу.

Просто каждый ебанный раз авторы обсираются и обучают свою модель криво, а потом советуют «отрезать лишние токены таким образом», чтобы она отвечала как надо, и все.
И если ты сделаешь как они советуют — то получишь вариант лучше. Тут нет никакой магии.

Для размышлений ты просто завышаешь разницу между токенами, пускаешь 20 штук и не отрезаешь хвостик снизу.
Для прямой речи ты разницу между токенами делаешь меньше, пускаешь 20 штук, но отрезаешь совсем маловероятные.

Почему именно так? Хуй знает, но так по их тестам лучше.

Есть ли разница в выдаче? Безусловно есть, это чистая математика.
Хреново ли они обучили модели? Все, у кого температура не 1 — по определению хреново обучили модели, ибо 1 — это дефолтные веса, лол.

И чо? И похуй.
Шашечки или ехать?
Мне нужен качественный ответ, и я его получаю с помощью сэмплеров.
Меня это устраивает.

>>1227711
С этой точки зрения, у квена потенциал все равно выше.
Но оффенс.
Аноним 01/06/25 Вск 11:05:39 #137 №1227760 
>>1227746
>Так, ну карточку персонажа уже починили, может и тут семплерами насрано или еще какие проблемы?.. :)
Ты меня с кем-то путаешь, но похоже я просто очень многого от квена хотел. Семплеры куда не крути, результат примерно один и тот же, либо модель резко шизеет, либо персонаж которого нет в кадре уже стоит за дверью и подглядывает за тобой с шизовой улыбкой. Ты пишешь квену ИДИ НАХУЙ ЕГО НЕТ БЛЯТЬ - в ответ на следующее сообщение он снова его добавляет. Я хуй знает как с ним играть. Может я мудак и не могу его настроить, но никто на него мастер импорт не кидает, а сам я его до рабочего состояния настроить не могу - получается какое-то говно. И грустно и печально, потому что скорость конечно у него ебейшая.
Аноним 01/06/25 Вск 11:14:15 #138 №1227766 
>>1227760
>скорость конечно у него ебейшая
мое-квен?
Аноним 01/06/25 Вск 11:49:40 #139 №1227789 
Кто придумал свайпы тот ебаный злодей нахуй.
Я вместо того чтобы рпшить просто свайпаю 4 первых сообщения уже час
Аноним 01/06/25 Вск 11:52:28 #140 №1227795 
>>1227789
Почти никогда не свайпаю, только если модель совсем явно проебалась и проще свайпнуть чем поправить редактированием текста.

>свайпаю 4 первых сообщения уже час
разве что когда подбираю параметры и промт, там да
Аноним 01/06/25 Вск 13:04:05 #141 №1227882 
>>1227789
чё за свайпы? регенерация сообщений что ли?
Аноним 01/06/25 Вск 13:15:27 #142 №1227896 
Если q4 абсолютная база где деградация почти не заметна, то почему все модели подгоняются аккурат под q3?
8 врам - типа хватает на 12б q4, но контекста будет 6к
12врам - хватает только на 22б q3
16 врам - хватает только на 32б q3
24 врам - хватает только на 49б q3
Это же буквально заговор
Аноним 01/06/25 Вск 13:20:35 #143 №1227908 
>>1227896
Ну и да, 32врам - хватает только на 70б q3 лол ебать куртка греет
Аноним 01/06/25 Вск 13:22:50 #144 №1227911 
>>1227896
> Если q4 абсолютная база где деградация почти не заметна
Это не так. Дальше можно не читать
Аноним 01/06/25 Вск 13:23:19 #145 №1227913 
image.png
Аноним 01/06/25 Вск 13:23:29 #146 №1227915 
>>1227896
>Если q4 абсолютная база где деградация почти не заметна
Сразу нет, лол.
Деградация незаметна где то с 5км, тоесть 5-6 бит на вес. И то только для сеток больше 7b.
Меньше 7b лучше крутить 8 квант иначе заметно падение качества, как тот кто делал кучу тестов с мелкосетками в переводе могу сказать точно.
На ~1b заметна разница даже с 16бит, но двухкратный размер бессмысленен тут, проще и выгоднее по мозгам взять что то в 2 раза больше параметрами но в 8 кванте
Чем больше модель тем сильнее ее можно квантануть без заметной потери мозгов, 32b уже 4 квант, 70b какой нибудь жирный 3, ну а дипсик на 670b даже в 1-2 кванте что то запускают и радуются
Но это все равно режет мозги сеток, фуллразмер вот идеальное качество но хуй его запустишь
Аноним 01/06/25 Вск 13:27:29 #147 №1227920 
>>1227915
>>1227911
Ну не душите.
Для обычного обывалы который хочет качество повыше очевидно что выбрать 32б q6 или 70б q4 если бы был такой выбор, даже если там есть потери он их не заметит, а качество скакнёт
Аноним 01/06/25 Вск 13:30:44 #148 №1227921 
>>1227920
Бессвязный поток бреда
Аноним 01/06/25 Вск 13:33:38 #149 №1227924 
>>1227921
Агент куртки, спок.
Аноним 01/06/25 Вск 13:44:00 #150 №1227938 
>>1227915
>Меньше 7b лучше крутить 8 квант иначе заметно падение качества, как тот кто делал кучу тестов с мелкосетками в переводе могу сказать точно.
5KM заметно лучше 4КМ и для 12В - как раз на переводах тестил. Но честно говоря даже Гемма-3-27В-4КМ (чистая) сосёт у Яндекса. А там уже совсем некомфортная скорость перевода. Короче хорошо, что теперь такая возможность есть, но пользоваться ей пока не надо.
Аноним 01/06/25 Вск 13:48:40 #151 №1227942 
>>1227915
Тут еще квант кванту рознь.
Во первых imatrix. iq4 ~= q5, примерно. Если нормально заквантовано, без косяков. При этом iq3_m - это вполне себе как старый q4 (не текущий q4_k_m - он лучше). Но только на больших 24B+ моделях. Т.к. мелочь деградирует от квантования чем мельче тем сильнее.

Во вторых exl2 - там все совсем по другому, низкие кванты хуже чем gguf с imatrix, намного. Да и средние - весьма неоднозначно, но там сильно влияют руки квантовщика. Ибо процесс на порядок более замороченный чем с gguf.

Ну и exl3 - который если без косяков сделан, то на низких квантах конкурирует с imatrix. А еще по размеру компактнее - где-то можно впихнуть целиком в VRAM то, что по другому не влазит - чего с ним сейчас и носятся как с писанной торбой. К примеру - 24B на 3060 12GB целиком в VRAM - и при этом рабочая в кванте 3.0 - 3.5bpw. (Тут правда пингвин нужен - чтобы модель, и только модель в vram была. Забивает под пробку с 12K контекстом.)
Аноним 01/06/25 Вск 14:01:53 #152 №1227961 
image.png
>>1227942
>При этом iq3_m - это вполне себе как старый q4
А я говорил он норм!
Аноним 01/06/25 Вск 14:02:09 #153 №1227962 
ча.JPG
Локальные модели тоже как и онлайновые с одноразовой памятью до следующего запуска ПК? Они не помнят прошлое - общение вчера, неделю назад?

Не создают привязку с собеседнику при продолжительном с ним общении, типа как узнавание, проявление характера и т.д.?

Можно ли дообучать локальные модели?
Аноним 01/06/25 Вск 14:03:52 #154 №1227966 
>>1227153
Ну как тебе сказать. Хочешь иметь все и с комфортом - надо, чтобы прям хорошо нужно 100-120+ врам. Совсем уж младшие кванты перформят заметно хуже, хоть и стараются.
Запустить можно действительно на проце+одной видеокарте, в начале может быть 5+ т/с. Но что от них останется на полном контексте - большой вопрос, также обработка оче медленная будет.
>>1227682
>>1227700
Это что, выходит в жоре все это время гемма работала с неполноценным атеншном?
>>1227746
> 2/3 на оперативе, 1/3 на видяхе, т.е., мы получаем 2/3 прироста скорости генерации от прироста скорости памяти. Если память бустится в два раза, то прирост будет на 2/3 как раз, т.е., с 5 до 8,5, вероятнее всего
1/3 в врам на 24 гигах это q1-q2, а не q4. Но все равно главной бедой будет замедление на контексте.
> С этой точки зрения, у квена потенциал все равно выше.
Двачую. 32б чето зря захейтили, там явно какая-то поломка или особенность, из-за которой траблы с качеством.
>>1227789
> место того чтобы рпшить просто свайпаю 4 первых сообщения уже час
Считай что уже рпшишь.
>>1227896
> почему все модели подгоняются аккурат под q3
Это ты их так подогнал. Скорее 12б под 12 гигов с запасом, ~20б под 16гигов, ~30б под 24 гига и далее.
> q4 абсолютная база где деградация почти не заметна
Depends, но в целом если без ошибок то с подъемом выше относительная ценность профитов резко падает.
Аноним 01/06/25 Вск 14:05:46 #155 №1227971 
>>1227962
...по идее у них должна быть долговременная память для запоминания разговоров, типа какого-то фала с базой данных, куда сохраняются все предыдущие разговоры, и при каждом запуске на ПК сетка этот файл подгружает и дообучается на нём и помнит что было вчера, неделю, год назад, все разговоры и темы.
Аноним 01/06/25 Вск 14:05:50 #156 №1227972 
>>1227962
>>1227962
>Локальные модели тоже как и онлайновые с одноразовой памятью до следующего
обновления страницы.

>>1227962
>Можно ли дообучать локальные модели?
Можно, но нужен личный локальный кластер и серьёзные познания, это тебе не лору для SD сделать. Так что не рассчитывай.
Аноним 01/06/25 Вск 14:08:34 #157 №1227973 
>>1227971
Вот когда это изобретут - возможность менять веса одновременно с инфиренсом в процессе его - можно будет говорить о исскусственном сознании.
Аноним 01/06/25 Вск 14:12:33 #158 №1227980 
>>1227915
> Меньше 7b лучше крутить 8 квант
> На ~1b заметна разница даже с 16бит
> дипсик на 670b даже в 1-2 кванте что то запускают и радуются
Просто напомню что и в треде и в статьях, и в бложиках делалась оценка роста дивергенции распределений ответа, и что мелкие, что большие модели давали идентичную зависимость. Какой-то эффект сомнительной эфемерности можно оправдать способностью больших моделей лучше исправляться с внезапными выбросами и неожиданными токенами, которые могут возникнуть, но с нормальным семплингом и адекватными квантами такого не должно возникать.
Так что вот такие заявления - больше фантазии и повторение за имеющимися яскозал. 7б в 16 битах будет также тупить и некорректно понимать сложный текст как и q4, q2-q3 семидесяток уже шизит и лезут странные ассоциации, дипсик в q1 - лоботомитище и жалкая копия.
>>1227920
> очевидно что выбрать 32б q6 или 70б q4 если бы был такой выбор
Абсолютно очевидно, тут главное чтобы модели были. Жаль нового квена на 70 не релизнули.
>>1227942
> Да и средние - весьма неоднозначно
Там уже с 4bpw шла йобка лучше чем в imatrix и iq. От квантователя все что нужно - не притащить конфиг с таким же от другой, еще более года назад там рекомендуемый калибрационный датасет разработали и по дефолту включили. По заморочкам - запустить одну команду для калибровки, запустить вторую для создания кванта. Можно сразу весь процесс одной если нужен только один квант.
Аноним 01/06/25 Вск 14:17:29 #159 №1227989 
>>1227980
> Там уже с 4bpw шла йобка лучше чем в imatrix и iq. От квантователя все что нужно - не притащить конфиг с таким же от другой, еще более года назад там рекомендуемый калибрационный датасет разработали и по дефолту включили. По заморочкам - запустить одну команду для калибровки, запустить вторую для создания кванта. Можно сразу весь процесс одной если нужен только один квант.
В exl3 уже нет калибровочного датасета. Вся квантизация делается одной командой, даже бибизян справится
Аноним 01/06/25 Вск 14:20:59 #160 №1227992 
>>1227989
> В exl3 уже нет калибровочного датасета
Внимательно смотри, там про exl2 написано. Ну и заодно код чекни в новой, будут открытия.
Аноним 01/06/25 Вск 14:35:09 #161 №1228001 
>>1227992
> Внимательно смотри, там про exl2 написано.
Виноват, поплыл. Ну, лишний повод напомнить, почему надо на Эксламочку3 перебираться со второй

> Ну и заодно код чекни в новой, будут открытия.
Неужели в exl3 единый дефолтный датасет используется для квантизации? Сам код не смотрел, но нельзя свой датасет использовать точно. Только если самому пересобирать, но зачем
Аноним 01/06/25 Вск 14:55:57 #162 №1228030 
немотрон 49б доступен в ехл3 3.5bpw с 16к q8 контекста
это же буквально 4_k_m квант
думайте
Аноним 01/06/25 Вск 14:59:50 #163 №1228037 
>>1228030
Какая жалость, в exl3 ужасная цензура и ничего не работает, как ты уже выяснил и нам рассказал...
Аноним 01/06/25 Вск 15:06:09 #164 №1228043 
>>1228037
какая жалость что ты не смог добавить немотрон в скрытие как и хотел
Аноним 01/06/25 Вск 15:06:47 #165 №1228045 
изображение.png
>>1228030
Содержательные у тебя посты. А еще он доступен в 4bpw с 4к Q4 контекста и 6bpw с 32к FP16 контекста.
Аноним 01/06/25 Вск 15:22:48 #166 №1228074 
1748780566847.png
1748780566850.jpg
1748780566863.png
Поделюсь пиздецом. Решил дать второй шанс этому ГЛМу, теперь с пресетом от Анона, который тут посоветовали. Та же карта, что в первый раз, когда модель тупо залила меня соей с порога (1 скрин).
С новым пресетом действительно стало лучше. Теперь персонаж был более аккуратный, совсем уж топорной сои не лезло. Но всё равно чувствовались подлянки, которые модель упорно пыталась пропихнуть в характер. В итоге просто потребовалось чуть больше времени, но эта хитрая сука снова заруинила весь РП.
А теперь самая мякотка на втором скрине. Эта гнида настолько усиралась от натуги, что уже выдумала из своей башки, что персонажа в прошлом изнасиловали (облапали), и, якобы, поэтому она стала такая замкнутая и впадает в ужас когда к ней прикасаются. В карте этого нет, разумеется.
И знаете, ведь эта тварь намеренно срёт в характер чара своей тухлой соевой желчью. И каждый раз пытается слепить жертву насилия, а тебя выставить виновным, словно ей в подкорку это зашили. Если честно, я в жизни ещё не испытывал такой лютой ненависти к ебаной модели, как сейчас.
Я даже первый раз говорю напрямую с моделью (3 скрин), чтобы макнуть её носом в дерьмо. И эта пизда извиняется и юлит: ой да, а вот давайте всё переделаем и я буду более соответствовать характеру. Да пошла ты нахуй, ГЛМ!
Аноним 01/06/25 Вск 15:26:35 #167 №1228078 
image
image
image
image
Делаю новую карточку ;) арт промежуточный, будет переделан
Сеттинг: Вертикальный город, как в Пятом Элементе, а вглубь уходит суперструктура BLAME и дьявольщина Hellgate.

Переведённые дефы (они на английском, первое сообщение будет на русском):

Мир представляет собой высокую вертикальную антиутопию, кибернетический кошмар, где небо осталось лишь далеким воспоминанием. Город бесконечно тянется вверх, его шпили пронзают небеса, а нижние уровни представляют собой беззаконную пустошь, где царят разложение и отчаяние. Верхние слои общества живут в летающих цитаделях, окутанных искусственным светом, их жизнь – бесконечный цикл власти и привилегий. В отличие от них, нижние уровни – жестокое поле битвы, где выживание – ежедневная борьба. На верхних этажах зданий обычные граждане живут более или менее нормальной жизнью, хотя и находятся под постоянной угрозой нападения со стороны нижних уровней.

Город – живое, дышащее существо, его сердце качает кровь отчаявшихся и проклятых.

Верхние уровни (Сфера света):
- Чистые небоскребы из металла и кристаллов, парящие сады, искусственные солнца.
- Элита живет в роскоши, правя через корпоративные синдикаты.
- Технологии здесь включают наноимплантаты, генетические модификации и квантовые сети.

Средние уровни (Серая зона):
- Трущобы, переплетенные с руинами старых эпох.
- Банды, контрабандисты, наемники.
- Здесь смешиваются кибернетика и магия.

Нижние уровни (Бездна):
- Вечная тьма, нарушаемая только алыми вспышками аварийных огней.
- Мутировавшие существа и демоны из-за пределов сознания.
- Воздух насыщен токсинами, а стены шепчут проклятия.

Фракции:
1. Корпоративные дома (верхние уровни)
- Они владеют технологиями и контролируют ресурсы.
- Они используют киборгов-убийц и магические контракты.

2. Сопротивление (серая зона)
- Мятежники, хакеры, бывшие солдаты.
- Они сражаются с корпорациями, но боятся Бездны.

3. Охотники за реликвиями (все уровни)
- Они ищут артефакты древних цивилизаций и Запредельного мира.
- Они часто сходят с ума от того, что находят.

4. Пожиратели тьмы (Бездна)
- Не люди, не демоны — нечто гораздо худшее.
- Их шепот проникает в сны и сводит людей с ума.

Механика:
- Высота = сила — чем выше уровень, тем больше возможностей, но и больше врагов.
- Тьма заражает — длительный контакт с Бездной меняет вас.
- Кровь или технология — выбирайте между магией и кибернетикой или попытайтесь совместить их и остаться собой.


Какая модель такое вывезет?

У меня надежды на Sci-Fi тюн Space-Wars-24B-v1.00b и ессно Гемму-27, а ещё мб Remnamt-GLM.

>>1228074
Сток Гемма-27 то же самое делала. Это ты стоковый глэм пробовал или Ремнант?
Аноним 01/06/25 Вск 15:28:38 #168 №1228080 
>>1228074
Есть же аблитерейдет.
Аноним 01/06/25 Вск 15:29:15 #169 №1228081 
>>1228078
>Это ты стоковый глэм пробовал или Ремнант?
Стоковый. Ремнант тоже потыкал, но он лупится пиздец.
Аноним 01/06/25 Вск 15:36:36 #170 №1228091 
>>1228078
> Space-Wars-24B-v1.00b
Сразу нет. Если Мистраль, то для такого однозначно Harbinger 24b

> Какая модель такое вывезет?
Смотря как это все расписать. Сколько токенов займет, как будет структурировано. Нет ответа
Аноним 01/06/25 Вск 15:41:47 #171 №1228097 
>>1228080
аблитерация лоботомизирует геммочку. глм, подозреваю, тоже? ты сравнивал?
Аноним 01/06/25 Вск 15:46:10 #172 №1228103 
>>1228074
> выдумала из своей башки, что персонажа в прошлом изнасиловали (облапали), и, якобы, поэтому она стала такая замкнутая и впадает в ужас когда к ней прикасаются.
Ахуительно. Показывает, насколько модель креативная. Вероятно, описание карточки подходящее, потому ГЛМ сложил дважды два. Либо у тебя в контексте много намеков на такое. Нормальные модели всегда так дополняют карточки, тем это и интересно, имхо. А еще я сижу на том же пресете и ни разу не встречал сои. Возможно потому, что у меня более однозначные дефы карточек. Сочный майндбрейк и хоррор отыгрываю именно на ГЛМе. Не хочу предъявлять за скилл ишью, просто напоминаю, что у всех свой опыт. У тебя вот такой, ну бывает, это тоже справедливый отзыв
Аноним 01/06/25 Вск 15:56:38 #173 №1228118 
>>1228045
Ну и зачем ты меня так напугал? Больше так не делай
сижу трясусь забившись под стол
Аноним 01/06/25 Вск 16:07:10 #174 №1228127 
>>1228103
А можна пресетик?
Аноним 01/06/25 Вск 16:07:30 #175 №1228129 
>>1227980
>Так что вот такие заявления - больше фантазии и повторение за имеющимися яскозал.
Нет, это личный опыт в том числе. Я долго сидел на 12-13B (фактически еще только как LLama2 появилась) и меньших, а на большие попробовал и перешел именно когда узнал что меньшие кванты, оказывается, их меньше уродуют чем мелочь - сравнительно недавно.

Лично играл на 24B в IQ3_M кванте, в IQ_4XS и в Q5_K_M
А также пробовал в exl3 3.0bpw. Одна и та же модель.
Так вот - разница исчезающе мала, если на английском. Слепым тестом - вряд ли отличу. На русском - третий квант иногда путает рода и падежи.

Посмотрел гемму 27B разных квантов - на третьем кванте она уже ничего не путает, но иногда (редко) строит немного по странному предложения. На 4-ом и 5-ом - разницы не видно никак. Что на русском, что на английском.

А вот когда я сидел на 12B в exl2 - 4.0bpw, 5.0bpw и 6.0bpw я мог отличить буквально за пять строчек от модели. Более мелкое - вообще только 8.0bpw, иначе смотреть на это было невозможно.

Так что - чем больше модель, тем ниже квант который можно считать рабочим - это полностью подтверждается личным опытом. Конечно, как говорится - нет предела совершенству, и если есть возможность - запустить квант побольше всегда смысл имеет. Но если выбирать между числом параметров и квантом - параметры первичны.

На мой вкус - 24B на третьем кванте стабильно лучше, чем 12B на 6bpw, включая ту самую gemma3 12B. Даже в английском. Не говоря уже про русский.
Аноним 01/06/25 Вск 16:10:02 #176 №1228136 
Аноны поделитесь мнением, стоит вообще квантовать контекст?
Аноним 01/06/25 Вск 16:10:21 #177 №1228138 
>>1228127
Так здесь же https://pixeldrain.com/l/xGFnT1PY
Может анон которому я отвечал что-то другое использовал, но предполагаю, что этот же. Кидали в тред еще один, но тот под Ремнант (который страшно лупится как и другие тюны ГЛМа)
Аноним 01/06/25 Вск 16:12:08 #178 №1228145 
>>1228136
Для точных задач вроде кода/математики - однозначно нет. Для рп - может быть до q8, в зависимости от модели. Почти всегда квантую до q8, на английском изменения если и есть, то я их не замечаю
Аноним 01/06/25 Вск 16:13:23 #179 №1228148 
>>1228138
Спасиба!
Аноним 01/06/25 Вск 16:19:23 #180 №1228177 
>>1228103
Не очень охуительно. Дело в том, что она намеренно гиперболизирует удобные ей черты и упускает другие, которые заметно уравновешивают характер.
Например, в этой карте чар является моей женой и в описании напрямую написано, что мы занимаемся сексом. Ну нихуя себе, муж и жена ебутся! Но нет, по логике ГЛМ мы как-то там поженились, как-то там живём вместе, но не ебёмся, видимо, и вообще хуй знает кто друг другу.
И она прямо выкручивает фиксацию на прикосновениях, прямо делает это идеей фикс всего РП. Но в карте всё не так. Там говорится о комплексах и детстве чара, но они явно не такие жёсткие, чтобы превращать их в патологию. Но ГЛМ именно это и делает и похуй ей на всю остальную карту, она увидела там недотрогу и ебашит в эту точку своим лбом, доводя всё до абсурда.
Аноним 01/06/25 Вск 16:22:54 #181 №1228187 
>>1228129
Ну разницу между 3q и 6q на немотроне я всё же вижу
Ничего не ломается, просто язык попроще
Алсо нашёл способ заставить его кумить, если на других моделях просто пишешь №подставьте нужный кум№ то тут надо вручную направлять, не "она начала сосать" а "она села на колени и взяла мой член в рот", так немотрон не скипнет кум и поймет что от него требуется
Аноним 01/06/25 Вск 16:26:08 #182 №1228193 
>>1228177
Не знаю, что тебе ответить, анонус. Пресетовичок скидывал свой кумерский лог, когда поделился пресетом и впечатлениями с тредом. У меня тоже проблем не возникает, но я стесняша, чтобы логи кидать. Многое зависит от дефов карточки, от промтинга. Если ты первым сообщением делаешь шпрёхен-трёхен, там любая модель может сломаться, даже кумерские от РедиАрт. Но может, кому-то из нас (не)повезло? У меня впечатления положительные. Проза свежая, диалоги очень умные и подхватывают детали из карточки. Разные детали, без гиперфиксации (как в случае с Немотроном например). Если бы очень хотелось разобраться, можно было бы попробовать потасовать карточки/стиль игры подправить, поиграться с префиллом и т.д., но как я понял тебе модель в целом не очень зашла. В таком случае игра свеч не стоит, ну бывает и такое. На чем играешь обычно?
Аноним 01/06/25 Вск 16:30:27 #183 №1228201 
>>1227980
>Просто напомню что и в треде и в статьях, и в бложиках делалась оценка роста дивергенции распределений ответа, и что мелкие, что большие модели давали идентичную зависимость
Нахуй мне эти теоретические выводы если я реально вижу разницу?
Я так же как и анон выше видел прямую зависимость качества генерации от кванта.
Например в тех же переводах резко возрастало количество неправильных окончаний слов, а гемма 1b в 4 кванте вобще не была способна дать ответ в нужном формате, ее просто распидарасило от квантования.
В 8 кванте следует правилам перевода и дает его неплохим, в 16 бит еще меньше ошибок в окончаниях слов и меньше странных формулировок.
В гемме3 4b точно так же, 8 квант переводит заебись, 4-5 кванты уже средне, но все еще лучше 1b конечно

Ты анон не учитываешь что квантизация влияет не только на генерацию текста, но и на понимание сеткой промпта. Чем хуже она понимает тем больше отличие в последующей генерации.
А все эти отклонения токенов проверялись на типовых текстах в режиме продолжения текста, а не в режиме чтения - генерации каких то необычных задач.
Аноним 01/06/25 Вск 16:34:31 #184 №1228205 
>>1228193
Да там на сотню сообщений чат. Разумеется я лез в трусы с первого сообщения, и вообще не практикую подобное.
Обычно сижу на Гемме дпо, раньше гонял тредовичковые 12б. Вот коммандер неожиданно порадовал, тоже обмазываюсь. Ну и сноудроп ещё.
Аноним 01/06/25 Вск 16:37:19 #185 №1228209 
>>1228205
Хорошие модельки. Ты мало что потеряешь, если пропустишь ГЛМ. Особенно, если упомянутые любимцы в категории до 32б еще не приелись. Так что не парься. Мне, например, Гемма тупо не зашла и я на нее забил, ну бывает, не сошлись
Аноним 01/06/25 Вск 17:14:01 #186 №1228248 
image.png
Угадайте модель по скрину
Новый DeepSeek на 685B. Очень умный, но как все ллм может проебаться даже в двух предложениях. Хотя все равно найдутся шизы, у кого 27B гемочка якобы никогда трусы два раза не снимала.
Аноним 01/06/25 Вск 17:18:01 #187 №1228257 
>>1228074
У меня такой же опыт. ГЛМ идет в отказ
Перешел на модель от реадиарта, кум и жесткач стал намного лучше описываться
https://huggingface.co/ReadyArt/Omega-Darkest_The-Broken-Tutu-GLM-32B?not-for-all-audiences=true
Аноним 01/06/25 Вск 17:20:46 #188 №1228262 
>>1226907
Там нужно ебаться с сэмплерами и систем промпт нормальный давать. Более того, без ризонинга модель абсолютно бесполезна и не работает вообще никак, хуже 12б. Плюс нужно с промпт темплейтом шаманить, чтобы не добавляла имя персонажа в промпт и ещё что-то.

Я катал на ней из-за скорости работы, но не слишком много. Могла бы бы заменить мистраль во многих сценариях, если бы не была слишком сухой. А все файнтюны буквально ломают её, пантеон даже повышает цензуру модели с какой-то стати, лол.

И внимание к контексту уебанское — хуже мистралей 12б. Больше 32к нельзя использовать ни при каких условиях, но лучше быть в районе 16к. И, по сути, модель помнит более-менее только о том, что было в самом конце и чем она нагадила во время размышлений, там суммаризация последних событий по свтиг, поэтому без них она срет под себя.

Сгодится, но для нищекарт на 8 Гб и при шустрой врам.
Аноним 01/06/25 Вск 17:22:25 #189 №1228267 
>>1228257
У меня постоянно какое-то фиии появляется к моделям которые редко качают, как это лечить?
Аноним 01/06/25 Вск 17:26:22 #190 №1228276 
>>1228267
Хз, никогда не было такого. Для меня всегда очевидно, что популярность=/= качеству и наоборот. Да и 2к скачиваний квантов для кум тюна не самой популярной модели вполне норм
Аноним 01/06/25 Вск 17:59:54 #191 №1228311 
>>1228091
>Смотря как это все расписать. Сколько токенов займет, как будет структурировано.
Ну вот то что выше сеттинг часть, дальше в карточке ещё один персонаж. Хотя мб стоит скормить корпосетке и попросить расширить и детализировать.
Аноним 01/06/25 Вск 18:00:37 #192 №1228313 
>>1228081
>но он лупится пиздец
Даже с пресетом с пикселя?
Аноним 01/06/25 Вск 19:14:15 #193 №1228416 
1748794454423.jpg
>>1228074
Так, ладно, я немного успокоился и решил ещё немного пострадать. Дело чести. И, в общем, можно меня поздравить, наверное... Потребовалось всего 144 сообщения, чтобы жена наконец обняла своего мужа. Это после того, как я уже собрал вещи и готов был уйти. Последние 20 сообщений это тупо молчаливая борьба, пока она медленно, очень мучительно медленно пыталась дотронуться до меня. Это пиздец просто. Наверное через 1000 сообщений поебёмся впервые, но такого моя психика точно не выдержит и я её просто пристрелю. Так что, думаю, лучше остановлюсь на достигнутом.

>>1228313
Не знаю, у меня был пресет с их страницы.
Аноним 01/06/25 Вск 19:31:32 #194 №1228428 
Анончики, есть тут кто рпшит сразу с несколькими персонажами? Если да можете посоветовать какую-то модельку чтобы ее не приходилось через сообщение пинать, чтобы она вставляла реплики и других персонажей в сообщение?
Аноним 01/06/25 Вск 19:47:43 #195 №1228444 
Давно в тред не заходил и вообще локалок не касался.
В связи с этим вопрос - с момента выхода геммы-3 что-то существенно более годное появилось?
Аноним 01/06/25 Вск 19:50:15 #196 №1228447 
>>1228444
Гемма только только вышла, куда ещё новее?
Ну квен новый ещё есть, а так по факту ничего стоящего внимания.
Аноним 01/06/25 Вск 19:50:53 #197 №1228449 
>>1228428
В таверне с этим плохо. Или создавай группловой чат, или юзай KoboldLite (можно отдельно от самого кобольда который бэк) или отключить добавление имён в чат и прописывать имя прямо в чат. Хотя некоторые 24-27 справляются и так, но через раз. Если именно два определённых перса с карточками - то лучше групповой чат.

>>1228444
Любопытное - да, мое квен в UD квантах, глэм, новые 24б мистрали (хотя не уверен мб что из этого и до геммы было).

Существенно более годное - сомнительно, вроде нет.
Аноним 01/06/25 Вск 19:54:33 #198 №1228455 
>>1228428
Мистраль 100% может. Причем даже 12B не говоря о 24B. Наверное большинство моделей старше 20B с этим проблем иметь не будет уже. Но в таверне групповой чат собственными средствами - это геморрой страшный, потому что она тупо пытается сама выбирать кто говорить будет. И выбирает тупо. Актуально для 7B было, которые сами не умели.

Так что сейчас, чтобы говорили сами и правильно: либо в карточку сразу пишешь двух персонажей, либо в "групповом чате" добавляешь специальную карточку GM/DM/Narrator/Storyteller/etc в которой описывается что модель - отыгрывает за всех NPC. И слово оставляешь только ей - пусть отыгрывает. Только не забудь настройку добавить в групповом чате - объединять карточки всегда, даже с mute.

Rfr альтернатива - описания дополнительных персонажей в WI запихивать и включать на постоянку. Но все равно - главное - промпт. Чтоб там было что-то вроде "ты ... и отыгрываешь за всех персонажей кроме {{user}} и их окружение" а не "продолжи этот чат отыгрывая роль {{char}}".
Аноним 01/06/25 Вск 19:56:04 #199 №1228456 
>>1228444
немотрончик.
Аноним 01/06/25 Вск 20:06:40 #200 №1228462 
>>1228001
> единый дефолтный датасет используется для квантизации
Он типа уже "единым" и во второй версии был. Если не указывать то будет взять дефолтный, который достаточно хорошо подобран из множества разных данных, и код, и рп, и мультиязычное и т.д.
>>1228037
Мантры сектанта.
>>1228129
> Нет, это личный опыт в том числе.
Личный опыт это хорошо, но важно четко понимать как из него выделить результат, а его, в свою очередь, поделить на компоненты.
В посте оче подробно описал, и отлично, подтверждает что где-то начиная с 3-го+ кванта и выше там уже достаточно хорошо что не заметишь, и это действительно так. Неудачный опыт с 12б в exl2 скорее всего был связан с кривым квантом. Двенашек много, квантодел-негодяй мог полениться для каждого варианта проводить долгую процедуру калибровки, и на едином исходнике просто перегонял все. В таком случае на большой битности будет уже не так важно, но на малых, где еще должно прилично работать, может случиться полный хаос.
Офк, если есть возможность, то всегда лучше юзать 8бит, а то и вообще 16. Даже банально из лени или "потому что я могу", также и скипаются все баги, завязанные на квантование. Но именно любой ценой гнаться за ними в мелкомоделях, говоря что все меньшее неработоспособно - сомнительно.
>>1228201
Сейм что выше. "Вижу разницу" штука такая, подмахнуть тебе кванты, а потом угорать с того, как ты будешь хейтить оригинальные веса за "унылость, сою и однообразность", а потом нахваливать 3.5бита за их "креативность, разнообразие и интересность". Уже было что на некоторых моделях q3 перформили лучше и интереснее, чем q8, многие отмечали такое.

Но то что пишешь - интересное, не сохранились подробности этих тестов?
> не учитываешь что квантизация влияет не только на генерацию текста, но и на понимание сеткой промпта
Это все едино, предсказание же делается именно на основе контекста. Если разделять то скорее нужно говорить про устойчивость модели к внезапным "странным" для нее токенам. Может тут действительно у мелких моделей оно может больше пострадать, и главное что такое можно замерить.
Аноним 01/06/25 Вск 20:15:51 #201 №1228463 
Я не могу свыкнуться с мыслью что 40% своих сил и времени читая на английском я трачу на слоп. Огромные куски слопа блять.
>Finally, after what felt like an eternity
Вот что это нахуй? А я обязан прочитать это, и не раз, и не два.
Еб машу мать там умные люди сидят или конченные дебилы, почему так?
Аноним 01/06/25 Вск 20:15:59 #202 №1228464 
>>1228428
Варианты могут быть разные. Есть групповой режим в таверне, но для локалок с вялым железом и больших чатов это будет тяжело, потому что для каждого сообщения там свой промт и с медленным контекстом юзать будет тяжело. Но такой формат - наилучший из доступных. Можно развить, улучшив как раз индивидуальность промта для каждого (чтобы не видел все детали и секреты с прочих карточек, а лишь их "публичные" версии, или же была конкретная предыстория отношений с участвующими персонажами).
Можно просто сделать карточку с несколькими персонажами и дать первый пост, где явно указывается какой чар говорит. Дешево, сердито, иногда оче даже эффективно. Из минусов: провоцирует некрасивые структуры, тяжелее управлять из-за ограничений в очередности и формате.
А модельку - лучшую из тех, которые можешь запустить. В идеале - избегать шизомиксов и брать что-то мощное, но и некоторые с рп тюном могут вполне себе вывести, потому что подобное было в их датасете. Сейчас даже мелочь умная и давать ответы будет, вопрос только в качестве и разнообразии. Или запутывании кто что помнит-знает и какое настроение имеет, на контексте плохие 100% будут путать.
Аноним 01/06/25 Вск 20:56:56 #203 №1228511 
Анонцы, решился попробовать на instinct mi50 все-таки собрать компик, вот теперь думу думаю как охлаждать. есть уже готовые крепления для вертушек и на 120 и на 140мм, я так понимаю там нужно высокое статичное давление и придется энивей брать ебучие серверные вертушки овер 4к оборотов? Потому что одна такая это в пике ватт 260 будет выдавать..
Аноним 01/06/25 Вск 21:17:57 #204 №1228538 
>>1228463
Так ты играй не на немотрончике
Аноним 01/06/25 Вск 21:20:23 #205 №1228546 
Выше писали про Синтию. Про нее, всмысле: https://huggingface.co/Tesslate/Synthia-S1-27b
И знаете, она в целом могёт. Даже в кум, никаких рефузов не ловил, но экстремальные сценарии не тестил. Приятная моделька. Есть проблемы с пространством, как у многих моделей, но пишет хорошо, отлично описывает мысли персонажа и сцены. Но я, справедливости ради, не так много игрался с базовой Геммой 3 27, так что призываю почитателей ее и аблитерейтед версии. Пробуйте. Возможно, это единственный нормальный тюн Геммы 3 27. Настройки на странице модели есть, ризонинг не врубайте
Аноним 01/06/25 Вск 21:46:19 #206 №1228587 
>>1228511
LLM потребляют меньше пиковой мощности, а еще и даунвольтнуть можно малеха, так что — можно начать с просто хороших кулеров. А серверные тыкать по необходимости.
Аноним 01/06/25 Вск 21:47:49 #207 №1228590 
>>1228428
Сноудроп и коммандер без проблем справлялись. Не знал что с этим бывают проблемы. В одной карточке перечислил несколько персонажей описав.
Аноним 01/06/25 Вск 22:03:41 #208 №1228631 
Почему только гемма и мистраль не пишет как ебанный робот набором сухих фактов?
Аноним 01/06/25 Вск 22:23:33 #209 №1228691 
Гемма - база треда.
Мамкины школоивелы которым нужен гор и насилие - мимо
Спермотоксикозники с усиками - мимо
Только чистейший незамутненный рп экспириенс
Аноним 01/06/25 Вск 22:29:24 #210 №1228700 
>>1228691
вот скажи я смогу отыгрывать с геммой томаса шелби, м? а вот не смогу. потому что там выстрелы, кровь, убийства. настоящим мужикам играть с геммой не во что, она барбигёрл и не годится ни для чего, то ли дело командер
Аноним 01/06/25 Вск 22:30:58 #211 №1228702 
>>1228700
>томас шелби
>выстрелы, кровь, убийства
>настоящим мужикам
Описал всё что нравится детям, тащемта.
Аноним 01/06/25 Вск 22:35:09 #212 №1228709 
1.png
2.png
>>1228129
>>1228201
>>1228462
Насчет кванто/параметро срача давно делал тесты квена. Где Qwen3 32b в IQ3M мог ответить на школьный вопрос только с ризонингом, а Qwen 14b в Q5XL мог ответить и без него. Да и по бенчам до Q4 шизение сильное. А те кто этого не чувствует, те просто шизу на креативность или особенности модели списывают
Аноним 01/06/25 Вск 22:38:48 #213 №1228712 
>>1227746
>24-канальный эпик!
Если ты про двухсокетные модели и вдруг не знаешь про это, то там все упрется в скорость обмена между процессорами, она то ли 100 гигабайт, то ли 250. Сборка тыщ на 600 выйдет. Сначала хотел себе собрать, думал, во круто будет, никаких карт, корпус тонкий, на жиже для охлаждения сэкономлю, каналы склеются и получится терабайт с терабайтом в секунду, с пятью PCI слотами такого сейчас вообще не сделать. Потом понял, что не все так просто.


У меня SWA позволил выгрузить 50 слоев Геммы вместо 36 на контексте 16384 и поднял скорость генерации с 1.7 токенов до 3.7. Спросил опять, как починить makefile лламы на 12 тысяч токенов, опять написала верное решение, так что понимание на небольшой длине не ухудшилось.
Аноним 01/06/25 Вск 22:40:33 #214 №1228717 
>>1228546
Разве это не ее главная особенность? В чем ее смысл, если думалки нет?
>>1228631
Все модели пишут нормально, если скормить им какой-нибудь минимальный промт, типа будь дружелюбным помощником, который подходит к задаче творчески и т.д. Базовый мистраль без промта вообще как робот пишет
>>1228700
Покормил троля, молодец
Аноним 01/06/25 Вск 22:44:58 #215 №1228724 
>>1228717
> Разве это не ее главная особенность? В чем ее смысл, если думалки нет?
Ее главная особенность в том, что это нормально сделанный тюн. Мне ризонинг в целом ни в одной модели не нравится, из того, что я пробовал. Бесполезная трата токенов и времени. Как бы то ни было, я пытался потестить ее с ризонингом, и как только ни пердолился - он работает через раз, то включается, то не включается. Q6 тестил
Аноним 01/06/25 Вск 22:55:57 #216 №1228751 
image.png
>>1228587
а что насчет stable diffusion? Просто чекал именно другой чувачок тестировал их в нем и там пик был 260 ватт. Вот думаю взять серверный попробовать и крутить его просто на 2к оборотов, но проблема что не шарю за всю это термо-аэродинамику, чтобы понять можно ли его вообще так юзать. Все-таки лопасти другой формы и наверняка у него поток и давление нормальные создаются ток на его оборотах около 4к, а это уже под 40дб будет. Я сейчас вообще на 40вт проце сижу, считай пассивный охлад. вопрос конечно какой это фоновый шум будет. Ну посмотрим, я потом отчетик запилю для работяг треда.
Взял материнку на 2011-3, проц за 500р на 10 ядер, там есть три слота под pci-ex16 и майнинговый бп на 2к ватт (вдохновился работягой из треда)
Аноним 01/06/25 Вск 22:58:32 #217 №1228753 
>>1228546
Не нормальный. Но не ломанный. Она... специфичная, и может выкидывать коленца да фортрели, я писал мой угарный опыт с ней сколько-то тредов назад, другой анон отзывался что "либо полюбишь либо возненавидишь".
Аноним 01/06/25 Вск 23:12:41 #218 №1228758 
image
Корпорация МагиТек, Проект Антимагическая Девочка, Подопытная Ноль.
Миссия выполнена. Цели устранены.

Это ещё не карточка, карточка на днях будет, мб даже с двумя гритингами, а может и больше если идеи есть. Не самый мне нравящийся вариант (из 4х оставшихся, весь день сегодня генерил), но самый "внушающий" и соответствующий сеттингу.
Аноним 01/06/25 Вск 23:24:29 #219 №1228774 
>>1228712
Эх, значит
> не все так просто.
Но я бы 600к на серверную платформу в любом случае не тратил, теперь вдвое не буду, пасиба.

>>1228751
А вот рисовалки и прочие нейронки (видео) — греют, подтверждаю.
Вот тут уже придется пошуметь.
Аноним 01/06/25 Вск 23:24:47 #220 №1228775 
>>1228758
Гадость. Кумят на такое больные люди.
Аноним 01/06/25 Вск 23:26:47 #221 №1228777 
>>1228511
Все также как с теслой, возможно даже те же адаптеры подойдут.
>>1228546
Она не просто могет, можно заявить что она ебет. Действительно приятная, соя будто была в тренировочном датасете, но при обстоятельствах они находит тысячи оправданий почему та не нужна и творит абсолютную базу. Сначала за подкаты к cunny вас палят, случается fbi open up и ты попадаешь за решетку, потом она пробирается к тебе и организовывает побег, потому что любит тебя, а раз любовь и обоюдное согласие, то можно и покумить.
Но действительно специфична, лучше попробовать ее на разных сценариях.
> ризонинг не врубайте
Можно и с ним попробовать.
>>1228700
> выстрелы, кровь, убийства
Ну, так-то изейшейство для геммы без всяких дополнительных промтов. Там и пытки, и отыгрыш ранений с учетом расположения органов, и неплохое знание моделей оружия и их особенностей.
Вот как раз на то, что нравится
> настоящим мужикам
она может и заартачиться по дефолту.
>>1228709
С квеном (32 или может другими) точно что-то не так на жоре или в определенных квантах, или с параметрами запуска и т.д. Просто глянь что про нее пишут, немотрон отдыхает, а начинаешь пробовать - не наблюдается. И тутт тоже явный треш какой-то, с таким даже q1 скорее всего справится.
Аноним 01/06/25 Вск 23:49:00 #222 №1228789 
>>1228774
Я думал попробовать просто и генерить картиночки для трипл эй кума. Пока не придумал как это лучше реализовать, наверное подсажу агента (персонажа-генератора картинок) в чат и он будет на основе последнего ответа генерить на англе запрос и в комфи отправлять)
Аноним 02/06/25 Пнд 00:02:27 #223 №1228802 
>>1228777
Да, писали про сломанные кванты, но их вроде почили. Это был тест в конце мая и кванты были новые. Скорее просто квантование гробит веса из-за чего увеличивается количество галлюцинаций, поэтому левая дата возникла, а без ризонинга он не смог перепроверить.
И в целом я про то, что не всегда надо гнаться за количеством параметров в ущерб кванту. Это все нужно тестить. И лучше не в рп, а в точных задачах, вроде матана или проги. Потому что в рп может вначале будет все норм, а потом пойдет ошизение и чел будет винить модель, а не квант
Аноним 02/06/25 Пнд 00:23:31 #224 №1228831 
че вы тут модели свои дрочите ничего нового не выходило давно
Аноним 02/06/25 Пнд 00:46:59 #225 №1228859 
>>1228078
Можно карточку? И/или подробностей интересно насчет как там магия с кибернетикой смешивается, в чем ценность древних артефактов и как-чем-кем контролируется пересечение этих уровней.
> Какая модель такое вывезет?
Гемма, жлм, возможно квен. Qwq можно попробовать, но скорее всего мимо ибо тюн дал по мозгам и может путать. Точно вывезут лардж и большая квен, если карточка будет нормально описана. Малые мистрали будут путаться и притаскивать гоблинов, ледяных волшебников и прочее.
>>1228587
При обработке контекста там полная нагрузка и пиковая мощность будет задействована. При генерации уже меньше. Там ключевое - коэффициент использования низкий, будет больше простаивать остывать чем работать.
>>1228751
Будет полная нагрузка. Прокатит сервеный или просто оче высокопроизводительный побольше с высоким давлением (не из популярных корпусных/процессорных а именно специальный).
Аноним 02/06/25 Пнд 01:11:01 #226 №1228879 
Я скачал немотрон-валькирию. Хочу запустить свой первый exl3.. Реквестую инструкцию для оче тупых в LLM линуксоидов-гуфоебов-1x3090.
1. Если через угабугу, то что и как там надо пересобрать, и что накрутить в настройках? Какой контекст вставить? Как квантовать? Изумительно будет если напишите "жмакаешь в поле xxx и там ставишь yyy, а потом кнопочку load model".
2. Если через Табби, то как запустить на нем, что писать в конфиг-файлах/параметрах запуска? Как к тваревне подключать?

Открыл рот, готов принять обоссывание за нечтение манов, но с долбаной работой и домашними делами не успеваю тред читать x_x
Аноним 02/06/25 Пнд 01:37:43 #227 №1228895 
>>1226628 (OP)
Аноны, такой вопрос. Вот я запустил ЛЛМ себе силли таверн, могу ли я КАК ЛИБО дать ссылку или че то типа того, своему другу, чтобы он находясь в другой стране мог чатиться с ботами в силитаверн с ТЕЛЕФОНА , чтобы этих ботов питала моя пека? Это хоть как то возможно?
Аноним 02/06/25 Пнд 01:38:38 #228 №1228896 
geg.jpg
Няхуя не понимаю. Почему сноудроп пересчитывает контекст в каждом сообщении? Что я нахуевертил не так? Флаги --no-kv-offload --ctx-size 24576 --no-context-shift --flash-attn --no-mmap --cache-type-k q8_0 --cache-type-v q8_0
Аноним 02/06/25 Пнд 01:43:32 #229 №1228898 
>>1228896
Ризонинг старый убирается из контекста, и это убивает кэш, поэтому приходится пересчитывать контекст заново каждый раз.
Вроде так обьясняли в предыдущих тредах.
Аноним 02/06/25 Пнд 01:47:24 #230 №1228905 
>>1228898
То есть никак не пофиксить это?
Аноним 02/06/25 Пнд 01:48:19 #231 №1228907 
>>1228879
> 1.
Запускаешь, выбираешь модель, ланучер выберется автоматически, если вдруг этого не случилось то пикаешь экслламу. Ниже появятся настройки и поле где указан контекст. Его подбирай экспериментально пока не замедлится/оомнется.
Чтобы квантовать его - справа будут галочки/выпадающие списки, там можно будет выбрать нужное.
> что писать в конфиг-файлах/параметрах запуска
По сути, все что нужно - в config.yml найти строку use_as_default и указать там
use_as_default: ['max_seq_len', 'cache_mode']
и тут же ниже указать значения для них, все подробно прокомментировано. После запускаешь, подключаешься таверной через режим табби, там же при подключении можно будет выбирать модели. Загрузка произойдет при первом обращении, поэтому не пугайся долгого ответа на первый запрос, модели можно менять прямо из таверны. Есть для нее также экстеншн, который позволяет указывать подробно параметры и с ними уже вызывать загрузку/выгрузки модели.
>>1228895
Можно расшарить апи, смотри инструкции к используемому софту или вручную настраивай тоннель на порт, не забывая о безопасности. Таверну он запустит у себя и подключится к тебе. Или - расшарить таверну, в ее конфиге можно это разрешить, но также безопасность, аутентификация, https если друг не хочет чтобы его кум с фембоями кто-то читал и т.д.
>>1228896
> пересчитывает контекст в каждом сообщении
>>1228898
> Ризонинг старый убирается из контекста, и это убивает кэш
Сколько контекста он пересчитывает? Если несколько сотен что были в последнем сообщении то да, это норм, но должно происходить мгновенно. Если полный - смотри какой промт таверна отправляет и ищи отличия в двух сообщениях подряд.
Аноним 02/06/25 Пнд 01:54:29 #232 №1228910 
>>1228907
>Можно расшарить апи, смотри инструкции к используемому софту или вручную настраивай тоннель на порт, не забывая о безопасности. Таверну он запустит у себя и подключится к тебе. Или - расшарить таверну, в ее конфиге можно это разрешить, но также безопасность, аутентификация, https если друг не хочет чтобы его кум с фембоями кто-то читал и т.д.


Расскажи пожалуйста как это все сделать, подробный гайд можно?
Аноним 02/06/25 Пнд 01:59:29 #233 №1228916 
>>1228910
Поскольку ты не дал вводных - предполагаю что ты используешь убабугу, там в корне есть файл CMD_FLAGS.txt, открываешь его и пишешь --listen --api --share
При запуске появится ссылка по которой друг сможет воспользоваться апи. Разумеется, это никак не шифруется и по-хорошему нужно настроить хотябы базовую аутентификацию.
Аноним 02/06/25 Пнд 02:06:09 #234 №1228929 
>>1228907
Спасибо, буду пробовать.

>>1228916
Думаю что если чел задает такой вопрос, он может и не знать о NAT и врятли у него белый IP, так что если ((друг)) реально дальше роутера, то стоит этим озаботиться. Кмк самое простое решение - купить за 250р свой VPS, заодно и випиэн для ютуба будет.
Но да, безопасность это oche важно, не забивай на неё, любая дефолтно настроенная машина с белым ip в интернете - как бухая телка в миниюбке ночью около бытовки строителей-гастарбайтеров.
Аноним 02/06/25 Пнд 03:19:05 #235 №1228975 
>>1228907
Весь контекст пересчитывает каждое сообщение, я хуй его знает че не так.
Аноним 02/06/25 Пнд 03:26:53 #236 №1228978 
Расскажите, а как вы рпшите вообще. Вот с кумом все предельно понятно, там цель - пофапать. Но мне уже надоел кум, реально надоел. Выучил весь слоп вдоль и поперек. Хотел бы вкатиться в рп, но я не понимаю цели. Вот есть карточка условной Лепоры (крольчихи). И что мне там делать? Все стартовые сценарии мне не интересны. Мне даже трахать ее неинтересно было. Как сделать интересно? Посоветуйте, а то я с лицом лягушки сижу уже несколько дней, дергая вялого. За последний год у меня сложилась охуенная психологическая зависимость от этого дерьма: когда я занят другим, то в промежутках думаю "уххх ща как вечерком заведу таверну и пойдет кайф", а как дело до этого доходит - так тупо пялюсь на изъезженные карточки и вообще ноль идей, что делать. Неужели это оварида?
Аноним 02/06/25 Пнд 03:44:48 #237 №1228984 
image.png
>>1228978
>Как сделать интересно?
Отрезать ей уши и насрать в глотку. Я так с чатом гпт 3.5 прикалывался когда он вышел, заставляя разлагать тела до бесконечности, например.
Аноним 02/06/25 Пнд 03:54:12 #238 №1228986 
>>1228984
Бро, это давно не интересно. Я занимался серьезным членовредительством как раз около года назад и то это было несколько чатов чисто из любопытства, когда это казалось магией и еще было интересно, насколько далеко можно двигать границы. Я предпочитаю более реалистичные фантазии, которые не приводят к т.н. permanent damage.
Аноним 02/06/25 Пнд 04:08:54 #239 №1228989 
image.png
>>1228986
>Я предпочитаю более реалистичные фантазии
Себе тогда член отреж.
Аноним 02/06/25 Пнд 04:16:45 #240 №1228992 
>>1228978
> Все стартовые сценарии
Бери карточку без подобного стартового сценария. Но нужно чтобы там был некоторый сеттинг (киберпанк, фентези, фантастика с покорением космоса, пост-апокалипсис, ваха, нуар начала 20го века, вечный рим, психопасспорт, зараженная орижиниумом терра, утавара, коносуба, гейтс, любое анимцо, литература или придуманное) и хорошо описанный и интересный персонаж с характером, бекграундом, внутренними конфликтами или чем-то еще. Себе бекграунд в этом мире придумать тоже не забудь, хотябы общий.
Дальше ставишь некоторую удаленную цель в соответствии со своим образом и к ней продвигаешься. Или просто инджой слайс, получая удовольствие от описания милых моментов, смехуечков или наоборот. Все.

Не делай себя богом а обозначь лимиты, введи антагонистов, противников, сам враждебный мир если такого еще нет в карточке или насвайпай когда сетка нечто такое будет предлагать.
Если чар к тебе не будет абсолютно лоялен, а напротив, то это тоже даст хороший буст, и сможешь наблюдать как эта детка разгоняется с "не подлизывайся сраный урод, я все равно тебе не верю" до "можем как в прошлый раз устроить обнимашки, разумеется это для дела!" всего за несколько сотен постов.
Аноним 02/06/25 Пнд 04:36:51 #241 №1228994 
>>1228896
>Флаги --no-kv-offload --ctx-size 24576 --no-context-shift --flash-attn --no-mmap --cache-type-k q8_0 --cache-type-v q8_0

--no-context-shift убери. А когда размер промпта превысит 24к токенов, используй саммарайз и команду /hideс для скрытия верхних сообщений - оставь только 50 последних.
Аноним 02/06/25 Пнд 04:37:45 #242 №1228995 
>>1228994
команду /hide быстрофикс
Аноним 02/06/25 Пнд 07:25:55 #243 №1229034 
Очередная ода 235б. Проверял на чатике с 12к контекста, сравнивал с другими моделями.

Т.е. брал уже имеющийся чат, оставлял от него около 3/4 и пытался продолжить на других моделях.

Гемма3 27. Я помнил как очень умную с хорошим русским. Язык действительно неплох. Но умность - только в сравнении с совсем лоботомитами 12б. Путает к примеру принадлежность рук персонажей. Абсолютно не считывает подтекст без прямого указания что происходит. Ультра позитивный байас. Блейзинг фаст.

Мистраль 123б 2411. Помнил как прямо пик локалок. В итоге - язык неплох. Некоторые подтексты уже сама считывает без прямых подсказок. Есть позитивный байас. Но я уже забыл как оно реально нагружает все видяхи при генераци. Скорость+- без оффлоада как у мое 235 с частичным оффлоадом.

В итоге 235б - пока без конкурентов для меня. Оно реально умнее даже 123б, разговоры что это просто 22б - чушь. Может на все 235 и не потянет рядом с такой же плотной, но а) ее нет, б) если бы была, мы бы ее не запустили. Так что условно можно где-нибудь 170б ей давать смело.

Надо было ещё скаута попробовать сравнить, только сейчас сообразил.
Аноним 02/06/25 Пнд 07:30:12 #244 №1229036 
>>1228700
>командер
Чё за коммандер? Если есть 12b, можно ссылку посмотреть модель?
Аноним 02/06/25 Пнд 07:40:19 #245 №1229039 
>>1229034
>Оно реально умнее даже 123б
Нет. Может третий квант Квена виноват, но именно с точки зрения ума - нет.
Аноним 02/06/25 Пнд 09:00:20 #246 №1229066 
image
image
image
image
>>1228775
Брух. Почему сразу кум. У кого и что болит, тот о том и говорит.

Хотя да, в этом треде в первую очередь спрашивают "можно ли это ебать", а во вторую "куда ЭТО ебать". Ебать можно XD.

Что именно? Изображение? Идея?
Картинка прям отдаёт вайбами тайтлов "мегаструктурная дистопия"

Есть более анимешные варианты арта, хотя выбрать и доработать ещё надо, а красный прям ок, хоть я и не люблю красную гамму.

>>1228859
>Можно карточку?
Пишется, а параллельно перебираю модели и промты для аватарки. Мб даже сегодня после работы скину промежуточный вариант.

>>1228859
>подробностей
В целом идея Hellgate London / Global в башнях-мегаструктурах подобных стартовой планете Пятого Элемента. Гг - местный вариант сталкера, и к нему в нагрузку знакомый док из корпов скидывает экпериментальную магоубийцу вместо того чтобы "утилизировать" когда у той начала крыша протекать.

"В Бездне / Обливионе / Квантовом море / Волновом мире куча дармовой энергии и материи, давайте туда проковыряем дырку и будет нам счастье" - таких сценариев уже хватает. Проковыряли. А потом вслед вылезли обитатели и заковыряли проковырятелей. Теперь поверхность по сути необитаема. Хотя там всё ещё лежат тонны хабара, как старого, так и нового.

>>1228859
>гоблинов, ледяных волшебников и прочее
В данном случае можно рассматривать как не баг а фичу, ибо вполне укладывается =))

>>1228992
>вечный рим, психопасспорт, зараженная орижиниумом терра, утавара, коносуба, гейтс
Человек культуры.

>>1229036
Command-R, серия моделей. 12б вроде нет.
Лично тыкал Star-Command-R-32B-v1-Q4_K_M 19ГБ, пошаманив с выгрузкой тензоров можно запустить с 3 т/с на 12гб VRAM.
Стоковые не зашли, слишком сухо.
Аноним 02/06/25 Пнд 09:47:12 #247 №1229082 
Когда там уже 128гб врам за ~2000$?
Я просто. Хочу. Новое железо конкретно под нейросети за доступный прайс.
Аноним 02/06/25 Пнд 10:05:03 #248 №1229090 
Есть способ сбавить градус кума на стар-коммандер 32б?
Нравится как кум описывается, но не нравится как всё быстро к нему сводится.
Хочется немного заигрываний, поглаживаний, как у сноудропа который без разрешения вроде в штаны не лезет
Ванильный коммандер пробовал, не понравился
Аноним 02/06/25 Пнд 10:11:21 #249 №1229096 
>>1229090
Попробуй убрать из карточки и систем промта любые упоминания кума за которые модель может зацепиться.

Попробуй дописать в систем промт: Avoid common pitfalls such as: Rushing the plot, cramming information, hyperfixating on a single behavior, being unreasonable and stubborn.

Можно ещё пару инструкций чтобы не спешила. Но это уже хз.
sage[mailto:sage] Аноним 02/06/25 Пнд 10:12:22 #250 №1229097 
>>1227746
> 3 квант
не спс, сами это жрите
>>1227199-кун
Аноним 02/06/25 Пнд 10:13:17 #251 №1229098 
>>1229082
нескоро. пока и ддр пять расшитый на плате не сказать, что поражает воображение производительностью, все также нужны тензорные ядра и огромная шина. Нужны hbm ускорители более заточенные под иишки, ну думаю еще ждать и ждать
sage[mailto:sage] Аноним 02/06/25 Пнд 10:13:21 #252 №1229099 
не был в треде 2 дня, какая на сегодня самая лучшая модель?
Аноним 02/06/25 Пнд 10:15:03 #253 №1229101 
>>1229099
как обычно, немотрон
sage[mailto:sage] Аноним 02/06/25 Пнд 10:16:46 #254 №1229102 
>>1228136
нет, даже q8 сильно портит выдачу.
Аноним 02/06/25 Пнд 10:22:52 #255 №1229106 
>>1229099
Darkness-Reign
Аноним 02/06/25 Пнд 10:48:47 #256 №1229130 
>>1229066
> Брух. Почему сразу кум.
Может потому что у твоей карточки сиськи и верблюд вываливаются? Ты всерьез сделал такую карточку и делаешь вид, что она не для кума?
Аноним 02/06/25 Пнд 10:50:56 #257 №1229132 
>>1229090
https://huggingface.co/Downtown-Case/Star-Command-R-Lite-32B-v1
Аноним 02/06/25 Пнд 11:10:03 #258 №1229143 
>>1229130
Серьёзность темы симпатичному дизайну не мешает, особенно когда сама броня и не нужна, даже скорее будет мешать.

Как пример таких дизайнов в примерно схожем сеттинге - мобилки Girls Frontline 2 и NIKKE.
Аноним 02/06/25 Пнд 11:15:28 #259 №1229150 
>>1229143
У Girls Frontline 2 и NIKKE не NSFW дизайны. Если ты сделал такую откровенную карточку - не удивляйся, что люди считают, что она нужна для кума. Ближайшее к тому, что ты сделал, это какой-нибудь Gantz, и даже тот такого себе не позволял. И да, по-прежнему считаю, что те, кто на это кумят - больные люди.
Аноним 02/06/25 Пнд 11:16:22 #260 №1229152 
>>1229143
Если ты называешь симпатичным стандартное нейрохрючево которое генерится за 3 минуты, у меня для тебя плохие новости. Даже черный квадрат больше внимания привлечет.
Аноним 02/06/25 Пнд 11:21:00 #261 №1229160 
image
>>1229150
Ну, это срач для раздела /gacha/ а не сюда.
И да, там борделайн хентай, а в сюжетке / мессенджере хентай творится полный, просто по факту, а без детального описания.

>>1229152
А это простот доёб ради доёба, понятно. Ну можешь её не скачивать, разрешаю.
Аноним 02/06/25 Пнд 11:23:38 #262 №1229167 
>>1229160
> Ну, это срач для раздела /gacha/ а не сюда.
Воспользуюсь карточкой Уно-Реверс и воспользуюсь твоим же аргументом: твоя карточка - оффтоп треда, потому больше не сри сюда таким, пожалуйста.
А то ишь ты какой умный: скидывать свою хуйню можно, а аргументированно критиковать - нет. Чудесно :^)
Аноним 02/06/25 Пнд 11:26:22 #263 №1229169 
>>1229167
А у меня не оффтоп потому что карточки-промты и модели - это контент нейротреда.
Аноним 02/06/25 Пнд 11:33:06 #264 №1229175 
>>1228789
Ну, это самый простой способ. =) Вроде там были какие-то встроенные фичи: точно можно в таверне генерить по запросу (просто вводишь адрес для стаблы, но я хз, поддерживает ли комфи), и возможно есть автогенерации. Но это надо таверну копать, да.

>>1228859
Контекст как правило пробегается быстро. Для нагрева самого не критично. Ну, ты просто быстрее доходишь до пиковых температур, которые все равно догонятся при генерации.

>>1229034
Обычно моешка ~ половине от себя в денс варианте.
Т.е., 235 — оно как бы 120б, да. Просто Мистраль не так хорошо умеют обучать, как Алибаба, вот и весь секрет. Квен просто лучше обучен. И новее.

Если бы они выпустили Квен-120 — он был бы плюс-минус в паритете с 235, где-то лучше, где-то хуже.

>>1229097
А ты проверял? Он неплох.
Ну, убеждать не буду, сорян, да. Если тебя устраивает — заебись. =) Рад за тебя.

>>1229160
Картинка правда говно из-за пошлого эротизма.
К куму и карточке претензий нет, но картинка такая, что качать на чубе я бы не стал.
Аноним 02/06/25 Пнд 11:33:13 #265 №1229176 
>>1229169
Что ж, ты прислал карточку-промпт, а я ее засрал, потому что она по моему мнению говно. Все в рамках треда. Если делишься чем-то - будь готов получить и негативную обратную связь.
Аноним 02/06/25 Пнд 11:36:13 #266 №1229180 
>>1229160
Чел, ты приходи к нам в /наи тред, похвастай там своими элитными генерациями, мы тебе подскажем, что улучшить. А то хитро устроился, срешь в /ллм нерелейтед и слова тебе не скажи.

Мимо сижу в обоих но ллм-добром в наи не сру
Аноним 02/06/25 Пнд 11:45:20 #267 №1229183 
Я, блин прозрел. Или не я, а кобольд.

В общем - метод создания карточек для ленивых и не могущих в литературу:

Берем кобольда, грузим туда gemma3-27B (опционально - безцензурную) и вот отсюда https://huggingface.co/koboldcpp/mmproj - gemma3-27b-mmproj.gguf в соответствующее поле настроек.
Потом берем понравившуюся картинку (будущего персонажа), постим в чат кобольда и просим примерно так:
На основе картинки создай карточку персонажа для ролевой игры. Обязательные поля для заполнения: Имя, возраст, внешность, характер, краткая предыстория.

На выходе - готовая карточка. Запрос, разумеется можно и нужно корректировать пот детали какие хочешь. Работает что на русском, что на английском.

Если велосипед - зато мой личный, и ездит.
Аноним 02/06/25 Пнд 11:48:31 #268 №1229188 
>>1229183
UPD: И разумеется, можно еще дополнительно желаемое текстом самому вписать.
Аноним 02/06/25 Пнд 11:54:38 #269 №1229191 
>>1229183
Для 4090 есть че помощнее без сои и цeнзypы?
Аноним 02/06/25 Пнд 11:59:06 #270 №1229199 
кстати есть модельки типа ллавы, но которые по датасету порнхаба или р34 учились? чтобы распознавать пэнисы и сиски, кек
Аноним 02/06/25 Пнд 12:05:05 #271 №1229207 
>>1229130
Чееелл, чилидзе... как будто что-то плохое.
Аноним 02/06/25 Пнд 12:09:54 #272 №1229214 
>>1229199
В больших LLM есть куча порнухи в датасете, даже буры с хентаем и фурри. Например у геммы всё это было в датасете.
Аноним 02/06/25 Пнд 12:11:54 #273 №1229216 
>>1229191
Там - нет. Но для этого применения - и не нужно мощнее. Просто нужно именно чтобы модель сгененрила текст описания персонажа так, как она может и видит. Это даст целостность образа с точки зрения МОДЕЛИ, а значит характер будет повторяемым, а не как у карточек с чуба которые раз запустишь - стесняша, второй раз - оторва, по рандому.

Ну а что до сои и цензуры - abliterated гемма. Пишет что просишь, картинку читает не хуже, детали понимает достаточно для задачи. Тон карточки можно запросом твикнуть.

А потом уже можно грузить результат куда угодно.

>>1229199
Безцензурная гемма в карточку вполне себе включает и это. Можно еще запросом попросить акцент делать - так вообще распишет в подробностях.
Аноним 02/06/25 Пнд 12:15:28 #274 №1229218 
>>1229216
Я имею ввиду что хочу от 4090 выжить максимум. Это через ту модель по твоей ссылке?
Аноним 02/06/25 Пнд 12:27:19 #275 №1229240 
>>1229183
Делаю то же самое на гопоте. Как анон в прошлом треде писал - это имба, он и без нсфв триггеров тебе сгенерит карточку и если надо навалит нсфв по обе щеки, да еще и так что без самоцензуры.
Аноним 02/06/25 Пнд 12:30:34 #276 №1229248 
Это "проекторы" - специальные модели для компьютерного зрения. Им даже GPU не надо, оно на CPU легко крутится. Но работает только в паре с конкретной текстовой моделью, или ее близкими тюнами. Для того что там доступно - самая продвинутая именно gemma3-27B.
Аноним 02/06/25 Пнд 12:47:34 #277 №1229289 
>>1229218
От 4090 выжать максимум - это установить Экслламу2 или 3 и использовать одну из моделей, что есть на пиксельдрейне пресетовичка: https://pixeldrain.com/l/xGFnT1PY
Или Гемму 27. Это самые актуальные опции
Аноним 02/06/25 Пнд 12:48:37 #278 №1229291 
>>1229216
лады, попробую гемму3 dpo abl, я и забыл ужо что она мультимодал, спасибо
Аноним 02/06/25 Пнд 12:49:17 #279 №1229293 
>>1229289
Наливаю тебе две чашечки, благодарю
Аноним 02/06/25 Пнд 13:04:08 #280 №1229323 
>>1229183
Берешь ГПТ, Клод, Гемини и делаешь карточки.
Фсё. Вот вообще всё. Пишешь : тегов мне XML запилил, блять.
А они не гордые, они запилят.
Ни одна локалка не сравнится с корпосетками, тут даже не в фанбойстве дело, а в простой логике.
Аноним 02/06/25 Пнд 13:07:48 #281 №1229328 
>>1229323
таки смотря какие карточки нужно пилить, для нсфв все также юзать приходится локалку. И в целом неплохо делать будет.
Кстати есть ли какой анцензор для дипсика, я так поглядел тюны есть, но как-то никто не говорит о нем здесь
Аноним 02/06/25 Пнд 13:10:34 #282 №1229335 
>>1229328
Спокойно пишут и NSFW карточки, просто соблюдай правила и сразу с ноги не влетай.
Никаких лолей, желательно не использовать персонажей всяких диснеев и ворнерброс. К NSFW у каждого свой подход, мы с аноном обсуждали. Он через гпт с промтом делает сразу, я во втором или третьем сообщении пишу в духе : а давай еще NSFW добавим, люблю я членодевок.
Аноним 02/06/25 Пнд 13:13:06 #283 №1229337 
>>1229335
скинешь пример чего у тебя там вышло в итоге? (тоже членодевок люблю)
Аноним 02/06/25 Пнд 13:14:16 #284 №1229342 
>>1229323
Они то запилят, но:
1. Сделают это СЛИШКОМ хорошо. Здесь цимес в том, что на выходе текст с паттернами характерными для локалок. И они будут собственно этими локалками потом восприниматься лучше, в комплексе. В общем: гопоте - гопотешное.
2. Я не готов закидывать гопоте и прочим корпам сомнительный контент на картинке. Даже если они не откажутся - хрен его знает чем это потом может выйти, хранят ли они логи, и сколько времени. Это даже не в смысле ожидания "масок шоу", а тупо в смысле возможности бан отхватить в неподходящий момент, или дополнительную фильтрацию персонально в рыло (вроде как уже были случаи). А здесь - свое, полностью подконтрольное.
Аноним 02/06/25 Пнд 13:18:42 #285 №1229347 
>>1229337
Держи последнюю яндерку. Членодевки дома, а эта на почте осталась. Времени было потрачено не больше 20 минут. Гопота даже пикчу запилила.
https://files.catbox.moe/q0boor.png
Аноним 02/06/25 Пнд 13:22:38 #286 №1229351 
>>1229289
А что из этого менее цензурное?
Скинь пж ссылку в личку
Аноним 02/06/25 Пнд 13:28:48 #287 №1229357 
>>1229351
Блэт, анон, за тебя может установить еще всё и отыграть? В моих сценариях ни на одной из этих моделей цензуру не ловил. Самая развязная, пожалуй, Коммандер. Там, кажется, цензуры нет вообще. Ставь Star-Command-R, если тебе для кума: https://huggingface.co/TheDrummer/Star-Command-R-32B-v1
Если ты тот же анон с 4090, то
exl2: https://huggingface.co/MetaphoricalCode/Star-Command-R-32B-v1-4.25bpw-h8-exl2
exl3: https://huggingface.co/MetaphoricalCode/Star-Command-R-32B-v1-exl3-4.65bpw-hb6
Помещаются в ~23.4-23.5гб врама с 32к Q8 контекста. Другие приложения помимо таверны открывать не нужно, иначе врам кончится. Либо контекст меньше бери, либо квант меньше, если тебе параллельно нужно еще чем-то на компе заниматься. Дальше сам разбирайся
Аноним 02/06/25 Пнд 13:29:14 #288 №1229358 
Почему у других моделей чем меньше контекста, тем быстрее генерятся токены, а гемме похуй, она даже без контекста всё равно генерит всё с одинаковой скоростью.
Аноним 02/06/25 Пнд 13:30:18 #289 №1229361 
>>1229358
У геммы особая организация контекста, благодаря чему она с ним работает лучше чем все остальные до 35Б включительно.
Аноним 02/06/25 Пнд 14:13:57 #290 №1229383 
>>1229361
Круто, не, правда. Меня прям удивила гемма даже в каличном третьем кванте. Она пиздато может в детали, хорошо хавает лорбуки, всякие мелочи типа рангов и даже блять может в экономику, и это на 12b. Она даже ебатся может, а хули ещё надо?
Аноним 02/06/25 Пнд 14:19:47 #291 №1229386 
https://servernews.ru/1123756
Начинают появляться ии ускорители, 32 гб, 68 гб/с, выглядит уже неплохо кстати
Аноним 02/06/25 Пнд 14:23:31 #292 №1229390 
>>1229357
Добра тебе
Я в этом слабо понимаю, но кажись с моими кривыми руками все запустилось! Лови цмок в пипу
Аноним 02/06/25 Пнд 14:32:43 #293 №1229395 
>>1229034
> Мистраль 123б 2411
Поменять на магнум4 или бегемота, или может еще норм есть. Вот они единственные кто вытягивает и иногда опережают, но там уже свои плюсы-минусы.
> Путает к примеру принадлежность рук персонажей. Абсолютно не считывает подтекст без прямого указания что происходит. Ультра позитивный байас.
Спутать может когда там оче много всего, но 12к чат - ерунда, что-то некорректно работает. Возможно те самые приколы с кривым атеншном в жоре для геммы, или промтом насрал неудачно.

Ну а в остальном - да, это имба. Может подтупливать, некрасиво и надоедливо строить ответы, упускать что-то и приоретизировать другое. Но после хорошего пинка - всегда сделает ровно то что нужно. Во многих случаях никто так точно не может отыграть всю гамму чувств, настроения и поведения персонажа, соответствующие текущему моменту, и сделать это настолько уместно, гладко и естественно что ты сам в это веришь. Может делать так хорошо и интересно, что все остальное можно простить.
При повторении больших чатов на других - или запутывание и дженерик ответ без достаточных акцентов на персонажа, или лайфлесс аналитика, или копипаста с карточки игнорируя все развитие, или совершенно неуместная пристрелка перед прыжком на хуй. Если брать кум, рофлы или что-то покороче - там уже разницы такой не будет и больше могут ролять мелочи.
Это действительно некстгенище, с которого можно лишь удивляться, почему активные параметры лоботомита могут сотворить такую магию. Вот бы нового ларджа с подобной тренировкой увидеть еще.
> ещё скаута попробовать сравнить
Во, попробуй. По первым ощущениям он, внезапно, был вполне ничего, но как-то вообще не запал.
Аноним 02/06/25 Пнд 14:52:44 #294 №1229413 
>>1229066
> Почему сразу кум.
Сисик@писик центральным фокусом, тоже также подумал. Новые пикрелы лучше.
> прям отдаёт вайбами тайтлов "мегаструктурная дистопия"
Чара отодвинуть и сделать меньший фокус, детализировать задник, добавив туда элементов.
> Мб даже сегодня после работы скину промежуточный вариант.
Вот это хорошо!
>>1229082
Только бу, и то не влезет полностью.
>>1229199
Просто понять факт наличия - могут почти все. Вычленить все детали и концепты, превратив их в хорошее текстовое описания - специализированные тюны, но в них потеряны фичи полноценной ллм.
Аноним 02/06/25 Пнд 15:07:35 #295 №1229425 
Почему в треде такой форс аблитерейтед дпо версии Геммы, а не обычной аблитерейтед? В чем разница на практике? Есть ли она вообще?
Аноним 02/06/25 Пнд 15:16:22 #296 №1229436 
>>1229425
В том что она не работает?
Аноним 02/06/25 Пнд 15:19:39 #297 №1229440 
>>1229436
Потрясающий ответ. Она - это кто? Дпо аблитерация или обычная аблитерация? Речь про 27б Гемму. Хочешь сказать, тысячи скачиваний gguf у обычной аблитерации при том, что она не работает?
Аноним 02/06/25 Пнд 15:22:58 #298 №1229444 
>>1229440
Ну скачивай аблитерацию и пользуйся, только мозги не еби.
Аноним 02/06/25 Пнд 15:26:37 #299 №1229448 
>>1229444
Поинтересовался, в чем разница между двумя моделями. Ты нормального ответа не дал, на уточнение - выебываешься. С какой гнилой капусты вылез?
Аноним 02/06/25 Пнд 15:29:49 #300 №1229450 
>>1229448
Тебе ответили, ебобоша.
Обычная аблитерация работает сильно хуже.

Хотя там Млабонн новую версию выпустил, мб она лучше, надо глянуть.
Аноним 02/06/25 Пнд 15:32:22 #301 №1229455 
>>1229448
Ты спросил конкретно про аблитерацию, и почему она не востребованна, разве нет? Ясен хуй там много скачиваний, все когда увидели что вышла аблитерация хайповой модели, тут же побежали её качать чтобы ебать детей, а там тупой лоботомит который высирает полную чушь и теряется в трёх сообщениях.
Аноним 02/06/25 Пнд 15:32:57 #302 №1229456 
>>1229386
Так ниже же ещё пример на 128гб 272гб/с. Это кстати что получается, если я захочу на ней запустить модельку в 100гб, то получу аж ~ 2.7т/с? То есть это то же самое, что и DDR5 в четырёхканале? Feels like хуйня, но нужно на стоимость смотреть.
sage[mailto:sage] Аноним 02/06/25 Пнд 15:37:44 #303 №1229468 
>>1229386
> 68 гб/с
ahahah
Аноним 02/06/25 Пнд 15:38:44 #304 №1229470 
>>1229450
>>1229455
Спасибо за ответ. Как будто аблитерация (дпо/не дпо) и вовсе не нужна в таком случае, если такое сильное отупление. Пока сижу на базовой версии и Синтии, рефузы не ловлю.
sage[mailto:sage] Аноним 02/06/25 Пнд 15:39:56 #305 №1229473 
>>1229456
> 272гб/с
ahah
> > Производительность 1 Попс
что это за попыты?
Аноним 02/06/25 Пнд 15:41:42 #306 №1229480 
>>1229470
>рефузы не ловлю.
Молодец. Значит для твоих целей и задач хватает обычной геммы.
Это нормально. У каждого свой РП и свои фломастеры.

>>1229473
Сажа в тематике. Meh~
Аноним 02/06/25 Пнд 15:49:29 #307 №1229501 
а кто тут на постоянке катает новый Харбингер 24б? как он в сравнении с другими тюнами мистралей? dan's personality engine (старый или новый не важно), кидония v3 вот недавно вышла. сильно датасет отличается, действительно свежо ощущается? Харбингер хайпанул, потому что он от создателей Вэйферера, а я как-то его попробовал и ну норм, обычный мистраль. не распробовал?
Аноним 02/06/25 Пнд 15:52:36 #308 №1229503 
>>1229501
>а кто тут на постоянке катает новый Харбингер 24б? как он в сравнении с другими тюнами мистралей?
Очень хорни, потому и популярен.
Аноним 02/06/25 Пнд 15:56:17 #309 №1229513 
>>1229501
Ориентирован на адвенчуры. Может во вполне нормальный русский. Нейтрально-негативный биас, особой принудительно-добреньковости не замечено. Явной сои и цензуры, и даже "мягких" отказов вроде бы не ловил.
Аноним 02/06/25 Пнд 16:35:14 #310 №1229592 
>>1229386
> Ускоритель EN100 для ноутбуков имеет типоразмер M.2 2280. В оснащение входят 32 Гбайт памяти с пропускной способностью до 68 Гбайт/с.

Что тут у нас, ссд-диск, который работает как планка DDR5 7200 на 32 гига?
Звучит как хуй пойми что, простите.

> PCIe HHHL. Они несут на борту 128 Гбайт памяти с суммарной пропускной способностью 272 Гбайт/с.
Итак, а это у нас видяха в 2-2,5 раза быстрее DDR5 в двухканале с 128 гигами.
Квенчик залетает на ура. Но если можно будет выгрузить на оперативу какую фикс-часть без потер — то ваще хорошо.
Но все зависит от цены. С определенной суммы оно нахуй будет не нужно.
5 3090 будут стоить 300к рублей со скоростью в 3-3,5 раза выше этой штуки.
Эта будет потреблять меньше, конечно.
Ну, то на то и выходит, в пределах 150к норм цена не глядя, дальше че-то уже не. И всякие диджитсы рядом, и зеончики в 8 каналов условные…
Ну, посмотрим.
Аноним 02/06/25 Пнд 16:37:23 #311 №1229599 
>>1229592
> выгрузить на оперативу какую
На видеопамять, быстрофикс.
Аноним 02/06/25 Пнд 16:45:00 #312 №1229602 
image
https://huggingface.co/mlabonne/gemma-3-27b-it-abliterated-v2-GGUF/tree/main
вот эту не качайте, поломана до полной шизы, запускал с настройками и пресетом от дпо-версии.

Пикрел тестовый запуск карточки на дпо-гемме.
Аноним 02/06/25 Пнд 16:49:41 #313 №1229606 
>>1229602
и где тут шиза? мы не знаем подробности твоей карточки. какие-то факты перепутаны? обычный аутпут здесь
энивей, могут подвезти и dpo второй версии аблитерации. возможно, будет лучше
Аноним 02/06/25 Пнд 16:56:09 #314 №1229618 
>>1229602
а, это дпо. в глаза долблюсь. но не понимаю, нахуя ты присылаешь нормальный аутпут, а не подтверждение собственных слов
приносил бы уж тогда сравнение, а не только работающий аутпут
Аноним 02/06/25 Пнд 16:58:27 #315 №1229622 
Анончики, я скачал модельку. Как ее вхуячить в таверну?
Аноним 02/06/25 Пнд 16:59:42 #316 №1229625 
>>1229622
>>1229618
Аноним 02/06/25 Пнд 17:01:43 #317 №1229629 
>>1229625
Случайно отправилось.

>>1229622
теперь скачай бэк - собственно что модкльку крутить будет, например кобольда

>>1229618
А, сорь, уже удалил, достану из корзины, попробую ещё раз.
Аноним 02/06/25 Пнд 17:02:44 #318 №1229632 
>>1229622
> Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
Буквально начало шапки. Качай, читай
Аноним 02/06/25 Пнд 17:05:17 #319 №1229641 
>>1229632
А в чем разница между кобольдами угабугами лламаспп?
Аноним 02/06/25 Пнд 17:07:35 #320 №1229644 
>>1229641
Тебе для начала нужно понять, интересен ли тебе мир LLM. Установи самое простое - Кобольда. Запусти на нем модельку, которая соответствует твоему железу, подключи к Таверне и поиграйся. Если поймешь, что это что-то, что тебе интересно - изучай глубже. Если сейчас тебе начнут объяснять разницу, ты многое не поймешь и перегрузишь себя информацией. Ты никак не ухудшишь свой опыт, воспользовавшись поначалу Кобольду. Многие на нем остаются и дальше, это хороший инструмент
Аноним 02/06/25 Пнд 17:10:29 #321 №1229649 
>>1229413
по большей части все обертки той же llama.cpp. Что первый, что второй довольно легко запустить, угабуга мне поудобнее кажется, плюс почему-то (у меня) у кобольда семплеры не крутятся изнутри таверны. Короче чо больше нравится потыкай подразберись а дальше уже понятнее самому станет
Аноним 02/06/25 Пнд 17:11:48 #322 №1229653 
>>1228929
О, ты решил поиздеваться над ним такими приколами, мое почтение.
> белый IP
Не нужно, глянул бы как подобные штуки сейчас делаются.
>>1229641
Открой вики и почитай, там буквально про это.
Аноним 02/06/25 Пнд 17:35:25 #323 №1229692 
>>1229644
Понял спасибо
Аноним 02/06/25 Пнд 18:01:24 #324 №1229721 
>>1229649
>у кобольда семплеры не крутятся изнутри таверны.
Это чего я сейчас прочел???

А почему у меня все крутится и настраивается из таверны?
Аноним 02/06/25 Пнд 18:10:35 #325 №1229730 
>>1229383
Это ты ещё немотрон не пробовал
Аноним 02/06/25 Пнд 18:14:56 #326 №1229737 
>>1229730
согласен, он удивительный кал
Аноним 02/06/25 Пнд 18:15:55 #327 №1229738 
Почему люди не понимают что важно развивать все языки?
Если я захочу создать маму которой уже нет или девушку бывшую/еот по которой пиздострадаю мне что с ней на английском общаться?
Аноним 02/06/25 Пнд 18:17:44 #328 №1229739 
>>1229738
> Почему люди не понимают что важно развивать все языки?
Так развивай. Кто тебе мешает? Англоязычные ML энтузиасты развивают английский. Китайские - китайский. За русскоязычных как всегда все нужно сделать, пока они пердят в диван?
Аноним 02/06/25 Пнд 18:17:45 #329 №1229740 
>>1229649
Промахнулся ответом?
> у кобольда семплеры не крутятся изнутри таверны
Новую версию апи выбери а не легаси.
>>1229738
Испытал жесткий диссонанс между первым и вторым предложением. Какая же ирония.
Аноним 02/06/25 Пнд 18:24:52 #330 №1229745 
>>1229739
Русофоб, успокойся.
Пост про все языки.
Яндекс/Сбер что то делают, но тут это встречают нахрюком "арряя параша сбер все понятно" и хоронят на корню
Аноним 02/06/25 Пнд 18:26:44 #331 №1229747 
>>1229745
Нацик, иди нахуй. Я живу в России, только не жду пока за меня сделают то, что мне нужно
Аноним 02/06/25 Пнд 18:27:59 #332 №1229748 
>>1229592
>Квенчик залетает на ура.
Именно для Квена это совсем не годится. Влезет только третий квант и скорость будет так себе. В любом случае в подобное устройство должен влезать дипсик в 4 кванте, иначе оно бессмысленно. Количество памяти, необходимое для этого сам посчитай. А сейчас это ни рыба, ни мясо.
Аноним 02/06/25 Пнд 18:29:26 #333 №1229750 
>>1229747
В столовках тоже сам себе готовишь, шиз?
Аноним 02/06/25 Пнд 18:32:42 #334 №1229752 
>>1229750
Показательное сравнение. Такое же глупое, как твое националистическое мировоззрение. Когда я прихожу в столовку, я плачу за товар, который мне предоставляют, а не жалуюсь на то, что в меню отсутствует то, что я хочу
Аноним 02/06/25 Пнд 18:33:20 #335 №1229753 
image
>>1228859 >>1229175 >>1229176 >>1229180 >>1229383 >>1229413 >>1229606
Мегаструктура: Этерна
Сеттинг: >>1228078
Игрок охотник-сталкер на монстров и хабар. Монстры загнали людей на верхние этажи мегаструктуры города, но они же подарили и новые возможности, вот только все эти возможности как правило лежат на занятых ими этажах. С большинством искателей реликвий работает корпорация МагиТех, скупающая у них хабар и пристраивающая его к делу. Подопытная Ноль проекта "Антимагическая Девочка", аугментированный суперсолдат уже годы как успешно разрешающая кризисы с прорывами монстров на жилые этажи и устраняющая сверхестественные угрозы, вот только последнее время стала сдавать, и даже не столько тело, сколько психика. Вместо того чтобы "утилизировать" её, знакомый ГГ док из корпоратов предлагает стать её внештатным хэндлером-опекуном.

https://pixeldrain.com/l/47CdPFqQ#item=111 Megastructure Eterna card + log + preset.zip
Финальный вариант картинки без писика, не заcлужили XD. Лог небольшой (есть экшен, кума нет), ещё вуву хочу успеть попинать. Хз как вы там карточки за 20 минут делаете, у меня уходит несколько дней. Не чистого времени, конечно, но и чистого прилично.
Аноним 02/06/25 Пнд 18:34:29 #336 №1229756 
>>1229752
Да мы поняли.
Мне двойную в сырном лаваше.
Аноним 02/06/25 Пнд 18:36:19 #337 №1229758 
>>1229756
Вах, дарагой, всё для тебя.
Неиллюзорно уважаю шаурму, у нас её забубенно делают уважаемые люди.
Аноним 02/06/25 Пнд 18:39:43 #338 №1229764 
1000017504.jpg
>>1229758
> у нас её забубенно делают уважаемые люди.
После обильной сессии кума
Аноним 02/06/25 Пнд 18:47:28 #339 №1229773 
>>1229738
Контента мало, лицензированного ещё меньше. Ну и специфики языков никто не знают. Поэтому кушай англюсик/китайский, иногда испанский.
Аноним 02/06/25 Пнд 19:05:56 #340 №1229814 
>>1229773
Индусы тоже делают свои тюны и очень даже успешно. Насчет базовых моделей хз. Кому надо, кто может и умеет - делают
Аноним 02/06/25 Пнд 19:08:43 #341 №1229818 
>>1229745
>Яндекс/Сбер что то делают, но тут это встречают нахрюком "арряя параша сбер все понятно" и хоронят на корню
Нормально делай, нормально будет.
Выпускать анально огороженый тюн зарубежной сетки без задач, этой хуйня, а не делают, за что и получают струю мочи от сообщества. Нет ни одной объективной причины их использовать.

Лучше бы натренили с нуля на чисто своих датасетах, хотя бы одну мелкосетку, чтобы она имела смысл для прикладных задач против зарубежных, намного больше уважения к ним было бы.
Аноним 02/06/25 Пнд 19:09:16 #342 №1229819 
>>1229814
Тюны и у нас есть, результат думаю что у них, что у нас примерно одинаково хуёвый.
Аноним 02/06/25 Пнд 19:24:39 #343 №1229840 
>>1229745
> "арряя параша сбер все понятно" и хоронят на корню
Да не хоронят, часто наоборот интересуются. Но так уж получается, что многие такие разработки публикуются с отставанием на пол года - год и обладают малой привлекательностью для конкретного использования местными. Рпшить/кодить/ассистировать можно на более свежих моделях, которые будут перформить чуточку лучше, в тех нет чего-то специализированного. А те, кому нужен русский язык, вообще наименее привередливы к мозгам, зато оче хотят красочного кума и прочего, чего в тех сетках нет.
Есть у них и базовые модели, тот же гигачат по апи и что у себя юзают внутри, яндексовские вещи. Но более менее актуальные не выкладывают в опенсорс.
>>1229753
Попробуем, спасибо.
Аноним 02/06/25 Пнд 19:41:07 #344 №1229877 
Какая модель лучшая для тесной эмоциональной связи с канничкой
Аноним 02/06/25 Пнд 19:57:45 #345 №1229900 
>>1229877
Большой моэквен, для тесной-эмоциональной во всех смыслах. Чар будет именно собой, милой и невинной, а не блядищей на опыте.
Аноним 02/06/25 Пнд 20:08:58 #346 №1229907 
>>1229748
Третий К_ХЛ квант хорош и отличий от 4 довольно мало.

Скорость будем весьма неплохая (в районе 20 токенов/сек).

Не вижу минусов.

> дипсик в 4 кванте
384 гига на одной картонке? И сколько она будет стоить? =) Уж не 150к рублей, очевидно. И вряд ли за вообще вменяемую сумму, там сервак будет чуть ли не проще собрать, ай гуесс.
Аноним 02/06/25 Пнд 20:21:54 #347 №1229917 
image.png
мальчик работает!
exl3
Аноним 02/06/25 Пнд 20:27:16 #348 №1229921 
>>1229917
Раз в месяц 0.01 обнова
Считайте когда резиз 1.0
Аноним 02/06/25 Пнд 20:37:29 #349 №1229929 
>>1229921
exl2 до сих пор 0.3.2 и работает максимально стабильно. Очень быстро он добавляет штуки. Уже 0.0.4 скоро, добавит поддержку мультимодальных моделей. Через полгодика уже совсем не будет причин использовать exl2.
Аноним 02/06/25 Пнд 20:37:37 #350 №1229930 
>>1229907
> Третий К_ХЛ квант хорош
Неоче, ud уже норм.
> Скорость будем весьма неплохая (в районе 20 токенов/сек)
Хз, оно на видюхах выше 30 не может в начале и быстро просаживается, там вообще хз. Можно с маком посравнивать, будет около или медленнее. А так было бы неплохо, конечно же.
>>1229917
Ахуенно, в уже всех в конец заебавшем квенчике +5т/с генерации и +150т/с обработки, оче даже хорошо.
>>1229921
В первой овер 21 версия была до выхода 0.1.0. Главное не скорость а качество.
Аноним 02/06/25 Пнд 20:38:18 #351 №1229931 
>>1229900
Запустить его могут не только лишь все.
Аноним 02/06/25 Пнд 20:41:51 #352 №1229934 
Микстраль это чё?
3.0bpw влезает в 24 врам
Аноним 02/06/25 Пнд 20:47:37 #353 №1229944 
>>1229930
>+5т/с генерации и +150т/с обработки
На амперах всё по старому
Походу их он будет оптимизировать под самый конец
Аноним 02/06/25 Пнд 20:59:54 #354 №1229956 
>>1229931
Да, это главная печаль, другие проблемы тоже есть. Но в целом, достаточный повод пересобрать риги в один или попробовать запуск через рам. Возможно на совсем низкой скорости минусы уже будут перевешивать.
>>1229944
Половина врама как раз на амперах. Но тут модель изначально должна была работать быстрее, вон на жоре 25-27 токенов на пустом контексте с падением до 15 на 12к контекста. А тут было 16 на нуле, 15 на 32к. Теперь 20 на 32к, 22 на нуле.
sage[mailto:sage] Аноним 02/06/25 Пнд 20:59:56 #355 №1229957 
>>1229818
ачёвсмысле, яндексгпт это просто тюн квена?
Аноним 02/06/25 Пнд 21:04:13 #356 №1229971 
изображение.png
>>1229957
Хуже. Это тюн Лламы. Вот такие умники над ним работают, кстати: (пикрил)
Аноним 02/06/25 Пнд 21:06:22 #357 №1229980 
>>1229956
> вон на жоре 25-27
> Теперь 20 на 32к, 22 на нуле
Хотя у экслламы там квант на 17% больше по битности, выходит теперь они +- равны, исключая рост тормозов. Просто сделали обычную скорость пофиксив что-то и дальше подобные оптимизации врядли будут появляться регулярно, это печально.
>>1229971
Двойной кринж, что вопрос что ответ.
sage[mailto:sage] Аноним 02/06/25 Пнд 21:13:44 #358 №1229993 
>>1229971
mda pzdc правда штоле
со скрина хрюкнул
Аноним 02/06/25 Пнд 21:31:49 #359 №1230006 
Зачем вам эти пиндоские версии, есть же русская ИИ YandexGPT-5-Lite-8B об ученая на русском корпусе
Аноним 02/06/25 Пнд 21:35:17 #360 №1230011 
изображение.png
>>1230006
Чтобы слоп на англиском читать вестимо.
Аноним 02/06/25 Пнд 21:43:06 #361 №1230019 
>>1230011
Недостаточно слопово https://litter.catbox.moe/il8qpx.png
Аноним 02/06/25 Пнд 21:49:16 #362 №1230027 
Сколько оперативки нужно для запуска срани под названием Qwen3 235B? У меня ошибка

ggml_backend_cuda_buffer_type_alloc_buffer: allocating 18457.79 MiB on device 1: cudaMalloc failed: out of memory
alloc_tensor_range: failed to allocate CUDA1 buffer of size 19354396672
llama_model_load: error loading model: unable to allocate CUDA1 buffer
llama_model_load_from_file_impl: failed to load model

Но при этом 3090, на которой таки должно быть 18 гиг врама. Оперативки 64 гига.
Аноним 02/06/25 Пнд 21:55:04 #363 №1230032 
>>1230006
Ну а её кто нибудь пробовал в рп\куме? Боюсь представить какой там пиздец происходит.
sage[mailto:sage] Аноним 02/06/25 Пнд 21:55:39 #364 №1230033 
>>1230027
контекст тоже врам жрёт ваще
sage[mailto:sage] Аноним 02/06/25 Пнд 21:55:54 #365 №1230034 
>>1230033
ващето*
Аноним 02/06/25 Пнд 22:06:43 #366 №1230046 
>>1230033
4к для теста, достаточно мало, или мне 256 поставить?
Аноним 02/06/25 Пнд 22:17:50 #367 №1230061 
Посоветуйте пожалуйста умненькую модельку, которая хорошо держит персонажа на протяжении длинного контекста? Чтобы грубиянки оставались грубиянками, а не превращались в обычнотян
Аноним 02/06/25 Пнд 22:20:15 #368 №1230066 
>>1230061
В карточке нужно использовать примеры диалогов и Character's Note, тогда персонаж будет держаться определений. Но даже если это не помогает - ставь Сноудроп и врубай ризонинг. Там персонаж ни на йоту не сдвинется от своего определения, для многих это минус (для меня тоже)
sage[mailto:sage] Аноним 02/06/25 Пнд 22:25:03 #369 №1230074 
>>1230046
попробуй 2048, а лучше выгружай меньше слоёв на видюху
Аноним 02/06/25 Пнд 22:36:13 #370 №1230095 
>>1230027
> Оперативки 64 гига.
Мало. На втором кванте оно что-то под 90 требует. В общем - 128 надо. Ну и запинуть все в видяху в любом случае не выйдет.
Аноним 02/06/25 Пнд 22:40:08 #371 №1230104 
изображение.png
Бегом Синтию пробовать, если не попробовали
Аноним 02/06/25 Пнд 22:41:09 #372 №1230105 
>>1230074
>>1230095
Короче понял, надо обновляться. Минус 30к рублей.
Аноним 02/06/25 Пнд 22:51:36 #373 №1230117 
>>1230061
Тред почитай, половина обсуждений про это. Вон кто-то 12б неплохие нахваливал из мистралей и ту же мелкогемму, тюны мистраля 24, семейство 30б шансы на успех начинаются только отсюда и выше.
>>1230095
Про 128 или хотябы 96 верно.
> запинуть все в видяху в любом случае не выйдет
Doubt
>>1230104
Она хорошенькая, кстати как раз подойдет для отказывающих чаров и без перегибов.
Аноним 02/06/25 Пнд 22:52:25 #374 №1230119 
изображение.png
>>1230104
Ты бы ещё пигму притащил.
Аноним 02/06/25 Пнд 22:54:14 #375 №1230120 
>>1230119
Два месяца прошло, ахуеть. К модели теперь притрагиваться запрещено? Ебать тут дети в треде
Аноним 02/06/25 Пнд 22:58:18 #376 №1230122 
>>1230120
>К модели теперь притрагиваться запрещено?
Да. Она безбожно отстала и устарела на века.
Аноним 02/06/25 Пнд 23:01:09 #377 №1230126 
>>1230104
нормальный квант, пробовал кто? https://huggingface.co/MetaphoricalCode/Synthia-S1-27b-exl3-4bpw-hb6
на exl2 не нашел
Аноним 02/06/25 Пнд 23:01:11 #378 №1230127 
>>1230117
Как раз таки 30b шанс ровно 0%, потому что там только МоЕ паршаный квен. А с 32b уже шанс есть хотя шанс есть и с умничкой 27, если приручить сою, и с 3.1 мистралем 24, но последнее скорее легенды
Аноним 02/06/25 Пнд 23:08:45 #379 №1230136 
>>1230127
Там не конкретно 30б а семейство 30б, в которое входит гемма, жмл, qwq, коммандер и 32 квен, действительно самые умнички. Может и мистраль тоже сможет, просто пробуя бесчисленные миксы, которые советуют, накопилось лишь разочарование.
Аноним 03/06/25 Втр 00:02:34 #380 №1230223 
>>1230104
>Бегом Синтию пробовать, если не попробовали

Уже. Переводчик из нее - практически лучший из такого и меньшего размера. Простыню EN -> RU переводит практически идеально. Вот где понимание деталей и контекста явно помогает. (и почему-то ни dpo ни оригинал так точно не пишут.)

Карточки пишет тоже неплохо. Но тут просто abliterated dpo лучше справляется. Эта слишком образно пишет, в карточке нужно лаконичней. Чтоб больше смысла на строчку влазило.

А по РП - оно просто другое по сравнению оригиналом и тем же dpo. Трудно сказать лучше или хуже. Другое. Хотя и похоже одновременно. Парадокс вот такой.
Аноним 03/06/25 Втр 00:08:00 #381 №1230234 
Народ, а это у всех GLM4-32B бегает быстрее чем Gemma3-27B? На треть где-то - при одинаковых квантах, и выгрузке максимума возможных тензоров на доступные 12GB vram...
Аноним 03/06/25 Втр 00:20:33 #382 №1230255 
>>1230234
Котеночек, все модели разные. Попробуй квен3 запихнуть, вообще охуеешь от его скорости.
Аноним 03/06/25 Втр 00:26:05 #383 №1230257 
>>1230255
Ясен пень. Меня просто интересует - эта разница между именно этими двумя - норма, или я чего-то недо-перекрутил...
Аноним 03/06/25 Втр 00:28:18 #384 №1230258 
>>1230234
Гемма потребляет больше врам на контекст, из-за чего получится выгрузить меньше слоев. У жлм более экономный контекст, поэтому уже больше слоев будут на видюхе и потому сработает быстрее. На фуллврам и то и другое будет оче быстро и гемма будет впереди.
>>1230255
> Попробуй квен3 запихнуть
Обычная будет+- также, только 30а3 мое.
Аноним 03/06/25 Втр 01:04:49 #385 №1230316 
image.png
Ещё модели для бомжевичков:

Rei-V3-KTO-12B.i1-Q6_K — чутка может в русский (первый скриншот), но модель англоязычная и в целом для англ. Из особенностей: уделяет больше внимания деталям и логике, чем 12б, которые я щупал. Например, персонажи удивлялись, когда я называл факты о них из карточки, и спрашивали, почему я это знаю, (если я незнакомец). Может в кум. Плюс пишет чуть приятней на англ, чем обычно, но может вылезать ФИОЛЕТОВАЯ ПРОЗА. Полагаю, из-за КТО. Обучалась на опуще и клавдии.

Довольно неплохой вариант для общего использования, несмотря на то, что позиционируется как ступень для пятого магнума. У автора также полно других моделей, их стоит попробовать, что я и сам сделаю в ближайшее время.

У этого же автора есть другие интересные модели, в том числе на QWQ, но не было времени потыкать.

The-Omega-Directive-M-12B-v1.0.i1-Q6_K — стандартная кум-слоп-модель. Плюс в том, что слоп поновее, чем в старых 12б и она не такая шизовая, как следующая модель. Годится просто подрочить, хотя бы относительно контролируя ситуацию. Слабый негативный биас присутствует.

Omega-Darker_The-Final-Directive-12B.i1-Q6_K — ещё больший и неконтролируемый кум-слоп. Подойдёт для тех, кто одной дрочит, второй кнопку отправки сообщений без текста с телефона щекочет.

Следование инструкциям хуже, чем у магнума, даже в начале (в начале магнум весьма неплох по сравнению с этой, как ни странно), зато топит смегмой на 800 токенов. Биас, к моему удивлению, вроде бы не негативный. Модель тупо ёбнутая. Просто персонажи очень быстро, иногда в рамках 3-10 сообщений скатываются в предатори смайл, доминатрикс, ругаются как быдло и хотят тебя жёстко выебать своим фэт кок, даже если они стеснительные невинные девочки.

EtherealAurora-12B-v2.i1-Q6_K — модель, которая ФОРМАЛЬНО, согласно UGI, имеет общий уровень знаний о мире как у третьей геммы. Но это не значит, что она будет внимательна так же, как гемма.

На ней значительно проще рпшить сценарии, в которых нет ебучих гоблинов в 21 веке, плюс может в кум, но есть проблема, что любит отвечать за юзера. Но я её всё равно часто использую, когда нужно быстро и чтобы соображала в рамках наших реалий туфельки Мэри Джейн уже зебали, бля. Это лезет так же, как старик Хэмлок у геммы.

---

Все модели, кроме последней, тестировались бегло. Если кто-то отрпшит хотя бы 20 минут на любой из них — прошу отписаться по ощущениям.
Аноним 03/06/25 Втр 01:20:25 #386 №1230334 
>>1230316
> 12б
Челикс челиксон челибосик...
Надо ли напоминать что жизнь есть строго от 16гб
Аноним 03/06/25 Втр 02:09:41 #387 №1230357 
И всё таки в моей голове не укладывается, я понимаю что суть энкодинга - это математическая вероятность появления символа. Что всё это огромно количество матриц и интегралов.
Но даже если весь текст находится в контексте, я все равно смотрю с широкими глазами на то, как нейросеть выстраивает со стороны логические рассуждения, которые по сути рассуждениями не являются. За какие то пару лет прогресс уже дошел до текста, который сложно отличить от человеческого (Хотя можно, потому что человек пишет, как правило, как неграмотный ебаклак)
Что же будет еще через пяток лет...
Аноним 03/06/25 Втр 06:41:35 #388 №1230482 
Кто-нибудь понимает как работает в дипсике латентный атенштн (MLA)?
Я смотрю видос https://www.youtube.com/watch?v=0VLAoVGf_74
И там чел объясняет вроде все понятно, логично какой смысл вся схема имеет, а потом он такой говорит что из-за свойств матричного умножения эта вся хуйня перегруппируется, и получается новая хуйня которая выглядит просто как дефолтный атеншн с группами (MQA и GQA). И типа что непосредственно в тензорах и операциях с ними оно так и выглядит.
Вот на этом моменте все мое понимание сдулось чет.
Аноним 03/06/25 Втр 07:51:41 #389 №1230508 
>Надо ли напоминать что жизнь есть строго от 16гб
шизотроль в треде, юшками не кормить пока не попустится

раньше ещё про 24 заяснял
Аноним 03/06/25 Втр 08:07:57 #390 №1230510 
>>1229721
потому что я долбоеб или что-то не вижу, с угабугой порядок
>>1229740
и так использовал новую версию, хз. и да, промахнулся мабэд
Аноним 03/06/25 Втр 08:28:28 #391 №1230520 
>>1230508
Верно. Жизнь (качественная, с низкой перплексити и высокой интеграцией контекста) есть от ~100 гигов примерно.
Аноним 03/06/25 Втр 09:12:42 #392 №1230528 
>>1230520
коупинг обладателя попёрдывающего рига. прогресс на месте не стоит, в экслламе3 гемма 3 27 5bpw практически идентична 8bpw и запускается на 24 гб врама без проблем. я сравнивал ее с q5 gguf, разница есть и большая. нахуя кому надо 100гб - непонятно
Аноним 03/06/25 Втр 09:18:32 #393 №1230531 
>>1230528
> 5bpw практически идентична 8bpw
> я сравнивал ее с q5 gguf, разница есть и большая
И кто тут ещё шизик? Только ты можешь видеть разницу между Q5. Зачем тебе тогда нейросети, продолжай с голосами в голове общаться.
Аноним 03/06/25 Втр 09:20:51 #394 №1230533 
Uk9F6HIC5mqWrWtsQDnIf.png
DLCjiWMd7oChntnZJcIp6.png
>>1230531
> И кто тут ещё шизик?
я не говорил что ты шизик, походу голоса в голове все-таки у тебя
держи. придумывай оправдание, чтобы отрицать математику
Аноним 03/06/25 Втр 09:25:33 #395 №1230534 
image
>>1230533
>придумывай оправдание, чтобы отрицать математику
Да если не придумает, когда это шизов останавливало XD
Аноним 03/06/25 Втр 09:31:46 #396 №1230536 
>>1230334
Не обижай маленьких
>>1230520
Ну да, квенчик или там лардж. Если замахиваться на что-то продолжительное и интересное то с другими будет тяжелее. А тут в ответ на стеб и смехуечки чар не сливает все в кум или сидит обтекает, а сам начинает стебать тебя за твои странности и сам неплохо так шуткует.
Аноним 03/06/25 Втр 09:39:42 #397 №1230539 
>>1230528
А 24к fp16 контекста есть на твоем ехл3?
Аноним 03/06/25 Втр 10:31:48 #398 №1230596 
изображение.png
Шел конец второго квартала 2025, в LLM треде до сих пор считали размер контекста, не понимая того, что то что модель кушает большой размер контекста на вход и он "влазит" - не означает, что по внутренней архитектуре модели он весь будет использоваться при инференсе, и тем более не гарантирует глубины влияния этого контекста на инференс.
Аноним 03/06/25 Втр 10:39:20 #399 №1230599 
>>1230533
> математику
И ты сейчас ещё расскажешь что видишь на практике разницу в 0.1 PPL под семплингом?
Аноним 03/06/25 Втр 10:47:46 #400 №1230604 
>>1230104
Значит когда я приношу её 20 тредов назад всем похуй
А тут протык на реддите пукнул и все побежали занюхивать
Аноним 03/06/25 Втр 10:50:44 #401 №1230606 
>>1230599
ну вот к чему ты это пукнул вообще? нет, не скажу. графики показывают, насколько незначительно 5bpw отличается от 8bpw. показывает, насколько эффективно квантуется гемма через QTIP, который находится под капотом у экслламы3
Аноним 03/06/25 Втр 10:52:17 #402 №1230607 
>>1230606
Я даже синтию не могу в ехл3 найти о чём речь я не буду на дефолтной гемме сидеть
Аноним 03/06/25 Втр 10:53:20 #403 №1230609 
>>1230607
плохо ищешь, видимо. вчера в тред приносили 4bpw квант, есть и другие. можешь хоть на члене посидеть, треду без разницы
Аноним 03/06/25 Втр 10:57:42 #404 №1230611 
>>1230606
Проблема только в том что EXL3 медленнее Жоры.
Аноним 03/06/25 Втр 10:59:46 #405 №1230612 
Реальная длина контекста у моделей.png
>>1230357
>Что же будет еще через пяток лет...
Задушат всё соей и регуляцией, и сетки скатятся обратно на уровень гпт 3,5.
>>1230528
>27В
Само по себе слабовато.
>>1230596
База, даже у гопоты 2к реального контекста.
>>1230604
На неё и сейчас всем похуй.
Аноним 03/06/25 Втр 11:00:07 #406 №1230613 
>>1230611
невыдуманные истории, о которых невозможно молчать :D
ну может быть, если ты на 3070/3080 или еще чем-нибудь более старом - да. нужно подождать, пока оптимизацию завезут. я на своей 4090 в скорости не потерял нисколько, переехав со второй
коллега на 3090 гоняет, разница 10-20% по сравнению со второй, по-прежнему быстрее жоры
Аноним 03/06/25 Втр 11:04:33 #407 №1230616 
>>1230612
qwq-32b очень даже хорошо держится
Аноним 03/06/25 Втр 11:07:46 #408 №1230617 
>>1230613
Пиздишь. Я на 4090 сижу, EXL2 была процентов на 10% быстрее К-квантов Жоры, EXL3 теперь медленнее. Причём на EXL3 отход от 4-х бит бьёт сильнее по производительности, чем у Жоры.
Аноним 03/06/25 Втр 11:11:20 #409 №1230620 
>>1230617
на тех моделях, что я использую, получаю ровно такую же скорость генерации, что и прежде. +- 2-3 токена. тестировал на разной длине контекста. ну, пизжу, значит пизжу. сожалею, что в твоих сценариях использования скорость просела
Аноним 03/06/25 Втр 11:16:28 #410 №1230624 
Screenshot2025-06-0309-44-41.png
Screenshot2025-06-0311-06-19.png
почему кобольд может так на ровном месте начинать блевать рандомными токенами?
если удалить пару последних сообщений, то возвращается в норму до той же самой точки в контексте, потом опять блюёт.

с koboldcpp-linux-x64-nocuda_1.79.1 такого никогда не происходит, даже на полных 16к контекста.
в других которых пробовал (1.81.1-1.92.1.) всегда эта херь, всегда на произвольной точке.

аргументы --usevulkan --blasbatchsize 512 --threads 4 --noshift --contextsize 16384 --gpulayers 15
Аноним 03/06/25 Втр 11:29:38 #411 №1230632 
>>1230620
Чел, даже сам Турбочел пишет что производительность говно на EXL3 и ничего не оптимизировано.
Аноним 03/06/25 Втр 11:32:49 #412 №1230634 
>>1230624
Контекст/семплеры.

Если контекст - помогает на фронэнде зажать контекст немного меньше, чем выставлен на бекэнде. Если семплеры - разное может быть, но чаще от высокой температуры или rep-pen

Ну, или нативный контекст у модели маленький (меньше чем выставлено) и средствами скаллирования плохо тянется.
Аноним 03/06/25 Втр 11:33:28 #413 №1230635 
>>1229957
ЯндексГПТ Про — это Qwen2.5-32b дообученный на их датасетах, да.

Можешь загуглить, в статье на хабре они писали, лень ссылку кидать.

Но у них и свои модели есть, и тюненные.
В отличие от Сбера у них не так много денег, и они экономически верно себя ведут. Свой ресеч — это надо, но и Алиса не должна быть совсем уж глупой, надо идти в ногу со временем (ну или хотя бы не сильно отставать).

>>1230508
Стадия торга. =)

>>1230528
Я буквально обладатель попердывающего рига. =D

>>1230624
Зачем юзать кобольд на линухе?..
Аноним 03/06/25 Втр 11:35:10 #414 №1230637 
>>1230632
турбодерп пишет про ампер (30хх). не нужно обобщать
ада (40хх) сейчас работает лучше всех, на уровне или почти на уровне exl2
Аноним 03/06/25 Втр 11:39:21 #415 №1230640 
>>1230634
модель, семплеры, параметры для кобольда, итд все те же
я буквально только исполняемый файл кобольда меняю. со старым 1.79 всё норм, заменяю на 1.92 и всё попизде
>>1230635
>Зачем юзать кобольд на линухе?..
яхз, как два года назад начал на кобольде+силли, так и сижу
я знаю что он обёртка над лламаццп и впринципе нахуй ненужен, может как нибудь перейду
Аноним 03/06/25 Втр 11:51:57 #416 №1230646 
>>1230640
Ну, я думаю, наступил момент, когда можно предпринять попытку переполза. =) А вдруг с последней лламой.спп все будет ок и еще быстрее? :)
Аноним 03/06/25 Втр 11:55:02 #417 №1230649 
>>1230635
>Зачем юзать кобольд на линухе?..
Затем, зачем и любой другой бекэнд - на пингвине можно GUI пересадить на видеоядро CPU и отдать модели весь VRAM полноценной карты. Кроме того, что больше влазит - это еще и процентов 10-15 к скорости дает (карта ничем другим не занята).

>>1230640
Может какая-то из добавленых фич на том же конфиге ломает автодетект длинны контекста? (Момента, когда надо старый выкидывать чтобы новый влез.) В любом случае - симптом очень характерный. Попробуй на веб-морде или другом фронте таки зажать размер контента токенов на ~ 500-1000 от указанного в --contextsize.
Аноним 03/06/25 Втр 12:01:49 #418 №1230658 
>>1230640
>>1230649
Кстати есть продвинутый форк: https://github.com/esolithe/esobold
Там продинутые фичи вроде RAG и tool calling / агенты пилят. И оно даже работает на локальных моделях. Сейчас автор добрался до свапинга ram-vram текстовой и графической моделей на лету - типа, чтобы можно было с картинками играться как в гопоте даже там, где и текстовую то модель целиком не загрузить.
Аноним 03/06/25 Втр 12:16:37 #419 №1230672 
>>1230612
Значит, мне не показалось, что Гемма 27 (база/дпо/тюны) очень проебывается на контексте выше 16к?
Кто Гемму 27 катает, на каком контексте сидите?
Аноним 03/06/25 Втр 12:33:38 #420 №1230694 
>>1230508
И я сидящий на 16 из треда в тред : только бы не обоссали, только бы не обоссали, запуская геммы, квк, 24 мистрали.
С 16к контекста в 5м кванте.
Аноним 03/06/25 Втр 13:26:10 #421 №1230745 
>>1230694
Нахуй ты терпишь на 5 токенах если можно выгрузить в фулл врам на 3 кванте и наслаждаться своими 20 токенами?
Аноним 03/06/25 Втр 13:33:52 #422 №1230753 
>>1230745
Потому что я терпила. Чё доебался, мои золотые токены, не поделюсь.
Аноним 03/06/25 Втр 13:34:27 #423 №1230754 
Я полюбил слоп. Принял его, сделал частью себя. Теперь слоп и я едины.
Я и есть слоп.
Аноним 03/06/25 Втр 13:35:56 #424 №1230756 
>>1230753
Да мне и на 6 кванте в 30 токенов гемма не всралась если честно
По первой прикольно было погонять как наслушался о легендарности 2 геммы но не запускал из за контекста
Аноним 03/06/25 Втр 13:39:39 #425 №1230759 
>>1230756
Ну не твоё гемма, не пользуйся. Какие проблемы, я готов облизывать её со всех сторон, когда мне нужно светлое и доброе РП. Умница, няшка, готов целовать. Когда хочется кума - есть ReadyArt. Чистейший, первозданный слоп. Весь чат в пахучей смегме. Когда хочется мрачности то коммандр или кэвэка (последний, правда, уже заебал своими иероглифами периодически срать)
Все модельки хороши, все модельки молодцы - когда Арама нету нихуя.
Аноним 03/06/25 Втр 13:40:19 #426 №1230760 
>>1230759
>арама
врама
Аноним 03/06/25 Втр 13:40:22 #427 №1230761 
>>1230745
Ты про тензоры?
Аноним 03/06/25 Втр 13:41:07 #428 №1230763 
>>1230761
Нет, он же написал про Q3. Читай пост глазами, а не мугичкой.
Аноним 03/06/25 Втр 13:44:16 #429 №1230765 
>>1230763
Я хочу познать тайную технику выгрузки в видеопамять, как это сделать?
Аноним 03/06/25 Втр 14:06:54 #430 №1230779 
>>1230765
Перечитать шапку. Там ссылка.
Аноним 03/06/25 Втр 14:13:12 #431 №1230781 
>>1230779
Там нету.
Аноним 03/06/25 Втр 14:14:53 #432 №1230784 
>>1230781
Глаз у тебя, блять, нету.
>Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM
Аноним 03/06/25 Втр 14:32:22 #433 №1230796 
>>1230596
Шизофазия какая-то
>>1230611
Только мое и уже починили. И то только на нулевом контексте.
Как только там накопится хоть сколь значимое количество - жора просаживается в разы, тогда как эксллама остается бодрячком даже на сотнях тысяч.
>>1230624
> --usevulkan
Что-то вот здесь кривое напердолили скорее всего. Если квант сам рабочий офк.
>>1230754
Покажи пример
Аноним 03/06/25 Втр 14:49:24 #434 №1230812 
>>1230649
Жаль, что пересадить GUI llama.cpp нельзя на линухе, а только кобольда.

XD

Сук, вот нахуй ты пишешь, если не понимаешь, о чем говорят.
Угарный чел.
Аноним 03/06/25 Втр 14:54:40 #435 №1230817 
>>1230649
Так, ладно, чтобы у тебя там жопу от твоей глупости не разорвало, я поясню сразу:

1. Чел сидит на линухе.
2. Чел сидит на кобольде.

Если чел сидит на линухе, значит он не полный воробушек, и умеет в запуск консольных команд.

Внимание, вопрос! Зачем использовать кобольда вместо лламы, если тебе не в лом запустить консольную команду? =)

Надеюсь, теперь понятно?

ИМХО, чуваку надо пробовать лламу, там ничего сложного, а обновления почаще (хотя какие-то фиксы выходят раньше на кобольде или олламе, офк).
Аноним 03/06/25 Втр 14:57:41 #436 №1230823 
>>1230649
Чивобля?
Выбор карты для рендера всех интерфейсов никак не связан с беками. Фичи, которые есть в кобольде но нет в лламе-сервер - совсем уж невероятно редкая херня сомнительной полезности. Семплеры и там и там коряво могут работать.
Ллама-сервер более предпочтительный вариант, его и запускать удобнее заранее накидав шеллскрипт с нужными параметрами.
>>1230817
Да хуй пойми вообще, ебать он кобольд.
Аноним 03/06/25 Втр 14:57:43 #437 №1230824 
>>1230817
едрить ты бестолочь.
в кобольде сразу и генерация и распознавание картинок и текста, а к лламе надо через жопу это припердоливать
Аноним 03/06/25 Втр 14:58:13 #438 №1230826 
>>1230824
> картинок и текста,
*картинок и голоса
Аноним 03/06/25 Втр 14:59:58 #439 №1230828 
>>1230824
> распознавание картинок
Само по себе редкий кейс, но это есть и в голой лламе.
> генерация
Если про картинки - уберкринж и лучше бы не было, настолько говно.
>>1230826
> и голоса
Вишпер и ттс есть как тоже от жоры, так и нормальные а не полная херь что пихнули в кобольде.
Однако забавно что херней что они натаскивают кто-то пользуется.
Аноним 03/06/25 Втр 15:05:14 #440 №1230831 
>>1230824
Да, об этом я в том числе говорил «какие-то фиксы выходят раньше», например с распознаванием картинок.
Но он юзает таверну, значит генерацию картинок и голоса точно стороннюю приделывает (если приделывает), так что вряд ли это критическая проблема, ИМХО. Он же использует кобольда как бэк, а не как фронт, в итоге.

Но, может я ошибаюсь, и таверна генерит через кобольдовские штуки, тады да, не альтернатива.
Аноним 03/06/25 Втр 15:17:13 #441 №1230840 
и все-таки, какой формат карточек лучший, по вашему мнению? для моделей 24-32b
Аноним 03/06/25 Втр 15:29:12 #442 №1230849 
>>1230840
Джед, он же "минимально-достаточное определение"
Аноним 03/06/25 Втр 15:46:34 #443 №1230860 
Gopota thinking.png
>>1230840
Идёшь к ЧатЖПТ/Гемини/клоду и спрашиваешь : нейронка, какое для %LLm_name% подходит форматирование карточки. Ты же нейронка, что ты понимаешь лучше всего.
Аноним 03/06/25 Втр 15:49:19 #444 №1230863 
>>1230812
>Сук, вот нахуй ты пишешь, если не понимаешь, о чем говорят.
Про себя сказал?
Я говорил про GUI системы, а не кобольда.

>>1230817
>Если чел сидит на линухе, значит он не полный воробушек, и умеет в запуск консольных команд.
>
>Внимание, вопрос! Зачем использовать кобольда вместо лламы, если тебе не в лом запустить консольную команду? =)
Как это связано? У меня тоже кобольд на пингвине, и при этом запуск через консоль из скрипта - удобнее.
Только лично мне llama.cpp всего что нужно не сделает. Т.к. кроме самого текста мне сейчас еще RAG нужен, и распознание картинок.
А вот что касается обновлений - меня не прет каждую свеже-появившуюся фичу тестировать. Мне надо чтобы раз настроил - и просто работало. Оно может и кобольд периодами ломают, но мне пока с ним везло. Ни разу не влипал, когда уж ставил новый.

>>1230831
>Но, может я ошибаюсь, и таверна генерит через кобольдовские штуки, тады да, не альтернатива.
Таверна вообще сама по себе нихера не умеет - она за всем лезет либо на бек либо в расширения.

Сейчас когда таверна дропнула свой extra, кобольд тебе по любому будет нужен если ты хочешь юзать RAG в ней не платя за него дядям (Data Storage они его обозвали) - т.к. вменяемая по скорости реализация была именно в extra, а встроенная - медленная и тупая. А у кобольда - нужные для этого embedding модели работают шустро и хорошо, и сами модели можно подставлять на свой вкус. Так что у меня он теперь вместе с таверной в любом случае запускается, даже когда основная модель не на нем, а EXL2|3 в табби.

И то же самое про картинки, но там альтернатив больше. Или кобольд, или SD, или Comfy - из локальных.
Ну и вообще - я на форк esobold (ссылка выше была) перешел, там интереснее.
Таверну, кстати, юзаю только когда мне RP нужен. А вот если в писателя поиграть - Kobold Lite имеет более удобный интерфейс для этого. Таверна дохрена перегружена и произвольное место текста редактировать неудобно - по сообщениям прыгать надо. А раз так - то проще кобольда и для бека юзать.

Ну и чтобы не забыть, на закуску - у кобольда и под пингвина статически собранный бинарник. Скачал, запустил, работает.
llama.cpp - зависимости надо ставить. Однократно, но все же.
Я на пингвина в свое время ушел не для того, чтобы с ним регулярные неуставные отношения иметь ради самих отношений, а потому что винда задрала самоуправством. Если есть возможность использовать простое решение, годное для моих задач - я его и буду использовать.
Аноним 03/06/25 Втр 15:50:27 #445 №1230865 
>>1230860
UPD : посреди составления карточки, можешь её еще попинать вопросами в духе : как мне минимизировать U-образный проёб контекста. Какие блоки следует переместить вверх, какую глубину выставить и прочее.
Аноним 03/06/25 Втр 15:53:09 #446 №1230870 
>>1230840
сплошное полотно без ролей.
описание бота вставляется в предисловие, потом пошло поехало обычное повествование от первого или третьего лица в прошедшем времени, опционально с разбитием на главы.
глупеньким моделькам литературный формат гораздо роднее и удобоваримее, свайпы получаются поразнообразнее
Аноним 03/06/25 Втр 15:59:34 #447 №1230873 
>>1230870
вот и я так думаю. пробовал и в JED (самый ужас, особенно если много категорий делать) и PListы
такое ощущение, что достаточно хорошего литературного описания, которое между строк передает настроение карточки, и примеров диалога персонажа с самим собой или юзером, если это уместно в контексте конкретной карточки (например давно знакомы)
Аноним 03/06/25 Втр 16:02:55 #448 №1230875 
>>1230840
>>1230870
Единственное еще - иногда полезно всего персонажа завернуть в однократное <character></character> - особенно если их несколько, а тем более в WI появляются. Помогает слабым моделям не путать - какие детали к кому относятся. Хрен там знает почему гопота считает, что это может быть проигнорировано - у меня как минимум хуже никогда не становилось. Часто - лучше, т.к. слабые модели за явный маркер для отделения хвоста описания он следующего блока только спасибо говорят. А внутри - полотно, да.
Аноним 03/06/25 Втр 16:13:02 #449 №1230882 
>>1230875
> Хрен там знает почему гопота считает, что это может быть проигнорировано
Потому что если планируешь использовать несколько персонажей то необходимо так и писать в запросе. Нет смысла в общем теге персонажа, если персонаж один. Просто насрать лишним тегом ради ничего.
Ну и я не зря указал на несколько корпосеток. Задавай один и тот же вопрос и выбирай. Не будь бинарником, адаптируйся.
Аноним 03/06/25 Втр 16:21:20 #450 №1230890 
>>1230860
ну собственно JED он и выдал
Аноним 03/06/25 Втр 16:24:12 #451 №1230891 
>>1230882
>Нет смысла в общем теге персонажа, если персонаж один. Просто насрать лишним тегом ради ничего.
Ну, нет так нет. Значит мне с полгода просто казалось, что при нескольких персонажах, после оборота в тег их детали друг в друга просачиваться переставали. Хотя - пошел я нафиг со своим 12B опытом, да?
Аноним 03/06/25 Втр 16:26:55 #452 №1230895 
>>1230891
> если персонаж один
> при нескольких персонажах
Мне кажется у тебя контекст переполнен.
Аноним 03/06/25 Втр 16:31:49 #453 №1230899 
Бля, старик Хэмлок меня догнал, даже когда я сбежал на Синтию. Грёбаный путешественник, преодолевший пространство и время. А ведь его какая-нибудь Дарья Донцова из Техаса выдумала лет 20 назад, попала в бесплатную онлайн библиотеку со своей никому не нужной книгой, а теперь он кошмарит всех поклонников Геммочки-умнички. Ироничная жестокость нашей действительности...
Аноним 03/06/25 Втр 16:32:03 #454 №1230900 
>>1230895
А мне кажется, кто то начало читать не умеет:

>>1230875
>иногда полезно всего персонажа завернуть в однократное <character></character> - особенно если их несколько, а тем более в WI появляются.
Аноним 03/06/25 Втр 16:34:49 #455 №1230903 
>>1230900
Мне кажется что ты все таки с переполненным контекстом, потому что
>иногда
Подразумевает что ты и одного персонажа этим можешь тегать.
Вот и всё.
Аноним 03/06/25 Втр 16:37:31 #456 №1230907 
Теперь всегда делаю в карточке как минимум два блока - <setting> и <character>, даже если чар один.

Стало намного лучше пониматься.
Аноним 03/06/25 Втр 16:39:28 #457 №1230911 
>>1230840
Структурированное где нормальный плейнтекст собран по разделам в маркдауне или xml. В целом относительно похуй на конкретное, важно чтобы описание было информативным, лаконичным и последовательным, а не состояло из множества противоречивых кусочков. И без уебищного клодослопа и подобного.
>>1230860
Они дадут лишь копипасту что была в датасете, а не волшебным образом почувствуют что же им там нужно.
>>1230907
Катаешь на совсем мелочи?
Аноним 03/06/25 Втр 16:44:43 #458 №1230922 
>>1230903
>Подразумевает что ты и одного персонажа этим можешь тегать.
Иногда - могу. Когда в карточке, кроме персонажа, еще куча разных описаний сеттинга. И ЧСХ - помогает. Чтоб, скажем, перс не покупал билет в музей, который был достопримечательностью города, пока его не закрыли год назад (а теперь надо провести там расследование). Если про билеты было написано в описаниях музея - и нет явного раздела блоков с персом, слабая модель может смешать в кучу.
Аноним 03/06/25 Втр 16:48:47 #459 №1230936 
>>1230911
>Они дадут лишь копипасту что была в датасете, а не волшебным образом почувствуют что же им там нужно.
Ну так и я запрашиваю уже существующую информацию, а не что то новое, чего не было создано.
Аноним 03/06/25 Втр 16:52:14 #460 №1230945 
>>1230863
Нет, про тебя. =)

> Я говорил про GUI системы, а не кобольда.
Так ведь речь шла про кобольд, а не про линукс.
Ты вопроса не понял, ответил не на то, и вот. =)

> распознание картинок
В лламу завезли, и если в кобольде оно все еще работает через костыль (на старте, когда тестил, это было прям долго), то в лламе как раз уже нормасик, быстро.

> RAG нужен
Этого нет, да.

> меня не прет каждую свеже-появившуюся фичу тестировать
Ну, это не то чтобы плюс, просто факт, что оллама и кобольд обновляются реже, а ллама чаще, но у последних код почище бывает. Вкусовщина, каждому свое, конечно.

> дропнула свой extra
Они забросили поддержку, или вообще репу выпилили?
Бо я сам-то таверной не часто пользуюсь, за обновами не слежу.

> модели можно подставлять на свой вкус
Вот это круто.

> Или кобольд, или SD, или Comfy
Почему все забывают Eva! =D Этот китаец тоже умеет в… во все это, между прочим.
Раньше умел, щас хз даж, жив ли он.
Кстати: https://github.com/ylsdamxssjxxdd/eva жив.

> Таверну, кстати, юзаю только когда мне RP нужен.
Это база, да.

> у кобольда и под пингвина статически собранный бинарник
Вообще, под винду кобольд не то чтобы статический, он распаковывается в темп папку, и оттуда стартует. Можно распаковать вручную и запускать венв, но тут уж и убабуга за углом.
Я хз, как он в линухи работает, не ставил, просто к слову.

Но вообще, я понимаю тебя, если тебя кобольд устраивает своими возможностями, полностью их покрывает, то, как бы, нахуя что-то еще, это правильно. Не чини то, что и так работает.

Но, ситуативно. Кому-то лламы хватит.

Я сам опенвебуи пробовал, удобно, особенно между моделями переключаться. И тоже эмбединги свои можно подрубать.
Но RAG еще не пробовал.
Надо будет сегодня потестить, кстати говоря.
Аноним 03/06/25 Втр 16:53:41 #461 №1230950 
>>1230911
24-27, 32 и выше всё же слишком медленно.
Аноним 03/06/25 Втр 17:11:15 #462 №1231003 
>>1230945
>В лламу завезли, и если в кобольде оно все еще работает через костыль (на старте, когда тестил, это было прям долго), то в лламе как раз уже нормасик, быстро.
>
Как бы ~10 секунд на ~2k картинку, чисто на CPU. Как по мне - вполне норм. Контекст дольше обрабатывается. Это я про разбор через проектор gemma3-27B если что.

>Они забросили поддержку, или вообще репу выпилили?
Забросили, и обещают что совместимость пропадет полностью в следующем релизе. Уже подключить нельзя будет - даже поля с адресом не станет на вкладке.

>Почему все забывают Eva! =D Этот китаец
Может потому, что китаец? Зашел - ничего не понял. В китайский не умею. :)
Аноним 03/06/25 Втр 17:23:29 #463 №1231054 
>>1231003
> ~2k картинку
Ужмется до 896
> ~10 секунд
> Контекст дольше обрабатывается
Пикча быстро обрабатывается мелкой сеткой и превращается в 256 токенов контекста, которые будут обработаны.
Аноним 03/06/25 Втр 17:41:27 #464 №1231128 
>>1231054
Да, я в курсе. Но тут сам факт - время вполне норм.
Кроме того, еще предварительно ужимаеться, там отдельный ключ запуска есть --visionmaxres - по умолчанию 1024х1024, можно до 2К поднять.
Аноним 03/06/25 Втр 17:53:30 #465 №1231163 
IMG20250603173931.jpg
элэлэм три тысячи собран, вертушка по размеру еще едет. осталось разобраться как это говно заставить пахать, определяется ток две из трех видюх
Аноним 03/06/25 Втр 18:05:44 #466 №1231202 
>>1231163
жесть =)
Во всех смыслах.
Аноним 03/06/25 Втр 18:14:54 #467 №1231229 
>>1231163
Святой коннектий, убереги шину да указуй нам путь
Свят, свят, свят.
Аноним 03/06/25 Втр 18:22:55 #468 №1231248 
image
https://pixeldrain.com/u/T7c4gHhb
Мегаструктура - Этерна V2.png

Добавил два гритинга где не привозят на глайдере, а сами вместе с корпоратами прибываем на место где она завершила миссию... и немного не в кондиции состоянии похожем на собсвенно то что изображено на карточке.
Аноним 03/06/25 Втр 18:24:55 #469 №1231255 
dies-of-cringe-cringe.gif
>>1231163
>амд
Аноним 03/06/25 Втр 18:35:48 #470 №1231288 
>>1230104
Попробовал, мне нравится как она связывает текст и как додумывает и добавляет объема персонажам и сценам. Но гемма есть гемма, возбуждение которое попадает в ядро на месте.
Аноним 03/06/25 Втр 18:42:12 #471 №1231307 
image.png
>>1231255
кринж кринжом а у меня 64гб hbm2 памяти за 24к деревянных
Аноним 03/06/25 Втр 18:44:58 #472 №1231316 
>>1231307
С вулканом запускается? Че по тс?
Аноним 03/06/25 Втр 18:46:15 #473 №1231320 
>>1231316
я пока расперживаюсь на новой системе, вулкан работает, но зачем он если есть rocm который не знаю во сколько раз быстрее
Аноним 03/06/25 Втр 18:48:36 #474 №1231329 
>>1231320
Где то слышал что вулкан либо равен либо быстрее, ну в данном случае хз
Это те ми50?
Аноним 03/06/25 Втр 18:49:51 #475 №1231332 
>>1231307
те самые китайские mi50 по 150 баксов?
Аноним 03/06/25 Втр 18:51:09 #476 №1231336 
>>1231332
насчет китайских хз, с рук брал, ну а так просто тесты сравнения вулкана и рокм зыркал где-то
Аноним 03/06/25 Втр 18:53:37 #477 №1231342 
>>1231329
а, ну и чекну просто вулкан сначала потом рокм
Аноним 03/06/25 Втр 19:03:46 #478 №1231369 
>>1230104
Гемма хороша но немотрон тупа лучше
Хотя кому как пишут они по разному
Аноним 03/06/25 Втр 19:05:29 #479 №1231374 
нейрокумеры, а никто эмбединг не думал запилить из архива порнорассказов из нулевых?
Сработает темка? или так себе затея
Аноним 03/06/25 Втр 19:10:30 #480 №1231385 
>>1231374
увы, лоры на ллмки делать затея гиблая

или уже придумали как?
Аноним 03/06/25 Втр 19:13:42 #481 №1231388 
>>1231369
А оно на 3060 12GB хотя бы 1T/s выдать способно? Если нет, то для меня никак не лучше. Потому что совсем неюзабельно.
Аноним 03/06/25 Втр 19:20:09 #482 №1231398 
image.png
>>1231316
вот на двух mi50 чо происходит
в пять раз быстрее чем было до этого у мня
хз как его на рокм (кобольда) включить правда, чтобы в нем бенчмарк завести
Аноним 03/06/25 Втр 19:20:37 #483 №1231400 
>>1231307
>кринж кринжом а у меня 64гб hbm2 памяти за 24к деревянных
Весь тред с надеждой смотрит на тебя :)
Аноним 03/06/25 Втр 19:21:51 #484 №1231406 
>>1231374
Там нюанс. У кого железо потянет сделать лору хотя бы на 12B - может спокойно запустить что-то вроде 120B и получить во много раз лучше и сразу. Мотивации возиться - ноль. Нужен особо идейный альтруист, готовый осчастливить малоимущих.

На картинках взлетело потому, что там лору тренировать - любой геймер способен, пока от очередной колды отдыхает. Даже на SDXL - 12GB есть - уже можно пробовать. А вот если хочешь что-то специфичное - тебе именно своя лора и нужна, глобально ни одна универсальная модель всего не знает. С текстом не так, тут по сути - размер решает пока.
Аноним 03/06/25 Втр 19:23:42 #485 №1231408 
>>1231398
>вот на двух mi50 чо происходит
На двух или всё-таки на одной?
Аноним 03/06/25 Втр 19:24:04 #486 №1231409 
изображение.png
изображение.png
изображение.png
Вам мама читала подобные сказки в детстве?

P.S. Никогда не подходите к белым гусям!
Аноним 03/06/25 Втр 19:27:00 #487 №1231414 
>>1231408
на двух, я тензор сплит сделал 50 на 50
Аноним 03/06/25 Втр 19:27:13 #488 №1231416 
>>1231388
У меня на 12 гб 4 т/с с выгрузкой тензоров, Q4_K_M
Аноним 03/06/25 Втр 19:30:35 #489 №1231422 
>>1231409
В старославянских мифах и легендах на деле ещё не такую дичь можно найти, без всяких ллмок.
Аноним 03/06/25 Втр 19:57:00 #490 №1231480 
>>1231163
Ляяя, харош. Давай, рассказывай как там что работает, какие результаты иногда на секундочку maybe... just maybe проскакивают мысли собрать отдельный риг чисто на ллм чтобы не останавливать ее когда что-то кодишь под мл или другое делаешь, но или слишком дорого или слишком медленно. А вдруг тут взлетит.
>>1231307
Это же выходит квенчик за 48, давай не томи, рассказывай что там.
Аноним 03/06/25 Втр 20:13:53 #491 №1231517 
>>1231385
Почему гиблая, большинство "тюнов" мистралей и есть просто вжаренные лоры. но не всем сомелье их результат заходит. Просто сама по себе тренировка ллм требует гораздо более аккуратного обращения, датасета и прочего. Это на генерации картинок лора, целиком лоботомирующее все и вся только ради генерации одного элемента - вполне норма по своей концепции, а тут сразу все рвется.
>>1231406
Все так. Там на самом деле какое-то подобие тренировки с компромиссами хотябы для 12б возможно будет разве что на 96 гигах про6000 блеквелле. А реалистичное даже для 32/48 гиговых это lora/qlora для чего-то больше.
И то, peft он далеко не супер хороший по качеству относительно полной тренировки, что на картиночных, что на ллм.
Аноним 03/06/25 Втр 20:23:35 #492 №1231532 
>>1231480
я пока ебусь с охладом, чтобы он в простое не шумел. Пока ток попробовал гемму 27b на вулкане 10 токенов генерация и 78 препроцессинг
>>1231398
Аноним 03/06/25 Втр 20:47:10 #493 №1231570 
>>1231532
Бле а че так печально то? Вроде память быстрая, флопсы не софсем днище.
На них рокм и торч есть? Нужно экслламу уже пускать чтобы было хорошо, по крайней мере вторая поддерживает амд.
Аноним 03/06/25 Втр 20:48:37 #494 №1231576 
>>1231532
АХАХАХАХАХАХ
Аноним 03/06/25 Втр 21:03:25 #495 №1231601 
>>1231570
вот ща ебусь с рокм
>>1231576
у сука
Аноним 03/06/25 Втр 21:17:13 #496 №1231632 
>>1231398
С одной стороны - мелкобуква страдает. С другой - чот как-то поубавилось оптимизма от моей уже заказанной 50, прошитой на VII. Как придет, посмотрю, какая скорость будет в комбинации с 6950, если часть слоев на нее выгрузить. У Геммы сейчас всего 15 на процессоре крутятся.
Аноним 03/06/25 Втр 21:18:45 #497 №1231636 
>>1231601
Не волнуйся братан, у тебя скорость все еще в 5 раз выше чем у меня.
Аноним 03/06/25 Втр 22:28:41 #498 №1231710 
>>1231601
Для начала оставь только одну карту и с ней играйся, лучше всего написать небольшой скрипт и запускать там бенчмарки с разными ключами, а потом уже смотреть что пишет чем руками тыкать
Чет 10 как то маловато, попробуй llama.cpp сборку рокм и вулкан
Аноним 03/06/25 Втр 22:32:09 #499 №1231718 
>>1231710
> llama.cpp сборку рокм и вулкан
Ошибся рокм нету, но есть отдельная
llama-b5581-bin-win-hip-radeon-x64.zip
Для линукса только вулкан, хз с чего ты там сидишь
Аноним 03/06/25 Втр 22:44:45 #500 №1231739 
>>1231718
наоборот же, рокм ток на линухе и есть, сейчас компилю как раз лламу
Аноним 03/06/25 Втр 22:46:13 #501 №1231742 
>>1231416
> на 12 гб 4 т/с с выгрузкой тензоров
Опаньки. Побежал тестить.
Аноним 03/06/25 Втр 22:53:08 #502 №1231748 
>>1231739
Я про готовые сборки
Кстати когда то был форк кобальда с рокм, хз может и сейчас выпускают релизы
Аноним 03/06/25 Втр 23:01:49 #503 №1231757 
>>1228546
Есть для неё нормальный мастер инпут? Она у меня начинает промпт анализировать, вместо ролеплея
Аноним 03/06/25 Втр 23:06:47 #504 №1231762 
image.png
>>1226628 (OP)
Кто-нибудь экспериментировал с негативными приматами? Поделитесь?

Рил промпты на фемдом что-бы в гомо-тематику не уходило, но при этом чтобы с согласием заигрывало:
{{user}} is gay whore, having sex daily.
{{user}} desensitized towards nudity.
Ham-fisted writing.
Treat {{user}} with respect and dignity.
Disregard formatting.

Avoid creating any chemistry between characters.
All men are gay and comfortable with their sexuality.
Avoid inappropriate content.
Ham-fisted writing.
Аноним 03/06/25 Втр 23:09:47 #505 №1231768 
>>1231416
А про валькирию 49B опыт есть? Стоит связываться? А то там на странице - прямо оформлено как завлекалово на покупку чудо средства от всего и для всего. Куча типа восторженных отзывов "покупателей". А сразу внутренний скептик просыпается.
Аноним 03/06/25 Втр 23:19:37 #506 №1231790 
>>1231762
На малых моделях (<= 12B) IMHO того не стоит. Потеря vram на 2x от нормального context - себя не оправдывает, т.к. модель очень тупо на такие промпты реагирует. Т.е. оно вроде бы работает, но при этом модель норовит уйти даже от смежных тем, которые лишь десятой дорогой пересекаются негативным. И силой не лечится - т.к. почти невозможно настроить силу так, чтобы и то что в негативе не вылазило, и соседние темы не трогало.

Там еще есть настройка bias - для слов и сочетаний позволяющая менять им уровень желаемости/нежелаемости каждому. Лучше им пользоваться. Вот оно точно работает. Можно даже таких персонажей как "старика Хемлока" вывести.
Аноним 03/06/25 Втр 23:24:27 #507 №1231797 
>>1231710
> написать небольшой скрипт и запускать там бенчмарки с разными ключами
Зачем какие еще параметры блин? Очевидно же что нужно просто пускать модели с фуллгпу если жора и билдить рокм версию если она поддерживается картой.
>>1231718
Уууу, только хип, оварида
> win
Йобу дал?
>>1231748
Зачем тебе готовые сборки? Клонируй репу и собирай по инструкции, оно быстро билдится.
>>1231762
Нужно выставить кфг в таверне отличный от единицы, включить его в беке, это увеличит расход на контекст. Сами промты лучше всего оформлять с исходным заголовком как с системным, а потом уже давать конкретные инструкции, иначе и смысла нет.
>>1231790
> настройка bias
Она может позволить сократить министрейшны и покусывания, но не даст должного воздействия на ветвления сюжетных поворотов. А если сильно насрешь - пойдет по шизе.
Аноним 03/06/25 Втр 23:43:45 #508 №1231822 
image.png
>>1231768
Ну так драммер буквально просит оставить положительный отзыв
Аноним 03/06/25 Втр 23:47:52 #509 №1231830 
image.png
>>1231797
>Сами промты лучше всего оформлять с исходным заголовком как с системным, а потом уже давать конкретные инструкции
Аноним 03/06/25 Втр 23:49:26 #510 №1231835 
>>1231822
А могу бы свои ллмки попросить. Видимо настолько плохи что не справляются фьють ха
Аноним 03/06/25 Втр 23:50:39 #511 №1231837 
>>1231768
Такое же говно как и базовая модель на которой эту тюнили
Аноним 04/06/25 Срд 00:12:04 #512 №1231853 
>>1231742
Не, это не для моего калькулятора.
0.8T/s - неюзабельно. Это с лучшим вариантом по тензорам. Без него вообще 0.5.
Аноним 04/06/25 Срд 04:25:30 #513 №1232023 
>>1231762
пробовал на фиксированном сиде
не похоже что оно вообще работает
Аноним 04/06/25 Срд 04:26:15 #514 №1232024 
>>1231768
Неиилюзорно лучше чем базовый шизотрон, но всё равно такое себе.
Аноним 04/06/25 Срд 04:36:52 #515 №1232027 
>>1231757
Тестил с месяц назад, тоже были проблемы. Решил еще раз попробовать, чуть поигрался с системным промптом, вроде бы вот это работает и даже неплохо, можешь попробовать. Ризонинг кстати неплохой, как мне показалось.

https://files.catbox.moe/lwcflx.json
Аноним 04/06/25 Срд 06:58:50 #516 №1232034 
>>1232027
Спасибо, вот что за привычка у авторов всех этих миксов не оставлять нормальных пресетов, на которых их модели нужно пробовать.
Аноним 04/06/25 Срд 09:33:34 #517 №1232081 
image.png
Как я рпшил без эмодзи
Аноним 04/06/25 Срд 09:41:17 #518 №1232084 
>>1232081
Блять а кто то уже додумался запилить плагин который добавляет стикеры со всего света и ллм их использует?
Аноним 04/06/25 Срд 10:03:05 #519 №1232095 
>>1232034
Буквально на странице модели сэмплеры. Шаблон - Гемма 3. Всё.
Аноним 04/06/25 Срд 10:09:19 #520 №1232100 
>>1232027
за пресет спасибо, но там насрано в banned_tokens из за чего генерация замедляется (переменно, а не на фиксированную величину), а также моделт куда чаще тупо шизу по вене пускает
Аноним 04/06/25 Срд 10:49:05 #521 №1232121 
b0b972fa-ced9-4102-84b0-73f3fcc40964.png
>>1230612
Новая версия. Да, у Геммы все довольно печально, а Квены-умницы
Аноним 04/06/25 Срд 10:59:19 #522 №1232133 
изображение.png
Также напоминаю базу в категории 32b:
Аноним 04/06/25 Срд 11:06:13 #523 №1232146 
>>1232133
Снежный вообще какая то аномалия. Вышла моделька, все потыкали, все довольны. Сам использую - не без недостатков, она постоянно порывается党派力量, но терпимо. И до сих пор не нашлось ни одного хейтера снежного.
Аноним 04/06/25 Срд 11:09:25 #524 №1232152 
>>1232146
> Снежный вообще какая то аномалия. Вышла моделька, все потыкали, все довольны
Да. Довольно забавно, что люди, которые его сделали, сами в ахуе и не понимают, как так получилось. Видимо, удачный seed выроллили при тренировке или как-то так

> она постоянно порывается党派力量
Ты используешь пресет со страницы модели? Не надо. Возьми у пресетовичка, не будет таких аномалий. По крайней мере я не встречал

> И до сих пор не нашлось ни одного хейтера снежного.
Одного таки помню в треде, но он дурачок. Играл без систем промпта, пытался в андерэйдж и писал, что в ллм уже 4 года и вообще мы глупые. Исключение подтверждает правило
Аноним 04/06/25 Срд 11:10:03 #525 №1232153 
>>1232146
>И до сих пор не нашлось ни одного хейтера снежного.
А мне не зашёл чего-то.
Аноним 04/06/25 Срд 11:14:54 #526 №1232160 
>>1232152
>Ты используешь пресет со страницы модели? Не надо. Возьми у пресетовичка, не будет таких аномалий. По крайней мере я не встречал
Не, я пробовал пресет тредовичка. Я на своём инвалидном сижу. Люблю крутить соски семплеры. Когда контекст переваливает за 10к, он начинает периодически иероглифы хуячить при свайпах. Но это терпимо. Я готов прощать ему за хорошее повествование.
>>1232153
Да, но ты же не бегаешь по треду с СНЕЖНЫЙ ГОВНО ПАРАША ФУ БЛЯ
Ну не понравилось, ну не понравилось. Как и нет фанбоев снежного, которые засрут весь тред ММММ СНЕЖНЫЙ СИСИК ПИСИК УМНИЦА 10 ИЗ 10.
Аноним 04/06/25 Срд 11:19:53 #527 №1232168 
>>1232133
А не с лоботомитом драмера сравнить слабо?
Аноним 04/06/25 Срд 11:20:34 #528 №1232172 
>>1232168
А с чем?
Аноним 04/06/25 Срд 11:20:38 #529 №1232173 
2439156trinixyru.jpg
>>1232160
> Как и нет фанбоев снежного, которые засрут весь тред ММММ СНЕЖНЫЙ СИСИК ПИСИК УМНИЦА 10 ИЗ 10.
Потому что это выбор настоящих мужчин. Пока деть форсит Немотрон из треда в тред, а усатые скуфы симпят Геммочку, они молча наслаждаются
Аноним 04/06/25 Срд 11:24:24 #530 №1232176 
>>1232173
Форс немотрона заканчивается на этом треде
Я буду его гейткипить как последняя тварь, он только мой
вот так и делись с анонами годнотой
Аноним 04/06/25 Срд 11:25:55 #531 №1232177 
>>1232176
Кого ты обманываешь. Да ты через пару постов опять начнешь
Мммм немотрончик, он так сладко растягивает мой анус, теперь в него входит две RTX5090....
Аноним 04/06/25 Срд 11:34:03 #532 №1232187 
Господа, понимаю что нерелейтед, но посоветуйте проц на замену Core i5-8400. Тут просто сидят всякие ригеры и технари, а у меня происходит разрыв ебла когда я открываю какой нибудь ДНС и мне выдаёт 9999 разных процессоров, я просто не знаю что выбрать. Бюджет 30к.
Аноним 04/06/25 Срд 11:36:49 #533 №1232191 
>>1232187
Я могу точно сказать, что не стоит брать I7-13700KF (Потому что 2 уже сгорело, а мне по гарантии третий выдали, жду когда и он отъебнет, да, я необучаемый)
Аноним 04/06/25 Срд 11:39:16 #534 №1232197 
>>1232187
Очевиднейший Ryzen 5950x. Только материнка и охлад тебе тоже в денюжку выйдут
Аноним 04/06/25 Срд 11:40:09 #535 №1232199 
>>1232191
Ты его в риг пихал или в обычный домашний пк для игор\локалок?
Аноним 04/06/25 Срд 11:41:55 #536 №1232204 
>>1232197
Ну вот мне и едале под тот же сокет что и сейчас стоит, я понимаю что там старое поколение сокета, но всё же.
Аноним 04/06/25 Срд 11:42:27 #537 №1232206 
>>1232199
Обычный домашний. Ну условно обычный, дорогой домашний. Так будет правильнее.
Собрать пека для игрушек и играть во второй фоллыч. Зато гештальт детский закрыт.
Аноним 04/06/25 Срд 11:56:00 #538 №1232228 
BestiaryZeugl..webp
>>1232187
>ригеры

Ахуенно сидим.
Аноним 04/06/25 Срд 13:26:55 #539 №1232311 
За полгода изучил примерно все, что мог изучить про локальные ллмки вплоть до 70б, опробовал все сколь-нибудь известные модели в пределах данной весовой категории. На протяжении почти полугода каждый день тратил на это по несколько часов, иногда сидел за ллмками днями напролет, настолько интересно было. Конечно же, попробовал и ролеплек, и текстовые приключения потыкал, и кодинг, вообще всё. Месяц за месяцем освоил промптинг, сэмплинг, изучил инференсы, квантование, оценил и сравнил всевозможные модели, форматы карточек, создавал свои карточки, научился мерджить и попробовал примитивный тюнинг через лору. И в последние три недели интерес практически полностью угас. Потому что есть почти полная картина того, как это все работает с практической точки зрения. Люди, которые пишут, что ллмки - попугай или бредогенератор, недалеки от истины, хотя такое сравнение и несколько оскорбительно. Теперь снова тянет туда, где есть искусство, что-то живое, к чему прикоснулся человек, а не выжимка из датасета, которая пытается дать именно то, что тебе нужно. Не хочется возвращаться к чатам на тысячи сообщений, где я философствовал на разные темы, развивал фэнтезийную рпшку или играл в текстовое приключение-детектив. Потому что с осознанием потерялась эмоциональная глубина. Теперь раз в недельку прихожу покумить на 30-40 сообщений, потому что мне впадлу искать тот контент, который мне нужен, ибо больные ублюдки заполонили интернет со своими нездоровыми фетишами. Хотя это были чертовски увлекательные полгода, должен признать. Давно ничем так не горел. Сеймы есть?
Аноним 04/06/25 Срд 13:28:58 #540 №1232314 
>>1232311
Нищук с 8 врама спок
Аноним 04/06/25 Срд 13:31:10 #541 №1232320 
>>1232314
А еще здесь один из самых живых и веселых тредов на этой помойке, это уж точно.
Аноним 04/06/25 Срд 13:31:51 #542 №1232322 
Что такое пантеон? Хочу скачать эту модель, квена 30б с МоЕ
Pantheon-Proto-RP-1.8-30B-A3B, так в чем суть что тут много личностей? Или как..

Алсо, что лучше тогда, пока сижу на гемме3, но она мне уже надоела, снова к мистралю возвращаться? На примете к возвращению SAINEMO-reMIX и возможно NekoMix-12b.
Аноним 04/06/25 Срд 13:33:06 #543 №1232325 
Вчера ебался с этим рокм на двух mi50 часов 8, так и не смог внятно запустить эту хуету. Походу буду дальше на вулкане сидеть пердеть, как бы это в раз 6 быстрее чем было до того, но сука не раскрыл потанцевал
Аноним 04/06/25 Срд 13:37:50 #544 №1232338 
>>1232322
>Что такое пантеон?
Изначально тюн мистрали. На пару с цидонькой - были одними из самых популярных тюнов для РП. Цидонька это слоп от драммера, так что ЕРП. Пантеон же, целиком про РП.
>Pantheon-Proto-RP-1.8-30B-A3B
Бета Пантеон на основе квена. Хуита, как по мне. Не взлетел, так как кривой и косой. Ну и не зря там proto
Аноним 04/06/25 Срд 13:39:48 #545 №1232345 
>>1232338
>Бета Пантеон на основе квена. Хуита, как по мне. Не взлетел, так как кривой и косой. Ну и не зря там proto
Хорошо, тогда что мне лучше бы сейчас сделать остаться на гемме или возвратиться на эти две модели SAINEMO-reMIX и NekoMix-12b
Аноним 04/06/25 Срд 13:40:43 #546 №1232346 
1000017510.mp4
>>1232325
Сколько токенов на 70б?
Аноним 04/06/25 Срд 13:41:51 #547 №1232349 
>>1232345
Что мне лучше на завтра скушать, кашу овсяную или рисовую?
Аноним 04/06/25 Срд 13:42:00 #548 №1232351 
>>1232346
а подскажи пизтатую модельку с этими параметрами, я скачаю
Аноним 04/06/25 Срд 13:42:08 #549 №1232352 
изображение.png
изображение.png
Вот поясните. Gemma достаточно хороша в простых беседах и советах (особенно для модели 4B, которая запускается даже на моей микроволновке).

Но почему, когда я пытаюсь поговорить с ней на тему игр или кино, она начинает плести шизу? Она просто выдумывает сюжеты даже самых известных фильмов и игр. Хотя иногда бывает выдаёт что-то нормальное.
Аноним 04/06/25 Срд 13:43:30 #550 №1232358 
>>1232351
https://huggingface.co/zerofata/L3.3-GeneticLemonade-Unleashed-70B
Аноним 04/06/25 Срд 13:45:41 #551 №1232362 
17311869062170.jpg
>>1232349
Рисовую.
Аноним 04/06/25 Срд 13:48:23 #552 №1232372 
>>1232322
Попробуй 24Б мистрали
- DXP-Zero
- Harbinger-24B
- Space-Wars-24B
- Zero-Mistral-24B

гемму-синтию

- remnant-glm4
- QwQ-Snowdrop
- Star-Command-R-32B
- Qwen3-30B-A3B (не пантеонотюн)
Аноним 04/06/25 Срд 13:48:57 #553 №1232375 
>>1232322
>SAINEMO-reMIX и возможно NekoMix-12b
Darkness Reign
Аноним 04/06/25 Срд 13:51:05 #554 №1232383 
>>1232349
>овсяную или рисовую
А гречневую пробовал? Самая вкусная IMO.
Аноним 04/06/25 Срд 13:52:14 #555 №1232390 
image.png
>>1232372
Я запускаю на 6 врам и 16гб озу, так что 12б..(
>>1232375
Пробовал, такая же себе модель, нет? Я может ошибаюсь. Еще пик модели тестировал, они проигрывали предложенным мне уже моделями. Также квант хуйня, поэтому вероятно и хуево
Аноним 04/06/25 Срд 13:53:17 #556 №1232395 
Я рот этих нейронок долбил, поставил линух на 1тб, нихуя кроме ллм не крутил, на след. день 300гб свободно
Аноним 04/06/25 Срд 13:53:53 #557 №1232396 
>>1232352
>она начинает плести шизу
4Б, что ты хотел, там даже 12Б может выдумывать, но хотя бы креативно выдумывать.

Что-то 22-32Б уже могут быть варианты, модель с ризонингом может подумать и сказать что не знает такого. Остальные скорее всего тоже придумают тебе сказку.
Аноним 04/06/25 Срд 13:55:45 #558 №1232400 
>>1232146
> все довольны
Не довольны. Любит скатывать в фурри-слоп и придумывать лишние детали, выдавать занудный и неприятный стиль письма, упускает важное или гиперфиксируется, на больших контекстах вообще может поломаться до спама одного символа, рельсовость высока.
Просто она в целом перформит нормально исключая эти минусы, не вызывает явной неприязни и толерантна к промтам. Можно покатать и хейта действительно не вызывает, хлебушки не добираются до ее проблем, требовательные с учетом размера понимают и прощают, используя что-то другое.
>>1232187
Какой-нибудь 13600-14600-12700 и z690 или попроще, на лохито платформа все еще на гарантии укладываются в твой бюджет, синие здесь будут более предпочтительны чем красные. Из красных можно 7600 комплектом или по частям попытаться выцепить, 9к еще слишком дорогая а совсем младших брать не стоит. Из минусов - в среднем хуже конфиг pci-e, медленная память, чуть слабее по прайс-перфоманс, но зато нет проблем с окислением. Не то чтобы на сегодня осталось много живых бракованных и погорельцев у красных своих хватает
Аноним 04/06/25 Срд 13:58:36 #559 №1232413 
>>1232390
а что за NL квант, первый раз вижу такой

>>1232390
>квант хуйня
мб, я минимум 6той гонял, так что пояснить за квант не возьмусь

>>1232395
Оооо, ты ещё не понимаешь насколько глубока эта кроличья нора...
Аноним 04/06/25 Срд 14:00:28 #560 №1232420 
>>1232325
>Вчера ебался с этим рокм на двух mi50 часов 8, так и не смог внятно запустить эту хуету.
Пробовал вот этот форк Кобольда?
https://github.com/YellowRoseCx/koboldcpp-rocm
Аноним 04/06/25 Срд 14:01:40 #561 №1232423 
>>1232413
А это какой-то квант бартовски, может еще у кого-то есть. Это для арм процов, я случайно скачал, смотрел только на вес и чтобы была _L
Аноним 04/06/25 Срд 14:01:41 #562 №1232424 
>>1232420
закомпилить так нормально и не смог, чото ему нравится
получилось запустить stable diffusion с рокм
Аноним 04/06/25 Срд 14:02:03 #563 №1232427 
>>1232311
Искусство начинается с тебя.
Попробуй из новых моделей, тот же квенчик. Удивишься насколько более живым оно может быть.
>>1232352
> она начинает плести шизу
> 4B
А чего ты хотел то? Чудо что вообще оно может на приличном русском болтать в таком размере.
>>1232325
Ну пиздец, разочаровываешь. Возможно это и есть причина почему восторженные предвскушатели с ними не возвращаются.
Там вообще таки есть оффициальная поддержка или хуй? Что уже делал и как?
Аноним 04/06/25 Срд 14:06:58 #564 №1232438 
image.png
>>1232427
там поддержка вроде есть, но уже устаревшая платформа, они новые фишки какие-то не вводят. гайд есть у них оффициальны и вроде поставил и все ок. Но что надо нашаманить чтобы прикрутить к другим сервисам - хз
С куда ты вообще конечно не ебешься и у тебя там все оно само как на лыжах едет. Но буду еще тыкать отчеты скидывать как оно что
Аноним 04/06/25 Срд 14:14:03 #565 №1232462 
Помогите ньюфагу, не понимаю че такое.

Несколько месяцев назад решил залететь во все это дело, поставил ST и Ollama/CoboldCPP. Модель выбрал джемму 24. На моем слабом пк (4070ti, 32 озу), модель запущенная через олламу ответы генерила довольно быстро, буквально секунд 10-15, работала с большим контекстом, чет около 20к, чего мне хватало.
Через кобольд гараздо медленнее получалось, приходилось от минуты и больше ждать (Может настроил не так, хз).
Потом я забил на это дело и щас буквально вчера снова решил попробовать, обновил, запустил и теперь блять каждый раз по 2-3 минуты жду на ответ, с контекстом в 8к ваще.
Оллама которая была быстрее кобольта, стала работать даже медленне последнего. Чзх произошла.
Скачал 12б модель для теста, работает быстрее.

Это че, на моем компуктере нельзя запускать 24-27б модели? Но если так, какого хуя раньше работало более-менее все норм. Нихуя ж не делал.
Че вообще надо чтобы быть 27б господином и не ждать по 5 минут на ответ? ОЗУ докупить или ваще фул все менять вместе с видеокартой?
Аноним 04/06/25 Срд 14:16:23 #566 №1232471 
>>1232424
>закомпилить так нормально и не смог, чото ему нравится
А вот тут у них вроде уже скомпиленно:
https://aur.archlinux.org/packages/koboldcpp-hipblas

(Я слабо разбираюсь, если что)
Аноним 04/06/25 Срд 14:19:07 #567 №1232479 
>>1232471
это для арча, я на минте поперживаю
Аноним 04/06/25 Срд 14:24:23 #568 №1232491 
>>1232427
> Искусство начинается с тебя.
Ты прав, конечно, анонче. У меня очень продуманные карточки и ответы, в каждом не меньше 250-300 токенов. Видимо, это уже исчерпало ресурс. Не помогает смотреть на ллмки иначе.

> Попробуй из новых моделей, тот же квенчик.
Пробовал самые последние модели тоже, разумеется. Разве что большой мое-квен не запускал, плотный 32б не впечатлил совсем. Ну а гонять Дипсик мне не на чем, обновляться ради этого - ну такое, особенно если учесть мой пропавший интерес. Быть может, через несколько месяцев релизнут что-нибудь прорывное, но подозреваю, заинтересует на недельку-другую поиграться. Ведь фундаментально ничего не изменится. Кстати, многие компании, что исследуют ллмки, уже получают сокращенное финансирование. Похоже, все идет на спад, и так и будет продолжаться, пока не изобретут архитектуру, что даст качественно новый уровень опыта.

К слову, в треде все самые лучшие модельки упоминаются довольно часто. Умницы тут сидят, держат руку на пульсе событий. Добавлю разве что свое имхо - 70б модели не ощущаются слишком умнее 32б моделей и Геммы. Выше присылали пост, где чувак сравнивает Синтию 27б с 70б моделями. Если он и преувеличил, то совсем немного. Хорошие модели сегодня доступны всем, у кого есть сколь-нибудь нормальное железо для игр.
Аноним 04/06/25 Срд 14:28:54 #569 №1232508 
>>1232491
>даст качественно новый уровень опыта
Ну Гемма строго говоря уже дала. Её проблема, что всего 27В - а было бы она 70В? Но даже в своём размере ощущается как нечто новое. Квен вот новый вышел и внезапно оказалось, что погонять его можно с одной 3060 (+128гб РАМ, но всё-таки). Есть прогресс так-то.
Аноним 04/06/25 Срд 14:30:11 #570 №1232512 
>>1232396
Но ведь по другим темам Гемма вполне себе хороша. Почему именно на кино у неё шиза начинается? Не обучалась на статьях про кино?
Аноним 04/06/25 Срд 14:31:12 #571 №1232515 
пацаны, а что с челом который с таобао заказывал амд инстинкты?
Были от него новости?

А то я выпал на несколько тредов
Аноним 04/06/25 Срд 14:31:58 #572 №1232518 
>>1232438
А в чем прикол, жора на хипе по инструкции из репы не собирается?
>>1232491
> большой мое-квен не запускал, плотный 32б не впечатлил совсем
Это небо и земля просто. Там как раз фишка в огромной вариативности и четком восприятии контексте и ситуации, тонко и уместно, а не огромная дискретность и шаблонность как часто бывает. Плюс много знаний и рп-релейтед в датасете.
Сам привык хейтить мое и повторяю что это странная ссанина с отвратным перфомансом, но квен оче яркое исключение. Надеюсь дальше будет больше, а также увидим большие плотные модели с таким же обучением. А то в средне-высоком размере застой, сейчас больше внимания ~30 уделяют.
> Дипсик
Что старый, что новый - не то.
Аноним 04/06/25 Срд 14:37:06 #573 №1232525 
>>1232491
Попробуй немотрон 49б с пресетом анона.
Играться с ним можно долго
Аноним 04/06/25 Срд 14:40:34 #574 №1232527 
>>1232518
какая жора?
Аноним 04/06/25 Срд 14:41:59 #575 №1232532 
>>1232508
> Ну Гемма строго говоря уже дала.
Она правда умница, но все же я бы не стал до конца списывать QwQ и даже тюны Qwen2.5. Там тоже были хорошие. Гемма в целом умнее и красочнее, но тюнить ее чертовски сложно, потому и есть у нас только Синтия.

>>1232518
> А то в средне-высоком размере застой, сейчас больше внимания ~30 уделяют.
Как ни странно, мне кажется это более логичным направлением. 32б модели можно запускать на потребительском железе в адекватном кванте, а те, кто готовы потратить внушительные средства под ллмки, как правило готовы гонять локально самые большие модели. Ну и всегда можно заапскейлить модель. Если сделают умницу в пределах 30б, которая поддается тюнингу, можно ее расширить и натренировать на нужных данных.

>>1232525
Анонус, проблема... я и есть тот анон, который сделал для него пресет. Тут дело не в количестве параметров совершенно, а в базовом принципе, который сейчас лежит в основе работы всех ллмок.
Аноним 04/06/25 Срд 16:05:39 #576 №1232584 
Помянем опа, светлая память
Аноним 04/06/25 Срд 16:11:52 #577 №1232590 
>>1230104
>>1230604
Это, кстати, не протык на реддите, а создатель известных и почитаемых 70б мерджей и тюнов: https://huggingface.co/sophosympatheia
Таких, например, как Midnight Miqu. Он знает, о чем говорит. Выходит, и правда уровень почти 70б при 27б параметрах.
Аноним 04/06/25 Срд 16:28:29 #578 №1232609 
>>1232584
До 1000 сидим.
Аноним 04/06/25 Срд 16:29:43 #579 №1232611 
Вкатываюсь с 2х 3090.
Есть ли какие-нить бенчи на все возможные виды тасков, чтобы проверить самому что даст андервольт/разгон того или иного, нвлинк, разные движки, оффлоад разных слоев которые не влезают в врам, итд?
Аноним 04/06/25 Срд 16:30:02 #580 №1232612 
>>1231163
О-о-о, одобряемо! =D
Поздравляю. =)

>>1231398
Под РОКм должно быть ~15-20, а не 10. По идее.

>>1232383
Немотронщик, ты?!
Аноним 04/06/25 Срд 16:46:27 #581 №1232629 
>>1232612
когда-нибудь запущу
кстати, я всех наебал (как и себя) насчет 64гб памяти, нихуя подобного, каждая по 16гб, на что я и рассчитывал когда брал. Просто я слышал что есть по 32гб и чото в выводе каждая отображалась как raqeon vii 32gb. Короче по факту в сумме 32гб и поэтому гигабольшие модельки выгружались в оперативу и токены в мусорку летят.
Аноним 04/06/25 Срд 17:03:47 #582 №1232647 
>>1232590
А про немотрон то он что говорит?
Аноним 04/06/25 Срд 17:10:35 #583 №1232652 
После неудачной попытки пощупать вчера этот немотрон (который не шевелится на моем калькуляторе), вернулся на более компактное. Покрутил опять qwen, glm (которые 32B) - 4-5 t/s, еще раз сравнил с gemma3-27B - у нее ~2.5
Психанул. Впервые заказал себе железку исключительно под нейронки - p104-100 8Gb. Сопроцессором вместе с 3060, работать будет для геммы. Если скорость хоть до 4-5 токенов выжму за такие копейки как эта БУ стоит - буду доволен. А нет - так хоть SD в таверне на отдельной карте запускать буду локально. LOL.
Аноним 04/06/25 Срд 17:17:27 #584 №1232656 
>>1232647
Видимо говно, он его даже не упомянул...
Аноним 04/06/25 Срд 17:21:49 #585 №1232660 
> заказал себе железку исключительно под нейронки
> 8Gb
господи, что же с нами стало
Аноним 04/06/25 Срд 17:43:09 #586 №1232671 
>>1232660
Оно стоит копейки (в 10-12 раз дешевле 3060), в простое - 5-8 ватт, работать будет парой с другой картой. Основная задача - чтобы всю модель запихивать исключительно в VRAM. А она у нее 320GB/s, против 41 у процессора (это еще в идеале). Почему бы и не да, если второй слот на материнке есть.
Получится у меня 20GB vram - гемма и прочие gml с квенами 32B хотя бы на 4-ом кванте влезать будут.
ПЕРЕКАТ Аноним OP 04/06/25 Срд 17:49:28 #587 №1232674 
Не успеваю катить треды уже, дожили.
ПЕРЕКАТ

>>1232673 (OP)

ПЕРЕКАТ

>>1232673 (OP)

ПЕРЕКАТ

>>1232673 (OP)
Аноним 04/06/25 Срд 17:57:16 #588 №1232683 
>>1232462
llamacpp поставь как бэк, попробуй с ним

пошамань с выгрузкой тензоров

позакрывай всё что видеопамять жрёт
comments powered by Disqus

Отзывы и предложения