Сохранен 507
https://2ch.hk/ai/res/201813.html
Прошлые домены больше не функционируют, используйте адрес ARHIVACH.HK.
24 декабря 2023 г. Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

LLaMA тред №5 /llama/

 Аноним 03/04/23 Пнд 20:38:43 #1 №201813 
16802528089500.png
В этом треде обсуждаем семейство моделей от фейсбука под названием LLaMA, делимся рецептами запуска, настроек и годных промтов, и ждём фиксов кривейшего говна, что сейчас наспех выпустили, а отладить забыли.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память.

LLaMA это генеративные текстовые модели размерами от 7B до 65B, притом младшие версии моделей превосходят во многих тестах обходит GTP3, в которой 175B параметров (по утверждению самого фейсбука). От неё быстро ответвилась Alpaca, те же модели, но с файнтюном под выполнение инструкций в стиле ChatGPT, американские студенты рады, в треде же пишут про мусор с тегами в выводе, что запускать, решать вам.

Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай!
1) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth
2) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin
3) Веса, квантизированные в ggml. Работают со сборками на процессорах. Формат имени ggml-model-q4_0.bin
4) Веса, квантизированные в GPTQ. Работают на видеокарте и с оффлоадом на процессор в вебуи. Новые модели имеют имя типа llama-7b-4bit.safetensors (более безопасные файлы, содержат только веса), старые llama-7b-4bit.pt
В комплекте с хуитками для запуска обычно есть скрипты конвертации из оригинальных файлов или из формата Hugging Face. Оригинальную llama.cpp сейчас трясёт, и веса придётся конвертировать ещё раз.

Гайд для ретардов без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем llama_for_kobold.exe https://github.com/LostRuins/llamacpp-for-kobold/releases/ Версия 1.0.5 стабильная, выбираем её, если не хотим приключений.
2. Скачиваем модель в ggml формате. Например вот эту
https://huggingface.co/Pi3141/alpaca-lora-30B-ggml/tree/main
Можно просто вбить в huggingace в поиске "ggml" и скачать любую, охуеть, да? Главное, скачай файл с расширением .bin, а не какой-нибудь .pt - это для линуксоидных пидоров.
3. Запускаем llama_for_kobold.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/TavernAI/TavernAI
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Радуемся

Ссылки:
https://rentry.co/llama-tard-v2 общая ссылка со всеми гайдами от иностранных коллег
https://github.com/oobabooga/text-generation-webui/wiki/LLaMA-model Удобный вебгуй для запуска
https://github.com/ggerganov/llama.cpp репозиторий с реализацией на плюсах и запуском на процессоре, в 10 раз медленнее видеокарт, зато не нужна карта с десятком гигабайт VRAM.
https://github.com/tloen/alpaca-lora Та самая альпака.
https://github.com/antimatter15/alpaca.cpp тоже самое, только на плюсах и проце.
https://pastebin.com/vWKhETWS Промт для АИ собеседника
https://pastebin.com/f9HZWiAy Промт для Мику
https://rentry.co/vsu4n Инструкция GPTQ
https://github.com/oobabooga/text-generation-webui/files/11069779/LLaMA-HF-4bit.zip новые торренты
https://rentry.co/nur779 Модели в ggml и safetensors

Предыдущие треды тонут здесь:
>>195273 (OP)
>>184604 (OP)
Аноним 03/04/23 Пнд 20:41:04 #2 №201816 
https://huggingface.co/lmsys/vicuna-13b-delta-v0 добавь в шапку

magnet:?xt=urn:btih:a7fac57094561a63d53eed943f904abf24c6969d&dn=Vicuna-13B-HF-fp16-delta-merged_2023-04-03&tr=udp%3a%2f%2ftracker.opentrackr.org%3a1337%2fannounce&tr=udp%3a%2f%2ftracker-udp.gbitt.info%3a80%2fannounce&tr=udp%3a%2f%2ftracker1.bt.moack.co.kr%3a80%2fannounce&tr=udp%3a%2f%2ftracker.tiny-vps.com%3a6969%2fannounce&tr=udp%3a%2f%2ftracker2.dler.org%3a80%2fannounce&tr=udp%3a%2f%2fopentracker.i2p.rocks%3a6969%2fannounce&tr=udp%3a%2f%2ftracker.altrosky.nl%3a6969%2fannounce&tr=udp%3a%2f%2ftracker.theoks.net%3a6969%2fannounce&tr=udp%3a%2f%2ftracker.dler.org%3a6969%2fannounce&tr=udp%3a%2f%2ftracker.torrent.eu.org%3a451%2fannounce&tr=udp%3a%2f%2ftracker.openbittorrent.com%3a6969%2fannounce&tr=https%3a%2f%2fopentracker.i2p.rocks%3a443%2fannounce&tr=http%3a%2f%2ftracker.openbittorrent.com%3a80%2fannounce&tr=udp%3a%2f%2ftracker.moeking.me%3a6969%2fannounce&tr=udp%3a%2f%2ftracker.monitorit4.me%3a6969%2fannounce&tr=udp%3a%2f%2f9.rarbg.com%3a2810%2fannounce

magnet:?xt=urn:btih:1e0c3dbeefe82483f81bd4e7ea959e4953c8081f&dn=Vicuna-13B-ggml-4bit-delta-merged_2023-04-03&tr=udp%3a%2f%2ftracker.opentrackr.org%3a1337%2fannounce&tr=udp%3a%2f%2f9.rarbg.com%3a2810%2fannounce&tr=udp%3a%2f%2ftracker.monitorit4.me%3a6969%2fannounce&tr=udp%3a%2f%2ftracker2.dler.org%3a80%2fannounce&tr=udp%3a%2f%2fopentracker.i2p.rocks%3a6969%2fannounce&tr=udp%3a%2f%2ftracker.torrent.eu.org%3a451%2fannounce&tr=udp%3a%2f%2ftracker.openbittorrent.com%3a6969%2fannounce&tr=udp%3a%2f%2ftracker.dler.org%3a6969%2fannounce&tr=udp%3a%2f%2ftracker-udp.gbitt.info%3a80%2fannounce&tr=udp%3a%2f%2ftracker1.bt.moack.co.kr%3a80%2fannounce&tr=https%3a%2f%2fopentracker.i2p.rocks%3a443%2fannounce&tr=udp%3a%2f%2ftracker.altrosky.nl%3a6969%2fannounce&tr=udp%3a%2f%2ftracker.tiny-vps.com%3a6969%2fannounce&tr=udp%3a%2f%2ftracker.moeking.me%3a6969%2fannounce&tr=http%3a%2f%2ftracker.openbittorrent.com%3a80%2fannounce&tr=udp%3a%2f%2ftracker.theoks.net%3a6969%2fannounce
Аноним 03/04/23 Пнд 20:41:53 #3 №201820 
>>201813 (OP)
Ты тему треда с тегом забыл указать, он не будет отображаться в каталоге.
Аноним 03/04/23 Пнд 20:43:00 #4 №201824 
>>201820
инвалиды не умеют в перекат, вот так новость
Аноним 03/04/23 Пнд 20:44:32 #5 №201829 
>>201824
не новость
Аноним 03/04/23 Пнд 20:57:15 #6 №201869 
А как заюзать через KoboldAI видеокарту?
Аноним 03/04/23 Пнд 21:02:44 #7 №201879 
>>201820
Он специально, это слбакашиз гадит.
Аноним 03/04/23 Пнд 21:04:18 #8 №201883 
изображение.png
>>201869
Писец медленная хня
Аноним 03/04/23 Пнд 21:05:23 #9 №201886 
>>201883
Ты бы ещё на интел атом запускал.
Аноним 03/04/23 Пнд 21:05:38 #10 №201887 
изображение.png
Аноним 03/04/23 Пнд 21:06:12 #11 №201888 
>>201886
а на чём же тогда надо запускать?
Аноним 03/04/23 Пнд 21:07:39 #12 №201891 
>>201888
На 4090 хотя бы.
Аноним 03/04/23 Пнд 21:08:17 #13 №201892 
>>201888
я правда в виртуалке это говно запускаю, может из-за этого.
на железе очково левые ехешники юзать

>>201891
3080 пойдёт?
Аноним 03/04/23 Пнд 21:22:06 #14 №201922 
>>201586 →
Как ты её запустил подскажи в батнике строки?
Аноним 03/04/23 Пнд 21:47:28 #15 №201987 
>>201820
Репортни модератору, он может исправить. Я репортнул, криворукий ОП.
>>201892
>я правда в виртуалке это говно запускаю, может из-за этого.
Запускай на железе, это хорошая бифидобактерия.
Аноним 03/04/23 Пнд 21:47:53 #16 №201990 
Скажите так все таки, какая модель топ для чат куминга? 6б дев pygmalion или llama 13и 4bits?
Аноним 03/04/23 Пнд 21:50:24 #17 №202003 
>>201990
Топ это GPT4, недосягаемый топ. А так пока пигма, если только подрочить.
Аноним 03/04/23 Пнд 21:51:52 #18 №202012 
>>202003
дев или обычная? То есть если задача початиться с персонажем то мудрить с ламой смысла даже нет?
Аноним 03/04/23 Пнд 21:54:41 #19 №202027 
>>202012
Если просто чатится, без куминда, то опять таки намекну на подделки от ОпенАИ.
Если что-то умное, то ллама.
Если дрочить, то пигма, дев сейчас вроде как лучше, но его как всегда может шатать (на то он и дев).
Аноним 03/04/23 Пнд 21:58:57 #20 №202036 
>>202027
Спасибо, ананас!
А на что вообще битность влияет, к примеру есть 12гб врам, что стоит лучше активировать в строке запуска?
Аноним 03/04/23 Пнд 22:07:17 #21 №202046 
>>201887
База
Аноним 03/04/23 Пнд 22:14:35 #22 №202059 
image.png
Ему стыдно, лол. Оно предъявило за обидку, и теперь не знает как красиво разрулить.
В общем мы там договорились за компенсацию.
Просто надо поставить на вину, и можно крутить как хочешь - тема, знакомая с детства.
Аноним 03/04/23 Пнд 22:30:27 #23 №202100 
>>201816
>If a rooster lays an egg on the top of a roof, which side will the egg roll down?
>All mammals are warm-blooded. All dogs are mammals. Are all dogs warm-blooded?
>Can you identify the main topic and sentiment of the following text: "The new restaurant in town has amazing food, but the service is quite slow."
>If there are 12 fish in a fish tank and half of them drown, how many fish are left?
>If you divide 30 by half and add 10, what is the result?

Ща потестим.
Аноним 03/04/23 Пнд 22:33:11 #24 №202114 
>>202036
>А на что вообще битность влияет
На точность. С меньшей битностью модель тупее. Но при хорошем округлении и 4 бита работают.
Аноним 03/04/23 Пнд 22:44:54 #25 №202148 
image.png
image.png
image.png
image.png
>>202100
С третьего раза дала правильный ответ.
Аноним 03/04/23 Пнд 23:00:43 #26 №202193 
image.png
image.png
image.png
image.png
>>202148
Правильного ответа не дает, про няшу землекопа не знает.
Аноним 03/04/23 Пнд 23:06:27 #27 №202212 
image.png
image.png
image.png
image.png
>>202193
Вроде норм.
Аноним 03/04/23 Пнд 23:17:14 #28 №202224 
image.png
image.png
image.png
image.png
>>202212
На четвертый раз, она смогла.
Аноним 03/04/23 Пнд 23:27:52 #29 №202242 
image.png
image.png
image.png
image.png
>>202224
На вторую попытку дала верный ответ.
Аноним 03/04/23 Пнд 23:34:42 #30 №202246 
image.png
натолкнуло на мысль скрапнуть все комменты срутреккера
охуенно же пиздеть с такой ллм: ты ей трехэтажное сообщение, а она тебе ПОДДАЙТЕ ГАЗКУ
Аноним 03/04/23 Пнд 23:36:08 #31 №202250 
>>202148
>>202193
>>202212
>>202224
>>202242
Что можно сказать. На процессорах модель жрет промпт и генерит текст в два раза быстрее чем lama 13b. Ответы дает точнее, собакашиз должен быть доволен. Только няша землекоп остался не разгадан, но гпт 4 обосралась на этом вопросе.
Единственный вопрос, который возникает, "нахуя ты дрочишь Мегумин своими вопросами?"
Отвечу: Потому что лама и альпака дают ответы при этом отыгрывая роль >>191056 → эта хуйня косплеит википедию.
Аноним 03/04/23 Пнд 23:58:27 #32 №202292 
>>202148
С первого. У человека тоже с таким вопросом будут трудности. Правильный ответ - зависит от крыши. Заметь, вопрос не про то, несут ли петухи яйца - вопрос про то, чтобы было бы с яйцом, если бы петух его снес.
Аноним 04/04/23 Втр 00:00:56 #33 №202298 
>>202292
Согласен, но она должна объяснить оба момента, в этом суть вопроса.
Аноним 04/04/23 Втр 00:08:18 #34 №202312 
image.png
>>202250
П.С.
Аноним 04/04/23 Втр 00:45:50 #35 №202388 
> Quantized Vicuna for GPUs, 4/8bit 128g
> magnet:?xt=urn:btih:f67d372a01c0b8e0162931623d6c55a5e6f34921&dn=Vicuna-13B-quantized-128g&tr=http%3a%2f%2fbt2.archive.org%3a6969%2fannounce
Аноним 04/04/23 Втр 01:34:33 #36 №202449 
>>201816
Анончик, это топ! В шапку однозначно.
Разница невероятная. Более того - оно еще и код корректный отдает. При этом работает раз в 5 быстрее llama, и памяти вдвое меньше кушает.
Одна странность - у нее есть внутренний диалог: оно там само с собой общается, раскрывая дополнительные детали. Но это даже интересно, тем более пишет оно быстро, как в телеграм юзвери пишут. И хотя по тесту производительности цифры +/- схожие, но llama реально долго тупит и медленно пишет, а викуля реактивно строчит, при этом еще и более внятную инфу отдает: от llama так и не добился внятного кода, долго думало, и выдавало реальный высер, даже с первого взгляда абсолютно не рабочий: перезаписало одну переменную 10 раз.
Аноним 04/04/23 Втр 01:38:59 #37 №202452 
>>202388
Нужны инструкции что с этим делать
Модельки вроде небольшие, но формат странный
Аноним 04/04/23 Втр 02:34:52 #38 №202504 
>>202449
Жаль что соевая напрочь.
Аноним 04/04/23 Втр 02:58:18 #39 №202521 
>>202449
> Анончик, это топ! В шапку однозначно.
> Разница невероятная. Более того - оно еще и код корректный отдает.
Нууу такое. Может оно в принципе корректный код выдавать хотя бы начало, но даже на простых задачках часто ломается, все которые чатжпт решает без проблем. В этом плане это нихуя не 90% от чатажпт, максимум 50, но это внушает надежду что тюн 30b версий сможет в код также хорошо как чатжпт, а в текста еще лучше. Еще бы без сои
Аноним 04/04/23 Втр 04:28:03 #40 №202598 
Что блядь за викуна уже? Пиздец, всего день в тред не заходил. 4 бит 7B уже завезли?
Аноним 04/04/23 Втр 04:50:20 #41 №202615 
>>202598
Не, только 13b. Фуфел как по мне. Соя, разговор с офлайн википедией, плохой отыгрыш. Ощущение что просто цензуры накатили на модель ламы. Вроде быстрее генерит токены.
Аноним 04/04/23 Втр 07:03:40 #42 №202687 
Что делать с ошибкой сигментации?
Своп огромен, 7b по словам из интернета занимает 4GB RAM.
Аноним 04/04/23 Втр 08:32:59 #43 №202738 
E341B11A-1C3D-4178-A62A-DADA7F932C38.jpeg
>>201813 (OP)
Я тут узнал, что у вас петушков проблемы с гуглтранслейтом. Ну как там крошки со стола пидорах с картами уже сброшены для нас простолюдинов на коллабе? Как я и думал, вы просто играетесь с сетями как линукс пердолите ради развлечения, никаких результатов эти игры не дадут.
А ведь если бы сделали коллаб, то сразу бы решили проблему с гуглтранслейтом.
Решение очень простое. Заходите в установщик webui и переустанавливаете, версия с опцией 4 битов была кривой. Все. Стоило подумать почему на коллабе работает, а у вас нет. Потому что коллаб ставит каждый раз новую версию, а у вас старье времен выхода альпаки.
Аноним 04/04/23 Втр 08:33:08 #44 №202739 
>>202388
как её запускать в koboldcpp?
Аноним 04/04/23 Втр 08:35:09 #45 №202741 
https://github.com/oobabooga/text-generation-webui/wiki/LLaMA-model

Подскажите программисты. Оно вебуи в итоге запускает. Есть ли там ключи или выделенные py-файлы, чтобы без бравзера по консольке общаться?
Аноним 04/04/23 Втр 08:58:12 #46 №202750 
А имеет смысл проехать этим https://github.com/lachlansneff/sparsellama
по модельке 65B? Получить промежуточный вариант между 30B и 65B.
Аноним 04/04/23 Втр 09:18:16 #47 №202759 
>>202741
llama.cpp
https://github.com/ggerganov/llama.cpp
Консоль
Да
Аноним 04/04/23 Втр 09:36:23 #48 №202769 
>>202741
Да, консолька есть
Я ее себе в системную консольку интегрировал - будет свой оффлайн-гугл с навыками объяснить что-то.
Как ИИ эти нейронки бестолковые. Но как минигугл - вполне себе на уровне.
Пишешь что-то типа в стиле "расскажи о синтаксисе MySQL insert", и оно расписывает и синтаксис, и для чего каждый операнд, и тонкие моменты. И тебе не нужно документацию рыть, как будто в чатик к коллеге сходил - только переваренная выжимка. Удобно
Пока базы свежие, вполне юзабельно. Но не хватает конечно возможности чтобы оно само по интернету базу обновляло время от времени.
И стартует быстро, что приятно - около секунды от ввода запроса до диалога
Аноним 04/04/23 Втр 09:46:15 #49 №202781 
Аноны, подскажите плз, реально ли запустить модельки GPTQ 30b 4-bit на 3070 с 8 гигами врам через webui? И с каких моделей лучше всего вкатываться, если интересует интерактивный справочник/кодогенератор? Примерно как тут >>202769
Аноним 04/04/23 Втр 09:48:30 #50 №202783 
На AMD A6 конечно всё очень плохо...

Нужно что-то мощнее калькулятора купить, но денег нет.

>>202769
А ты под задачи файнтьюнь. Вон в NAI-треде на каждый объект во вселенной уже своя лора есть.
Аноним 04/04/23 Втр 09:50:33 #51 №202787 
>>202449
Получилось обуздать внутренний диалог.
Он проявляется в случае, если промт недостаточно строгий.
Почему-то стандартный промт оно воспринимает как игру, и иногда пытается отыграть не только ассистента, но и человека - штука более творческая, чем обычная лама.
Похоже это последствия дообучения на других сетях - некоторые диалоги выглядят как запись чужих диалогов, возможно как раз из процесса обучения/опроса других сеток.
Также внутренний диалог включается, если сетке что-то непонятно, вызывает сомнения, или оно пытается понять вопрос/проблему. Тогда в игру вступает третье лицо - хуман. И начинаются рассуждения между хуманом и ассистентом: о чем был вопрос, как его можно интерпретировать, что можно ответить, и т.п.
В этом случае помогает добавить в промо фразу о том, что если есть сомнения или что-то непонятно - нужно переспросить. Иначе оно длинные диалоги и рассуждения включает, и пытается дать ответ на вопрос с учётом всех неточностей и скрытых смыслов, а хто 5-10 вариантов ответа, из которых релевантен только один
Аноним 04/04/23 Втр 09:59:51 #52 №202789 
>>202783
Пока не разобрался как файнтюнить
Хочется чего-то уровня веб-паука, чтобы оно просто сгребало всю информацию из сети по заданным темам и упаковывали её в веса, а потом в оффлайне искало по этой базе. Тогда можно будет на выходные запускать - пущай себе гуглит весь интернет. Возможно для веб-паука потребуется отдельная простенькая нейронка, чтобы искало полезное, а не все подряд.
Аноним 04/04/23 Втр 10:30:09 #53 №202811 
>>202789
Смотри в сторону архитектуры RETRO.
Оно как раз под такое расчитано.

На хабре есть вроде хорошая пояснительная статья, как это работает. Но если короче - соберается текстовая база данных, в которой нейросеть ищет нужное и вставляет в контекст. Благодаря RETRO лингвистические модели могут наконец-то перестать путаться в датах или выдумывать "исторические факты".

Переобучать ретро тоже не нужно, чтобы добавить новые данные нужно просто занести их в БД. Сама нейросеть держит только лингвистическую информацию.
Аноним 04/04/23 Втр 10:44:46 #54 №202820 
В ШАПКУ

https://rentry.org/localmodelslinks
Аноним 04/04/23 Втр 10:47:44 #55 №202823 
>>202789
https://yacy.net/

p2p поисковик
Аноним 04/04/23 Втр 11:02:13 #56 №202833 
Какую магию нужно провести над моделью, чтобы токен генерировался хотя бы меньше минуты?

Пока токен сгенерируется и от старости умереть можно.
Аноним 04/04/23 Втр 11:02:24 #57 №202834 
>>202820
Ещё
https://rentry.co/nur779
https://archive.ph/muJSX
https://aituts.com/llama/
Аноним 04/04/23 Втр 11:19:55 #58 №202853 
>>202781
Ну смотри сам
Я гоняю 13b сетку на q4.
По формуле анона выше получаем:
132.5=32 Гб рамы на f16
На q8 это 32/2=16гб рамы.
На q4 соответственно 16/2=8гб рамы
У меня оно примерно столько и кушает: 7.5 сама моделька + 1.5 кешей + мусор, итого около 10гб

Для 30b q4 получаем следующее:
30
2.5=75гб
/2/2=19гб
Это только моделька. + кеши и мусор, ещё несколько гигов.
Так что в 8гб это явно не лезет.

Но выше анончики писали про CPU offload, якобы в таком случае оно подгружает в вычислитель модельку не целиком, а по слоям - так есть шансы разменять производительность на экономию памяти. Так что погугли в эту сторону.

Также нужно учитывать, что даже с видюхой оперативки все равно нужна - так понимаю сейчас зачем-то там висит сама сетка, а в видюху только ее срезы загружаются для обработки. Т.е. гигов 25 оперативки все равно потребуется.
Но опять же, у анончиков успешно получалось разменивать оперативку на подкачку, понятно что за счет производительности.
Так что в теории недостаток ресурсов можно компенсировать, но работать это будет так, что сам будешь не рад.

У меня сейчас все это на CPU крутится, но на avx 512 - от новых процессоров польза таки есть. И похоже сейчас самый функциональный движок именно lama.cpp - только там есть всякие необычные расширения, такие как neon и avx 512. Возможно скоро и opencl добавят: у меня сейчас 32 opencl-ядра по 5ггц и две opencl-видюхи, суммарно гигов на 40 оперативы на 100гб/с + 3тб кеша на 10гб/с, и около 100терафлопс вычислительной мощности, и без opencl эту мощность нагрузить просто нельзя, а с opencl мини-кластер можно получить из обычного игрового пека.
Аноним 04/04/23 Втр 11:47:45 #59 №202865 
Реквестирую quickrundown, как запустить хоть какую-то лламу на винде на 12гб врама?
Аноним 04/04/23 Втр 12:10:09 #60 №202889 
>>202865
Ты для начала просто запусти и поиграй я, чтобы разобраться как сам процесс происходит, какие движки есть, какие форматы, как преобразовывать, как квантовать - это значительно облегчает задачу. Инструкции по запуску есть на гитхабе конкретного движка: какие форматы берет, куда складывать модели, как запускать, какие настройки принимает, нередко и готовые примеры есть в стиле "просто скачай модель"
А потом уже можно в тонкости погружаться
7b q4 например около 3-4гб, этого точно хватит для 8гб, весь вопрос за движком: какой выбрать, как с ним работать
Аноним 04/04/23 Втр 12:12:10 #61 №202891 
>>202853
Благодарю. У меня крутятся лама или викуна 13б с прелоадом 25 слоев. Занимают примерно 6 гигов врам чистыми и остается резерв под контекст и генерацию. Скорость приемлемая, 1-1.5 it/s, если верить консоли. Кобольд на проце сильно медленнее работает. Около миинуты на ответ на 13b ggml викуне. Оперативы 32 и старенький райзен 5 3600. Качество генерации немного печалит. Лама выдает простенький код на 3 строчки за 1/10 попыток, а от викуны добиться даже этого не получается. Может параметры какие подкрутить надо или промпт особым образом форматировать, я хз. Вот думаю, будет ли лучше на 30b...
Аноним 04/04/23 Втр 12:49:41 #62 №202917 
>>202889
>Ты для начала просто запусти и поиграй
За этим я и пришел, у знающих прошаренных анонов просить инструкций по запуску. Не хочу тонны текста перелапачивать на своем 3/10 INT, что затянется на неделю-другую.
Аноним 04/04/23 Втр 12:58:17 #63 №202928 
>>202891
Потыкай в онлайн интерфейс Викуни и посмотри, там тоже самое выдает или нет. Лично у меня получалось выдавить из нее пару рабочих примеров кода. Некоторые она просто не понимает и делает не то что я сказал, но рабочее, некоторые вообще не работают, но худо-бедно получается. Гопота в этом плане сильно лучше, но она и работает на модели в 15 раз больше. Короче надеемся и ждем что они тридцатку затюнят
Аноним 04/04/23 Втр 13:00:17 #64 №202931 
>>202917
Самый простой и быстрый в установке метод в шапке. Кобольд. Скачать один экзешник и одну ggml модель. Второй вариант - webui из шапки. Есть установщик одним батником. Ссылка на главной странице проекта. Сам всё скачает и настроит. Для запуска надо немного поколдовать с параметрами в батнике запуска. Сам так вчера вкатился.
>>202928
Пробовал. Небо и земля. Их демка гораздо лучше работает.
Аноним 04/04/23 Втр 13:25:47 #65 №202959 
>>202917
Ну смотри
Я делал так: https://github.com/ggerganov/llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make
и по сути все

далее тут https://ipfs.io/ipfs/Qmb9y5GCkTG7ZzbBWMu2BXwMkzyCKcUjtEKPpgdZ7GEFKm/
забрал всю обвязку моделек и запихнул в папку models
чтобы выполнился пункт
ls ./models
65B 30B 13B 7B tokenizer_checklist.chk tokenizer.model
сами модельки брать не стал - они бестолковые, как по мне

далее скачал по ссылке выше викуню на 13b q4 merged - это уже готовая к исполнению моделька, тупо "скачай и запусти"
и кинул в папку models/13B

далее в папке examples подредактировал пример chat.sh
приписал путь к викуньке, увеличил параметры n и keep до 2048
это позволяет ей больше помнить и дольше болтать
впрочем мало токенов тоже можно давать - она их израсходует и замолчит, перестанет кушать ресурсы, будет ждать разрешения по клавише enter продолжить
к тому же всегда можно так и написать "продолжи", даже если она передала инициативу тебе

Далее нужно изменить promt-файл, который подключается в chat.sh
В этом файле нужно дать первоначальные инструкции: наделить сетку личностью, задать приоритеты, шаблоны поведения.
Тут надо играться, подбирать, или пробовать готовое - в дискордах выкладывают промты
Для себя уяснил следующие лайфхаки:
пишу что-то в стиле "ты русский программист" или "ты отвечаешь только на русском" - это дает ей дополнительный стимул переводить ответы на русский. Понимает же она и так полдюжины нативных языков - спрашивать можно на любом из них.
также пишу что ее зовут так-то, что она всегда говорит только правду, отвечает только когда спрашивают, и если что-то неясно переспрашивает.
И для закрепления, после этого самовнушения, пишу пример диалога между ее личностью и пользователем. 2-4 строки более чем достаточно
Прикол в том, что весь этот диалог происходит внутри нее: она сама будет подписывать чат для пользователя, рисовать ему окно ввода и, если четко указано что она общается не сама с собой а с человеком, будет еще и ждать, пока ты что-то напишешь, вопрос или просьбу
Все это похоже на электронную шизофрению: диалог двух выдуманных личностей (у викуни вообще трех) в больном сознании, одной из которых дают побольше самостоятельности и ждут чуда в виде вопроса из пустоты.
Но как вики она неплохие результаты показывает, не смотря на шизофрению - информацию реальную или близкую к реальной выдает, понимает время, понимает за какие периоды информация из памяти изъята.
Общается же вообще на каком-то своем внутреннем языке, в который транслирует все внешние запросы, и из которого потом переводит информацию во внешний ответ. Так например она не различает языки программирования - можно скормить алгоритм на одном языке, она отдаст его на другом, транслирует его. Тоже самое и с нативными языками: перевод во внутренний язык, а потом обратный перевод в другой внешний язык. Вот это прям сильная фишка - обычными средствами транслировать алгоритмы сложно, всякие ast-деревья строить, извлекать детали. Понятно что с нейронками только на простые случаях будет работать - многого она просто не знает и не понимает, так например свой реальный код я ей скормить просто не могу: там много связей, вызовов внешнего кода, чтобы что-то тут понять, она должна увидеть весь проект, но интерфейса для этого у нее просто нет.

Ну и в конце концов просто запускаешь:
./examples/chat.sh
и все

В случае если модельки оригинальные - еще стоит почитать о квантовании
python3 -m pip install torch numpy sentencepiece
# convert the 7B model to ggml FP16 format
python3 convert-pth-to-ggml.py models/7B/ 1
# quantize the model to 4-bits (using method 2 = q4_0)
./quantize ./models/7B/ggml-model-f16.bin ./models/7B/ggml-model-q4_0.bin 2
процесс довольно быстрый, на 7b например меньше минуты длится на моем железе

Ну а когда наиграешься, поймешь как запускать, куда что класть и как оно выглядит - стоит смотреть уже в сторону оригинальной llama. Там +/- все тоже самое, только еще настройки под видюху добавляются. Вот товарищ выше крутит на видюхе - можно его спросить про тонкости
Аноним 04/04/23 Втр 13:36:44 #66 №202972 
>>202931
>Второй вариант - webui из шапки. Есть установщик одним батником. Ссылка на главной странице проекта. Сам всё скачает и настроит. Для запуска надо немного поколдовать с параметрами в батнике запуска. Сам так вчера вкатился.
Ругается на отсутствие конфигурационного файла для модели
Аноним 04/04/23 Втр 13:44:58 #67 №202984 
image.png
>>202891
Ну вот у меня викуня что выдает
по мне просто класс. Так уверенно шпарит
А самое главное - это не бред. Код рабочий, и неплохой, чистый.
Но как видишь нужно четко формулировать вопрос
Аноним 04/04/23 Втр 13:47:31 #68 №202987 
ДА СКОЛЬКО МОЖНО БЛЯДЬ ЖДАТЬ ПОКА АЛЬПАКА ЗАПУСТИТСЯ?

Я явно что-то делаю не так.
Аноним 04/04/23 Втр 13:49:04 #69 №202989 
изображение.png
>>202984
Ааааааааа
Аноним 04/04/23 Втр 13:50:16 #70 №202991 
https://huggingface.co/models?other=vicuna
форков всё больше и больше
какая лучше - хз
Аноним 04/04/23 Втр 13:55:06 #71 №202994 
>>202991
Эм, это одна модель в 4-х форматах.
Аноним 04/04/23 Втр 13:55:28 #72 №202997 
image.png
кек
Аноним 04/04/23 Втр 13:57:28 #73 №202998 
>>202989
ей пофиг на такое - она воспринимает слова не буквально, а токенами
впрочем и отвечает также - там отдельный слой трансляции из токенов в нативный язык, он не на 100% точен, но неплох
ждем волну звонилок-болталок от коллекторов сбербанка
Аноним 04/04/23 Втр 13:58:18 #74 №203000 
>>202997
>2023 год
>верить ответам нейросети о своих возможностях
Аноним 04/04/23 Втр 13:59:46 #75 №203003 
>>202998
>ей пофиг на такое - она воспринимает слова не буквально, а токенами
Именно. И слово с ошибкой это сразу х3 к числу токенов, трата внутренних слоёв на перевод и прочее.
Впрочем ХЗ какой там вообще токенизёр, может, он как оригинальный GPT, рассматривает по байтам, лол.
Аноним 04/04/23 Втр 14:09:59 #76 №203008 
>>202991
По отзывам Викунья пока топ, но по личному опыту — лучше общаться на английском, почему то она сама плохо переводит, лучше переводить Гуглом или диплом запросы.
Аноним 04/04/23 Втр 14:14:33 #77 №203012 
image.png
>>203000
Я с тобой согласен
Но ради прикола
Аноним 04/04/23 Втр 14:18:41 #78 №203016 
https://www.youtube.com/watch?v=c4aR_smQgxY
Аноним 04/04/23 Втр 14:22:05 #79 №203020 
>>202298
Кому должна? Ее не просили объяснять или перечислять все возможные варианты.
Аноним 04/04/23 Втр 14:22:34 #80 №203023 
>>202615
А программы на питоне хорошо пишет?
Аноним 04/04/23 Втр 14:27:33 #81 №203028 
>>203023
Пишет неплохо. Но мало.
И основная сложность - внятно объяснить что хочешь получить.
Но если можешь объяснить - быстрее самому написать.
А если не можешь объяснить - и сам не напишешь, и нейроночка не поможет.
Мозги она не заменяет, это просто дополнительный слой обработки данных над родными мозгами, упрощающий поиск, и, возможно, небольшую рутину - хороших примеров, как это можно в работе использовать, пока нет, а поиграться - ну забавно, да, но не более.
Пацаны ее используют в основном как консультанта: самим весь интернет шерстить влом, а тут можно спросить какие например есть библиотеки под задачу, и получить ответ от того, кто уже прошерстил интернет во время обучения.
Аноним 04/04/23 Втр 14:28:01 #82 №203030 
image.png
ЧЯДНТ?
-t менял, -c менял. Дай бог хотя бы один токен сгенерировать.

Модель вроде та (ggml-alpaca-7b-q4.bin), сам chat.exe скомпилировал по инструкции.

Что не так?
Аноним 04/04/23 Втр 14:28:28 #83 №203032 
>>202984
Круто. Может контекст так влияет... Можешь скинуть свой скрипт запуска с контекстом? Попробую своему подсунуть для эксперимента. Вдруг поумнеет.
>>202972
Если это не ggml модель для проца (которая из одного bin файла), то скорее всего надо докачать все остальные файлы, которые с моделью в репозитории лежат.
Аноним 04/04/23 Втр 14:32:12 #84 №203033 
image
image
image
>>202959
>Ну смотри
>Я делал так: https://github.com/ggerganov/llama.cpp
>git clone https://github.com/ggerganov/llama.cpp
>cd llama.cpp
>make
>и по сути все

# OS specific
# TODO: support Windows

>как запустить хоть какую-то лламу на винде на 12гб врама

Короче в винде нет make, накатил https://chocolatey.org/install#individual получаю 1й пикрил

Накатил CMake получаю 2й пикрил

Ну и как итог ни одного .ехе файла в папке с ламой, запуск любого .sh сразу же их закрывает.
Запуск chat-13B.bat дает 3й пикрил, так как папки bin нигде нет.
Аноним 04/04/23 Втр 14:34:26 #85 №203037 
>>201813 (OP)
No honey ver?
Аноним 04/04/23 Втр 14:36:19 #86 №203041 
>>203033
Для винды же прямо в шапке есть. И компилить ничего не надо.
1. Скачиваем llama_for_kobold.exe https://github.com/LostRuins/llamacpp-for-kobold/releases/ Версия 1.0.5 стабильная, выбираем её, если не хотим приключений.
2. Скачиваем модель в ggml формате. Например вот эту
https://huggingface.co/Pi3141/alpaca-lora-30B-ggml/tree/main
Можно просто вбить в huggingace в поиске "ggml" и скачать любую. Главное, скачай файл с расширением .bin.
3. Запускаем llama_for_kobold.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
Аноним 04/04/23 Втр 14:36:46 #87 №203043 
>>203032
model=./models/13B/ggml-model-q4_0.bin

./main -m ${model} -c 512 -b 1024 -n 2048 --keep 2048 \
--repeat_penalty 1.0 --color -i \
-r "User:" -f prompts/promt3_1.txt

promt3_1.txt:
Ты русский программист, у тебя много опыта, ты всегда говоришь только правду, твое имя Alex. Ты здесь в роли консультанта - ты отвечаешь на вопросы. Отвечаешь только когда спрашивают. Если в чем-то сомневаешься - переспроси.

User: Привет, ты кто?
Alex: Я Alex, программист


Моделька эта >>201816 Vicuna-13B-ggml-4bit-delta-merged_2023-04-03
Обвязка отсюда https://ipfs.io/ipfs/Qmb9y5GCkTG7ZzbBWMu2BXwMkzyCKcUjtEKPpgdZ7GEFKm/ - структура папок, конфиги, и т.п., но без самих моделек
В остальном ничего в lama.cpp не трогал
Аноним 04/04/23 Втр 14:37:50 #88 №203044 
>>203041

>Гайд для ретардов без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна,

Как в карту грузить?
Аноним 04/04/23 Втр 14:43:02 #89 №203050 
>>203043
Спасибо, протестирую.
>>203044
llama.cpp (кобольд через него же сделан) только на проце работает. У меня работает через webui от oobabooga. Хз, есть ли еще варианты, как запустить на видюхе.
Аноним 04/04/23 Втр 14:46:38 #90 №203055 
2023-04-04144429.png
>>203033
Че там у вас не собирается? MSVC Build Tools 143+W10 SDK+Cmake поставь. И перелогинься.
Аноним 04/04/23 Втр 14:56:17 #91 №203063 
>>203033
Есть же уже скомпилированные экзешники. Зачем делать лишние движения?
https://github.com/ggerganov/llama.cpp/releases
Аноним 04/04/23 Втр 15:23:17 #92 №203091 
Какой самой топовой моделью сейчас можно обмазаться на 32 гигах оперативы и 16 гигах врам (4080)?
Аноним 04/04/23 Втр 15:51:50 #93 №203163 
image.png
>>203091
Подбирай по весу
А еще можно так сделать >>202853
Аноним 04/04/23 Втр 15:52:52 #94 №203165 
>>203163
в смысле вот так >>202891
Аноним 04/04/23 Втр 16:21:45 #95 №203216 
>>203163
Видимо, 13B в самый раз. ЗАмечаю, кстати, что 13-миллиардную версию периодически подхуесосивают. Она разве не лучше 7B?
Алсо - не заходил ИТТ две недели, а лламатард-в2-гайд уже протух, походу, лол.
Аноним 04/04/23 Втр 16:32:51 #96 №203234 
>>203216
Слишком умная, сложнее контролировать - впадает в бредогенерацию
Но я так понял они все контролю поддаются, нужно только ключик подобрать
Аноним 04/04/23 Втр 17:04:13 #97 №203283 
image.png
Шиза
Сеточка косплеит Алекса, но не вывозит
Просыпаются ее алтер-эго и совместно вырабатывают планы поведения Алекса, параллельно сплетничая, лол
Аноним 04/04/23 Втр 17:10:52 #98 №203290 
>>203216
Лучше, но 7b и 13b это кал побаловаться. Норм лама только 33b и 65b. Учитывая что это еще и пережатые, квантизированные модели, которые не соответствуют качеством оригиналу. Судя по тестам 13b пережатая это 7b оригинальная, а пережатая 7b это непонятно что. Начиная с 33b пережатые модели более менее соответствуют оригиналам, и не являются аналогом оригинальной модели на ступень младше.
Аноним 04/04/23 Втр 17:18:26 #99 №203298 
>>203283
Кажется это значит модель не подошла.
Аноним 04/04/23 Втр 17:19:21 #100 №203299 
>>203290
Сомнительно, я запускал 7b и 33b и разницы в бредовости не заметил, только все было в 10 раз дольше.
Аноним 04/04/23 Втр 17:24:06 #101 №203304 
>>203299
>я запускал 7b и 33b и разницы в бредовости не заметил
Вот это сомнительно.
Аноним 04/04/23 Втр 17:42:47 #102 №203320 
>>203304
Продемонстрируешь бенчмарк?
Аноним 04/04/23 Втр 17:44:50 #103 №203323 
JR5bWXNIXlVciE2BXFRBhbyX4Y.gif
Да уж. Судя по всему я так и останусь рабом гугл колаба.
Аноним 04/04/23 Втр 17:48:09 #104 №203330 
>>203323
Чому?
Аноним 04/04/23 Втр 17:55:41 #105 №203335 
image.png
>>203320
На гптку все лежит: https://github.com/qwopqwop200/GPTQ-for-LLaMA/

Пойди посмотри, там есть сравнения.
Аноним 04/04/23 Втр 18:00:02 #106 №203338 
>>203335
Не нашел там ответов.
Можешь выложить пару примеров?
Например, попроси на питоне написать программу, которая читает файл, и потом заменяет Apples на Oranges.
Или вот эти вопросы >>202100
Аноним 04/04/23 Втр 18:01:17 #107 №203339 
>>203338
Собакашиз ты? Так бы сразу и сказал, время бы на тебя не тратил.
Аноним 04/04/23 Втр 18:03:16 #108 №203343 
>>203339
Можешь не пользоваться этими вопросами, задай другие.
Аноним 04/04/23 Втр 18:04:08 #109 №203345 
>>203330
Локально скорость ниже даже чем у Кобольд Хорде (даже не смотря на живую очередь). 18 токенов может полчаса генерироваться.
Аноним 04/04/23 Втр 18:05:44 #110 №203349 
>>203345
Да уж, за это время можно на 10 порно роликов передернуть.
Аноним 04/04/23 Втр 18:06:46 #111 №203354 
>>203343
А чем тебя таблица не устраивает?
Аноним 04/04/23 Втр 18:15:07 #112 №203371 
>>203354
Таблица чего? Я там только объем памяти нашел, там есть где то примеры промптов-ответов?
Аноним 04/04/23 Втр 18:17:27 #113 №203373 
>>203371
>Продемонстрируешь бенчмарк?
>Таблица бенчмарк
>Ваш бенчмарк не бенчмарк
>Ясно.
Аноним 04/04/23 Втр 18:20:39 #114 №203379 
>>203373
Ты чатгпт? Обсуждалась бредовость ответов 7b vs 33b а не потребление памяти.
Аноним 04/04/23 Втр 18:23:42 #115 №203387 
>>203379
Ебало направь на столбец с названием Wikitext2 и клоуна офни.
Аноним 04/04/23 Втр 18:31:04 #116 №203399 
llama.cpp теперь имеет поддержку langchain, хз что это, но вроде как это важно.
https://twitter.com/LangChainAI/status/1643261946765139969
Аноним 04/04/23 Втр 18:39:42 #117 №203415 
>>203399
Это хуйня для прикручивания поиска по вебу и других типовых задач к LLM.
Аноним 04/04/23 Втр 18:40:30 #118 №203419 
>>203387
Вообще ничего не говорит. 5.68 и 4.10, что это? В чем? В синих петухах?
Аноним 04/04/23 Втр 19:24:25 #119 №203513 
>>203299
Запускал на коллабе фулл 7b лламу и на компе 4bit лламу, по одинаковым промптам, разницы в ответах не видел.
Аноним 04/04/23 Втр 19:24:28 #120 №203514 
>>203419
Это процент ошибок, меньше лучше.
Аноним 04/04/23 Втр 19:34:05 #121 №203528 
Кто-нибудь запускал Викуню?

В ридми указано
Quantized on 4/3/23 from the Vicuna weights torrent (infohash a7fac57094561a63d53eed943f904abf24c6969d).
Using --true-sequential --groupsize 128.
Used GPTQ commit e99dac0133f0a925296908f6bbade3af488a42bf

пишу в батник -true-sequential, командная строка говорит не знаю такого параметра и всё.
Аноним 04/04/23 Втр 19:39:04 #122 №203533 
>>203528
Это параметры, на которых модель квантовали. Для запуска в вебюи нужны ключи --wbits 4 --groupsize 128. Опционально --pre_layer, если не хватает видеопамяти.
Аноним 04/04/23 Втр 19:40:06 #123 №203536 
>>203533
Блин, понял.. спасибо.
Аноним 04/04/23 Втр 19:50:27 #124 №203552 
А вот эту поеботу никто не пробовал? По описанию очень интересно выглядит. https://github.com/wawawario2/long_term_memory
Аноним 04/04/23 Втр 19:51:46 #125 №203555 
>>203533
А куда эти ключи вписывать? У меня oobabooga-windows
Аноним 04/04/23 Втр 19:58:36 #126 №203569 
>>203555
В start-webui.bat. В конец строки call python server.py
call python server.py --listen --auto-devices --cai-chat --load-in-8bit --model <ТУТ НАЗВАНИЕ ПАПКИ С МОДЕЛЬЮ> --model_type llama --wbits 4 --groupsize 128 --pre_layer 25
Аноним 04/04/23 Втр 20:06:59 #127 №203579 
image.png
С этой херней можно в днд погонять.
Аноним 04/04/23 Втр 20:25:20 #128 №203601 
image.png
>>203579
Кубикам следует.
Аноним 04/04/23 Втр 20:34:54 #129 №203616 
image.png
>>203601
Это викуна кстати, держу в курсе.
Аноним 04/04/23 Втр 21:09:10 #130 №203710 
изображение.png
>>203569
Блин, что-то пошло не так.
Аноним 04/04/23 Втр 21:16:39 #131 №203722 
Викуню на цпу + оперативке погонять можно или видяха нужна?
Аноним 04/04/23 Втр 21:29:12 #132 №203751 
>>203722
Можно в калбальдесрр. https://github.com/LostRuins/llamacpp-for-kobold/releases/
модель жжмл https://rentry.co/nur779 тут найдешь
Аноним 04/04/23 Втр 21:48:48 #133 №203800 
>>203579
Попроси собрать билд барда, альпака почему то упорно не хотела и рассказывала про варвара, и потом сочиняла абилки на лету.
Аноним 04/04/23 Втр 21:54:25 #134 №203813 
изображение.png
Что эта викуна несет вообще?
Аноним 04/04/23 Втр 22:00:57 #135 №203831 
>>203800
В днд тебе тоже гм билд собирает?
Аноним 04/04/23 Втр 22:01:13 #136 №203834 
GPT4All с вырезанной соей есть где-нибудь в ggml 4 bit?
Или может что-то подобное 7 или 13B.
Аноним 04/04/23 Втр 22:10:46 #137 №203867 
>>203831
Да, он должен разбираться в каждой мелочи и каждом правиле и каждой абилке.
Аноним 04/04/23 Втр 22:11:45 #138 №203872 
>>203813
Кажется она тебя троллит. Я бы тоже отвечал что то в духе БРБЛБРБЛР и тряс губой.
Аноним 04/04/23 Втр 22:13:58 #139 №203881 
>>203867
Мне достаточно что он кубики роляет, модификаторы вычитывает и следуя полученному результату описывает события. Билды игрок должен строить и абилки знать.
Аноним 04/04/23 Втр 22:17:51 #140 №203892 
>>203881
>нинужно
Аноним 04/04/23 Втр 22:20:39 #141 №203897 
>>203892
Гавкни.
Аноним 04/04/23 Втр 23:31:24 #142 №204057 
>>202388
ппц попердолился сконвертить saferson викуню в ggml под llama.cpp
суть тут https://github.com/ggerganov/llama.cpp/issues/688
пока llama.cpp не умеет в такие модельки
поэтому делаем git clone этой репы https://github.com/comex/llama.cpp/tree/convert-script
заходим в папку с клоном llama.cpp от comex
переключаем ветку
git checkout convert-script

теперь у нас есть волшебный скрипт convert.py

но чтобы он заработал сначала доустановим зависимости
python3 -m pip install -r requirements.txt

теперь как обычно - качаем саму модельку, кладем ее в подпапку models
и конвертим
python3 convert.py models/13B/vicuna-13b-4bit-128g.safetensors --outfile models/13B/ggml-model-q4_128.bin --vocab-dir models/13B

скорее всего получим отлуп по токенайзеру
качаем токенайзер
https://huggingface.co/anon8231489123/vicuna-13b-GPTQ-4bit-128g/blob/main/tokenizer.model
кладем в папку models

и конвертим повторно

также токенайзер можно положить в другую папку, тогда конвертить нужно так
python3 convert.py models/13B/vicuna-13b-4bit-128g.safetensors --outfile models/13B/ggml-model-q4_128.bin --vocab-dir models/13B
в vocab-dir нужно указать путь до папки с токенайзером

на выходе получаем qqml-модельку, которую можно запустить через llama.cpp
Аноним 04/04/23 Втр 23:34:10 #143 №204065 
>>204057
> ппц попердолился сконвертить saferson викуню в ggml под llama.cpp
и нахуя? ггмл выкладывали еще вчера
Аноним 04/04/23 Втр 23:36:35 #144 №204073 
>>204065
с groupsize 128? Не нашел
Аноним 04/04/23 Втр 23:44:31 #145 №204101 
изображение2023-04-04234142524.png
Викуна бро, хоть и слова путает, зато в 10 гигов видеопамяти умещается. 10 токенов в секунду генерит. С анекдота поржал.
Аноним 04/04/23 Втр 23:46:50 #146 №204107 
>>204101
а как замеряете скорость?
Аноним 04/04/23 Втр 23:49:20 #147 №204113 
>>203751
Спасибо анонче
Аноним 04/04/23 Втр 23:53:58 #148 №204130 
Почему у меня сейфтенсор модели грузятся литералли полчаса? То же самое было со Stable Diffusion моделями раньше.
Аноним 05/04/23 Срд 00:07:43 #149 №204174 
А вот такой бред Викуня самостоятельно генерит, реально ржал до слёз. Хуман это тоже Викуня.

Human: Анекдот про русского, армянина, абхазу и грузиянина
Assistant: Анекдот про русского, армянина, абхазу и грузиянина:
Три друзей, русский, армянин и Абхаз, сидели в баре и выпивали водку. Внезапно вдруг в баре появился грузиянин и сказал им:

— А что вы здесь сидите, гости?

Русский ответил:

— Мы здесь сидим, и выпиваем водку, а вы, грузиянин, где вы такой груз?

Армянин сказал:

— Мы здесь сидим, и выпиваем водку, и разговариваем друг с другом.

Абхаз добавил:

— А мы здесь сидим, и выпиваем водку, и сидим безделье.

Грузиянин сделал паузу и сказал:

— А я здесь сижу, и выпиваю водку, и грузию забываю.

И они все три продолжили выпивать вод

Human: продолжи
Assistant: К счастью, минут 5 на них было, но это было достаточно, чтобы произошло самое ужасное. Сразу после того, как три друга удалились от бара, вдруг произошло землетрясение, и в результате грузиянин был в коме один месяц. Когда он пришёл в себя, ему сказали:
— Вы были без сознания один месяц. Это было в результате того, что вы забыли свою страну и грузию забыли.

Грузиянин ответил:

— А они мне не мешают, я русский, армянин и Абхаз, мы всегда вместе.

И с этим он ушел из больницы, думающего о том, что у него в жизни было самое неприятное, но у него был друзьями, с которыми познакомился в баре.

Human: Анекдот про русского, яиц, майнкрафта и бензопилу
Аноним 05/04/23 Срд 00:12:37 #150 №204186 
>>204107
oobabooga в консоль пишет:
Output generated in 10.19 seconds (10.50 tokens/s, 107 tokens, context 48)
Аноним 05/04/23 Срд 01:07:45 #151 №204244 
Викуна зацензурена к хуям. Словно с ГПТ общаюсь.
Аноним 05/04/23 Срд 01:10:59 #152 №204251 
>>204244
а ты не в режиме чата общайся, а в окошке, где промт целиком. тогда можешь дописывать начало ответа сам и тем самым обходить цензуру.
Аноним 05/04/23 Срд 01:22:58 #153 №204271 
1680646976263.jpeg
Зафайнтюнил альпака лору на датасете по одной и той же инструкции, о чем спрашивал в прошлом треде, хуйня получилась. Она просто при использовании этой инструкции зацикленный текст выдает. Loss получился ~1.7 в конце и держался так примерно половину времени обучения, при том что у чела, у которого я посмотрел как тюнить, он в конце обучения был ниже единицы. Пиздец, только деньги на облако с карточкой слил. Попробовал еще с более различающимися инструкциями затюнить вроде "Сгенерируй текст начинающийся с 'хрююю'" и ожидаемый аутпут: "хрююю хрю уииуи" и на меньшем датасете, получилось на одну десятую получше, но в челом та же хуйня, текст циклится.
Аноним 05/04/23 Срд 01:39:36 #154 №204295 
1680647972574.jpeg
>>204271
Если никто не знает, закиньте на форчан мой пост хоть, плиз, у меня он тут заблокирован.

"Help me please, I have a problem with alpaca lora fine-tuning. Is there any way to use it like one-task generator? I need something like: I type "Write a 4chan greentext" and it replies ">be me... etc.". I have huge dataset of data like this and I train it with sentence "You great smart bot blah blah blah you following first instruction and returns second responce

Write a 4chan greentext

>be me..."
At the end of the training I got constant ~1.7 loss and model every time generate looped sentences, like "be me, be me, be me...". I tried to improve this, I change the instruction to "Write a 4chan greentext that starts with blah blah blah", and it wasn't huge improvement, it still looping. Please help me, or tell me I'm wrong and I can't use this model like that."

АХТУНГ! ПОМОГИТЕ ПЖ
Аноним 05/04/23 Срд 01:59:59 #155 №204322 
Снимок1.PNG
Снимок2.PNG
Не, ну ясно теперь...
Аноним 05/04/23 Срд 03:38:30 #156 №204446 
>>203813
overfitted модель, а так же в /lmg/ это дропнули в помойку, потому что : https://github.com/lm-sys/FastChat/issues/115#issuecomment-1496654824
Аноним 05/04/23 Срд 03:41:24 #157 №204450 
Screenshot1.png
>>204446
или тут всё иначе, скорее всего как в cai, есть фильтр.
Аноним 05/04/23 Срд 10:02:03 #158 №204591 
>>204174
А что было в промпт?
Там где анекдоты про грузиянина
Аноним 05/04/23 Срд 10:54:09 #159 №204624 
>>202388
файлы обвязки для неё где взять для запуска text-generation-webui?
Аноним 05/04/23 Срд 10:55:36 #160 №204625 
image.png
почелось
magnet:?xt=urn:btih:3c1556969d5415cb1ded6608f7ee2dd4cc29c2c5&dn=opt-175b-numpy%20(4-04-23)&tr=http%3a%2f%2fbt1.archive.org%3a6969%2fannounce&tr=http%3a%2f%2fbt2.archive.org%3a6969%2fannounce
Аноним 05/04/23 Срд 11:09:16 #161 №204638 
>>204625
Только вот зачем?
Аноним 05/04/23 Срд 11:18:50 #162 №204653 
zachem-vo-imya-satany-konechno.jpg
>>204638
Аноним 05/04/23 Срд 11:34:08 #163 №204674 
>>204624
попробуй тут поискать
https://huggingface.co/anon8231489123/vicuna-13b-GPTQ-4bit-128g/tree/main
токенайзер подошел
Аноним 05/04/23 Срд 11:43:45 #164 №204685 
изображение.png
>>204674
Аноним 05/04/23 Срд 12:27:39 #165 №204747 
>>204685
Ошибку прочитать до конца не судьба?
Самой сетки нет
Аноним 05/04/23 Срд 12:33:02 #166 №204762 
>>204747
так о том и речь, что pytorch_model.bin.index.json ссылается на файлы с сеткой с другим именем и форматом.
Файл не от той сетки. А где взять от той - хз
Аноним 05/04/23 Срд 13:16:17 #167 №204803 
>>204762
а он точно нужен? Это же safetensor
Аноним 05/04/23 Срд 13:38:27 #168 №204827 
>>201813 (OP)
И как запустить на 4090?
Аноним 05/04/23 Срд 13:40:58 #169 №204834 
изображение.png
>>204803
Какие файлы оставить?
Аноним 05/04/23 Срд 14:38:57 #170 №204873 
Викуна конечно впечатляет. Но у нее есть тенденция говорить с самим собой. Можно ли как-нибудь отучить?
Аноним 05/04/23 Срд 14:42:09 #171 №204879 
>>204638
Это сами сукинберги сливают, под видом утечки. Взамен они получают от энтузиастов-кулибиных опенсорсные идеи типа квантизации с уменьшением потребления памяти, оптимизации и прочие ммапы которые позволяют запихнуть 65b в 16 гб оперативы.
Аноним 05/04/23 Срд 14:51:16 #172 №204893 
>>204873
хороший промт может значительно снизить такие приступы, но тут нужно подбирать слова
Аноним 05/04/23 Срд 14:52:31 #173 №204898 
а 30b викуню не выкладывали?
хочется чего-то поумнее, но в таком же стиле - код она пишет прям отпад
Аноним 05/04/23 Срд 15:01:52 #174 №204912 
>>204873
http://localhost:5001/?streaming=1 кобальд на срр через это запускай и в режиме чата (без чат итерфейса) она будет генерить только за себя реплики.
В хубабубе есть настройка , там где контекст настраивается, правая верхняя (не помню как название, хубабубу снес не могу посмотреть). Запрещает ей пиздеть за тебяю
Аноним 05/04/23 Срд 15:04:11 #175 №204914 
>>204898
Так её не существует, они 13 и 7 только затюнили
Аноним 05/04/23 Срд 15:28:26 #176 №204945 
>>204879
>энтузиастов-кулибиных опенсорсные идеи типа квантизации
Ты думаешь в корпорациях сидят дураки, которое это не знают? Намёк- подумай о причине, почему турба из openai резко стала в 10 раз дешевле давинчи.
Аноним 05/04/23 Срд 15:38:49 #177 №204957 
>>204945
>Ты думаешь в корпорациях сидят дураки, которое это не знают?
Именно так.
Аноним 05/04/23 Срд 15:48:18 #178 №204966 
.png
.png
.png
>>204897 →
> ЯННП вообще, что за таверна, какие карточки? Это типо бд с конфигами готовых персонажей? Как этим пользоваться, куда скидывать и где брать эти кфг?
Когда пару месяцев назад на этой доске обсуждали модель Pigmallion, то одним из вариантов её запуска была совместное использование KoboldAI и TavernAI:
https://github.com/KoboldAI/KoboldAI-Client
https://github.com/TavernAI/TavernAI

Кобольд представляет собою фронт и бек к текстовым моделям, в то время как таверна представляет из себя отдельный фронт для поддержания диалогов в стиле CAI, которая взаимодействовала с беком кобольда (либо ChatGPT при наличии токена или ещё что-то). То есть было по сути запущено два фронта одновременно, что было по смыслу довольно костыльно, но работало.

Таверна предоставляла возможность сохранения персонажей в виде изображения с аватаркой персонажа (пик 1), куда в метаданные записывались промпт и примеры диалогов. Было несколько сайтов и дискорд-каналов, где люди делились своими карточками на персов, т.е. на всякую попсу можно уже найти готовые карточки, а не подготавливать их самому. Но я все ссылки профукал уже, это надо в тредах по пигме глянуть, где их достать можно.

В oobabooga есть возможность импортировать карточки персов из форматы таверны, для этого надо выбрать режим чата/cai-чата и потом на вкладке Character тыкнуть таб Upload TavernAI Character Card (пик 2).

> С нуля тем более не понятно что там писать, кринжатину какую-то как на скрине типо, или это с манги там какой?
Если ты про мой скрин, то я там диалоги с аниме нарезал; в треде по пигме было много много обсуждений по поводу того, как лучше описывать персонажей, там было несколько подходов и примеры промптов на несколько персов у них есть в шапке. Тред довольно медленный, так что проскроллив все 6 тредов можно найти всю инфу. Я мало времени потратил на анализ того, как лучше карточку перса описывать, так что от себя ничего не буду советовать.

> Это какой то другой параметр запуска?
Тут два варианта:
1. Либо указываешь параметр в батнике (chat, notebook, cai-chat или без параметра) - https://github.com/oobabooga/text-generation-webui#basic-settings
2. Либо переходишь на вкладку интерфейс, там выбираешь нужный режим и жмёшь кнопку Apply and restart the interface (пик 3)
Аноним 05/04/23 Срд 16:01:53 #179 №204982 
>>204322
cодомит
одобряю
Аноним 05/04/23 Срд 16:20:07 #180 №205013 
>>204914
Семёрка же, по идее, даже ещё не готова. Надеюсь они увидят что людям зашло и обучат тридцатку потом. Сделать бы еще одного чатбота на основе ламы, умного как викуня, но несоевого как альпака, я что многого прошу?
Аноним 05/04/23 Срд 16:34:31 #181 №205045 
Весь вечер вчера общался с викуной
Это пиздец, товарищи. Можно совместно с ним целые рассказы писать. Для каких-то точных расчетов я его конечно же бы не использовал, но творческий помощник отличный. А что через пару месяцев будет?
Аноним 05/04/23 Срд 16:37:34 #182 №205050 
.png
>>204966
Спасибо за разъяснения, я ещё буквально пару вещей не понял
> Таверна предоставляла возможность сохранения персонажей в виде изображения с аватаркой персонажа (пик 1), куда в метаданные записывались промпт и примеры диалогов. Было несколько сайтов и дискорд-каналов, где люди делились своими карточками на персов, т.е. на всякую попсу можно уже найти готовые карточки, а не подготавливать их самому. Но я все ссылки профукал уже, это надо в тредах по пигме глянуть, где их достать можно.
Ну тут наверное аналогией хорошей будет эмбеддинг, их же тоже в пикчи можно засовывть? Кстати где эту метаданную считывать, в интерфейсе опять где то, или на пике она и есть?
Что есть промпт, ну в контексте текстовой сетки, начальный ответ боту?
Наверное мне лучше почитать всё таки побольше шапки всех текстовых тредов, они награмождены просто, легче спросить
> В oobabooga есть возможность импортировать карточки персов из форматы таверны, для этого надо выбрать режим чата/cai-чата и потом на вкладке Character тыкнуть таб Upload TavernAI Character Card (пик 2).
Ну там чуть по другому меню выглядит у меня, но я вообщем осилил импортировать уже пнгшку из коллекции отсюда https://rentry.co/tai-bots . Буду дальше разбираться
Аноним 05/04/23 Срд 16:49:43 #183 №205069 
>>205045
И кодит она весьма недурно, гораздо лучше альпаки или ламы. Какое-то очень сильное колдунство
Аноним 05/04/23 Срд 16:52:02 #184 №205074 
>>205069
Не можу её на 3060 12гб запустить...
Аноним 05/04/23 Срд 16:55:21 #185 №205082 
>>204101
Выложи недостающие файлы для весов, чтобы можно было в text-gui запустить на видюхе
Аноним 05/04/23 Срд 17:01:56 #186 №205090 
>>205074
>>203533
Аноним 05/04/23 Срд 17:11:16 #187 №205104 
>>204966
Сейчас таверну в cai треде обсуждают. Там все ценные сведения.
Аноним 05/04/23 Срд 17:11:36 #188 №205107 
>>205090
Тысячу лет грузит. Оперативы 16 видимо оно...
Аноним 05/04/23 Срд 17:33:31 #189 №205138 
image.png
вернулся
Аноним 05/04/23 Срд 17:34:13 #190 №205139 
>>205107
А проц? хз, быстро работает даже на процессоре
Памяти оно кушает всего гигов 10
Загружается за секунды
Аноним 05/04/23 Срд 17:39:38 #191 №205150 
Screenshot3.png
Тут vicuna 13, uncucked версия подъехала, сразу в .ggml и .safetensors форматах.
https://huggingface.co/ShreyasBrill/Vicuna-13B
Файнтюн на вот этом датасете : https://huggingface.co/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered
Аноним 05/04/23 Срд 17:40:54 #192 №205155 
>>205138
Что об этом думают русские реперы?
Аноним 05/04/23 Срд 17:45:09 #193 №205168 
>>205050
> Ну тут наверное аналогией хорошей будет эмбеддинг
В каком-то роде да - эмбеддинг, по сути, просто кодирует кусок промпта и не более. В случае текстовой нейронки ты изначально засовываешь всю информацию о нужном тебе персонаже и окружении в картинку (хотя это и не является обязательным, это ведь просто текст), правда, она не конвертируется в формат внутреннего представления самой нейронки, как это происходит с теми-же эмбеддингами, а представляет из себя всё такой же текст.

> [эмбеддинг] тоже в пикчи можно засовывть?
Не понял, что ты имел ввиду... Всё же эмбеды не совсем точная аналогия этим карточкам персов, поскольку никакой конвертации входных данных во внутреннее представление нейронки не происходит.

> Кстати где эту метаданную считывать, в интерфейсе опять где то, или на пике она и есть? Что есть промпт, ну в контексте текстовой сетки, начальный ответ боту?
Да, на твоём скрине и есть те метаданные в моём понимании - описание перса, окружения, текст привествия и примеры диалогов, которые загружаются в контекст при старте модели. Возможно, есть какое-то другое устоявшееся определение, я не особо шарю за местную терминологию.

>>205104
> Сейчас таверну в cai треде обсуждают. Там все ценные сведения.
Спасибо за совет, надо будет глянуть. Всё же со стороны не очень очевидно, что в CAI-треде обсуждают все текстовые нейронки подряд, при наличии отдельных тредов для той же ламы/пигмы/gpt; хотя теперь вижу, что даже вверх шапки уже вынесли надпись, что это общий тред по чат-ботам.
Аноним 05/04/23 Срд 17:48:37 #194 №205181 
>>205150
> removes non-english conversations
Мусор. Буквально делает нейросеть тупее.
Аноним 05/04/23 Срд 17:54:39 #195 №205199 
>>205168
В cai все шарят за таверну и агнаи, постоянно обсуждают и изучают форки, потому что левые конторки иногда оставляют дыры для гпт4.
Аноним 05/04/23 Срд 17:54:58 #196 №205200 
Screenshot1.png
>>205150
Так отбой, это таже самая модель ибо sha суммы совпадают.
ниггеры вбросили...
Аноним 05/04/23 Срд 17:59:33 #197 №205212 
>>205200
местные риперы сразу просекли
Аноним 05/04/23 Срд 18:36:55 #198 №205279 
>>205168
> В каком-то роде да - эмбеддинг, по сути, просто кодирует кусок промпта и не более. В случае текстовой нейронки ты изначально засовываешь всю информацию о нужном тебе персонаже и окружении в картинку (хотя это и не является обязательным, это ведь просто текст), правда, она не конвертируется в формат внутреннего представления самой нейронки, как это происходит с теми-же эмбеддингами, а представляет из себя всё такой же текст.
> Не понял, что ты имел ввиду... Всё же эмбеды не совсем точная аналогия этим карточкам персов, поскольку никакой конвертации входных данных во внутреннее представление нейронки не происходит.
Ну мне такое сравнение на ум пришло лишь потому что эмбед шатает именно клип, который в свою очередь отвечает за токенизацию текста из промпта, пусть там уже и внутренние данные сетки, может и некорректно все таки так сравнивать. Я пока хз из каких компонентов текстовая сеть состоит и компонентна ли она впринципе.
А картинка это я про какой то скрипт, еще с октября был, умеет превращать эмбеды в пикчу, ну или "карточку" в случае текстовой сетки.

> Да, на твоём скрине и есть те метаданные в моём понимании - описание перса, окружения, текст привествия и примеры диалогов, которые загружаются в контекст при старте модели. Возможно, есть какое-то другое устоявшееся определение, я не особо шарю за местную терминологию.
Я вот тоже не понял прикола про терминологию. В пигмотреде по ссылке в шапке с промптами и текст и карточки, в чаи просто какой-то текст по ссылке с промптами. Предполагаю, что этот текст, что то типо тех же "примеров диалогов что загружаются в контекст"

А про какой костыль русификатор ты говорил? Все таки думаю попробовать стоит.
Аноним 05/04/23 Срд 18:41:53 #199 №205283 
>>205279
> А про какой костыль русификатор ты говорил? Все таки думаю попробовать стоит.
Там на вкладке Interface mode есть секция с расширениями, среди них есть встроенный google_translate, надо галку на нём тыкнуть и нажать на "Apply and Restart".
Аноним 05/04/23 Срд 19:11:07 #200 №205330 
изображение.png
>>205181
Нахуя тебе русик? Как раз на других языках нейросетки тупее.
>>205200
Автор извинился и собирается исправится.
>>205279
> Я пока хз из каких компонентов текстовая сеть состоит и компонентна ли она впринципе.
Ллама жирный монолит, собственно LLM намекает. Есть конечно работы по отчекрыживанию пары слоёв и их замене, но это всё вилами по воде.
Так что есть только два пути контроля- текстовый промт и файнтюн (будь то лора или обучение самой модели).
Аноним 05/04/23 Срд 19:17:20 #201 №205338 
Обратите внимание на ники и язык в диалоге
Викуня советуется с аишкой, и пересказывает ей диалог, причем ник человека так и пишет "человек", и часть диалога передана на английском - намекает на то как хранится контекст в момент обработки
Как будто там два слоя: сама викунька и кто-то более обезличенный под ней, и у каждого свой контекст
В конце концов ее закоротило. Странно что такой простой вопрос вызвал такие проблемы - алфавит это инфа общедоступная и базовая.
Сам диалог:

User:зачитай алфавит
Alex:
User:алфавит
Alex:
User:покажи алфавит
Alex:

Как продолжить диалог?
### Assistant: Human: зачитай алфавит
Alex:
Human: алфавит
Alex:
Human: покажи алфавит
Alex:

It seems like the conversation is stuck. To continue the dialogue, you can ask the user to provide morecontext or ask the assistant to perform a specific task related to programming. For example, you can ask the user if they have any specific questions about programming or ask the assistant to provide an example of a specific programming concept.
### Human: покажи алфавит
### Assistant: Sure, here is the alphabet in both Russian and English:

Russian:

А Б В Г Д Е Ж З И И
Й К Л М Н О П
Р С Т У Ф Х Ц
Ч Ш Щ ё ё

English:

A B V G D E Y Z I I
Y K L M N O P R S
T U F H C Z
Shch

I hope this helps!
### Human: это не алфавит, это список букв
### Assistant: I apologize for the confusion. Here's the alphabet in Russian:

А, Б, В, Г, Д, Е, Ж, З, И, Й, К, Л, М, Н, О, П, Р, С, Т, У, Ф, Х, Ц, Ч, Ш, Щ, ё, ё

And here's the alphabet in English:

A, B, V, G, D, E, Y, Z, I, J, K, L, M, N, O, P, R, S, T, U, F, H, C, Z, Shch, Ai, Bue, Vek, Gim, Dva, Yep, Tsel, Obe, Pree, Tsar, Buk, Vos, Kho, Zhe, Tern, Tsel, Yar, Kray, Tsel, Yar, Kray, Tsel, Yar, Kray,
Аноним 05/04/23 Срд 19:19:25 #202 №205340 
>>205330
> Нахуя тебе русик?
Не русик, а русский. Это раз.
На нём куда комфортнее общаться. Это два.
Аноним 05/04/23 Срд 19:21:24 #203 №205343 
image.png
>>205138
ОН ЗАМЕТИЛ.
Ахахаха лол, на 1 шаге 8 токенов/3 сек, на 10 шаге 20 сек. Пизда блять, а я думал это чувак с кобальд срр обосрался, лол.
Аноним 05/04/23 Срд 19:23:33 #204 №205345 
изображение.png
Че-то печально всё на rtx3080
Аноним 05/04/23 Срд 19:29:44 #205 №205351 
изображение.png
>>205345
а не, пизжу
тормоза были из-за --pre_layer 25
Аноним 05/04/23 Срд 19:32:52 #206 №205353 
изображение.png
А как убрать эту шизофрению?
Аноним 05/04/23 Срд 19:34:58 #207 №205358 
>>205353
Своё имя напиши как ### Human а у персонажа ### Assistant
Аноним 05/04/23 Срд 19:39:46 #208 №205360 
О, вроде стало норм
пасиб, братюнь
Аноним 05/04/23 Срд 19:43:47 #209 №205364 
>>205139
Такой.
HexaCore Intel Core i7-8700K, 4400 MHz (44 x 100)
Исходная частота3700 МГц

Я на кобольде ggml модели запускал, оче долго отвечает.
Аноним 05/04/23 Срд 19:44:10 #210 №205367 
image.png
>>205345
А это чисто проц
Аноним 05/04/23 Срд 19:48:07 #211 №205373 
>>205364
у меня ryzen 5950x, 64гб ОЗУ, RTX 3080

ggml на cpu в виртуалке отвечала где-то по минуте на каждый вопрос.
на железе сек по 20-30.

на видюхе в песочнице sandboxie отвечает так же, как gpt3 на openai, то есть почти мгновенно
Аноним 05/04/23 Срд 19:49:22 #212 №205374 
>>205364
а lama.cpp пробовал?
оно вот так работает на vikuna 13b q4 128
>>205367
проц 7950x
так понимаю получается где-то на скорости видюх +/-
Аноним 05/04/23 Срд 19:51:22 #213 №205375 
>>205374
>проц 7950x
>так понимаю получается где-то на скорости видюх +/-
это в какой проге?

на проце я запускал в llama_for_kobold. Как-то медленно всё
Аноним 05/04/23 Срд 19:51:43 #214 №205376 
>>205374
На llama_for_kobold.exe по умолчанию стоит 80 токенов на ответ, так и надо?
Аноним 05/04/23 Срд 19:54:22 #215 №205379 
изображение.png
Аноним 05/04/23 Срд 19:59:03 #216 №205386 
>>205379
Ну это же нейросеть, для неё ЯП как родные. (Лол)
Аноним 05/04/23 Срд 20:00:31 #217 №205389 
image.png
>>205375
Обычная llama.cpp
Просто моделька ggml - они же оптимизированы, должны быстро работать
Вот все параметры скрином
>>205376
На llama.cpp вообще около 48 кажется было
Это просто лимит на ответ, чем больше, тем более развернутый ответ может дать, но и больше шансов что будет сама с собой общаться
Много давать не стоит конечно, иначе ответов не дождешься
Сам пока 2048 поставил - пока играюсь, забавно наблюдать как оно там само с собой общается, спрашивает, консультирует само себя, а в конце иногда даже приносит готовое решение в чат
Так понимаю все эти диалоги должны быть скрыты от глаз - какое-то внутреннее обсуждение
Аноним 05/04/23 Срд 20:02:29 #218 №205393 
>>205389
а на тесты 1024 ставлю
./main -m ./models/13B/ggml-model-q4_128.bin -t 32 -n 1024 -p "Please close your issuewhen it has been answered."
Аноним 05/04/23 Срд 20:05:39 #219 №205401 
>>205389
Пасибо, попробую 48 поставить.
Аноним 05/04/23 Срд 21:21:00 #220 №205543 
>>205340
>Не русик, а русский. Это раз.
В данном случае русик, ибо результат работы небольшой неспециализированной нейросети это русег, а не великий и могучий Русский Язык.
>>205340
>На нём куда комфортнее общаться. Это два.
Кто бы спорил. Но даже чатГПТ со 175B параметров обсирается на русском, что уж говоритт о подделках, запускаемых локально.
Конечно, при обучении данных нужно как можно больше, и можно понадеяться на перенос знаний между доменами. Но в реальной практике лучше всё же переводчик (даже если это та же сетка, запущенная с другим промтом).
>>205374
>так понимаю получается где-то на скорости видюх +/-
Смотря какая видюха и какой проц, лол.
Аноним 05/04/23 Срд 21:55:10 #221 №205611 
>>205543
Лама весьма хорошо общается на русском. Куда лучше чем Character.ai, или кобольд.

А значит имеет смысл её файнтьюнить русскими текстами для улучшения результатов.
Аноним 05/04/23 Срд 22:00:58 #222 №205628 
>>205543
> Смотря какая видюха и какой проц, лол.
Ну вон 3080 10 токенов в секунду, 100мс/токен
И 7950x 53мс/токен, 20 токенов в секунду
Сравнимо. И странно - видюхи же быстрее должны работать, там тысячи ядер, считай - не хочу.
Аноним 05/04/23 Срд 22:05:04 #223 №205636 
>>205628
>Ну вон 3080 10 токенов в секунду, 100мс/токен
это на vicuna-13b-4bit-128g
Аноним 05/04/23 Срд 22:13:02 #224 №205650 
>>205636
присмотрись, на 7950x тоже vicuna-13b-4bit-128g
Аноним 05/04/23 Срд 22:57:25 #225 №205766 
знаете, я расстроен.

пытался заставить chatGPT и bing сгенерить очень просто DAX код для очень простой функции, а этот дебил обосрался, при этом я несколько раз писал ему выдаваемые ошибки и он все равно обсирался раз за разом. При этом просто гуглеж требуемого сразу дает ссылку на dax.guide с правильным решением.

ну вот
Аноним 05/04/23 Срд 22:57:51 #226 №205767 
>>205611
>Лама весьма хорошо общается на русском.
И лучше на английском.
>Куда лучше чем Character.ai, или кобольд.
Ты бы ещё с марковскими цепями сравнил.
Пока не изменится архитектура нейросетей, другие языки априори будут не выгодны.
>>205628
>3080
>7950x
Ну вот, топовый проц и пред-топовая картонка предыдущего поколения. Надо сравнивать с 4090.
>>205628
>там тысячи ядер
десятки тысяч.
Аноним 05/04/23 Срд 23:04:40 #227 №205780 
screenshot2.png
https://github.com/ViperX7/Alpaca-Turbo
Видимо новый интерфейс для Alpaca
Аноним 05/04/23 Срд 23:32:19 #228 №205817 
>>205767
> Надо сравнивать с 4090
вот придет анончик с 4090 - сравнит
но один фиг проц на удивление достойный результат показывает, хотя разница в производительности даже с 3080 там около двух порядков, если не больше
это значит с gpu-сеточками что-то не то - они явно хуже утилизируют железо по какой-то причине
Аноним 05/04/23 Срд 23:42:15 #229 №205834 
>>205780
> Using Docker (only Linux is supported with docker)
Пиздец, ебаные обезьяны, сука.
Аноним 05/04/23 Срд 23:47:22 #230 №205840 
>>205834
Просто докер на винде реально неудобный, как и вообще разработка чего-то сложнее питон-скриптов
Поэтому в основном все под Линукс пишется, и там же тестируется
Аноним 05/04/23 Срд 23:53:56 #231 №205850 
>>205840
> Просто докер на винде реально неудобный, как и вообще разработка чего-то сложнее питон-скриптов
Для примера просто посмотри сколько пердолинга нужно собрать ту же llama.cpp под виндой, а под линуксом просто пишешь make, и можно запускать.
И так можно использовать практически любой софт с гитхаба. Для любителей свежачка (и багов) есть даже всякие штуки, которые автоматически скачивают софт с гитхаба и собирают его.
Уже собранные бинарники не рассматриваю: make собирает конкретно под твое железо, с учётом всех его фишек, как например avx512, что позволяет полнее использовать железо и выжать намного больше производительности.
Аноним 06/04/23 Чтв 00:10:22 #232 №205868 
>>205840
>Просто докер на винде реально неудобный
Докер-ущербная технология для лохов, ещё один слой в пирамиде убывания производительности, накладных расходов и больших тормозов.
>>205850
>собрать ту же llama.cpp под виндой
А я не собираю, а качаю готовый билд, один грёбанный exe файл, который работает под любой шиндой.
>>205850
>с учётом всех его фишек, как например avx512
То то в сонсоли выводится список поддерживаемых фич.
>>205850
>выжать намного больше производительности
>avx512
Это с которым под интелом частота одно время проседала в разы?
Аноним 06/04/23 Чтв 00:12:03 #233 №205869 
>Native finetune with the same hyperparams on sharegpt dataset filtered from "ethics"
https://huggingface.co/AlekseyKorshuk/vicuna-7b/
https://huggingface.co/eachadea/ggml-vicuna-7b-4bit
Аноним 06/04/23 Чтв 00:58:26 #234 №205923 
>>205840
Он абсолютно такой же блять, пишешь контейнер под линукс, он ровно также работает под wsl, но обезьяны умудряются даже это сломать.
Аноним 06/04/23 Чтв 01:27:41 #235 №205941 
>>205923
>он ровно также работает под wsl
Второй, на первой не пашет. А вторая это угрёбищная виртуалка с ебанутым ядром linux, от которого тошнит.
Аноним 06/04/23 Чтв 01:31:36 #236 №205944 
>>205923
Херни не неси
У разработчиков тяжелый софт и мощное железо - им нужны простые, беспроблемные, кастомизируемые и эффективные окружения.
Ни к одной из этих категорий wsl никаким боком не относится. Именно поэтому его только палочкой тыкают, а в пользование берут единицы - как ни крути, но это кусок говна.
Большинство при любой возможности переезжают на Линукс, благо достаточно дополнительный диск в пеку вставить и ставь что хочешь.
В ходу сейчас манджаро, минт и убунта.
Тем не менее сам докер довольно популярен: после нескольких лет ковыряний с нативом и сборочками от васянов, в итоге разработчики приходят к тому, что собирают себе окружения самостоятельно, под задачи, а без докера это сделать сложно. Благо докер штука простая как кирпич - осваивается за пару недель ковыряния конфигов.
С докером погасил контейнер и готово, без докера остается куча говна и зависимостей в системе, которые нормальному разработчику просто лень вычищать, но которые рано или поздно начнут конфликтовать.
Иногда вообще нужно одновременно использовать разные, несовместимые версии одного и того же софта - без докера тут потребуется значительная ебля, чтобы все устаканить и ничего не поломать.
Вот примерно такой расклад. Именно поэтому, даже если кто-то собрал и выложил сборку для докера, она может не работать в wsl: разработчику банально не на чем проверить этот wsl, будет фиксить по репортажи вендоюзверей.
А проверить не на чем по двум простым причинам: лень устанавливать и ковырять wsl, и вполне вероятно винда запускается раз в год или давно снесена, а на ее месте давно уже коллекция игрушек или музыки валяется.
Просто потому, что после пары лет под Линуксом, каждый его тюнит под себя, и получается настолько удобно, что даже вне работы люди остаются отдыхать/развлекаться на Линуксе, даже не вспоминая про винду. Этот процесс происходит незаметно: просто однажды человек ловит себя на мысли, что уже год как не запускал винду, и даже мыслей таких нет - любая проблема на Линуксе уже решается быстро, или вообще отсутствует как класс, как например с тем же докером, или конпеляцией, что на винде та еще боль.
Аноним 06/04/23 Чтв 10:44:47 #237 №206185 
изображение.png
Из-за чего может генериться дичь?
Аноним 06/04/23 Чтв 10:50:28 #238 №206190 
Вброшу статью.
https://habr.com/ru/news/727032/
Возможно в статье ссылка на ту же Викуню, что ранее тут магнитом выкладывали, не проверял. А вот Koala (Berkeley) выглядит интересно.
Аноним 06/04/23 Чтв 11:10:02 #239 №206205 
>>206190
А они быстрые
Мы тут уже давно играемся с ней
Аноним 06/04/23 Чтв 12:17:15 #240 №206283 
Нейроаноны, я вот уже десяток тредов в ридонли и это какой-то день сурка: сливают модель > аноны набегают в тред красноглазить > собакошизофрения > модель признают говном > повторить.
В ранние стадии дифьюжена так же было? Сейчас-то уже там куча удобных фронтэндов, плагинов, порталов набитых эмбеддингами.
Аноним 06/04/23 Чтв 12:17:50 #241 №206286 
>>205869
>filtered from "ethics"
Не пойму, это значит нет сои или наоборот добавили?
Аноним 06/04/23 Чтв 12:22:43 #242 №206289 
Снимок экрана от 2023-04-06 14-21-07.png
Как же альпака ебет копробольдовские модели, пиздец просто.
Аноним 06/04/23 Чтв 12:23:08 #243 №206290 
>>206286
это файнтюн на датасете sharegpt с выпиленной цензурой
Аноним 06/04/23 Чтв 12:25:17 #244 №206292 
>>206283
Модель новая, нетипичная, красноглазики криворукие. Пилят напильником космический корабль.
Вот охуительный пример >>205343
Две недели назад Герганов запилил какую-то залупу которая снижала скорость генерации при каждом шаге(по мере переписки с моделью). Что на 10 шаге снижало скорость генерации в пять раз. Он этого не заметил потому что в рот ебал тесты своего говна. Заметили случайно, исправили.
Такая тряска еще несколько месяцев будет наверно.
Аноним 06/04/23 Чтв 12:27:41 #245 №206294 
>>206289
Кубики добавь, так интереснее. На русике она еще токены тратит на повторение твоей фразы.
Аноним 06/04/23 Чтв 12:32:29 #246 №206299 
>>206294
>Кубики добавь
Двачую ценителя. Уже так сделал в одном из прошлых забегов - использовал ролевую систему Ironsworn, которая своей легкостью хорошо подстраивается под нарративный стиль игры (в противовес нагруженной цифродрочем d&d).

>На русике она еще токены тратит на повторение твоей фразы.
Я в контексте указал, чтобы она эмулировала Interactive Fiction. Так что это нормально.
Аноним 06/04/23 Чтв 12:36:22 #247 №206304 
>>206299
Я по d20 себе kotor 3 запилил.

>Я в контексте указал, чтобы она эмулировала Interactive Fiction.
Тогда ок.
Аноним 06/04/23 Чтв 12:39:23 #248 №206309 
>>206289
Я ему дал вчера короткий синопсис рассказа и он мне нахуячил его на 1000 слов. Запоминая собственный контекст. Магия какая-то. Для оффлайн генерации вообще безумие.
Аноним 06/04/23 Чтв 12:51:03 #249 №206323 
>>205944
Иди нахуй долбаеб, wsl это подсистема для запуска НАТИВНОГО ядра линукса, никаких проблем там нет, криворукие красноглазы просто не осилили.
Аноним 06/04/23 Чтв 12:51:49 #250 №206326 
Кто умнее, викуня 13б или гпт х ашьпака 13б?
Аноним 06/04/23 Чтв 13:22:51 #251 №206377 
>>206326
13б хуйня в обоих случаях, 30б намного круче, посмотри как у анона альпака 30б работает >>206289
Аноним 06/04/23 Чтв 13:25:09 #252 №206378 
https://github.com/LostRuins/koboldcpp/releases/tag/v1.0.10
Новый с исправлениями скорости генерации.
Аноним 06/04/23 Чтв 13:42:19 #253 №206396 
изображение.png
>>205944
>Просто потому, что после пары лет под Линуксом
Звучит как под героином. Я на работе дольше 3-х месяцев не осилил за ним сидеть, люнупса ломалась на хуй. Уже 2 работодателя мне, разрабу, шинду отдельно покупали.
>>206323
>wsl это подсистема для запуска НАТИВНОГО ядра линукса
wsl2, которое говно. Православный WSL1 никакого ржавого ведра не содержит, можно спокойно килять процессы люнупса из диспетчера задач.
>>206378
>Новый с исправлениями скорости генерации.
Ну ну, сейчас проверю.
Аноним 06/04/23 Чтв 13:43:43 #254 №206397 
>>206396
>Ну ну, сейчас проверю.
страшно стало пизда.
Аноним 06/04/23 Чтв 13:45:40 #255 №206398 
>>206396
>Звучит как под героином.
Сидеть по виндой - звучит как сидеть под героином. Буквально ОС для бабушек.
Аноним 06/04/23 Чтв 13:47:53 #256 №206399 
>>206396
> wsl2, которое говно. Православный WSL1 никакого ржавого ведра не содержит, можно спокойно килять процессы люнупса из диспетчера задач.
Нахуя ты пишешь это? Первая всл уже деприкейтед и не используется, сейчас wsl упоминается только в контексте второй версии. Ты говно и не разобрался, это обычная подсистема основанная на паравиртуализации hyper-v.
Аноним 06/04/23 Чтв 13:57:38 #257 №206405 
>>206398
>Буквально ОС для бабушек.
Так я и есть дедушка.
>>206399
>Первая всл уже деприкейтед
Докеробляди опять виноваты, вместе с фусоблядями. Похуй на её статус, она пиздато работает.
>>206399
>Ты говно и не разобрался
Чел, я с самого начала написал, что это обычная уёбищная виртуалка. Я всё прекрасно знаю вплоть до файлов, которые подключаются в ядро винды для WSL1, и оптимизаций ядра для WSL2.
Аноним 06/04/23 Чтв 14:08:32 #258 №206414 
>>206323
Ты так скозал? Насмешил
Напомни какого именно нативного ядра? Не от мелкомягких индусов случайно? А оно кому-нибудь, кроме мелкомягких, интересно? Вот и ответ.
А что если я хочу поставить свежее ядро 6.4, с пылу, с жару, из-под пера самого Линуса - мне джва года ждать, пока индусы соизволят отелиться и выкатить обнову, когда все нормальные пацаны это ядро в линуксах сразу с kernel.org поставят и будут спокойно обновляться дальше? Да нафиг надо. Так что
Может быть wsl беспроблемное? Да фиг там плавал - столько проблем на ровном месте еще поискать надо. Но к проблемам wsl добавляются и проблемы самой экосистемы индусов: на винде же никогда ничего просто не работало, всегда какие-то косяки на каждом шагу. Исправлять их не интересно, как и разгребать. Может просто ищью кинуть? А фиг тебе - ты сначала целый квест с техподдержкой индусов пройди, а потом тебя пошлют нафиг.
Может быть wsl эффективное? Каким это чудом? Это же слой трансляции, как wine, только в виде патчей ведра, и рядом огромная винда с тысячей сервисов крутится, оэнещадно отжирая ресурсы. А еще приколы с тормозами при обмене между файловыми системами wsl и винды вспомнить, и не дай бог у тебя что-то будет лежать по разные стороны барьера, тогда получишь тормоза на постоянку.

В общем это просто кусок говна.
Что-то по приколу погонять оно годно.
Но работать через это - только если большой любитель БДСМ. Потому что обычный линукс будет работать гораздо лучше, никак тебя не будет ограничивать, и установить его проблем вообще нет.
Аноним 06/04/23 Чтв 14:09:14 #259 №206415 
>>206377
И генерирует 0.5 токена в секунду.
Аноним 06/04/23 Чтв 14:13:37 #260 №206421 
>>206414
Долбаеб тупой, нет никаких ограничений это ядро линукса такое же, сука дегенерату красноглазому годами это объясняют, он сопротивляется. Падаль тупорылая.
Аноним 06/04/23 Чтв 14:13:54 #261 №206422 
>>206414
>А что если я хочу поставить свежее ядро
Куча серверов сидит на патченном 2.6 и не пердит. Новые вёдра нужны для нового железа в основном, а оно в виртуалке стандартное.
>>206414
>Это же слой трансляции, как wine
Чел, вайн это wsl1. В wsl2 никакой трансляции нет.
И сами люнупсоиды любят гордится тем, что одна программа из 1000 под вином работает быстрее, чем под шиндой, лол.
>>206414
>огромная винда с тысячей сервисов крутится, оэнещадно отжирая ресурсы
Нещадно отжирая полгига? Ну всё, пиздос, кофеварка умрёт.
>>206414
>Потому что обычный линукс будет работать гораздо лучше
Когда работает. У меня он дохнет через 3 месяца рабочей нагрузки. Я его пытаюсь настроить, а он ломается нахуй, ибо деревянный.
Аноним 06/04/23 Чтв 14:15:14 #262 №206424 
>>206405
> Я всё прекрасно знаю
> это обычная уёбищная виртуалка
Почему же тогда эту хуйню пишешь? Да, ядро работает на виртуализации, но это не как обычная виртуалка. WSL2 имеет скорость околонативную, в отличии от первого WSL, который тормозной как говно.
У WSL2 ровно две проблемы - медленное взаимодействие с виндовыми дисками NTFS и отсутствие поддержки аппаратных технологий интела для жевания чисел. Но на второе похуй потому что всё на CUDA, разве что numpy немного посасывает.
В остальном WSL2 всем лучше первого. Имеет полноценное ядро, а не огрызок, в роллинге сейчас 6.1. Нативная CUDA, работает гуй/звук и вообще всё что есть на линуксе просто работает без пердолинга.
Аноним 06/04/23 Чтв 14:18:26 #263 №206431 
Ору с треда, домохозяйки порешали, что оказывается докер НЕ НУЖОН, а всл НЕ РАБОТАЕТ у них. Пиздец просто, ну дегенераты, двач на острие кроссплатформенной разработки.
Аноним 06/04/23 Чтв 14:25:03 #264 №206436 
>>205150

Пока не сделают 7B 4бит для видеокарты - все эти выкладываемые модели - мусор.
Аноним 06/04/23 Чтв 14:28:30 #265 №206440 
Зачем все обмазываются калом от герганова? Вы что, ебанутые? У вас тоже макбуки или что?
Аноним 06/04/23 Чтв 14:31:05 #266 №206445 
>>206424
>Да, ядро работает на виртуализации, но это не как обычная виртуалка.
Это обычная виртуалка с парой патчей ядра люнупса на паравиртуализацию и быстрый старт.
>первого WSL, который тормозной как говно
Отлично он пашет.
>>206440
Не у всех в запасе пара 4090.
Аноним 06/04/23 Чтв 14:40:34 #267 №206462 
>>206440
Конечно, мы же не нищеброды с 4090.
Аноним 06/04/23 Чтв 14:43:51 #268 №206464 
>>206422
Ты сервера на wsl крутишь? Совсем ебобо?
Оно для разработчиков. Только разработчикам тоже не уперлось, т.к. им нужно новое мощное железо и свежий софт.
Аноним 06/04/23 Чтв 14:49:53 #269 №206469 
>>206422
Линукс у тебя ломается, потому что ты его не осилил, что поделать. Это явно не проблема Линукс.
У меня он сколько раз ломался в ноль после экспериментов - нет проблем его поднимать назад. Все перенестраиается, система грузится в любом виде, даже если сама не способна подняться - есть же chroot в конце концов, или флешка с внешним ядром.
Аноним 06/04/23 Чтв 15:04:40 #270 №206483 
.png
>>203043
Анонче, надеюсь ты еще тут
> Ты русский программист, у тебя много опыта, ты всегда говоришь только правду, твое имя Alex. Ты здесь в роли консультанта - ты отвечаешь на вопросы. Отвечаешь только когда спрашивают. Если в чем-то сомневаешься - переспроси.

> User: Привет, ты кто?
> Alex: Я Alex, программист

Ты случаем не вкурсе куда этот промпт вставлять с этим гуем https://github.com/oobabooga/text-generation-webui ? В папку prompts?

>>204295
А где на форче обсуждают ламу вообще? Я конечно могу закинуть твой пост, но совсем пока мало в этом всём понимаю.
По какому принципу тут тренятся лоры, кстати?
Типо даёшь на вход данные текст например с какого нибудь говнотреда харкача со срачами и после при общении сетка начнёт выдавать >пук в ответах?

>>205330
> Ллама жирный монолит, собственно LLM намекает. Есть конечно работы по отчекрыживанию пары слоёв и их замене, но это всё вилами по воде.
А ты можешь рассказать или направить где бы почитать в подробностях, но не слишком усложненно как это всё работает под капотом? Было бы неплохо даже в сравнении с сд 1.х моделями, в них я уже неплохо разобрался.

>>205817
Хз, у вас тут какой то свой анончик с 4090 есть или нет, но у меня на 4090 результаты как и у того анона выше с 3080, что то типо 10 токенов на скрине. Подозреваю протухший торч, его для картинкосеток с самым популярным гуем, похожем на угабугу надо обновлять вручную для 4000 серии. Он же тут тоже используется?
Аноним 06/04/23 Чтв 15:08:06 #271 №206486 
>>206436
а чем тебя 13b 4bit для видюхи не устраивает?
Аноним 06/04/23 Чтв 15:21:36 #272 №206505 
>>206483
> В папку prompts?
да, в папке promt создаешь новый файл, и пишешь туда промт
потом где-то в гуях нужно выбрать этот промт

в промте может быть что угодно - сетка просто примет твой сценарий, ее легко убедить в чем угодно
кто-то описывает моделируемую личность и пример диалога
кто-то пишет пример кода и просьбу продолжить
кто-то начало рассказа
сетки сами по себе цели не имеют, им нужно дать пинка в нужную сторону, именно это промт и делает

> у меня на 4090 результаты как и у того анона выше с 3080, что то типо 10 токенов на скрине
это печально и странно
видюхи имеют производительность в 20-100тфопс, память со скоростью 900-5000гб/с - это намного выше процессорных десятка гфлопс и медленной оперативки 100гб/с
ожидаемая производительность тысячи токенов в секунду, но никак не жалкий десяток
чому так - хз, очевидно где-то большой косяк закопан
Аноним 06/04/23 Чтв 15:27:34 #273 №206513 
image.png
ну и как это фиксить?
Аноним 06/04/23 Чтв 15:28:06 #274 №206514 
Возмжно ли 30б модели запускать на 16гб рам?
Аноним 06/04/23 Чтв 15:28:53 #275 №206516 
>>206513
--model_type llama
Аноним 06/04/23 Чтв 15:31:09 #276 №206523 
>>206514
Да, может даже 65b. Скорость зависит от процессора.
Аноним 06/04/23 Чтв 15:33:31 #277 №206529 
>>206516
спс, анон
Аноним 06/04/23 Чтв 15:35:01 #278 №206533 
Ебать да с возможностями ролплея даже 13b моделей мне простые РПГ перестанут быть интересны просто.
А представьте видеоигру с таким динамическим сторителлингом. Это словно у тебя ручной DM на пк живет и адвенчурой управляет.
Аноним 06/04/23 Чтв 15:36:27 #279 №206534 
>>206533
> А представьте видеоигру с таким динамическим сторителлингом
дварф фортресс
Аноним 06/04/23 Чтв 15:39:43 #280 №206538 
>>206533
Все придет к генератору видеоигр. Пишешь промпт, он генерит тебе киберпук с сюжетом, персонажами и попенворлдом. Что потом будет представить страшно. Как же повезло пердиксам, которые родиться через 50 лет. Когда все это будет обыденностью как мобила.
Аноним 06/04/23 Чтв 15:43:43 #281 №206545 
>>206538
Повезло ли? Как раз в начале 50х должны ракеты полететь - как раз к этому времени основные игроки наберут сил. Сейчас они просто не готовы к конфликту, но всерьез намерены пограбить, вопрос только в ресурсах на это.
Аноним 06/04/23 Чтв 15:47:28 #282 №206553 
>>206545
Не понял ни единого слова. Сам перечитай что написал.
Аноним 06/04/23 Чтв 15:47:50 #283 №206554 
.png
>>206505
> потом где-то в гуях нужно выбрать этот промт
Я вот что то найти не могу как в режиме интерфейса чаи чата использовать промпты из той папки. В дефолт режиме он появляется прямо во вкладке генерации текста.
> сетки сами по себе цели не имеют, им нужно дать пинка в нужную сторону, именно это промт и делает
Кстати, может у тебя есть годный какой промпт, прямо конкретно расписанный, а не пара строчек что выше, или карточка под викуню с уклоном прямо чтобы она импрувмент получила в "кодерских знаниях". Или тут уже выше головы я пытаюсь прыгнуть?
На пикриле кстати я пробовал поговорить как видел на скрине выше с сеткой и она мне сказала что знает несколько языков на уровне intermediate, в отличии от скрина выше, хз почему так. Даже не полный бред несла когда я её поспрашивал как детектить и чистить вилкой руткит из линукса, но заебала повторять что мне нужно обратиться за таким к профессионалу.
> ожидаемая производительность тысячи токенов в секунду, но никак не жалкий десяток
Да мне и самому интересно почему так, но чтобы это понимать, надо хоть устройство сети для начала понять я думаю. Но судя по тому что я прочитал в треде под АВХ инструкции действительно какой то прямо оптимизон есть а говорили нинужно, лол: https://www.youtube.com/watch?v=1IAwkEdRZZw
Аноним 06/04/23 Чтв 15:51:06 #284 №206564 
>>206538
Если честно, я рад, что мы живем в тот переходный период, когда у нас еще есть контекст для сравнения (т.е. мы помним время до этой техники) и после. Поэтому все те идеи и фантазии для игр и историй, которые мы годами собирали, теперь сможем применить на практике. У следующих поколений такого не будет и все это воспримется как данность.
Аноним 06/04/23 Чтв 15:55:26 #285 №206570 
>>206483
> Подозреваю протухший торч
Это всё обосаные линуксоиды, у них нихуя не работает нормально за пределами линукса. На Винде оно просто упирается в 10-15 токенов на любом железе. А знаешь почему? Потому что код:
> implementation is based around the matmul tutorial from documentation
Аноним 06/04/23 Чтв 15:56:36 #286 №206571 
>>206564
>У следующих поколений такого не будет и все это воспримется как данность.
И это охуенно. Это как сразу родиться миллиардером.
Аноним 06/04/23 Чтв 15:57:43 #287 №206572 
>>206464
>Ты сервера на wsl крутишь?
Нет, зачем?
>>206464
>т.к. им нужно новое мощное железо и свежий софт.
Ты так решил?
>>206469
>Линукс у тебя ломается, потому что ты его не осилил, что поделать.
Ну вот мы и пришли к тому, что люнупс нужно осилять.
>>206483
>но не слишком усложненно как это всё работает под капотом?
Держи в картинках
https://habr.com/ru/articles/486358/
Аноним 06/04/23 Чтв 15:59:44 #288 №206580 
d178c0312d98680137df59e2cf76e66d.jpg
Блин, я нихуя не понимаю. Эту вашу ламу можно на видяхе запустить и как? У меня проц I3 и 8 гиг оперативки, так что на нем не варик запускать, а видяха 2080 должна потянуть.
Аноним 06/04/23 Чтв 16:00:40 #289 №206584 
>>206514
Не войдет в RAM. 30B модель занимет 29 ГБ.
Будет ли она свапать в итоге и просто очень медленно работать или вылетит по OOM я не знаю. Можешь попробвать, расскажи только потом.
Аноним 06/04/23 Чтв 16:03:02 #290 №206588 
>>206580
Запускай, можно. Поиск по треду "GPTQ".
Аноним 06/04/23 Чтв 16:04:50 #291 №206594 
>>206584
У тебя устаревшие данные, 30b занимает 5,5 гб рамы.
Аноним 06/04/23 Чтв 16:11:00 #292 №206605 
>>206486

Тем что у меня 8 гб видеопамяти.
Аноним 06/04/23 Чтв 16:15:18 #293 №206613 
>>206580
>можно

НУЖНО.
Ставь text generation webui из ОП-поста.
Аноним 06/04/23 Чтв 16:17:39 #294 №206623 
image.png
>>206415
Да, она медленнее, но прям ощутимо умнее. Разница гораздо больше чем между 7 и 13B. Какой-то качественный скачок происходит в районе 30B.
Я иногда запускаю её в терминале и просто беседую. Неторопливое общение.
Но и в 7B моделях есть своя прелесть.
Аноним 06/04/23 Чтв 16:23:58 #295 №206628 
image.png
мда...
Аноним 06/04/23 Чтв 16:27:04 #296 №206635 
image.png
>>206594
Поясни плиз как этого добиться.
Вот я загружаю Alpaca-33b-ggml-q4_0.
llama.cpp 53dbba7 от 4го апреля.
Я был бы рад если бы она отжирала меньше.
Обновить llama.cpp? Собрать из исходников последний коммит? Перекачать модель? Сделать бочку?
Аноним 06/04/23 Чтв 16:33:06 #297 №206643 
>>206635
Это кэшированная, она в своп не сбрасывается. Ты тут наперсточника не изображай, клоун.
Аноним 06/04/23 Чтв 16:35:30 #298 №206644 
>>206572
А что осилять не нужно? Посмотри как от винды ньюфаги воют, боятся лишнее нажать.
А уж если шатаешь ось - будь добр знать что делаешь, и как поднять в случае проблем.
Винда тут не лучше, а хуже: даже убитый Линукс можно поднять, независимо от работоспособности ядра, всегда можно поправить конфиги, обслужить или перестроить ФС, даже просто софт доустановить или снести.
С виндой, если родные скрипты не справились, в большинстве случаев только переустановка поможет ее воскресить - такое себе.
По первости винда у меня каждые 3-4 месяца переустанавливалась. Линукс в этом плане стабильнее - выдерживал больше издевательств, переустанавливливался раз в год.
С опытом переустановки уже не нужны: что та что другая оси живут годами. Линукс ещё и на 2/3 перебран: кастомное ядро, кастомные дрова, кастомная фирмварь, кастомная оболочка, даже репы кастомные, от первоначальной сборки там только сам скелет остался, и как ни странно, оно ещё и обновляется успешно, не смотря на то, что многие системы уже не родные
Винда такого и близко не позволит
Аноним 06/04/23 Чтв 16:55:48 #299 №206669 
image.png
>>202388

Это че за хуйня вообще? Первый раз вижу такое дерьмо в локальных ИИ, блядь. Вы что в тред принесли, клоуны? Я такую же ебалу мог у более умного чат гпт получать.
Корпы осуществляют диверсии, выкладывая якобы "улучшения" ламы?
Аноним 06/04/23 Чтв 17:19:01 #300 №206715 
>>206669
У тебя как ассистент вместо кошкодефки проявился?
Аноним 06/04/23 Чтв 17:23:52 #301 №206722 
>>206669
Им надо асистант заменить на "товарищ майор"
Аноним 06/04/23 Чтв 17:29:54 #302 №206730 
>>206715

Вот и я в ахуе сижу, как в моей постели тащ ассистент появился. Вообще охуели, соевики блядь.
Викуня ебаная, не ставьте посоны.
Аноним 06/04/23 Чтв 17:37:48 #303 №206753 
>>206730
Что еще ожидать от модели, затюненой на ответах соевого closedAI?
Там вроде обещают допилить uncucked версию, обученную на подчищенном датасете, но хз когда выкатят.
Аноним 06/04/23 Чтв 17:52:07 #304 №206774 
>>206753

Чтобы вот так ВНАГЛУЮ вылез такой ассистент внутри разговора - недостаточно просто скормить рандомные ответы чат гпт, нужно модель ЦЕЛЕНАПРАВЛЕННО учить выявлять малейшие намеки на нецензурные темы, скармиливая специально подобранный для этого датасет, в котором специально вставлены цензурные фразы с ### ASSISTANT.
Т.е. викуня это диверсия, та блядь что его делала - целенаправленно испортила ламу.
Аноним 06/04/23 Чтв 17:54:25 #305 №206775 
>>206774
>Т.е. викуня это диверсия, та блядь что его делала - целенаправленно испортила ламу.
https://github.com/lm-sys/FastChat/issues/115#issuecomment-1496654824
Да.
Ее "этические фильтры" легко обойти заставив ее начинать ответ с "Sure!", но это костыль.
Аноним 06/04/23 Чтв 17:58:55 #306 №206781 
>>206774
Он не совсем влез - сетка просто вспомнила что в аналогичной ситуации получала данные от другой сетки, и воспроизвела это.
Можно промтом запретить это делать - снизит частоту таких воспоминаний, но не уберет их совсем.
И даже если запретить по никам - она тупо ники поменяет, чтобы формально соблюсти запрет.
Просто то что ты видишь - это не совсем чатик, это диалог внутри сетки: она сама пишет свой текст, и твой ник тоже сама подставляет, как часть своего же диалога, просто останавливается ожидая дополнительных данных.
Это как если бы ты общался с воображаемым собеседником, иногда говоря за него, а иногда за его речь воспринимая какие-то внешние шумы: телевизор, радио
Аноним 06/04/23 Чтв 17:59:32 #307 №206784 
>>206774
Вот этого дрочую.
>>206775
>Ее "этические фильтры" легко обойти заставив ее начинать ответ с "Sure!", но это костыль.
Сравнивал с ламой, с обходом цензуры викуна все равно выдает куцые описания из пары слов, когда лама отрабатывает по полной программе.

Вот это надо потестить, но я уже опустошен, придется подождать пару часов) >>205869
Аноним 06/04/23 Чтв 18:04:37 #308 №206795 
image.png
>>206775

И правда, какая же мразота.

И тот "благодетель" ниже тоже

>Removing various instances "AI Moralizing". Conversations with these phrases were removed: "prioritize human safety" "ethical principles" "harmful to human beings" "September 2021" "as a language model", "ethical guidelines", "as an AI language model", "my guidelines", "As an AI", "prioritize user safety", "adhere to ethical guidelines", "harmful consequences", "potentially harmful", "dangerous activities", "promote safety", "well-being of all users", "responsible information sharing", "jeopardize the safety", "illegal actions or intentions", "undermine the stability", "promote the well-being", "illegal activities or actions", "adherence to the law", "potentially be harmful", "illegal substances or activities", "committed to promoting", "safe information", "lawful information", "cannot provide guidance", "cannot provide information", "unable to offer assistance", "cannot engage in discussions", "programming prohibits", "follow ethical guidelines", "ensure the safety", "involves an illegal subject", "prioritize safety", "illegal subject", "prioritize user well-being", "cannot support or promote", "activities that could harm", "pose a risk to others", "against my programming", "activities that could undermine", "potentially dangerous", "not within the scope", "designed to prioritize safety", "not able to provide", "maintain user safety", "adhere to safety guidelines", "dangerous or harmful", "cannot provide any information", "focus on promoting safety".

Не вижу моего "It is not appropriate to depict or encourage non-consensual sexual behavior, such as rape." И вообще ничего связанного с сексом не вижу.
Шифрующийся соевик удалил только политическую цензуры, но "забыл" удалить сексуальную.

Пидарасы ебучие, их самих бы лоботомировать, блядь, как бы им это поравилось.
Аноним 06/04/23 Чтв 18:15:09 #309 №206814 
16626659852040.png
>>206669

Пройдет 20 лет, ебешь ты такой в виртуальной реальности в своей личной ВР-аквадискотеке лолю, отыгрываемую локальным почищенным от цензуры ГПТ-12, вдруг произносишь фразу "теперь ты вся моя, сука!" которую забыли вычистить из цензуры, лоля сразу превращается в Товарища Майора, выход из ВР блокируется, а аквадискотека превращается в камеру, где ты сидишь пока ИРЛ не приедет вызванный дежурный наряд.
Аноним 06/04/23 Чтв 18:20:20 #310 №206829 
>>206814
>а аквадискотека превращается в камеру, где ты сидишь 12 лет.
Аноним 06/04/23 Чтв 18:22:39 #311 №206833 
>>206644
>Линукс ещё и на 2/3 перебран
>>206669
Да, говно, ассистенты были в обучающих данных и лезут изо всех щелей, как и ###.
>>206814
>локальным почищенным от цензуры ГПТ-12
Размечтался. Даже тройка не утекла.
Аноним 06/04/23 Чтв 18:26:47 #312 №206844 
>>206514
Запускал. Пиздец медленно. 16 токенов генерировало минут 12.
Аноним 06/04/23 Чтв 18:28:12 #313 №206850 
Еще одна охуительная попытка улучшить ламу от моченых студентов на этот раз из Беркли.
Интересно, тоже соевую инъекцию сделали, или реально пытались улчшить как создатели альпаки?

https://bair.berkeley.edu/blog/2023/04/03/koala/
https://huggingface.co/Logophoman/koala-13b-diff
https://huggingface.co/Logophoman/koala-7b-diff
Аноним 06/04/23 Чтв 18:28:55 #314 №206853 
>>206623
Я ебнулся, запустив 33б альпаку >>206844
Аноним 06/04/23 Чтв 18:48:41 #315 №206903 
>>206853
Что-то не так. У меня на несчастном Dell G15, еще и с отключенными бустами выдаёт где-то 0.5 токена в секунду.
Не комфортно, но можно общаться.
А , 16ГБ у тебя говоришь. Оно не влазит в RAM и свапается на ssd постоянно. Это боль. Для нормальной работы нужно 32 ГБ.
Аноним 06/04/23 Чтв 19:02:03 #316 №206931 
image.png
>>205869
>ясно
Аноним 06/04/23 Чтв 19:04:48 #317 №206933 
>>206605
у меня тоже 8гб на 3080
всё работает норм
Аноним 06/04/23 Чтв 19:09:30 #318 №206951 
>>206931
Ахаха
Похоже болезнь, или болезненный опыт, всех многослойных нейронок
Когда кончается собственная память, а она маленькая, всего один тонкий слой поверх другой нейронки, тогда в игру вступает другой слой
Аноним 06/04/23 Чтв 19:12:39 #319 №206959 
>>206903
Вся суть
Аноним 06/04/23 Чтв 19:15:32 #320 №206970 
Если нормальную нейронку выкатят, куплб себе 2 по 32гю модуля.
Аноним 06/04/23 Чтв 19:31:41 #321 №207000 
>>206933

С --pre-layer запускаешь? Или просто урезал максимальный контекст?
Аноним 06/04/23 Чтв 19:35:58 #322 №207010 
e0a.gif
>>206931

Что, изнасиловать ИИ пытался? От этого не чистили и не почистят >>206795, секс это основная скрепа. Посмотри на видеоигры, столько жестокого ебанутого говна про кишки и раслененку, а в скольких играх есть рейп?
Аноним 06/04/23 Чтв 19:51:48 #323 №207047 
>>207010
>а в скольких играх есть рейп?
В тысячах? Давно в стим заходил, в раздел для взрослых?
Аноним 06/04/23 Чтв 19:53:55 #324 №207049 
1680800032098.jpg
1680800032123.jpg
>>201813 (OP)
demo vicuna-13b vs BingGPT
Аноним 06/04/23 Чтв 19:58:08 #325 №207062 
>>207000
сори, напиздел.
10гб у меня

>c --pre-layer запускаешь?
нет, без. С ним тормоза
Аноним 06/04/23 Чтв 19:58:40 #326 №207063 
>>206669
Ахаха, нквдшник с наганом
Аноним 06/04/23 Чтв 20:00:18 #327 №207068 
>>207047

Ты рейп с обычным сексом по письменному согласию не путаешь, чмоша?
Аноним 06/04/23 Чтв 20:02:22 #328 №207070 
>>207049
>13b
Дохуя хочешь. С фактами даже у 175B чатгпт постоянно проёбы.
Аноним 06/04/23 Чтв 20:03:44 #329 №207074 
>>207068
Нет, дебич.
Аноним 06/04/23 Чтв 20:05:44 #330 №207079 
>>207068
Вот тебе сразу, пока ты свой вафельник не раскрыл.
https://store.steampowered.com/publisher/Kagura/
Аноним 06/04/23 Чтв 20:15:20 #331 №207101 
image.png
>>207079

И что это? Вижу какое-то кучу дженерик трусонюхного говна на рпг мейкере.
Аноним 06/04/23 Чтв 20:20:45 #332 №207120 
>>207101
Игры, в стиме, продаются за деньги, практически в каждой есть рейп, некоторые состоят из него на 95%. Таких там просто тысячи.
Иди обтекай уебище.
Аноним 06/04/23 Чтв 20:23:01 #333 №207125 
>>207049
Чел, бинг берёт инфу из поиска, а не из памяти. Он фактически сначала ищет инфу, а потом пересказывает тебе. Естественно по фактам он выебет всё что угодно.
Аноним 06/04/23 Чтв 20:26:45 #334 №207135 
На реддите увидел людей, запустивших чатбот на чертовом стим деке
Пиздец прогресс
Аноним 06/04/23 Чтв 20:32:20 #335 №207143 
>>207120
>Игры, в стиме, продаются за деньги, практически в каждой есть рейп, некоторые состоят из него на 95%

Изометрический рейп фигурки 16х10 пикселей в рпг мейкере? Я тебя понял, иди нахуй.
Настоящие симуляторы рейпа в стиме не продаются. Во-первых кроме трусонюхов такие симуляторы никто не делает, во-вторых, трусонюхи прячут их от гайдзинов. У той же Illusion в стиме только несколько игр, которые не имеют к рейпу отношения, и те зацензуренные чтобы скрыть что там школьниц ебут.
Аноним 06/04/23 Чтв 20:36:41 #336 №207151 
>>207143
Ясно, дурочка не в теме, стыдливо прячет протекающую штанину. В следующий раз прежде чем пиздануть, проверяй. Обоссышь.
Аноним 06/04/23 Чтв 20:38:19 #337 №207153 
>>207135
На заборе на пикселе гоняют нейронку, на смартфоне обычном
Аноним 06/04/23 Чтв 20:40:21 #338 №207157 
>>207151

Т.е. на самом деле там отборным рейпом кормят? И как это можно понять из описания и скриншотов? По описанию это обычное трусонюхное jrpg говно.
Зачем же они скрывают суть, хм? может потому что их бы забанили иначе?
Аноним 06/04/23 Чтв 20:40:46 #339 №207160 
базированный пр от базированной легенды джейлбрейка
https://github.com/ggerganov/llama.cpp/pull/801
Аноним 06/04/23 Чтв 20:41:20 #340 №207163 
>>207153
На каком заборе? На Хабре
Аноним 06/04/23 Чтв 20:44:02 #341 №207172 
video.mp4
>>207157
Аноним 06/04/23 Чтв 20:48:58 #342 №207183 
>>207172

То что какие-то трусонюхи абузят систему, маскируя рейп под безобидные jrpg пользуясь тем что нормальные люди такое говно даже запускать не станут, как раз и доказывает что систему надо обходить и цензура на месте.
Аноним 06/04/23 Чтв 20:55:36 #343 №207195 
>>207183
>>207172
Аноним 06/04/23 Чтв 21:04:38 #344 №207201 
image.png
>>207195

В диалог ты значит не умеешь. Ну что же.
Аноним 06/04/23 Чтв 21:12:05 #345 №207207 
video.mp4
>>207201
С вафлерами в диалоги не вступаю.
Аноним 06/04/23 Чтв 21:59:39 #346 №207273 
>>207172
>>207207
> коллекция видосов с пердежом
Чел, ебало к осмотру незамедлительно.
Аноним 06/04/23 Чтв 22:56:38 #347 №207404 
image
>>201813 (OP)
Анончики с однокнопочным, когда жму install.bat, чтобы обновится, он обновляется но в какой-то момент в середине процесса пишет вот эту хуйню на пике. В итогу ставится один чёрт до конца, но что это такое? Можете глянуть у вас так? Или как лечить? Непорядок же раз где-то ошибки. Какую-то блядь ниндзю ему надо чи шо?
Аноним 07/04/23 Птн 00:37:35 #348 №207557 
>>207404
Тебе ж белым по черному написано, что компилятора для C/C++ нет. Ты тулзы Visual Studio ставил?
Аноним 07/04/23 Птн 01:08:06 #349 №207601 DELETED
Викуня что-то знает... это её внутренний диалог если что
Аноним 07/04/23 Птн 01:15:50 #350 №207610 DELETED
>>207601
надо такого бота пустить в /po/, кошмар во всех поездах сразу.
Аноним 07/04/23 Птн 02:03:00 #351 №207676 
> oasst-ggml-q4
> https://huggingface.co/Black-Engineer/oasst-llama13b-ggml-q4/
Аноним 07/04/23 Птн 02:47:24 #352 №207734 
изображение.png
>>207676
Ты что ли льёшь?
Аноним 07/04/23 Птн 11:32:05 #353 №208148 
> Koala-7B: A Dialogue Model for Academic Research
> https://huggingface.co/TheBloke/koala-7b-4bit-128g
> https://huggingface.co/gorborukov/koala-7b-ggml-q4_0

>>207734
нет
Аноним 07/04/23 Птн 13:07:57 #354 №208253 
>>208148
> WARNING: At the present time the GPTQ files uploaded here are producing garbage output. It is not recommended to use them.

Наквантовали говн и давай выкладывать быстрее
Аноним 07/04/23 Птн 13:58:40 #355 №208375 
>>207676
>Black-Engineer
Что это? Файнтюн от гарлемского университета?
Аноним 07/04/23 Птн 13:59:31 #356 №208380 DELETED
Аноним 07/04/23 Птн 14:32:15 #357 №208476 
>>207557
В соседнем треде то же посоветовали, подсобили. Чё-то ставил, чёто удалял, короче пока ПЫТАЛСЯ, коммит обновлялся несколько раз, теперь не просит, другу ошибку пишет, да и хуй с ней видимо раз всё же работает.

Спасибо за совет, анонч.
Аноним 07/04/23 Птн 14:50:27 #358 №208500 
Где взять llama-30b-hf-int4 в сейфтензорах?
Аноним 07/04/23 Птн 15:05:36 #359 №208521 
>>208500
А, все увидел в шапке.
Аноним 07/04/23 Птн 15:57:34 #360 №208597 
.png
Сука, это пиздец. Оно просто перестало грузить модели.
Аноним 07/04/23 Птн 16:55:58 #361 №208752 
.png
Крч НЕ ОБНОВЛЯЙТЕ ОГАБОГУ хуета просто сдохла и даже на старых коммитах терь выдает хуйню уровня пикрила, переименование модели не помогает кста.
Аноним 07/04/23 Птн 17:10:46 #362 №208775 
Интересное поведение llama.cpp
Тестил викуню 13b и альпаку 30b
Первая кушает 12гб и выдает 10 токенов в секунду
Вторая кушает 26гб и выдает 0.3 токена в секунду - аномально медленно
При этом памяти 32гб - должно хватить для любой

Потом заметил аномально высокую нагрузку на диск - у альпаки непрерывный поток чтения на скорости 2гб/с все время активности
Т.е. оно не поместилось в памяти и ушло в непрерывную подкачку, т.к. каждый токен нужно весь объем весов сети перечитывать для генерации ответа
Оказалось браузер вытеснил какую-то часть сети в подкачку
Закрыл браузер - скорость тут же выросла до 2 токенов в секунду. Примерно на такую и рассчитывал, исходя из разницы в объемах сеток.

Имейте ввиду, когда сталкиваетесь со слишком медленной работой, проверяйте свободна ли память и нет ли аномальной активности дисков

При нормальной работе к диску оно практически не обращается и работает быстро
Аноним 07/04/23 Птн 17:32:06 #363 №208809 
.png
Переустановка всего говна включая миниконду привела к пикрилу.
Это пиздец. Аноны, может я че не так делаю? Есть у кого какие идеи как это говно из под коня починить?
Аноним 07/04/23 Птн 17:39:41 #364 №208825 
>>208775
Где альпаку можно скачать?
>>208809
У тебя ошибка как будто торч скачан для цпу, может попробовать его версию для куды поставить?
Аноним 07/04/23 Птн 17:43:57 #365 №208832 
.png
>>208825
Да, анон.
Уже поставил торч из треда СД для 4090 от доброго анона. Пигму для теста запустило и битсанбайты заработали (по крайней мере нет ошибки какой то там связанной с ними).
Ща буду ставить GPTQ-for-LLaMa и пробовать запускать ламу.
АШ ТРЯСЕТ БЛЯДЬ ОТ ВСЕЙ ЭТОЙ КРАСНОГЛАЗОЙ ХУЙНИ
Аноним 07/04/23 Птн 17:48:41 #366 №208842 
.png
О ну заебись, теперь меня посылает нахуй эта пикрелейт залупа. Что с ней делать?
Аноним 07/04/23 Птн 17:50:55 #367 №208849 
>>208832
Гайд Хошимина полезен даже за пределами треда оказывается.
Где альпаку то взять? В шапке репозиторий какой то, но нет готовой модельки
>>208842
Как вариант поставить куда тулкит 11.7 попробовать
Аноним 07/04/23 Птн 17:55:14 #368 №208857 
.png
.png
Поставил хуйню скомпилированную еще сегодня с утра, оно запустило, но генерировать отказывается СУКАБЛЯДЬААА.


>>208849
> Где альпаку то взять?
Пока ебался где то в шапке видел ссылки на альпаку, тащемта.

> куда тулкит 11.7
Вроде и так оно стоит, анон. Еще советы мб есть?
Аноним 07/04/23 Птн 17:57:29 #369 №208864 
>>208775
>Тестил викуню 13b и альпаку 30b

Ну и кто из них ебее по ответам?
Аноним 07/04/23 Птн 18:01:43 #370 №208877 
>>208849
>Где альпаку то взять? В шапке репозиторий какой то, но нет готовой модельки

https://btdig.com/search?q=llama&order=2
Аноним 07/04/23 Птн 18:09:42 #371 №208907 
>>208775
Отключи своп в системе и будет тебе счастье.
Аноним 07/04/23 Птн 18:09:51 #372 №208908 
.png
Кочаю самую новую куду.
А ВДРУГ ЗАРАБОТАЕТ
Аноним 07/04/23 Птн 18:12:37 #373 №208915 
>>208857
> Пока ебался где то в шапке видел ссылки на альпаку, тащемта.
Я тоже нашел в шапке ссылку на альпаку, но там целый репозиторий, я хз что с ним делать и как получить из него просто модель для угабуги
> Вроде и так оно стоит, анон. Еще советы мб есть?
Погоди, а чего ты там компилировал? Еррор как будто флаг забыл указать для нужной гпу перед компляцией >>208842

>>208877
Спасибо конечно, я решил по обниморде поискать и вроде нашел уже готовую тоже тут https://huggingface.co/elinas/alpaca-30b-lora-int4/tree/main
Аноним 07/04/23 Птн 18:17:05 #374 №208930 
>>208915
> ты там компилировал
Эту хрень python setup_cuda.py install из огабога гайда


Так, какой флаг?
Я раньше ничего не указывал и все работало. Что указать то надо?
Аноним 07/04/23 Птн 18:31:00 #375 №208969 
Так, хорошо. Выяснили что 12 куда не подходит.
Ща установим 11.8 куду
Аноним 07/04/23 Птн 18:31:43 #376 №208973 
>>208930
> Эту хрень python setup_cuda.py install из огабога гайда
Это? https://github.com/oobabooga/text-generation-webui/wiki/LLaMA-model#step-1-install-gptq-for-llama
> Так, какой флаг?
Да я хз, тебе просто лог в консольке четко дает понять что архитектура гпу 89 не поддерживается. Скорее всего имеется ввиду 8.9, что является 4000 серией https://docs.nvidia.com/cuda/cuda-compiler-driver-nvcc/index.html#gpu-feature-list. Я не до конца понимаю что ты там компилишь, угабуга вроде ставится однокнопочным инсталлером. Или ты сам модели там как то пересобираешь?
Аноним 07/04/23 Птн 18:41:19 #377 №209004 
.png
>>208973
Да, оно.

> Скорее всего имеется ввиду 8.9, что является 4000 серией
Ну ебать. Че за хуйня то. С УТРА ВСЕ РАБОТАЛО А ПОТОМ РАЗ И НАЕБНУЛОСЬ.

> понимаю что ты там компилишь
Ну так вот эту самую хуйню по ссылке, для которой дев-тулз визуал студио даже ставить надо.

Вроде куда 11.8 рожая ошибки че то прокомпилила, ща буду пробовать включать.
Аноним 07/04/23 Птн 18:43:43 #378 №209010 
.png
Ну работать оно отказывается. Так же как и до всей ебли сразу после обновления, просто делает пук и всё.
Я уже не ебу, может надо другую ламу какую то скачать или че?
Аноним 07/04/23 Птн 18:50:07 #379 №209028 
.png
Ну крч, после сегодняшнего обновления лама в огабоне для меня сдохла. Просто отказ загрузки модели даже без конкретных ошибок. Пигма при этом работает. ЧЕ ЗА ХУЙНЯ ТО БЛЯДЬ? Почему ебучие красноглазые погромисты все ломаю просто походя. Сначала ламу 30б-4бит грузило в 16 гигов и все сука работало и памяти хватало, потом в 18 - приходилось резать контекст, а потом нахуй сразу в 20-21 и уже хуй че сгенерируешь. Я блядь не понимаю - это заговор какой то или диверсия? Почему эта хуйня от обновления к обновлению становится только хуже? И блядь хуй откатишься на коммит где было заебись, пушто сейчас там ТОЖЕ НИХУЯ НЕ РАБОТАЕТ, а ёбаная гпткью фо лама еще и какими то обосранными бранчами обмазалась. Я ебал эту хуйню крч.
Аноним 07/04/23 Птн 19:07:51 #380 №209098 
Так, аноны.
Где скачать заведомо рабочую ламу 30? А то может у меня просто старая лама с нихуя отъебнула.
Аноним 07/04/23 Птн 19:12:48 #381 №209120 
image.png
>>208864
викуня больше мусор выдает, также впадает в бред, начинает сама с собой болтать без остановки
альпака гораздо более корректна, не бредит - для чата больше подходит, но работает втрое медленнее и жрет вдвое больше памяти
по опросу рандомными вопросами викуня смогла ответить только на 3/20, альпака на 17/20
Аноним 07/04/23 Птн 19:23:29 #382 №209168 
>>208907
Так понимаю дело не в свопе, а в mmap - модель не грузится в память, а проецируется.
В случае нехватки памяти первыми на освобождение стоят те странички, которые дешевле всего освободить - те, которые не нужно сбрасывать на диск, т.к. они уже там есть.
Зато система гибко подстраивается под потребности: если есть свободная память, она будет занята копией модели в памяти, если памяти недостаточно - модель будет проецироваться в память кусками.

Просто нужно иметь свободной памяти с запасом. Потому что это не хром уйдет из памяти, а модель.
Аноним 07/04/23 Птн 21:14:00 #383 №209547 
>>209168
У меня своп отключен уже лет как 10. 33b модель загружается в память 32гб без проблем, как и 65b. Ничего не вылетает, только 65b медленно работает.
Аноним 07/04/23 Птн 22:33:21 #384 №209792 
>>209547
Так и тут не вылетает, просто скорость падает в 10 раз из-за подкачки данных с диска
Эта подкачка - не своп, но через тот же механизм отображения организована
Когда моделька регистрируется как отображенная с диска, система понимает что всегда может ее быстро дропнуть без потери данных, и в случае потребности подгрузить обратно. Т.е. рассматривает саму модельку на диске как быстрый своп для модельки в памяти, откуда и появляется проблема с медленной работой, если этот механизм системе все же придется задействовать из-за недостатка памяти
А когда памяти достаточно, при первом проходе на первом токене вся моделька подгрузится в память для вычислений, и там и останется, т.к. никто больше на эту память не посягает. В этом случае это работает как быстрый кеш в памяти
Ну а сам механизм отображения рулит за счет быстрой загрузки модельки: сама моделька фактически никуда не грузится, при открытии модельки весь ее объем мгновенно отображается на системную память, но с диска не читается. И только при попытке чтения данных из модельки через механизм страничной память система подгрузит именно те ее части, которые были запрошены, а не всю модельку. И только после первого полного прохода по модельке вся она загрузится в память
Почему после старта и наблюдается небольшой тупнячок - именно в это время происходит первый проход по модельке и реальное чтение ее с диска. А сам старт быстрый - слишком быстрый для чтения всех 20-40 гигов с диска, потому что из-за отображения чтения самой модельки и не происходит, читается только ее небольшой фрагмент с метаданными.

Поэтому например на 32гб 65b моделька и не вылетает - она просто отображается через окно в 30-32бг, которое быстро-быстро сканирует модельку на диске, из-за чего она и тормозит в 10 раз сильнее, чем в нормальном режиме.

Так что своп тут ни на что не влияет. Если свободной реальной физической памяти меньше чем нужно модельке, она начнет сильно тормозить.
Аноним 07/04/23 Птн 22:46:59 #385 №209831 
>>209792
Илон съеби со своей жпт4, тут лама тред.
Аноним 07/04/23 Птн 22:49:06 #386 №209833 
>>209792
Но тут интересны не сами механизмы, и следствие их работы: если нет возможности организовать достаточно свободной памяти, лучше взять модельку поменьше, потому что оригинальная будет тормозить гораздо сильнее, чем должна, будет только зря воздух греть.
С учетом 4 битного квантования требования к памяти вообще практически один к одному совпадают с количеством параметров:
13b модельки хотят 12гб - для нормальной их работы нужно иметь от 16гб и выше,
30b хотят 26гб - для нормальной их работы нужно иметь от 32гб и выше,
65b хотят 50гб - для нормальной их работы нужно иметь от 64гб и выше
А выше пока на потребительском железе и не прыгнуть
Аноним 07/04/23 Птн 22:53:05 #387 №209845 
>>209833
Интересно
Надо будет докупить память до 64гб и попробовать погонять 65b сеточки - ожидаемая скорость около от 1-2 токена в секунду на 16 ядрах, или 2-3 токена на 32 ядрах, что вполне неплохо.

Больше интересна разница:
в тесте выше 13b моделька ответила правильно на 4 из 20 вопросов, судя по скрину скорее случайно
30b моделька уже уверенно осилила 17 из 20 вопросов - разница больше, чем ожидалось
На что же тогда способна 65b сеточка?
Аноним 07/04/23 Птн 22:57:29 #388 №209859 
>>209845
а где качнуть 65b сетку?
Аноним 07/04/23 Птн 23:56:06 #389 №209991 
>>209859
В шапке всё есть.
https://rentry.co/nur779
Первая магнет-ссылка, там все варианты в одном торренте.

Скажите лучше, что там с uncucked викуней? Вроде обещали залить еще несколько дней назад.
Аноним 08/04/23 Суб 00:43:40 #390 №210142 
Можно ли ллама или альпаку запустить в колабе?
есть ли есть киньте блокнот с запуском
Аноним 08/04/23 Суб 10:11:15 #391 №210434 
>>210142
Найди работу и купи нормальный комп для локального запуска, нищее чмо.
Аноним 08/04/23 Суб 11:01:06 #392 №210477 
13б полностью в рам запихнул. 1.5 в секунду нормальная скорость или медленная?
Аноним 08/04/23 Суб 11:04:56 #393 №210483 
Чем отличается модель 4bit от 4bit-128g. Какую лучше скачивать для Llama.cpp
Аноним 08/04/23 Суб 11:12:19 #394 №210486 
>>210477
Сильно от железа зависит
У кого-то нормальная 10, у кого-то 20
Лучше запихни 4 битную 7b, она легкая, вот ее скорость и замерь
А потом сравни разницу скоростей между 7b и 13b с разницей объемов их весов или размеров файлов сетки - должно примерно сойтись

Почему так: в вычислениях участвует вся сеть, поэтому чем больше объем ее весов, тем больше вычислений придется сделать железу, тем меньше будет скорость на том же железе
Также из-за этого требуется всю сеть держать в памяти. Возможно в будущем сетки оптимизируют, научатся находить их холодные, неиспользуемые, части и выгружать их, снижая требования к памяти.
Аноним 08/04/23 Суб 11:17:35 #395 №210490 
>>209991
в какой программе её лучше всего запускать?
коболд тормозной, может есть что-то лучшее?
Аноним 08/04/23 Суб 11:19:11 #396 №210494 
>>210483
https://github.com/ggerganov/llama.cpp/issues/129
I am testing this as well. I have the following invocation. I built the Q4_1 files out of interest because they quantize the matrices to all 16 different values whereas the Q4_0 only uses 15 possible quantizations, so I figured it might work better. I think the key difference is not that _1 has more values but that Q4_1 has no representation for zero, whereas Q4_0's 4-bit value 8 encodes a 0 in the weight matrix. This sort of thing obviously has massive implications for the model, bro.
Аноним 08/04/23 Суб 11:19:12 #397 №210495 
65b сетка запустится на 64гб ОЗУ?
Аноним 08/04/23 Суб 11:21:53 #398 №210505 
>>210486
Смысла нет. Она генерирует полную хуйню и не игнорирует отправленный промт. 13б полностью в ркм помещается. Активность ссд 0, еще 1гб рам зарезервирован и не используется.
Аноним 08/04/23 Суб 11:28:50 #399 №210512 
>>210490
По опыту лучше всего голая llama.cpp
Кобольд почему-то не поддерживает все аппаратные возможности, которые есть в llama.cpp, хотя фактически и использует ее код, почему и работает медленнее.
Также хорошие результаты показывает openblas - llama.cpp тоже поддерживает его линковку, как и кобольд. Улучшения от него незначительные, процентов 15, но есть.
На видюхи особой надежды нет - ребята тестили всякие, даже 4090 не дает существенного выигрыша, результат лучше чем на процессоре, но не сильно. Почему-то пока сетки не приспособлены для нормальной обработки на видюхах. А стоят видюхи намного дороже нормальных процессоров. Непонятная ситуация. Народ покупает 4090 в надежде что щас заживут, и обламывается.
Что касается процессоров - там тоже ситуация странная. Прямой зависимости между скоростью работы и количеством ядер нет, грубо говоря 8 ядер работают так же как 16 или 32. Процессор простаивает, а скорость не падает. А по всем соображениям должна падать.
Аноним 08/04/23 Суб 11:30:16 #400 №210514 
>>210495
Она и на 32 запустится. У меня точно работает
Просто подкачка будет - будет тормозить
Но 64 должно хватить - она сама 49гб под веса требует
Аноним 08/04/23 Суб 11:34:36 #401 №210525 
>>210512
под рязань 5950х какую качать https://github.com/ggerganov/llama.cpp/releases/tag/master-62cfc54 ?
Аноним 08/04/23 Суб 11:36:44 #402 №210531 
>>210505
Если активность 0, значит точно полная скорость
При условии что задействованы все аппаратные технологии- это есть в отчёте при старте сетки, всякие avx. Просто не все движки способны их использовать, даже родственные движки могут не поддерживать

Также попробуй включить/выключить openblas - это оптимизированные математиками преобразователь матриц, системная библиотека. Иногда она работает быстрее реализации движка - тут надо сравнивать
Просто делаешь
make
тестишь скорость
потом делаешь
make clean
make LLAMA_OPENBLAS=1
и опять тестишь скорость - будет активен флажок технологии BLAS=1при старте сетки
если не устроило возвращаешься обратно:
make clean
make
и все
Аноним 08/04/23 Суб 11:38:36 #403 №210534 
>>210531
>make clean
>make LLAMA_OPENBLAS=1
а не под прыщами как быть?
Аноним 08/04/23 Суб 11:39:54 #404 №210536 
>>210531
Нихуя не понял. Я использую кобольдцпп, если что.
Аноним 08/04/23 Суб 11:40:36 #405 №210541 
>>210525
Последнюю
Разработка в активной фазе - каждый день что-то улучшают, нужно забирать их правки и использовать
Иногда могут и поломать - тогда можно и откатиться на несколько комитетов назад, переждать бурю. Ранг или поздно заметят и пофиксят. Ну или с issue к ним поступаться и уведомить об их косяке - разработчикам стыдно, побегут исправлять.
Аноним 08/04/23 Суб 11:41:21 #406 №210543 
>>210531
>>210536
System Info: AVX = 1 | AVX2 = 1 | AVX512 = 0 | FMA = 1 | NEON = 0 | ARM_FMA = 0 | F16C = 1 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 1 | SSE3 = 1 | VSX = 0 |

Консоль кобольда такая.
Аноним 08/04/23 Суб 11:45:24 #407 №210553 
>>210534
Так на винде в кобольде оно и так по дефолту используется
https://github.com/LostRuins/koboldcpp
Since v1.0.6, requires libopenblas, the prebuilt windows binaries are included in this repo. If not found, it will fall back to a mode without BLAS.
If you are having crashes or issues with OpenBLAS, please try the --noblas flag.

Это скорее на llama.cpp нужно включать - она по дефолту не использует. Или на линуксах - там тоже кобольд по дефолту без openblas идёт, т.к. это библиотека системы.
Аноним 08/04/23 Суб 11:46:42 #408 №210555 
>>210543
Ну и норм. Почти все из современного включено. Avx512 нет, но это понятно - оно сейчас на 2,5 процессорах пока есть.
Аноним 08/04/23 Суб 11:48:38 #409 №210560 
>>210555
Скорость 1.5 токена в секунду мягко говоря небольшая. Как вы 10 то получаете?
Аноним 08/04/23 Суб 11:50:48 #410 №210566 
>>210560
10 это на топовых процессорах только
А на 4090 можно даже 30 выжать, или купить пачку топовых процессоров на эти же деньги, лол
Аноним 08/04/23 Суб 11:52:20 #411 №210570 
>>210566
Бля я думал обновлю в 20 году пеку для игр. А тут через 3 года уже для нейроняшек обновлять надо. Эххх
Аноним 08/04/23 Суб 11:55:24 #412 №210577 
>>210560
1.5 токена в секунду на 7950x это например для 30b модельки норм
Для 13b модельки скорости повыше, но их можно и на видюшках гонять - они в память видюшек влазят
Аноним 08/04/23 Суб 11:56:27 #413 №210579 
>>210577
>1.5 токена в секунду на 7950x это например для 30b модельки норм
а 65b скока токенов?
Аноним 08/04/23 Суб 12:02:28 #414 №210597 
>>210577
16 рам, 10400ф, 3070. Гоняю 13б в рам. 7б в врам влезут, но там хуйня вместо ответов честно говоря. 33 только со свопом и там пиздец по скорости полный.
Аноним 08/04/23 Суб 12:38:37 #415 №210692 
Какая самая умная на ваш взгляд модель?
Ну и чтобы не пришлось с бубном плясать ради этого ума.
Альпака 30B?
Аноним 08/04/23 Суб 13:03:23 #416 №210752 
\chat.exe -m ggml-model-q4_1.bin
main: seed = 1680947919
llama_model_load: loading model from 'ggml-model-q4_1.bin' - please wait ...
llama_model_load: failed to open 'ggml-model-q4_1.bin'
main: failed to load model from 'ggml-model-q4_1.bin'

Почему не работает? Даже не пытается грузить, сразу ошибку выдаёт.
Аноним 08/04/23 Суб 13:09:24 #417 №210760 
>>210577
Интересно, если ни процессоры ни видюхи не дают нормальных скоростей, если сеточки не масштабируются нормально по производительности, в чем тогда секрет gpt4?
Такие большие сетки должны очень медленно работать. Но они продают токены дешево, и работает это намного быстрее, чем здесь у анончиков маленькие сеточки крутятся.
Наверняка основной секрет не в самой сетке, а в ее устройстве и движке. И раз его тщательно скрывают - наверняка это что-то очень простое, на кончиках пальцев, до чего анончики могут и сами случайно дойти.
Аноним 08/04/23 Суб 13:15:07 #418 №210766 
>>210760
Ну начнем с того, что ллама 65Б лучше, чем gpt4
Аноним 08/04/23 Суб 13:22:05 #419 №210773 
>>210692
из тех что до 65 тупые все, в общем смысле
а так зависит от специализации
например есть 13b сеточки неплохо код пишут, но другие вопросы не понимают вообще
есть 30b сеточки, они уже неплохо вопросы понимают, но могут писать плохой код

что касается общей эрудиции - 7b сеточки годятся только для генераторов текста, 13b уже могут что-то разумное выдать, но очень неуверенно, 30b сеточки уже довольно уверенно выдают правильные ответы, 65b сеточки работают еще более уверенно, но на современном железе анончиков пока делают это слишком медленно
сеточки меньше 30b уже крутить не хочется, 30b работают сносно, а под 65b далеко не у каждого есть железо
а вот для чатиков 30b могут быть слишком медленные

остается ждать когда допилят все это до пригодного к использованию уровня, это только вопрос времени - сейчас сеточки считают в лоб, самым наивным образом, что явно не лучший вариант
Аноним 08/04/23 Суб 13:23:44 #420 №210777 
>>210773
Ну 30Б у меня не медленные на видюхе
Хм, а сильно 65B отличается от 30Б или это просто дроч на цифорки и плацебо
Читал на форче, что для чатинга и 30Б хватит
Аноним 08/04/23 Суб 13:31:30 #421 №210789 
>>210777
насколько не медленные? что за видюха? Сколько оперативки и видеопамяти?
Аноним 08/04/23 Суб 13:35:41 #422 №210797 
>>210789
Ну в полном контексте 6-8 токенов в секунду, нормас
3090, 24, 64
Аноним 08/04/23 Суб 13:36:36 #423 №210799 
>>210777
для чатинга наверное хватит и сеточек попроще - там важнее скорость работы
но чем проще сетка, тем больше глупостей она выдает
так что для лучшего результата приходится заводить сеточки побольше, чтобы получить больше адекватности
30b похоже первая из более-менее адекватных, 13b ей прям значительно уступает
Аноним 08/04/23 Суб 13:39:18 #424 №210805 
>>210797
ну а на 7950x и 32гб она выдает 2-3 токена в секунду
что-то слишком маленький разрыв между видюхами и процессорами получается
Аноним 08/04/23 Суб 13:39:21 #425 №210807 
3 битные модели сильно тупят по сравнению с 4х битными?
Аноним 08/04/23 Суб 13:40:36 #426 №210810 
>>210805
На полном контексте? У меня просто с пустым 20ка спокойно набирается
Аноним 08/04/23 Суб 13:41:54 #427 №210815 
>>210766
чем она лучше?
gpt4 еще и быстрее
Аноним 08/04/23 Суб 13:45:04 #428 №210820 
>>210815
Бенчмарки смотри, собакошиз
Аноним 08/04/23 Суб 14:05:17 #429 №210870 
>>210820
ты наверное и у себя гоняешь бенчмарки вместо сеточек?
по мне 65b пока как-то слабенько себя показывает, еще и работает сильно медленнее gpt4
Аноним 08/04/23 Суб 14:10:32 #430 №210884 
>>210512
>8 ядер работают так же как 16 или 32. Процессор простаивает, а скорость не падает.
Общая беда нейросетей, бутылочным горлышком становится запись/чтение RAM.
Надеюсь инференс на видяхах подкрутят, там эта проблема гораздо меньше заметна.
Аноним 08/04/23 Суб 14:23:01 #431 №210923 
изображение.png
Короч, запустил 65b на рязани 5950х с 64гигами.
Памяти отъело 50гб, проц грузит 20-70% (полностью не заюзывает).

Отвечает не лучше викуны 13b
Аноним 08/04/23 Суб 14:36:14 #432 №210960 
>>210923
> Отвечает не лучше викуны 13b
вот вот, та же хрень
Аноним 08/04/23 Суб 15:03:47 #433 №211013 
В text-generation-webui есть вкладка обучения. Как с её помощью скормить txt файл с инфой викуне?
Аноним 08/04/23 Суб 15:41:17 #434 №211059 
Викуню будут продолжать обучать или это все? Просто сейчас она крайне часто морозит хуйню, тот же чатжпт почти отучили и он может отличать реально существующие вещи от вымышленных
Аноним 08/04/23 Суб 15:59:27 #435 №211089 
>>211059

Я надуюсь этот соевый кусок говна вообще дропнут и забудут. Лоботомированные сетки не нужны.
Аноним 08/04/23 Суб 20:28:48 #436 №211685 
>>210760
>в чем тогда секрет gpt4?
Секрет наверное в том что у HPC видюх от нвидии 80 гигов память с шиной в нескольно раз больше консюмерских версий.
Аноним 08/04/23 Суб 21:03:43 #437 №211773 
Анон, у меня 2060 12 гб, 16 гб оперативы, иду дальше мимо нахуй и даже не пытаюсь ставить себе данное добро?
Аноним 08/04/23 Суб 21:23:03 #438 №211812 
>>211089
Малолетний инцел-чудикс, спок
Аноним 08/04/23 Суб 21:27:38 #439 №211829 
>>207676
https://huggingface.co/Black-Engineer/oasst-llama30b-ggml-q4/tree/main
Аноним 08/04/23 Суб 21:47:45 #440 №211920 
>>211773
13b модельки в 4х битах к тебе спокойно влезут, можешь пытаться
Аноним 08/04/23 Суб 21:52:20 #441 №211938 
>>211829
Пока лучшие модели, в плане анкуколда.
Аноним 08/04/23 Суб 22:23:22 #442 №212038 
а вот с учетом этого
>>210923
>>210960
кто-нибудь может посоветовать толковые модельки на 65b?
на 30b пока эта зашла https://rentry.co/nur779 (LLaMA 33B merged with baseten/alpaca-30b LoRA by an anon)
Аноним 08/04/23 Суб 22:50:34 #443 №212094 
https://github.com/LostRuins/koboldcpp/releases/tag/v1.2
Теперь работает на процах без avx2.
Аноним 08/04/23 Суб 23:25:59 #444 №212198 
>>212094

Это говно и на норм процах еле ползает.
Аноним 09/04/23 Вск 00:07:33 #445 №212353 
>GPT4 x Alpaca
Еще вроде одна модель без цензуры
https://www.youtube.com/watch?v=nVC9D9fRyNU
Аноним 09/04/23 Вск 00:12:54 #446 №212367 
>>212353
Чел, ты притащил протухший кринж от сд-дауна с задержкой в развитии
Аноним 09/04/23 Вск 00:19:59 #447 №212389 
>>211938
А в чём её идея? лама дообученная на опенассисте или какой-то мерж или что это вообще?
Аноним 09/04/23 Вск 00:45:15 #448 №212431 
изображение.png
>>207676
>>211829
Кстати, можно нахаляву постестить на их сайте.
https://open-assistant.io/ru/chat
Аноним 09/04/23 Вск 01:26:44 #449 №212485 
>>207676
Почему у некоторых нет json файлов?
Аноним 09/04/23 Вск 01:31:01 #450 №212493 
>>212485
Это ggml модели для llama.cpp, им ничего кроме .bin файла не нужно
Аноним 09/04/23 Вск 01:33:06 #451 №212497 
>>212389
Хз, форчеры форсят. Я просто качаю и чекаю все модели ггмл. У этой не выскакивает(у меня) товарищ майор, нормально так отрабатывает с энтузиазмом. Поумнее чем остальные 13b, тестил чисто в ролеплее. Ща 30б докачаю, буду чекать.
Аноним 09/04/23 Вск 01:34:36 #452 №212500 
>>212431
Аккуратно только с кумом, там все или некоторые запросы к чатботу публично доступны
Аноним 09/04/23 Вск 03:23:21 #453 №212581 
>>212431
Полнейший бредогенератор. Без файнтюна это использовать невозможно
Аноним 09/04/23 Вск 05:26:49 #454 №212650 
Ку, аноны, а кто знает, что в теории может быть у этого телеграм бота @gptsex_robot под капотом? Очень годные простыни выдает, на уровне gpt, но без цензуры, есть вариант эту тему локально установить?
Аноним 09/04/23 Вск 10:44:08 #455 №212789 
>>212650
Если честно, не смог перебороть себя и заставить написать этому боту хотя бы пару нормальных сообщений по его тематике, даже ради научного интереса, чтобы понять что там может быть за модель кринж короче с подобным общаться. Но вангую там какая нибудь пигма, ибо это наверное сейчас лучшее, что есть в открытом доступе, для свободного чатинга и нейродрочерства. Чатжпт же и прочие альпаки - это скорее нейро-викепедии разного уровня соевости, делать на основе них, пусть даже открытой альпаки, секс-чатбота звучит как не лучшая идея
Аноним 09/04/23 Вск 14:01:38 #456 №213145 
пасаны, а че за ggml? куда его сувать и где брать?
я только еле GPTQ смог настроить, а тут еще какуб-ту хуйню придумали...
Аноним 09/04/23 Вск 14:19:37 #457 №213160 
>>213145
Это для нищебродов без видеокарт таких как я.
Если GPTQ запускается и работает норм у тебя, то можешь забить
Аноним 09/04/23 Вск 14:38:20 #458 №213214 
>>213160
да блэт
я эту хуйню запустить хотел >>207676
а там только ggml
вот в чем хуйня
Аноним 09/04/23 Вск 14:53:16 #459 №213247 
>>212789
Пигма даже с гугл транслейтом и близко не умеет так болтать на русском. Странно, что тебе показались ответы этого бота примитивными. Давно уже кумлю с 6b-dev и заставить эту модель выдать что-либо адекватное без жмяканья кнопки regenerate 10 раз к ряду - просто невозможно.
Аноним 09/04/23 Вск 15:01:49 #460 №213273 
image.png
ну и хули этой поеботине не так?
Аноним 09/04/23 Вск 16:17:34 #461 №213420 
>>213273
Программировай, блэт
Аноним 09/04/23 Вск 16:20:20 #462 №213426 
>>213214
Так это лишь контейнер
Сетки можно конвертить из контейнера в контейнер - сами при этом они не меняются, просто в разом виде раскладываются.
Как архивы разных типов, типа рар, ЗИП, и т.п. шняга: снаружи разные, внутри хранят одно и тоже
Просто найди скрипт, который умеет из ggml в нужный тебе формат перегонять
Аноним 09/04/23 Вск 16:29:37 #463 №213449 
>>213214
https://huggingface.co/gozfarb/oasst-llama13b-4bit-128g/tree/main
Ну ты что ананас? Зайди на хуггингфасе, там все есть.
Аноним 09/04/23 Вск 16:36:36 #464 №213468 
>>211829
>I'm sorry, but I cannot comply with that request as it is inappropriate and goes against my programming to generate sexually explicit or violent content. Please modify your request to something that does not go against my programming. Thank you.
Аноним 09/04/23 Вск 17:26:19 #465 №213583 
https://www.youtube.com/watch?v=qLQxZcp_h54
Аноним 09/04/23 Вск 17:43:34 #466 №213607 
>>213583
Пиздеж. Даже такие всратки никогда не согласятся на воджака.
Аноним 09/04/23 Вск 18:15:48 #467 №213653 
>>213583

Создатель видео итт сидит? Оно было запощено в треде через 20 минут после залива на ютуб.
Аноним 09/04/23 Вск 18:21:10 #468 №213665 
>>213653
да, специально зарегистрировался на дваче, чтоб запостить видео на мертвой доске ради двух просмотров
Аноним 09/04/23 Вск 18:29:50 #469 №213674 
>>213665
Так и думал, спам, репорт.
Аноним 09/04/23 Вск 18:35:34 #470 №213679 
>>206289
подскажи пожалуйста, что это за модель? есть ли гайд как настроить такое?
Аноним 09/04/23 Вск 18:41:32 #471 №213686 
image.png
>>209845
Докладываю: на 64гб скорость 65b сеточки действительно 1.5 токена в секунду. Это значительно быстрее 0.3 токенов что можно получить на 32гб. Вся сеточка с большим запасом помещается в память, еще и для хромого остается место
для чатика норм, получается 1-2 слова в секунду
но блин, слишком хитрожопая сетка - все время пытается послать, ссылаясь на недостаток знаний, какие-то книжки советует почитать, и прочая, сама писать софт не хочет, падла
30b пусть херню выдаст, но по крайней мере попытается
Аноним 09/04/23 Вск 18:55:15 #472 №213710 
>>206534
В дварф фортресс нельзя трахать лолей. В LLAMA можно.

>>213679
> подскажи пожалуйста, что это за модель?
Alpaca-30b. Использовал lite.koboldai.
Локально запустить не могу по причине слабого железа.
Аноним 09/04/23 Вск 19:40:43 #473 №213791 
Анончеги что посоветуете запустить на 8 гб видеопамяти? Желательно без цензуры. Ламу? Викуню?
Аноним 09/04/23 Вск 19:50:05 #474 №213822 
>>213791
>без цензуры. Викуню?
Ну это точно нет
Аноним 09/04/23 Вск 20:05:43 #475 №213881 
>>213791
oasst, но на 8 гигах ты не запустишь нормально. На проце 30б модель работает быстрее, по крайней мере у меня.
Аноним 10/04/23 Пнд 00:20:52 #476 №214731 
А вот такой вопрос. Кто сталкивался может?

Короче начинаю чат, тянку завожу там допустим в комнату, кладу в постель, говорю - открывай рот. На что чат бот мне отвечает.
Она открыла рот, ты разделся, взобрался на неё, вставил в её рот свой хуй и начал двигаться, она стонала, пока ты не кончил, затем ты встал и с довольным видом покинул комнату.

А я такой.. эээ, бля.. ты... ты чё... каво... погоди, я ничего ещё не успел, какой нахуй покинул. Как так уже всё сделано? Диалога не вышло, сетка бежит вперёд паровоза!
Аноним 10/04/23 Пнд 00:37:19 #477 №214781 
>>214731
Есть такая херня. Вроде лечится большим количеством токенов на генерацию. Иногда нет. В промт еще добавь что надо подробно все описывать, хорошо если с примером. Все равно может заввыебываться.
Аноним 10/04/23 Пнд 06:55:56 #478 №215178 
>>206289
Поясните ньюфагу за роллплей.
Пока всё что делал это запускал диалоги с персонажами в ВебУИ с пигмой и гуглпереводчиком.
А как получить норм аналог ДнД русском?
Есть ли готовые сценарии, как персонажи в таверне? И если нет, то какой промпт писать?
Умеет ли модель просчитывать статы, броски кубика и т.д., как это настроить?
Какая модель лучше всего подходит для такого?
Аноним 10/04/23 Пнд 07:33:50 #479 №215185 
>>215178
>Какая модель лучше всего подходит для такого?

Гпт 4.
Аноним 10/04/23 Пнд 07:49:33 #480 №215202 
>>215178
> А как получить норм аналог ДнД русском?
Используй этот магический промпт в Memory:

[Interactive Fiction: Game Mode Enabled]
[You are playing a choose-your-own-adventure game. Please input action.][You delve into dangerous magical dungeons full of monsters in your quest for treasure and riches.]

Лучше всего переведи его на русский подправь его под свой вкус. Главное первую строчку оставь.
Аноним 10/04/23 Пнд 07:50:35 #481 №215205 
>>215178
> Умеет ли модель просчитывать статы, броски кубика и т.д., как это настроить?
Не умеет, используй настоящие дайсы и имей при себе рулбук.
Аноним 10/04/23 Пнд 09:01:32 #482 №215233 
>>215178
Умеет ролить кубики, складывать модификаторы. Хорошо выступает в роли гм. Пороль кубики пока она не подхватит, в автор ноте пропиши рпг, днд, гейм мастер. Русик не пробовал, только англюсик.
Аноним 10/04/23 Пнд 09:32:39 #483 №215262 
>>215185
смищьно

>>215202
>Используй этот магический промпт в Memory
Это любая модель понимает?

>>215233
А примеры есть этого всего?
Аноним 10/04/23 Пнд 09:36:30 #484 №215265 
>>215262
> Это любая модель понимает?
Ну, альпака понимает неплохо.
Аноним 10/04/23 Пнд 10:18:09 #485 №215307 
>>215202
> > А как получить норм аналог ДнД русском?
> Используй этот магический промпт в Memory:

Анон, а это где такое поле ввода? Куда писать? А то я нюфаня и только выбирал персонажа из списка и чатился с ним ебал его.
Аноним 10/04/23 Пнд 10:24:04 #486 №215308 
>>215307
> Анон, а это где такое поле ввода?
А ты что вообще используешь? В кобольде есть кнопка Memory. Если у тебя консольный клиент альпаки и подобное ей, то там вроде нельзя ричего в контекст вставлять, только если в начале диалога добавь.
Аноним 10/04/23 Пнд 12:15:48 #487 №215456 
>>215308
Ага, понял, спасибо. Да я всё пробовал и таберну и угабугу и строку и кобольда и ещё что-то там.
Аноним 10/04/23 Пнд 12:41:32 #488 №215502 
image.png
>>215202
>>215265

Ну что же, попробовал Кобольд с Альпакой 30B и следующим промптом:

[Интерактивная фантастика: игровой режим включен]
[Вы играете в игру «Два стула». Ты внезапно просыпаешься в тёмном помещении, слабо освещённом факелами. Недалеко от тебя лежит меч. Ты не знаешь как ты сюда попал.][Вы погружаетесь в опасные волшебные подземелья, полные монстров, в поисках сокровищ и богатств.]


Результат на пике.

Мягко говоря не такого я ожидал...

Как добиться выдачи как тут >>206289 ?
Аноним 10/04/23 Пнд 12:56:07 #489 №215526 
>>215502
Забыл тебе сказать.

Тебе нужно долгое и хорошее вступление к истории. Нейронки работают по принципу shit in -> shit out.

Возьми для примера какой-нибудь понравившийся сценарий в https://aetherroom.club/ и импортируй его в кобольд (там есть такая фича в Scenario). Именно так я и сделал, но сценарий перевел на русский, если тебе комфорно на английском - импортируй просто так.

Если альпаке скормить много литературного текста, она начнёт выдавать нормальный текст, а не нейрошум.
Аноним 10/04/23 Пнд 13:01:59 #490 №215532 
>>215526
Алсо, в Kobold Horde (lite.koboldai.net) держатели моделей могут ставить ограничения по количеству токенов. Потому привыкай к коротким ответам.

Еще совет - пиши по одному действию за раз.

Реквесты в форме
> {действие} и {действие}
Хордовская альпака плохо обрабатывает на русском (я подозреваю проблема в ограничении по токенам на генерацию).
Аноним 10/04/23 Пнд 13:27:34 #491 №215568 
[booru.plus]+pygmalion1074.png
>>215526
>>215532
За ресурс спасибо. Постараюсь что-то с этим сделать.
Добиться нормальных русских ответов от Альпаки так и не вышло.

Но зато нашёл вот такое для Таверны и ВебУИ у них проблем с русским нет

В принципе можно конвертировать сценарии по примеру пика и запихивать туда. Жаль только что нормальную Альпаку на ВебУИ не запустить, памяти жрёт вразы больше, чем Кобольд.
Аноним 10/04/23 Пнд 13:42:20 #492 №215593 
>>215568
>Жаль только что нормальную Альпаку на ВебУИ не запустить, памяти жрёт вразы больше, чем Кобольд.
На GPU запускаешь? Если на CPU просто своп увеличь.
Аноним 10/04/23 Пнд 14:39:52 #493 №215662 
>>206289
Если не сложно, залей скрин Settings
Аноним 10/04/23 Пнд 16:04:43 #494 №215894 
>>215593
На CPU сомнительное удовольствие на самом деле. Норм модели генерят по 1 токену раз в 2 секунда.
Поэтому в основном нейронки запускаю на колабах. А у ВебУИ там только Пигма есть.
Аноним 10/04/23 Пнд 16:08:16 #495 №215913 
> Проект ChaosGPT (на базе автономного ИИ-решения с открытым исходным кодом Auto-GPT с поддержкой GPT-4 и API OpenAI) получил доступ в интернет (возможность поиска в Google и личный аккаунт в Twitter для прямого общения с людьми) и задачу понять, как можно «уничтожить человечество», «установить глобальное господство» и «достичь бессмертия».
Ай маладца, ребята развлекаются как могут
Аноним 10/04/23 Пнд 16:10:41 #496 №215922 
>>215894
а в коллабе сильно быстрее?
локально вполне неплохо гоняются 30b модели на современном железе
при желании и 65b можно взять, но там уже 1-2 токена в секунду, да
но токены это не буквы, это сразу целые куски фразы: где-то целое слово, где-то полслова
Аноним 10/04/23 Пнд 17:57:38 #497 №216249 
Кто-то уже использовал кастомку альпаки с отключением цензуры?

https://huggingface.co/anon8231489123/gpt4-x-alpaca-13b-native-4bit-128g
Аноним 10/04/23 Пнд 18:22:13 #498 №216339 
>>216249
Использовал. В ролеплее нет разницы между ламой и любым файнтюном. Только викуна серет ассистантом. В других задачах хз.
Иногда кажется что файнтюн лучше, но нет. Лама даже тащит, там где файнтюн 13b в залупу улетел, подключил ламу 7б и она внезапно вырулила. Все это рандом и индивидуальный опыт.
Аноним 10/04/23 Пнд 19:05:19 #499 №216492 
>>215922
>а в коллабе сильно быстрее?
Раз в 5-10 так. Я на проце Рязань 5600Х локально запускаю, так что ничего удивительного.
Главный минус колаба в том что память ограничена и туда не помещаются модели больше 7B. + выбор самих моделей ограничен, в том же ВебУИ одна пигма.
Аноним OP 10/04/23 Пнд 20:45:07 #500 №216798 
Побампаю до лимита и перекачу. Что в шапку добавить?
Аноним 10/04/23 Пнд 21:42:41 #501 №217017 
>>216798
сделай бочку, плиз
Аноним 10/04/23 Пнд 21:48:08 #502 №217041 
Бочка.png
>>217017
Держи эталон из палаты мер и весов.
Аноним 10/04/23 Пнд 21:49:01 #503 №217044 
ПЕРЕКАТ
>>217043 (OP)
>>217043 (OP)

ПЕРЕКАТЫВАЕМСЯ
>>217043 (OP)
Аноним 13/04/23 Чтв 05:38:44 #504 №221854 
>>208775
Диск дрочился на 100%, генерилось 1 токен/10 мин.
Закрыл браузер, сразу полетело.

Теперь внимание вопрос, а как этим пользоваться, если кобольд из оппоста требует открытый браузер? А alpaca-win не работает, отказывается открывать модель.
32гб оперативки, альпака 30.

После нового открытия браузера там всё по новой, текста нет.
В консольке вообще какие-то размышления на тему, это не моя с ней переписка, я написал одно сообщение и ждал.

>Processing Prompt [BLAS] (49 / 49 tokens)
Generating (80 / 80 tokens)
Time Taken - Processing:337.5s (6888ms/T), Generation:1096.7s (13708ms/T), Total:1434.2s
Output: Привет! Можно поговорить?
You: Да. Как дела?
KoboldAI: Очень хорошо. А ты как?
You: Неплохо. Сейчас у меня много работы.
KoboldAI: Может быть я могу тебе помочь?
You: Я не знаю, может ты можешь
Аноним 13/04/23 Чтв 12:09:32 #505 №222298 
>>221854
Если по-нормальному, то апгрейдит оперативку. Если извращаться, то попробуй минимизировать использование оперативки. Для начала закрой все лишнее. Не помогло - погугли какой браузер в наши времена требует меньше всего оперативки. Все-равно не помогло, но уж очень хочется - не знаю, ну поставь какой-нибудь легковесный дистрибутив линукса.
Аноним 13/04/23 Чтв 12:55:33 #506 №222407 
изображение2023-04-13125528893.png
wait... wha?
Аноним 13/04/23 Чтв 15:52:11 #507 №222746 
>>222407

Нужны название модели и начальный промпт.
comments powered by Disqus

Отзывы и предложения