Прошлые домены больше не функционируют, используйте адрес
ARHIVACH.HK.
24 декабря 2023 г. Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна.
Подробности случившегося. Мы призываем всех неравнодушных
помочь нам с восстановлением утраченного контента!
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память.
LLaMA это генеративные текстовые модели размерами от 7B до 65B, притом младшие версии моделей превосходят во многих тестах обходит GTP3, в которой 175B параметров (по утверждению самого фейсбука). От неё быстро ответвилась Alpaca, те же модели, но с файнтюном под выполнение инструкций в стиле ChatGPT, американские студенты рады, в треде же пишут про мусор с тегами в выводе, что запускать, решать вам.
Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай!
1) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth
2) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin
3) Веса, квантизированные в ggml. Работают со сборками на процессорах. Формат имени ggml-model-q4_0.bin
4) Веса, квантизированные в GPTQ. Работают на видеокарте и с оффлоадом на процессор в вебуи. Новые модели имеют имя типа llama-7b-4bit.safetensors (более безопасные файлы, содержат только веса), старые llama-7b-4bit.pt
В комплекте с хуитками для запуска обычно есть скрипты конвертации из оригинальных файлов или из формата Hugging Face. Оригинальную llama.cpp сейчас трясёт, и веса придётся конвертировать ещё раз.
Гайд для ретардов без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем llama_for_kobold.exe https://github.com/LostRuins/llamacpp-for-kobold/releases/ Версия 1.0.5 стабильная, выбираем её, если не хотим приключений.
2. Скачиваем модель в ggml формате. Например вот эту
https://huggingface.co/Pi3141/alpaca-lora-30B-ggml/tree/main
Можно просто вбить в huggingace в поиске "ggml" и скачать любую, охуеть, да? Главное, скачай файл с расширением .bin, а не какой-нибудь .pt - это для линуксоидных пидоров.
3. Запускаем llama_for_kobold.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/TavernAI/TavernAI
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Радуемся
Ссылки:
https://rentry.co/llama-tard-v2 общая ссылка со всеми гайдами от иностранных коллег
https://github.com/oobabooga/text-generation-webui/wiki/LLaMA-model Удобный вебгуй для запуска
https://github.com/ggerganov/llama.cpp репозиторий с реализацией на плюсах и запуском на процессоре, в 10 раз медленнее видеокарт, зато не нужна карта с десятком гигабайт VRAM.
https://github.com/tloen/alpaca-lora Та самая альпака.
https://github.com/antimatter15/alpaca.cpp тоже самое, только на плюсах и проце.
https://pastebin.com/vWKhETWS Промт для АИ собеседника
https://pastebin.com/f9HZWiAy Промт для Мику
https://rentry.co/vsu4n Инструкция GPTQ
https://github.com/oobabooga/text-generation-webui/files/11069779/LLaMA-HF-4bit.zip новые торренты
https://rentry.co/nur779 Модели в ggml и safetensors
Предыдущие треды тонут здесь: