Главное правило экономии — использовать квантованные модели. Форматы Q4 или Q5 уменьшают потребление памяти в разы, а качество падает незначительно.
Не запускай через тяжёлые ML-фреймворки без нужды. Для домашнего использования лучше подходят llama.cpp или Ollama — они выжимают максимум из CPU и RAM и не требуют мощной видеокарты.
Если есть GPU с 6-8 GB VRAM — спокойно запускаются модели 7B в Q4.
Если только CPU — выбирай 3B или 7B Q4 и не ставь большое контекстное окно.
Контекст = память. Чем он больше, тем тяжелее модели. Для большинства задач хватает 2k-4k токенов.
Используй формат GGUF — он сделан именно для быстрого локального инференса и загружается заметно легче.
Важно подбирать модель под задачу:
— для кода — Code LLaMA
— для общения — instruct / chat версии
— больше параметров не всегда значит лучше
Локальный запуск LLaMA — это баланс между размером модели, квантованием и твоим железом.
curl -fsSL https://ollama.com/install.sh | sh
ollama run llama3:8b-instruct-q4
./main -m model.gguf -c 2048 -t 8
Источник: ollama.com
Источник: ai-news.ru























