Что такое Ollama?
Ollama — open-source инструмент для локального запуска больших языковых моделей. Он автоматически управляет загрузкой моделей, предоставляет REST API совместимый с OpenAI и работает на Linux, macOS и Windows.
Системные требования
| Конфигурация | RAM | Модели |
|---|---|---|
| Минимальная | 8 GB | Llama 3.2 3B, Phi-3 Mini |
| Рекомендуемая | 16 GB | Llama 3 8B, Mistral 7B |
| Оптимальная | 32+ GB | Llama 3 70B квантизованная |
Установка Ollama
# Установка одной командой
curl -fsSL https://ollama.com/install.sh | sh
# Проверка статуса
systemctl status ollama
systemctl enable ollamaЗагрузка и запуск модели
# Llama 3.2 (2 GB)
ollama run llama3.2
# Mistral 7B (4.1 GB)
ollama run mistral
# Phi-3 Mini для слабых VDS (1.7 GB)
ollama run phi3:mini
# Список моделей
ollama listНастройка API для внешнего доступа
# Редактируем службу
systemctl edit ollama
# Добавьте в [Service]:
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"Безопасность: Не открывайте порт 11434 напрямую в интернет без аутентификации. Используйте Nginx reverse proxy с Basic Auth.
Тест через API
curl http://localhost:11434/api/generate \
-d '{"model":"llama3.2","prompt":"Привет!","stream":false}'Совет: Используйте квантизованные модели (q4_K_M) — они занимают вдвое меньше места при минимальной потере качества.