Self-hosted AI: Полное руководство по локальному стеку (DB + Ollama + SQL)

Как собрать свой собственный AI-стек для работы с данными без облаков. Полный гайд по использованию Ollama, баз данных для векторов и SQL-запросов для нейросетей.

21 января 2026 г.

Средний

Self-hosted AI data workflow: DB and Ollama and SQL

Заголовок: Self-hosted AI data workflow: DB and Ollama and SQL

Автор: Технический журналист

Дата: 2024-06-15

Введение: Почему self-hosted AI — это не просто тренд, а необходимость

Представьте: вы разрабатываете AI-продукт, который обрабатывает конфиденциальные данные клиентов. Вы отправляете запросы в OpenAI через API — быстро, удобно, но... Куда уходят ваши данные? Кто имеет к ним доступ? Что, если завтра сервис изменит цену на 300%? Self-hosted AI — это не просто "модный хайп" для разработчиков, которые хотят сэкономить на облаке. Это стратегическая необходимость для компаний, ценящих контроль, безопасность и независимость. Вы сами храните данные, сами обучаете модели, сами отвечаете за uptime. Это как перейти от арендованной квартиры к своему дому: да, вы несете всю ответственность, но и возможности преобразить пространство — безграничны.

Что такое оффлайн-модели: Когда OpenAI не подходит

OpenAI, Claude, Gemini — эталоны качества, но не панацея. Ситуации, когда cloud-модели неприменимы:

Конфиденциальность данных: Медицинские записи, финансовые отчеты, внутренняя документация. Передача их третьей стороне — дыра в безопасности.
Регуляторные огранижения: GDPR, HIPAA, местные законы запрещают экспорт данных за пределы юрисдикции или через несертифицированные каналы.
Нестабильность и латентность: Если интернет отвалится, а бизнес-процесс требует работы "в режиме реального времени", вы зависите от провайдера.
Стоимость при масштабе: Миллионы запросов в день превращают регулярную оплату API в астрономическую сумму. Локальная модель — это разовые затраты на железо + небольшие电费.

Локальная модель — это модель, которую вы скачиваете, разворачиваете и используете на своих серверах или даже на ноутбуке. Вы контролируете версию, систему промптов и данные обучения (fine-tuning).

Архитектура системы на примере конкретного стека

В основе self-hosted AI-воркфлоу лежит классическая трехслойная архитектура:

Слой данных (Data Layer): Ваша база данных, где хранятся не только структурированные таблицы, но и векторные представления данных (тексты, изображения, аудио).
Слой инференса (Inference Layer): Локальный сервер (например, Docker-контейнер), который принимает запросы, генерирует ответы и работает с векторами. Здесь мы используем Ollama.
Пользовательский слой (Client Layer): Веб-интерфейс, мобильное приложение или API, которые общаются с вашим бэкендом.

Идеальный стек для быстрого старта:

База данных: PostgreSQL с расширением pgvector (для хранения и поиска векторов).
Бэкенд: Python (FastAPI) или Node.js (Express) — для связи БД и Ollama.
AI-ядро: Ollama — менеджер моделей и сервер инференса.
Клиент: React, Vue или простой HTML.

База данных для хранения векторов: PostgreSQL (pgvector) vs специализированные решения

Когда вы работаете с текстом, его нужно превратить в числа (вектор) длиной 768, 1024 или более. Хранить эти векторы можно по-разному.

Критерий	PostgreSQL (pgvector)	Специализированные (Pinecone, Weaviate, Qdrant)
Сложность	Вы уже знаете SQL. Один стек для всего.	Новый язык запросов. Дополнительная система.
Скорость	Хорошая для средних объемов (<1M векторов). Для больших данных может тормозить.	Заточены под скорость. Миллиарды векторов ищутся за миллисекунды.
Экосистема	ACID-транзакции, JOIN-ы, миграции, резервные копии.	Специализированные индексы, но нет транзакций в классическом понимании.
Стоимость	Один сервер.	Либо SaaS (дорого), либо свой хостинг (сложнее).

Вывод для старта: Используйте PostgreSQL + pgvector. Это золотой стандарт для MVP и корпоративных систем, где важна целостность данных. Переход на Qdrant/Weaviate нужен только при действительно огромных объемах векторов (от 100 млн штук).

Ollama: Как запустить и управлять моделями локально

Ollama — это Docker для LLM. Он решает три проблемы:

Скачивание моделей: Простая команда ollama pull llama3 скачивает 4-8 ГБ файла.
Запуск сервера: ollama serve поднимает API на http://localhost:11434.
Управление: Легко менять модели, использовать GPU (NVIDIA/AMD) или CPU.

Команды, которые нужно знать:

# Установить Ollama (Linux/Mac/Windows)
curl -fsSL https://ollama.com/install.sh | sh

# Скачать модель (например, 8-битную версию Llama 3 8B)
ollama pull llama3

# Запустить чат в терминале
ollama run llama3 "Расскажи анекдот про ИИ"

# Проверить, что сервер работает
curl http://localhost:11434/api/tags

Важно: Если у вас нет мощного GPU (от 12 ГБ VRAM), используйте квантованные модели (например, llama3:8b-instruct-q4_0). Они весят меньше и требуют меньше памяти, при этом качество остаётся высоким.

SQL + AI: Практика создания векторных индексов и запросов

Теперь самое интересное — связь SQL и AI. Мы будем хранить текст и его вектор в одной базе.

Шаг 1: Подготовка PostgreSQL

CREATE EXTENSION IF NOT EXISTS vector; -- Включаем pgvector
CREATE TABLE documents (
    id BIGSERIAL PRIMARY KEY,
    content TEXT,
    embedding VECTOR(1024) -- 1024-мерный вектор (зависит от модели)
);

Шаг 2: Получение вектора через Python + Ollama Мы запрашиваем у Ollama векторный эмбеддинг для нашего текста.

import requests

def get_embedding(text):
    response = requests.post(
        "http://localhost:11434/api/embeddings",
        json={"model": "nomic-embed-text", "prompt": text}
    )
    return response.json()['embedding']

# Пример текста
text = "Self-hosted AI — это необходимость для корпоративной безопасности."
embedding = get_embedding(text)

# Вставка в БД (псевдокод)
cursor.execute("INSERT INTO documents (content, embedding) VALUES (%s, %s)", (text, embedding))

Шаг 3: Векторный индекс и поиск по сходству Чтобы поиск был быстрым, создаем специальный индекс (HNSW — графовый индекс, самый быстрый).

CREATE INDEX ON documents USING hnsw (embedding vector_l2_ops);

-- Поиск 5 самых похожих документов на вопрос "Какой нюанс важен в AI?"
-- Оператор '<=>' вычисляет косинусное сходство (обратно пропорционально расстоянию)
SELECT content, 1 - (embedding <=> '[вектор_вопроса]') as similarity
FROM documents
ORDER BY embedding <=> '[вектор_вопроса]'
LIMIT 5;

Магия: Мы используем SQL для поиска семантически похожих фрагментов, а затем скармливаем их контекстуальной модели Ollama для генерации ответа.

Реальный кейс: Построение QA-бота на своих данных с полным контролем

Давайте соберем все вместе и построим корпоративного FAQ-бота на основе внутренней документации.

Сценарий: В IT-компании 1000 страниц документации в PDF. Мы хотим, чтобы сотрудники задавали вопросы на естественном языке, а бот давал точные ответы.

Архитектура решения:

Индексация (Offline):
- Парсим PDF, разбиваем текст на чанки (по 500-1000 токенов).
- Для каждого чанка получаем вектор через Ollama (модель nomic-embed-text).
- Сохраняем чанк и вектор в PostgreSQL.
Обработка запроса (Online):
- Пользователь: "Как подключить VPN для удаленной работы?"
- Система: Получает вектор вопроса.
- SQL-запрос: Находит 3-4 релевантных чанка из документации.
- Подготовка промпта: [Контекст: {чанки}]\n\nВопрос: {вопрос}\nПредоставь детальный ответ.
- Ollama: Генерирует ответ на основе найденного контекста (модель llama3).
- Ответ: Выводится пользователю.

Результат: Бот с контекстом 99% своих данных, отвечает точнее, чем общий ChatGPT, и работает в локальной сети без выхода в интернет.

Безопасность и масштабируемость: Локальные ресурсы vs облако

Безопасность (Self-hosted):

Плюсы: Данные никогда не покидают пределов вашей сети. Полный контроль над доступом (VPN, firewall). Нет риска утечки через API-провайдера.
Минусы: Вы отвечаете за обновление уязвимостей в ПО. Нужна кибербезопасность на уровне инфраструктуры.

Масштабируемость:

Одна машина: Хватит для 50-100 параллельных пользователей, если GPU мощный.
Кластеризация: Для высокой нагрузки используем Kubernetes. Ollama можно запускать в нескольких репликах, а нагрузку распределять через nginx. Базу данных масштабируем репликами и шардированием.
Гибридный подход (Cloud + On-prem): Индексация и хранение данных — у вас. Обучение моделей на GPU в облаке (AWS Spot или Azure) с последующим выкатом на локальные серверы.

Компромисс: Для стартапа — берите GPU-сервер или облако. Для корпорации — стройте свой дата-центр. Для теста — используйте ноутбук с Apple M1/M2 (они тянут локальные модели без проблем).

Заключение: Дорожная карта для начинающих

Self-hosted AI — это сложный, но крайне осознанный путь. Вы не просто "играете" с AI, вы строите инженерную систему.

Ваш план действий:

Неделя 1: Эксперимент. Установите Docker, запустите PostgreSQL в контейнере. Установите Ollama и скачайте модель llama3. Поиграйте с командами в терминале.
Неделя 2: Данные. Напишите скрипт на Python, который читает текстовый файл, делит его на куски и сохраняет в БД с векторами (используя pgvector и ollama).
Неделя 3: Прототип. Сделайте простой REST API на FastAPI. Один endpoint принимает вопрос, ищет векторы в БД, генерирует ответ через Ollama.
Неделя 4: Интерфейс. Сделайте фронтенд (или используйте Postman) для вашего API.
Неделя 5: Оптимизация. Экспериментируйте с параметрами: размер чанков, промпты, выбор модели (Llama 3 vs Mistral vs Gemma).

Финал: Вы получите не просто бота, а построенный с нуля AI-стек. Вы будете знать каждую деталь: от файла с весами модели до SQL-запроса, возвращающего ответ. В мире, где данные — это новая нефть, управление собственными "нефтепроводами" для AI — ваше главное конкурентное преимущество. Удачи в построении!

Напоминаем: все кодовые примеры упрощены для понимания. В production обязательно используйте обработку ошибок, валидацию данных и secure-практики.