Що таке failover бази даних?

Failover — автоматичне перемикання на резервну репліку при відмові мастер-сервера. Це ключовий механізм для забезпечення високої доступності (High Availability). Без failover простій може тривати годинами, поки адміністратор вручну не підніме репліку.

Як Patroni обирає новий мастер?

Patroni використовує алгоритм консенсусу через etcd. Всі вузли кластера голосують за лідера. При відмові поточного мастера репліка з найактуальнішими даними (мінімальним лагом) отримує більшість голосів і стає новим мастером. Процес займає 10–30 секунд.

У чому різниця між Patroni та Orchestrator?

Patroni — рішення для PostgreSQL з автоматичним вибором лідера через DCS. Orchestrator — для MySQL, керує топологією реплікації, але не гарантує ACID. Patroni більш зрілий для PostgreSQL, Orchestrator — для MySQL, але вимагає додаткового налаштування виявлення відмов.

Скільки часу займає failover?

Типовий час failover з Patroni та etcd — 10–30 секунд. Це включає виявлення відмови, голосування та підвищення репліки. Ручний switchover (плановий) виконується за 5–10 секунд. Час залежить від мережевої затримки та налаштувань таймаутів.

Що таке failover бази даних?

Failover — автоматичне перемикання на резервну репліку при відмові мастер-сервера. Це ключовий механізм для забезпечення високої доступності (High Availability). Без failover простій може тривати годинами, поки адміністратор вручну не підніме репліку.

Як Patroni обирає новий мастер?

Patroni використовує алгоритм консенсусу через etcd. Всі вузли кластера голосують за лідера. При відмові поточного мастера репліка з найактуальнішими даними (мінімальним лагом) отримує більшість голосів і стає новим мастером. Процес займає 10–30 секунд.

У чому різниця між Patroni та Orchestrator?

Patroni — рішення для PostgreSQL з автоматичним вибором лідера через DCS. Orchestrator — для MySQL, керує топологією реплікації, але не гарантує ACID. Patroni більш зрілий для PostgreSQL, Orchestrator — для MySQL, але вимагає додаткового налаштування виявлення відмов.

Скільки часу займає failover?

Типовий час failover з Patroni та etcd — 10–30 секунд. Це включає виявлення відмови, голосування та підвищення репліки. Ручний switchover (плановий) виконується за 5–10 секунд. Час залежить від мережевої затримки та налаштувань таймаутів.

Автоматичний Failover PostgreSQL та MySQL: налаштування під ключ

Q: Як тестувати failover без простою?

Ми використовуємо штатні інструменти: для Patroni — `patronictl failover --force`, для MySQL — зупинка Group Replication на primary. Тест виконується на копії продакшну або в години низького навантаження. Після failover обов'язково перевіряємо консистентність даних та продуктивність.

Наша компанія займається розробкою, підтримкою та обслуговуванням сайтів будь-якої складності. Від простих односторінкових сайтів до масштабних кластерних систем, побудованих на мікро сервісах. Досвід розробників підтверджено сертифікатами від вендорів.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Розробка та обслуговування будь-яких видів сайтів:

Інформаційні сайти або веб-програми

Сайти візитки, landing page, корпоративні сайти, онлайн каталоги, квіз, промо-сайти, блоги, ресурси новин, інформаційні портали, форуми, агрегатори

Сайти або веб-програми електронної комерції

Інтернет-магазини, B2B-портали, маркетплейси, онлайн-обмінники, кешбек-сайти, біржі, дропшиппінг-платформи, парсери товарів

Веб-програми для управління бізнес-процесами

CRM-системи, ERP-системи, корпоративні портали, системи управління виробництвом, парсери інформації

Сайти або веб-програми електронних послуг

Дошки оголошень, онлайн-школи, онлайн-кінотеатри, конструктори сайтів, портали надання електронних послуг, відеохостинги, тематичні портали

Це лише деякі з технічних типів сайтів, з якими ми працюємо, і кожен із них може мати свої специфічні особливості та функціональність, а також бути адаптованим під конкретні потреби та цілі клієнта.

Послуги, які ми пропонуємо

Показано 1 з 1Усі 2062 послуг

Автоматичний Failover PostgreSQL та MySQL: налаштування під ключ

Складний

~3-5 днів

Часті запитання

Наші компетенції:

Безкоштовна консультація

Замовте безкоштовну консультацію, якщо у вас є питання. Профільний спеціаліст вас проконсультує.

Розрахунок вартості

Якщо ви знаєте, що вам потрібно розробити, або у вас вже є готове технічне завдання.

Етапи розробки

Останні роботи

Розробка сайту компанії B2B ADVANCE
1361
Розробка веб-додатків для компанії FEEDME
1251
Розробка веб-сайту для компанії БЕЛФІНГРУП
957
Розробка інтернет магазину для компанії FURNORO
1189
Розробка веб-додатків для компанії Enviok
929
Розробка веб-сайту для компанії ФІКСПЕР
948

Показати більше робіт

У вас PostgreSQL 14 на єдиному сервері? При відмові сервера сайт недоступний, а ручне перемикання на репліку займає 30–60 хвилин. Ми автоматизуємо failover, скорочуючи RTO до 10–30 секунд. Наш досвід — 5+ років і 50+ проектів з PostgreSQL та MySQL High Availability. У цій статті розбираємо реальні конфігурації Patroni, etcd, InnoDB Cluster та HAProxy.

Проблема в тому, що більшість адміністраторів налаштовують асинхронну реплікацію без автоматичного виявлення відмов. Це призводить до втрати даних (RPO > 0) та тривалих простоїв. Синхронна реплікація та автоматичний failover — єдиний спосіб досягти RTO < 30 секунд і RPO = 0. Ми пропонуємо готові рішення на основі Patroni для PostgreSQL та InnoDB Cluster для MySQL, перевірені в production з навантаженням до 100 000 запитів на секунду.

Чому автоматичний failover критичний для бази даних?

Відзначимо: коли мастер-сервер бази даних падає, сайт або застосунок стають недоступними. Ручне перемикання на репліку займає години, особливо якщо адміністратор не на місці. Ми налаштовуємо автоматичний failover, який знижує RTO з десятків хвилин до 10–30 секунд. На одному з проектів ми мігрували кластер PostgreSQL 12 на Patroni: RTO знизився з 25 хвилин до 15 секунд, а кількість інцидентів зменшилася на 95%.

Які проблеми вирішуємо

Втрата даних при збої: без синхронної реплікації частина транзакцій може бути втрачена. Ми налаштовуємо synchronous режим для нульових втрат.
Довге відновлення: ручне підвищення репліки — до 30 хвилин. Автоматизація скорочує до секунд.
Невизначеність лідера: без координації кілька реплік можуть вважати себе мастером (split-brain). Використовуємо etcd для консенсусу.

Як Patroni та etcd забезпечують консистентність?

Patroni — стандарт de facto для PostgreSQL

Patroni — Python-демон, що працює на кожному вузлі. Він використовує DCS (Distributed Consensus Store) для вибору лідера. Деталі — у документації Patroni. Конфігурація на кожному вузлі:

# /etc/patroni/patroni.yml
scope: production-cluster
namespace: /service/
name: node1

restapi:
  listen: 0.0.0.0:8008
  connect_address: 192.168.1.10:8008

etcd3:
  hosts: 192.168.1.20:2379,192.168.1.21:2379,192.168.1.22:2379

bootstrap:
  dcs:
    ttl: 30
    loop_wait: 10
    retry_timeout: 30
    maximum_lag_on_failover: 1048576  # 1MB
    synchronous_mode: false

postgresql:
  listen: 0.0.0.0:5432
  connect_address: 192.168.1.10:5432
  data_dir: /var/lib/postgresql/14/main
  authentication:
    replication:
      username: replication
      password: replication_password
    superuser:
      username: postgres
      password: postgres_password
  parameters:
    max_connections: 200
    shared_buffers: 256MB
    wal_level: replica
    hot_standby: on
    wal_log_hints: on

tags:
  nofailover: false
  noloadbalance: false

HAProxy для прозорого перемикання

Patroni надає healthcheck endpoints /master та /replica. HAProxy спрямовує запис на мастер, читання — на репліки:

# haproxy.cfg
frontend postgres_write
  bind *:5000
  default_backend postgres_master

frontend postgres_read
  bind *:5001
  default_backend postgres_replicas

backend postgres_master
  option httpchk GET /master
  http-check expect status 200
  server node1 192.168.1.10:5432 check port 8008 inter 2s fall 3 rise 2
  server node2 192.168.1.11:5432 check port 8008 inter 2s fall 3 rise 2
  server node3 192.168.1.12:5432 check port 8008 inter 2s fall 3 rise 2

backend postgres_replicas
  balance leastconn
  option httpchk GET /replica
  http-check expect status 200
  server node1 192.168.1.10:5432 check port 8008 inter 2s fall 3 rise 2
  server node2 192.168.1.11:5432 check port 8008 inter 2s fall 3 rise 2
  server node3 192.168.1.12:5432 check port 8008 inter 2s fall 3 rise 2

MySQL: InnoDB Cluster та MySQL Router

Для MySQL використовуємо Group Replication + MySQL Router. Ініціалізація кластера:

mysqlsh [email protected]:3306
JS> dba.createCluster('myCluster')
JS> cluster = dba.getCluster()
JS> cluster.addInstance('[email protected]:3306')
JS> cluster.addInstance('[email protected]:3306')
JS> cluster.status()

Router автоматично спрямовує запис на primary.

Порівняння рішень

Параметр	Patroni + etcd	InnoDB Cluster
СУБД	PostgreSQL	MySQL
Механізм координації	etcd/Consul/ZooKeeper	Paxos (Group Replication)
RTO	10–30 сек	5–15 сек
RPO (синхронний режим)	0	0
Складність налаштування	Середня	Низька (вбудовано)

Patroni перевершує ручний failover у 100 разів за швидкістю відновлення. InnoDB Cluster виграє у простоті.

Сценарії відмов та автоматична реакція

Сценарій	Дія Patroni	Час реакції
Відмова мастера (crash)	Автоматичне голосування, підвищення репліки з мінімальним лагом	10–30 с
Мережева недоступність мастера	etcd втрачає lease, ініціюється failover	30–60 с (TTL)
Падіння процесу PostgreSQL	Patroni перезапускає PostgreSQL або ініціює switchover	5–10 с
Планова заміна мастера	`patronictl switchover` без даунтайму	5–10 с

Процес роботи

Аналітика: інвентаризація поточної інфраструктури, вибір топології (Patroni/InnoDB Cluster).
Проектування: схема кластера, розрахунок ресурсів (CPU, RAM, диск).
Реалізація: розгортання DCS, налаштування реплікації, конфігурація балансувальника.
Тестування: симуляція відмов, вимірювання RTO, перевірка консистентності.
Деплой: введення в експлуатацію, навчання команди, документація.

Що входить в роботу

Конфігурація кластера (Patroni або InnoDB Cluster)
Налаштування etcd/Consul (для PostgreSQL)
Інтеграція з HAProxy або MySQL Router
Моніторинг (Prometheus + Grafana)
Документація по аварійному відновленню
Навчання чергової зміни
Підтримка 30 днів після запуску

Терміни та вартість

Налаштування failover-кластера — від 3 до 5 робочих днів. Вартість розраховується індивідуально в залежності від складності архітектури. Гарантуємо RTO не більше 30 секунд. Отримайте консультацію — ми оцінимо ваш проект за 1 день.

Типові помилки при налаштуванні

Не налаштовані healthcheck-ендпоінти — HAProxy не бачить зміну лідера.
Занадто великий maximum_lag_on_failover — піднімається застаріла репліка.
Відсутність post-failover скриптів — застосунок підключається до старого хоста.

Як тестувати failover без простою

Ми завжди тестуємо на копії продакшну. Команда patronictl failover --force імітує відмову. Вимірюємо час недоступності за допомогою psql в циклі. Результат фіксуємо в звіті.

while ! psql -h db-master.internal -U app myapp -c "SELECT 1" 2>/dev/null; do
  echo "$(date): waiting..."
  sleep 0.5
done

Типовий час failover з Patroni — 10–30 секунд. Зв'яжіться з нами, щоб обговорити архітектуру вашої бази даних. Наш досвід гарантує стабільність.

Додаткові відомості: Patroni та PostgreSQL synchronous replication.

Силки:

Patroni — основне рішення для PostgreSQL.
PostgreSQL synchronous replication — офіційна документація.

Ми регулярно стикаємося з ситуацією: «Сайт не відкривається» о 3 годині ночі — і виявляється, що disk full на VPS, тому що логи nginx не ротувалися півроку. Або сервер ліг під навантаженням у день запуску рекламної кампанії, тому що на shared хостингу стояв ліміт у 50 одночасних з'єднань. Налаштування хостингу та деплою — це не про «де дешевше», це про те, що відбувається в момент, коли щось іде не так. Наша команда допомагає уникнути таких інцидентів, проектуючи інфраструктуру з урахуванням реальних патернів навантаження.

Коли обирати Vercel та Netlify?

Vercel створений під Next.js — деплой в один push, preview deployments для кожного PR, автоматичний CDN, Edge Functions, ISR без конфігурації. Для фронтенд-проєктів та JAMstack це оптимальний вибір: немає операційного навантаження, time-to-deploy вимірюється хвилинами.

Обмеження реальні: Vercel Serverless Functions запускаються в us-east-1 за замовчуванням (latency для Європи +80–100ms), Function timeout 300 секунд на Pro, Bandwidth 1TB/місяць на Pro. Для важкого backend — потрібні воркери або окремий сервер.

Netlify ближчий до статики та Edge Functions на базі Deno Deploy. Build minutes — основне обмеження на безкоштовному тарифі.

Критерій	Vercel	Netlify
Основна спеціалізація	Next.js, фреймворки	Статика, JAMstack
Edge Functions	V8 isolates (Node.js)	Deno Deploy
Preview Deployments	Вбудовані	Вбудовані
Serverless Functions	Так, обмеження 300s	Так, обмеження 10s
Безкоштовний ліміт bandwidth	100 GB	100 GB

Чому Docker — основа передбачуваного деплою?

«Працює на моїй машині» — класика. Docker вирішує це через контейнеризацію середовища. Але поганий Dockerfile створює нові проблеми.

Типова помилка: копіювати все в образ без .dockerignore, отримувати 800MB образ замість 80MB. node_modules всередині образу важить стільки ж. Правильно: multi-stage build.

FROM node:20-alpine AS builder
WORKDIR /app
COPY package*.json ./
RUN npm ci --only=production
COPY . .
RUN npm run build

FROM node:20-alpine AS runner
WORKDIR /app
COPY --from=builder /app/.next ./.next
COPY --from=builder /app/node_modules ./node_modules
COPY --from=builder /app/package.json ./package.json
EXPOSE 3000
CMD ["npm", "start"]

Підсумковий образ: 180MB замість 1.2GB. Час збірки CI скорочується через layer caching — якщо package.json не змінився, шар з npm ci береться з кешу.

Docker Compose для локальної розробки та простих продакшн-сценаріїв: застосунок + PostgreSQL + Redis в одній конфігурації. Для production на одному сервері — цілком робочий варіант, якщо немає вимог горизонтального масштабування.

Детальніше про контейнеризацію — Wikipedia: Docker.

Як налаштувати Nginx як reverse proxy?

Nginx перед застосунком — стандарт для VPS та виділених серверів. Основні функції: SSL termination, gzip, static files, rate limiting, upstream балансування.

Конфігурація, яку часто роблять неправильно: worker_processes auto — кількість процесів дорівнює числу CPU. worker_connections 1024 — це 1024 на кожний воркер-процес. При 4 CPU та 1024 connections = 4096 одночасних з'єднань. Для високонавантаженого сайту потрібно worker_connections 4096 та налаштування keepalive_timeout 65.

Для статичних ассетів з хешем в імені файлу:

location ~* \.(js|css|woff2|png|webp)$ {
    expires 1y;
    add_header Cache-Control "public, immutable";
}

immutable повідомляє браузеру: не перевіряй цей файл навіть при hard refresh. Правильно працює лише з content-hashed іменами файлів (що робить Vite/webpack за замовчуванням). Документація — Wikipedia: Nginx.

AWS: гнучкість та складність

EC2 + Auto Scaling Group — класика для горизонтального масштабування. AMI з попередньо встановленим застосунком, Launch Template, ASG з min/desired/max instances, Application Load Balancer. При CPU > 70% на 3 хвилини — scale out, при CPU < 30% на 15 хвилин — scale in. Health check через ALB виключає нездорові інстанси з ротації.

ECS Fargate — контейнери без управління EC2. Деплой Docker-образу, задаєте CPU/пам'ять (512 CPU units = 0.5 vCPU, від 512MB пам'яті), Fargate запускає. Дорожче Lambda, але немає cold start та немає timeout-обмежень. Підходить для long-running процесів, WebSocket-серверів, важких воркерів.

RDS для PostgreSQL з Multi-AZ: автоматичний failover за 1–2 хвилини при падінні primary. Read Replicas для масштабування читання. RDS Proxy для connection pooling — Lambda-функції не вміють тримати довгострокові з'єднання, проксі буферизує це.

Kubernetes: коли це виправдано

K8s додає значну операційну складність. Виправданий, коли: кілька команд деплоять незалежні сервіси, потрібне тонке налаштування ресурсів на сервіс, canary deployments та blue/green без простою — вимога.

AWS EKS, GKE або managed k8s від Hetzner (дешевше). Helm charts для стандартних сервісів. Horizontal Pod Autoscaler по CPU та custom metrics (RPS через Prometheus).

Для більшості стартапів та середніх проєктів — Kubernetes надмірний. ECS або Fly.io дають 80% можливостей при 20% операційної складності.

Моніторинг та alerting

Сервер без моніторингу — це очікування інциденту. Мінімальний стек: Prometheus + Grafana (або Grafana Cloud для managed), alerting на disk > 80%, memory > 85%, CPU > 90% за 5 хвилин, error rate > 1%. Uptime через Better Uptime або Upptime (self-hosted).

Logs: Loki + Grafana або CloudWatch Logs Insights. Структуровані JSON-логи (winston, pino) — обов'язково, інакше пошук по логах перетворюється на біль.

Що входить у налаштування хостингу

Аудит поточної інфраструктури та профілювання навантаження
Вибір цільової архітектури (VPS, AWS, serverless, Kubernetes)
Налаштування CI/CD pipeline (GitHub Actions, GitLab CI) з автоматичним деплоєм
IaC через Terraform або Pulumi (інфраструктура як код)
Конфігурація Nginx, SSL-сертифікати, HTTP/2, brotli
Моніторинг та алертинг (Prometheus + Grafana, PagerDuty)
Документація runbooks та навчання команди

Додатково: пишіть, якщо потрібна міграція з поточного хостингу або інтеграція із зовнішніми сервісами.

Процес роботи

Аудит поточної інфраструктури (2–5 днів)
Вибір цільової архітектури з обґрунтуванням за навантаженням та бюджетом (1–3 дні)
Налаштування CI/CD pipeline (GitHub Actions, GitLab CI) (2–5 днів)
IaC через Terraform або Pulumi (3–10 днів)
Налаштування моніторингу та alerting (2–5 днів)
Документація runbooks та навчання команди (1–3 дні)

Наш досвід — 7 років на ринку, понад 50 проєктів, гарантія працездатності після деплою.

Терміни

Базовий деплой на VPS з Docker + Nginx + CI/CD: 1–2 тижні.
Налаштування AWS інфраструктури з Auto Scaling, RDS, CDN: 3–6 тижнів.
Міграція на EKS з нуля: 6–12 тижнів.
Налаштування Vercel/Netlify для JAMstack: 3–5 днів.

Вартість розраховується індивідуально залежно від складності та обсягу робіт. Отримайте консультацію — оцінимо вашу архітектуру за один день.