Вакансия — Senior / Lead DevOps Engineer (Highload & Infrastructure)
- Зарплата:300 000 - 400 000
- Компания:VPNM (Тихонов Денис Олегович)
- Город:Москва
- Опубликовано:Сегодня
Описание вакансии:
Мы развиваем крупную распределенную инфраструктуру с большим парком серверов. Наша цель - качественный переход к полной автоматизации отказоустойчивости. Нам нужен инженер, который не просто «поддерживает работу», а проектирует системы, способные сохранять живучесть при сбоях на уровне любых узлов или локаций.
Входной фильтр: Начни свой отклик со слов «Я работал в …», а затем перечисли компании, где ты лично отвечал за инфраструктуру с большим количеством серверов и реализовывал механизмы failsafe. Мы ищем человека с глубоким бэкграундом в Highload - если у тебя нет опыта работы с распределенными системами под нагрузкой, пожалуйста, не трать свое и наше время.
🎯 Твой главный вызов:
Проектирование и внедрение архитектуры, которая обеспечит автоматическую живучесть системы. Твоя задача - реализовать надежные механизмы failsafe и Disaster Recovery, чтобы минимизировать влияние сбоев на уровне отдельных сервисов или целых сегментов сети.
🛠 Твои задачи:
-
Failsafe & Availability: Разработка и внедрение стратегий автоматического обеспечения отказоустойчивости распределенной системы.
-
Highload Optimization: Глубокая настройка и тюнинг Nginx, Redis и ClickHouse для работы под экстремальными нагрузками.
-
Масштабирование: Управление парком из большого количества серверов через IaC (Terraform, Ansible) — обеспечение идентичности и предсказуемости среды.
-
Observability: Настройка мониторинга и алертинга, позволяющая моментально диагностировать проблемы в любой точке инфраструктуры.
-
Системный тюнинг: Оптимизация Linux-стека (Network, I/O) для стабильной работы сервисов.
📋 Требования (Hard Skills):
-
Опыт 5+ лет в эксплуатации высоконагруженных систем.
-
Scale Experience: Реальный опыт управления большим парком серверов и понимание специфики их взаимодействия.
-
Expertise в стеке: Ты досконально знаешь, как готовить Nginx (tuning), Redis (replication/sentinel/cluster) и ClickHouse (cluster/sharding) к работе с большими данными и трафиком.
-
IaC: Профессиональное владение инструментами автоматизации. Вся инфраструктура должна быть описана кодом.
-
Reliability: Практический опыт построения самовосстанавливающихся (self-healing) систем и понимание принципов SRE.
💼 Что мы предлагаем:
-
Работа над технически сложным продуктом без бюрократии и лишних слоев менеджмента.
-
Прямое влияние на архитектурные решения: ты предлагаешь инструменты — ты их внедряешь.
-
Масштабные задачи, требующие нестандартных подходов к инфраструктуре.
-
Полная удаленка и гибкий график.