АЛ
Андрей Л.
Мужчина, 27 лет
Россия, Москва, UTC+3
Ставка
4 285,71 Р/час
НДС не облагается
Специалист доступен с 12 июля 2025 г.
Добавьте подходящих специалистов в список и оформите заявку для предварительного бронирования времени специалистов. После оформления заявки ваш персональный менеджер организует прохождение всех необходимых проверок с вами и каждым кандидатом из заявки. Специалист привлекается к проекту только после окончательного подтверждения его выхода с вашей стороны.
Подробнее
О специалисте
Специализация
Инженер БД
Грейд
Навыки
Отрасли
Проф. сообщества
Знание языков
Русский — C2
Главное о специалисте
Андрей — инженер баз данных уровня Senior из Москвы с опытом работы в сферах Telecom, Manufacturing и E-commerce & Retail. Специализируется на проектировании и оптимизации хранилищ данных, работе с Big Data и ETL-процессами. Владеет широким спектром технологий и инструментов, включая Apache AirFlow, Apache Spark, Hadoop, PostgreSQL, Oracle, Microsoft SQL Server, ClickHouse, Greenplum и другие.
Имеет опыт работы на следующих проектах:
- МегаФон: миграция корпоративного хранилища данных, проектирование многоуровневой архитектуры DWH, внедрение практик DataOps.
- Тера Интегро: разработка и оптимизация распределённых DWH, создание алерт-систем на базе Zabbix, потоковая обработка данных.
- НЛМК: миграция данных, оптимизация PostgreSQL, поддержка проектов и разрешение инцидентов, разработка ETL-процессов.
- IQVIA: разработка и оптимизация хранилищ данных, стриминговая обработка данных, моделирование данных, обработка больших данных с использованием Apache Spark.
Проекты
(6 лет 7 месяцев)
МегаФон
Роль
Администратор БД
Обязанности
Описание проекта:
Миграция корпоративного хранилища данных (Exadata → Greenplum/ClickHouse + Hadoop)
Проектирование многоуровневой архитектуры хранилища DWH
Внедрение практик DataOps: мониторинг качества данных, автоматизация тестирования (DBT), рефакторинг legacy-процессов.
Задачи:
Проведение миграции с Oracle Exadata на современные OLAP-решения: Greenplum (для аналитики) и ClickHouse (высоконагруженные OLAP-сценарии), охлаждение данных в Hadoop.
Data Lake на базе Hadoop с интеграцией Trino (ex-Presto SQL) для высокопроизводительных аналитических запросов.
Реализация архитектуры DWH на основе Data Vault 2.0 с интеграцией модели SID TM Forum (логическая модель, объекты, правила построения).
Автоматизация процессов: генерация логических моделей данных, CI/CD-конвейеры, Change Data Capture (CDC) через IUD-таблицы.
Проведение нагрузочного тестирования, определение метрик RTO/RPO, мониторинг производительности кластеров (Prod/DEV/Pre-prod).
Работа с С4 нотацией
Внедрение Apache Iceberg для управления таблицами в data lake.
Настройка бэкапирования DWH на СХД с протоколом S3.
Разработка концепции Blue/Green Deployments.
Создание масштабируемой слоистой структуры с интеграцией 50+ источников данных.
Оптимизация ETL/ELT-процессов через переход с ODI на Airflow и Ni-Fi.
Руководство cross-functional командами (5 человек): постановка задач, оценка трудозатрат, приемочное тестирование.
Организация архитектурных комитетов: документирование решений, анализ ПАТ, согласование изменений в соответствии с ISO/ТМ Forum.
Разработка регламентов эксплуатации хранилища: резервное копирование, восстановление, мониторинг SLA.
С MySQL опыт есть, работал с этой базой на своих проектах в сфере обучения IT. Плюс был проект на миграцию маленькой базы MySQL на PostgreSQl через pg_loader
Linux - администрирование на уровне настройке сетевых шар, окружений, мониторинг производительности и тд
bash - автоматизация процессов сбора данных в рамках мониторинга, кастомные sh скрипты
NoSQL - работал только с MongoDB и ElasticSearch
IaC - работаю с Ansible, у меня около 100 серверов
С базой типа ключ значение не работал - Redis
Достижения
Проект успешно окончен
Стек специалиста на проекте
Oracle, Data, ClickHouse, Hadoop, Data Lake, Clang, GreenPlum, DWH, Apache AirFlow, CI/CD, S3, form, blue/green, deployment, Exadata, Trino, capture, Ni-fi
Отрасль проекта
Telecom
Период работы
Март 2024 - По настоящее время
(1 год 5 месяцев)
Тера Интегро
Роль
Senior Data Engineer
Обязанности
Описание проекта:
Разработка и оптимизация распределенных DWH (Greenplum, ClickHouse)
Data Lake и гибридные решения
Поддержка enterprise-клиентов (Сбербанк, ВТБ, ПСБ)
Создание алерт-систем на базе Zabbix для предупреждения аномалий в работе
Задачи:
Архитектура и сопровождение Greenplum: проектирование кластера, тюнинг производительности (партиционирование, индексы), внедрение Prometheus + Grafana для мониторинга метрик.
Создание корпоративного дистрибутива ClickHouse под требования Сбербанка: интеграция шифрования данных (AES-256), настройка репликации (ZooKeeper), разработка мониторинга.
Потоковая обработка данных: реализация Spark Streaming (Python/Scala) для ETL-пайплайнов, интеграция с Kafka для обработки событий в реальном времени.
Управление большими данными: настройка Spark-джобов для batch-обработки, интеграция с Hadoop (HDFS, YARN) и Trino для кросс-платформенных аналитических запросов.
Разработка корпоративных курсов (Тера Интегро): создание программ по Greenplum (администрирование, оптимизация запросов) и ClickHouse (архитектура, шардирование) на платформе Moodle.
Премиум-поддержка DWH: аудит производительности кластеров, оптимизация SQL-запросов (EXPLAIN ANALYZE, индексные рекомендации), настройка резервного копирования (pgBackRest, ClickHouse Keeper).
Реализация CI/CD для DWH: деплой скриптов с помощью Airflow и GitLab Pipelines.
Разработка кастомных дашбордов в Grafana для мониторинга SLA (запросы/сек, нагрузка на CPU, размер партиций).
Достижения
Проект успешно окончен
Стек специалиста на проекте
PostgreSQL, Docker, SQL, Grafana, Kubernetes, Prometheus, Hive, Spark, ClickHouse, Hadoop, Zabbix, GreenPlum, Kafka, Apache AirFlow, HDFS, Trino, streaming
Отрасль проекта
Manufacturing
Период работы
Август 2023 - Март 2024
(8 месяцев)
НЛМК
Роль
Старший разработчик DWH/КХД + DBA
Обязанности
Задачи:
1. Миграция данных:
- Руководство проектами по миграции данных, включая планирование и выполнение переноса данных из различных источников в корпоративное хранилище данных. (Корпоративное хранилище - PostreSQL)
- Обеспечение целостности и безопасности данных в процессе миграции, использование инструментов для контроля и проверки данных (Оркестрация - Apache Airflow, Apache Ni-Fi).
2. Оптимизация PostgreSQL:
- Проведение оптимизации производительности баз данных на платформе PostgreSQL, включая анализ и настройку индексов, написание эффективных SQL-запросов. Рефакторинг легаси кода.
- Мониторинг работы баз данных и принятие мер по улучшению производительности.
3. Поддержка проектов и разрешение инцидентов:
- Оказание технической поддержки текущим проектам, выявление и решение инцидентов, связанных с функционированием кластера и инструментов для обработки данных.
- Реализация корректирующих действий и разработка стратегий для предотвращения повторения проблем.
4. ETL-процессы:
- Разработка и внедрение эффективных ETL-процессов для извлечения, преобразования и загрузки данных в хранилище данных, обеспечивая их соответствие требованиям качества данных.
- Оптимизация существующих ETL-процессов для повышения эффективности обработки данных.
5. Построение хранилища данных:
- Участие в проектировании и реализации архитектуры хранилища данных.
- Настройка и оптимизация процессов интеграции с источниками данных. (SAP система)
6. Разработка SQL-скриптов:
- Написание и оптимизация SQL-скриптов на уровне функций для автоматизации процессов обработки и анализа данных, включая создание хранимых процедур и функций.
- Обеспечение их корректности и производительности через тестирование и отладку.
7. Переносы контуров Airflow:
- Осуществление переносов тестовых и производственных контуров с использованием Apache Airflow, включая настройку и управление рабочими процессами ETL.
- Поддержание документации и следование практикам DevOps для обеспечения бесперебойной работы.
8. Документирование процессов:
- Написание и поддержание документации по проектам и разработанным решениям, включая архитектурные схемы, инструкции по использованию и описания процесса ETL.
9. Тестирование моделей Data Vault и Anchor Model:
- Проведение тестирования и оценки моделей Data Vault и Anchor Model в рамках разработки нового корпоративного хранилища данных.
10. Управление командой подрядчиков, написание ТЗ:
- Управлял командой Инженеров Данных (2 человека).
Стек специалиста на проекте
PostgreSQL, SQL, Apache, Hadoop, Zabbix, ETL, Kafka, Vault, Apache AirFlow, datax, modal, Ni-fi, anchor
Отрасль проекта
Manufacturing
Период работы
Январь 2022 - Август 2023
(1 год 8 месяцев)
Формат работы
Тип занятости
Фулл-тайм
Формат работы
Удаленно
Командировки
Не готов
Релокация
Не готов
Готов работать на зарубежных проектах
Нет
Дипломы и сертификаты
Инженер 2021 г.
Образование
Высшее
Учебное заведение
Высшее
Специальность
Инженер
Завершение учебы
2021 г.