Константин З. Data инженер, Lead
ID 9756
КЗ
Константин З.
Мужчина
Беларусь, Минск, UTC+3
Ставка
4 500 Р/час
НДС не облагается
Специалист доступен с 27 июля 2024 г.
Добавьте подходящих специалистов в список и оформите заявку для предварительного бронирования времени специалистов. После оформления заявки ваш персональный менеджер организует прохождение всех необходимых проверок с вами и каждым кандидатом из заявки. Специалист привлекается к проекту только после окончательного подтверждения его выхода с вашей стороны.
Подробнее
О специалисте
Специализация
Data инженер
Грейд
Навыки
Отрасли
Знание языков
Английский — B2
Главное о специалисте
Тимлид / дата-инженер с опытом работы более 5 лет.
У меня большой опыт разработки и внедрения надежных и масштабируемых систем. Я хорошо разбираюсь в различных технологиях. Считаю успешную работу каждого члена команды результатом успешной работы всей команды. Программирование – это мое хобби, которое стало частью моей жизни.
Языки программирования
Python, SQL.
Инженерия данных
Apache Hadoop (HDFS, MapReduce, YARN, Hive),
Apache Spark (PySpark, Core, SQL, Streaming, Structure Streaming и т.д.),
ETL/ELT (Apache Airflow),
Databricks,
Брокеры сообщений (Kafka).
Cloud
AWS (Redshift, S3, EKS, RDS, MWAA, Secret Manager, EC2, SQS, SNS, Glue, Cloudwatch, Lambda, Cognito и т.д.),
Azure (Data Factory, DevOps, Virtual Machines, App Service, Storage Account, Key Vault, Container Registry, Azure SQL и т. д.).
Базы данных
Реляционные базы данных (Greenplum, PostgreSQL, MS SQL),
Базы данных NoSQL (Redis, MongoDB).
Машинное обучение и Data Science
Python (Pandas, NumPy),
MLflow.
Моделирование данных
Многомерное моделирование (Star Schema, Snowflake Schema),
Моделирование сущностей и отношений (ER),
Нормализация / Денормализация.
DevOps
Docker (Docker Compose), Bash, Kubernetes, Terraform, Jenkins, CI/CD.
Системы контроля версий
Git (GitHub), Azure DevOps.
Проекты
(6 лет 3 месяца)
Стартап в сфере здравоохранения
Роль
Тимлид / дата-инженер
Обязанности
Стартап, ориентированный на данные, использует концепцию data mesh для эффективной обработки и преобразования огромных массивов данных, связанных со здравоохранением. Мы использовали концепцию data mesh - децентрализованную архитектуру, в которой данные рассматриваются как продукт. Децентрализуя права собственности и обязанности, мы позволяем межфункциональным командам эффективно работать с данными в режиме самообслуживания, способствуя демократизации данных в организации.
Обязанности и достижения
Работа с заинтересованными сторонами для решения технических вопросов, связанных с данными, и поддержки их потребностей в инфраструктуре данных;
Разработка стратегии и планов проектов, установка целей и сроков выполнения, а также эффективное распределение ресурсов;
Выбор и настройка подходящих операторов и хуков для различных типов задач. Оптимизация настроек Airflow для обеспечения эффективного распределения ресурсов;
Проведение физического моделирования данных в соответствии с требованиями;
Обеспечение согласованной и слаженной работы между членами команды, анализ процессов и внедрение улучшений для повышения производительности;
Написание SQL-запросов и разработка сложных аналитических процедур;
Применение архитектурных и инженерных концепций для разработки решения, отвечающего оперативным требованиям;
Определение потоков данных, т.е. какие части организации генерируют данные, какие требуют данные для функционирования, как управляются потоки данных и как изменяются данные при переходе;
Управление топиками Kafka, включая создание, настройку и поддержку топиков для различных источников данных;
Настройка политик хранения данных для топиков Kafka и реализация стратегий архивирования исторических данных;
Конфигурирование Delta Lake на AWS S3. Обеспечение целостности и непротиворечивости данных в Delta Lake. Управление контролем доступа и безопасностью для Delta Lake;
Обеспечение доступа к данным с низкой задержкой и высокой пропускной способностью для ML-моделей;
Оптимизация пайплайнов данных и инфраструктуры для повышения скорости и эффективности обучения и вывода ML-моделей;
Разработка ETL-пайплайнов для преобразования и подготовки данных для предиктивных ML-моделей с помощью AWS Glue;
Конфигурирование и управление кластерами AWS Databricks. Обеспечение защиты и регулирование доступа к AWS Databricks;
Использование Glue Data Catalog в качестве источника Databricks для выполнения сложных преобразований и анализа;
Использование Databricks для масштабной трансформации данных;
Документирование процессов, методологий и лучших практик в области инженерии данных, а также обмен знаниями с командой посредством документации и учебных занятий для повышения эффективности и масштабируемости;
Код ревью.
Технологии
Python, SQL, Apache Airflow, Apache Spark (PySpark, Core, SQL, Streaming, Structure Streaming и т.д.), Databricks, Delta Lake, AWS (EC2, Lambda, S3, RDS, DynamoDB, Redshift, Glue, SQS и т.д.), PostgreSQL, Pandas, NumPy, Terraform, Kafka, Docker, Docker Compose, Jenkins, Bash, GitHub.
Стек специалиста на проекте
PostgreSQL, Docker, SQL, Python, Bash, Jenkins, CORS, CSS3, GitHub, Redshift, DynamoDB, Lambda, Pandas, Numpy, Make, Terraform, Apache Spark, Kafka, Docker Compose, Apache AirFlow, S3, PySpark, Databricks, RDS, AWS EC2
Отрасль проекта
BioTech, Pharma, Health care & Sports
Период работы
Декабрь 2021 - По настоящее время
(2 года 8 месяцев)
Платформа для аналитики продаж
Роль
Дата-инженер
Обязанности
Проект по анализу продаж с целью получения информации о поведении клиентов и повышения эффективности бизнеса. Системы машинного обучения, визуализация данных и методы статистического анализа использовались для выявления тенденций, закономерностей и возможностей для роста, а также разрабатывались стратегии, основанные на данных, для повышения доходов и рентабельности. Работал с межфункциональными командами для оптимизации ценообразования, рекламных акций и маркетинговых кампаний.
Обязанности и достижения
Оптимизация производительности баз данных SQL путем мониторинга и устранения медленных запросов, индексации и других проблем, связанных с производительностью;
Взаимодействие с другими командами для решения технических вопросов, касающихся Airflow;
Разработка событийно-управляемых микросервисов с упором на минимальные временные задержки с точки зрения пользователя;
Проектирование и создание систем, управляемых событиями, для эффективного получения, обработки и распространения данных;
Настройка и оптимизация расписания выполнения задач с использованием Airflow. Анализ и корректировка расписания в зависимости от изменений в бизнес-процессах;
Развертывание микросервисов в AKS;
Обработка больших объемов данных с помощью Apache Spark;
Оптимизация кластеров Apache Spark;
Пакетная обработка с помощью PySpark;
Разработка и поддержка заданий Apache Spark для процессов ETL;
Создание и ведение документации по заданиям и пайплайнам Apache Spark;
Тесное сотрудничество с командами ML и DS;
Настройка инстансов виртуальных машин Azure;
Создание и управление кластерами и джобами Databricks;
Создание масштабируемых, надежных, безопасных и экономически эффективных решений для работы с большими объемами данных;
Преобразование данных с помощью Azure Databricks;
Настройка баз данных на Azure SQL и установление соединения с микросервисами;
Оказание поддержки командам, занимающимся data science, обогащением данных, исследованиями и анализом данных, а также обеспечение оперативной возможности использования данных в продуктах и услугах;
Разработка тест-кейсов для проведения проверок качества данных;
Создание пайплайнов ML с помощью управляемых MLflow и Databricks;
Сотрудничество с инженерами по машинному обучению для внедрения моделей;
Следование концепциям управления данными;
Выявление возможностей для получения данных;
Проводил комплексный анализ данных;
Обеспечение качества и целостности данных в базах данных SQL;
Разработка пайплайнов CI/CD с помощью Jenkins;
Код ревью.
Технологии
Python, SQL, Apache Airflow, Apache Spark (PySpark, Core, SQL, Streaming, и т.д.), Databricks, Delta Lake, MLflow, Apache Hadoop (HDFS, MapReduce, YARN, Hive), Azure (Data Factory, DevOps, Virtual Machines, App Service, Storage Account, Key Vault, Container Registry, Azure SQL, AKS, и т.д.), MS SQL, MongoDB, Pandas, NumPy, Docker, Docker Compose, Kubernetes, Jenkins, Bash.
Стек специалиста на проекте
Kubernetes, Yarn, Databricks, Numpy, Hive, Data Factory, Bash, Pandas, DevOps, MongoDB, CORS, Make, Apache Hadoop, Apache Spark, Storage, Virtual Machines, HDFS, Map services, MLflow, Docker Compose, Vault, PySpark, Docker, SQL, Python, Jenkins, Apache AirFlow, Azure, containerD, MS SQL
Отрасль проекта
AI & Robotics
Период работы
Апрель 2019 - Декабрь 2021
(2 года 9 месяцев)
Биллинговая система
Роль
Дата-инженер
Обязанности
Биллинговая система для поставщиков цифровых услуг, позволяющая хранить и контролировать финансовую и техническую информацию, а также информацию об оборудовании. Проект представляет собой автоматизированную систему учета, обработки и анализа информации о финансовых операциях, а также автоматизированного построения финансовых отчетов за определенный период времени для отслеживания динамики.
Обязанности и достижения
Сопровождение и рефакторинг существующих бэкэнд-сервисов;
Написание пользовательского промежуточного программного обеспечения;
Написание пользовательских форм и сериализаторов;
Разработка механизмов мониторинга и обеспечение надежной работы пайплайнов данных. Отслеживание производительности и решение возникающих проблем в Airflow;
Поэтапная миграция данных из Greenplum на AWS Redshift;
Создание и оптимизация процессов извлечения, трансформации и загрузки данных с использованием Apache Spark;
Создание, конфигурация и оптимизация рабочих процессов с использованием Apache Airflow для эффективного перемещения, трансформации и загрузки данных;
Настройка контроля доступа и разрешений в Redshift в соответствии с требованиями;
Использование AWS API Gateway в качестве централизованного эндпоинта и балансировщика нагрузки для различных сервисов;
Настройка отправки уведомлений с помощью AWS SNS;
Сопоставление схемы базы данных Greenplum с схемой Redshift;
Разработка сложных SQL-запросов и настройка производительности;
Хранение архивов на AWS S3;
Подключение триггеров на выгрузку данных в AWS S3 с помощью AWS Lambda;
Настройка инстансов AWS EC2;
Создание тестовой среды с помощью Docker;
Написание unit и интеграционных тестов;
Принимал участие в настройке Jenkins CI/CD.
Технологии
Python, SQL, Apache Airflow, Kafka, Apache Spark (PySpark, Core, SQL, Streaming, и т.д.), AWS (Cognito, API Gateway, RDS, SNS, Redshift, EC2, S3, DynamoDB, Cloud Formation, Lambda и т.д.), Greenplum, PostgreSQL, Pandas, NumPy, Redis, Jenkins, Docker, Docker Compose, GitHub.
Стек специалиста на проекте
AWS, Redshift, Numpy, Pandas, Redis, CORS, GitHub, Kafka, Apache Spark, cloud, API Gateway, S3, SNS, Docker Compose, Cognito, EC2, PySpark, Docker, SQL, Python, Jenkins, Lambda, DynamoDB, GreenPlum, Apache AirFlow, RDS, PostgreSQL
Отрасль проекта
FinTech & Banking
Период работы
Май 2018 - Март 2019
(11 месяцев)
Формат работы
Формат работы
Удаленно
Командировки
Не готов
Релокация
Не готов
Готов работать на зарубежных проектах
Нет
Образование
Высшее
Учебное заведение
-
Специальность
Компьютерные науки и разработка программного обеспечения
Завершение учебы
2023 г.