Оставьте заявку, мы подберем для вас подходящего специалиста за 48 часов!
Премия рунета

Константин З. Data инженер, Lead

ID 9756
КЗ
Константин З.
Мужчина
Беларусь, Минск, UTC+3
Ставка
4,500 Р/час
НДС не облагается
Специалист доступен с 28 февраля 2024 г.

Добавьте подходящих специалистов в список и оформите заявку для предварительного бронирования времени специалистов. После оформления заявки ваш персональный менеджер организует прохождение всех необходимых проверок с вами и каждым кандидатом из заявки. Специалист привлекается к проекту только после окончательного подтверждения его выхода с вашей стороны.

Подробнее
О специалисте
Специализация
Data инженер
Грейд
Lead
Навыки
Apache AirFlow
Apache Hadoop
Apache Spark
Bash
CI/CD
Databricks
Docker
Docker Compose
GreenPlum
HDFS
Hive
Jenkins
Kafka
Kubernetes
MS SQL
PostgreSQL
PySpark
Python
SQL
Terraform
AWS EC2
CORS
CSS3
DynamoDB
GitHub
Lambda
Make
Numpy
Pandas
RDS
Redshift
S3
Azure
containerD
Data Factory
DevOps
Map services
MLflow
MongoDB
Storage
Vault
Virtual Machines
Yarn
API Gateway
AWS
cloud
Cognito
EC2
Redis
SNS
Отрасли
AI & Robotics
BioTech, Pharma, Health care & Sports
FinTech & Banking
Знание языков
Английский — B2
Главное о специалисте
Тимлид / дата-инженер с опытом работы более 5 лет. У меня большой опыт разработки и внедрения надежных и масштабируемых систем. Я хорошо разбираюсь в различных технологиях. Считаю успешную работу каждого члена команды результатом успешной работы всей команды. Программирование – это мое хобби, которое стало частью моей жизни. Языки программирования Python, SQL. Инженерия данных Apache Hadoop (HDFS, MapReduce, YARN, Hive), Apache Spark (PySpark, Core, SQL, Streaming, Structure Streaming и т.д.), ETL/ELT (Apache Airflow), Databricks, Брокеры сообщений (Kafka). Cloud AWS (Redshift, S3, EKS, RDS, MWAA, Secret Manager, EC2, SQS, SNS, Glue, Cloudwatch, Lambda, Cognito и т.д.), Azure (Data Factory, DevOps, Virtual Machines, App Service, Storage Account, Key Vault, Container Registry, Azure SQL и т. д.). Базы данных Реляционные базы данных (Greenplum, PostgreSQL, MS SQL), Базы данных NoSQL (Redis, MongoDB). Машинное обучение и Data Science Python (Pandas, NumPy), MLflow. Моделирование данных Многомерное моделирование (Star Schema, Snowflake Schema), Моделирование сущностей и отношений (ER), Нормализация / Денормализация. DevOps Docker (Docker Compose), Bash, Kubernetes, Terraform, Jenkins, CI/CD. Системы контроля версий Git (GitHub), Azure DevOps.
Проекты   (5 лет 10 месяцев)
Стартап в сфере здравоохранения
Роль
Тимлид / дата-инженер
Обязанности
Стартап, ориентированный на данные, использует концепцию data mesh для эффективной обработки и преобразования огромных массивов данных, связанных со здравоохранением. Мы использовали концепцию data mesh - децентрализованную архитектуру, в которой данные рассматриваются как продукт. Децентрализуя права собственности и обязанности, мы позволяем межфункциональным командам эффективно работать с данными в режиме самообслуживания, способствуя демократизации данных в организации. Обязанности и достижения Работа с заинтересованными сторонами для решения технических вопросов, связанных с данными, и поддержки их потребностей в инфраструктуре данных; Разработка стратегии и планов проектов, установка целей и сроков выполнения, а также эффективное распределение ресурсов; Выбор и настройка подходящих операторов и хуков для различных типов задач. Оптимизация настроек Airflow для обеспечения эффективного распределения ресурсов; Проведение физического моделирования данных в соответствии с требованиями; Обеспечение согласованной и слаженной работы между членами команды, анализ процессов и внедрение улучшений для повышения производительности; Написание SQL-запросов и разработка сложных аналитических процедур; Применение архитектурных и инженерных концепций для разработки решения, отвечающего оперативным требованиям; Определение потоков данных, т.е. какие части организации генерируют данные, какие требуют данные для функционирования, как управляются потоки данных и как изменяются данные при переходе; Управление топиками Kafka, включая создание, настройку и поддержку топиков для различных источников данных; Настройка политик хранения данных для топиков Kafka и реализация стратегий архивирования исторических данных; Конфигурирование Delta Lake на AWS S3. Обеспечение целостности и непротиворечивости данных в Delta Lake. Управление контролем доступа и безопасностью для Delta Lake; Обеспечение доступа к данным с низкой задержкой и высокой пропускной способностью для ML-моделей; Оптимизация пайплайнов данных и инфраструктуры для повышения скорости и эффективности обучения и вывода ML-моделей; Разработка ETL-пайплайнов для преобразования и подготовки данных для предиктивных ML-моделей с помощью AWS Glue; Конфигурирование и управление кластерами AWS Databricks. Обеспечение защиты и регулирование доступа к AWS Databricks; Использование Glue Data Catalog в качестве источника Databricks для выполнения сложных преобразований и анализа; Использование Databricks для масштабной трансформации данных; Документирование процессов, методологий и лучших практик в области инженерии данных, а также обмен знаниями с командой посредством документации и учебных занятий для повышения эффективности и масштабируемости; Код ревью. Технологии Python, SQL, Apache Airflow, Apache Spark (PySpark, Core, SQL, Streaming, Structure Streaming и т.д.), Databricks, Delta Lake, AWS (EC2, Lambda, S3, RDS, DynamoDB, Redshift, Glue, SQS и т.д.), PostgreSQL, Pandas, NumPy, Terraform, Kafka, Docker, Docker Compose, Jenkins, Bash, GitHub.
Стек специалиста на проекте
AWS EC2, Databricks, Redshift, Numpy, Bash, Pandas, CSS3, CORS, GitHub, Make, Terraform, Kafka, Apache Spark, S3, Docker Compose, PySpark, Docker, SQL, Python, Jenkins, Lambda, DynamoDB, Apache AirFlow, RDS, PostgreSQL
Отрасль проекта
BioTech, Pharma, Health care & Sports
Период работы
Декабрь 2021 - По настоящее время  (2 года 3 месяца)
Платформа для аналитики продаж
Роль
Дата-инженер
Обязанности
Проект по анализу продаж с целью получения информации о поведении клиентов и повышения эффективности бизнеса. Системы машинного обучения, визуализация данных и методы статистического анализа использовались для выявления тенденций, закономерностей и возможностей для роста, а также разрабатывались стратегии, основанные на данных, для повышения доходов и рентабельности. Работал с межфункциональными командами для оптимизации ценообразования, рекламных акций и маркетинговых кампаний. Обязанности и достижения Оптимизация производительности баз данных SQL путем мониторинга и устранения медленных запросов, индексации и других проблем, связанных с производительностью; Взаимодействие с другими командами для решения технических вопросов, касающихся Airflow; Разработка событийно-управляемых микросервисов с упором на минимальные временные задержки с точки зрения пользователя; Проектирование и создание систем, управляемых событиями, для эффективного получения, обработки и распространения данных; Настройка и оптимизация расписания выполнения задач с использованием Airflow. Анализ и корректировка расписания в зависимости от изменений в бизнес-процессах; Развертывание микросервисов в AKS; Обработка больших объемов данных с помощью Apache Spark; Оптимизация кластеров Apache Spark; Пакетная обработка с помощью PySpark; Разработка и поддержка заданий Apache Spark для процессов ETL; Создание и ведение документации по заданиям и пайплайнам Apache Spark; Тесное сотрудничество с командами ML и DS; Настройка инстансов виртуальных машин Azure; Создание и управление кластерами и джобами Databricks; Создание масштабируемых, надежных, безопасных и экономически эффективных решений для работы с большими объемами данных; Преобразование данных с помощью Azure Databricks; Настройка баз данных на Azure SQL и установление соединения с микросервисами; Оказание поддержки командам, занимающимся data science, обогащением данных, исследованиями и анализом данных, а также обеспечение оперативной возможности использования данных в продуктах и услугах; Разработка тест-кейсов для проведения проверок качества данных; Создание пайплайнов ML с помощью управляемых MLflow и Databricks; Сотрудничество с инженерами по машинному обучению для внедрения моделей; Следование концепциям управления данными; Выявление возможностей для получения данных; Проводил комплексный анализ данных; Обеспечение качества и целостности данных в базах данных SQL; Разработка пайплайнов CI/CD с помощью Jenkins; Код ревью. Технологии Python, SQL, Apache Airflow, Apache Spark (PySpark, Core, SQL, Streaming, и т.д.), Databricks, Delta Lake, MLflow, Apache Hadoop (HDFS, MapReduce, YARN, Hive), Azure (Data Factory, DevOps, Virtual Machines, App Service, Storage Account, Key Vault, Container Registry, Azure SQL, AKS, и т.д.), MS SQL, MongoDB, Pandas, NumPy, Docker, Docker Compose, Kubernetes, Jenkins, Bash.
Стек специалиста на проекте
Yarn, Databricks, Numpy, Hive, Data Factory, Bash, Pandas, DevOps, MongoDB, Kubernetes, CORS, Make, Apache Hadoop, Apache Spark, Storage, Virtual Machines, HDFS, Map services, MLflow, Docker Compose, Vault, PySpark, Docker, SQL, Python, Jenkins, Apache AirFlow, Azure, containerD, MS SQL
Отрасль проекта
AI & Robotics
Период работы
Апрель 2019 - Декабрь 2021  (2 года 9 месяцев)
Биллинговая система
Роль
Дата-инженер
Обязанности
Биллинговая система для поставщиков цифровых услуг, позволяющая хранить и контролировать финансовую и техническую информацию, а также информацию об оборудовании. Проект представляет собой автоматизированную систему учета, обработки и анализа информации о финансовых операциях, а также автоматизированного построения финансовых отчетов за определенный период времени для отслеживания динамики. Обязанности и достижения Сопровождение и рефакторинг существующих бэкэнд-сервисов; Написание пользовательского промежуточного программного обеспечения; Написание пользовательских форм и сериализаторов; Разработка механизмов мониторинга и обеспечение надежной работы пайплайнов данных. Отслеживание производительности и решение возникающих проблем в Airflow; Поэтапная миграция данных из Greenplum на AWS Redshift; Создание и оптимизация процессов извлечения, трансформации и загрузки данных с использованием Apache Spark; Создание, конфигурация и оптимизация рабочих процессов с использованием Apache Airflow для эффективного перемещения, трансформации и загрузки данных; Настройка контроля доступа и разрешений в Redshift в соответствии с требованиями; Использование AWS API Gateway в качестве централизованного эндпоинта и балансировщика нагрузки для различных сервисов; Настройка отправки уведомлений с помощью AWS SNS; Сопоставление схемы базы данных Greenplum с схемой Redshift; Разработка сложных SQL-запросов и настройка производительности; Хранение архивов на AWS S3; Подключение триггеров на выгрузку данных в AWS S3 с помощью AWS Lambda; Настройка инстансов AWS EC2; Создание тестовой среды с помощью Docker; Написание unit и интеграционных тестов; Принимал участие в настройке Jenkins CI/CD. Технологии Python, SQL, Apache Airflow, Kafka, Apache Spark (PySpark, Core, SQL, Streaming, и т.д.), AWS (Cognito, API Gateway, RDS, SNS, Redshift, EC2, S3, DynamoDB, Cloud Formation, Lambda и т.д.), Greenplum, PostgreSQL, Pandas, NumPy, Redis, Jenkins, Docker, Docker Compose, GitHub.
Стек специалиста на проекте
Redshift, Numpy, Pandas, Redis, CORS, AWS, GitHub, Kafka, Apache Spark, cloud, API Gateway, S3, SNS, Docker Compose, Cognito, EC2, PySpark, Docker, SQL, Python, Jenkins, Lambda, DynamoDB, GreenPlum, Apache AirFlow, RDS, PostgreSQL
Отрасль проекта
FinTech & Banking
Период работы
Май 2018 - Март 2019  (11 месяцев)
Формат работы
Формат работы
Удаленно
Командировки
Не готов
Релокация
Не готов
Готов работать на зарубежных проектах
Нет
Образование
Высшее
Учебное заведение
-
Специальность
Компьютерные науки и разработка программного обеспечения
Завершение учебы
2023 г.

Похожие специалисты

BioTech, Pharma, Health care & Sports • FinTech & Banking • Manufacturing
ВС
Владислав С.
Минск
Data инженер
Senior
3,750 Р/час
Apache AirFlow
Apache Hadoop
apache hive
Apache Spark
AWS RDS
Bash
BigQuery
Bitbucket
cloud
Cloud Functions
+85

Разработчик баз данных / Дата Инженер с опытом работы более 5 лет. Я преданный своему делу инженер, предлагающий эффективные решения, которые превосходят ожидания клиентов. Сильный коммуникатор и сотрудник, способный понять требования бизнеса и разработать стратегию успеха. Независимо от того, работаю ли я самостоятельно или в составе команды, я всегда стремлюсь к достижению результатов, которые превосходят ожидания и способствуют успеху в бизнесе. Языки программирования Python, SQL. Инженерия данных Message Brokers (Kafka), Apache Spark (PySpark, Core, SQL), Databricks, Snowflake, ETL/ELT (Apache Airflow). Машинное обучение и Data Science Python (Pandas, NumPy). Облачные сервисы Azure (DevOps, Delta Lake, Blob Storage, Data Lake Storage, Data Factory, Azure SQL, Functions, Key Vault, Managed Identity, Applications Insights, Dynamics 365, Cosmos DB, etc.). Базы данных Реляционные базы данных (MS SQL Server, MS Dataverse), Базы данных NoSQL (Redis). DevOps Docker, Docker Compose, Kubernetes, Bash scripting. Системы контроля версий Git (Github, Azure DevOps). Домены Аналитика, Здравоохранение, Финансы

Подробнее
AgroTech • BioTech, Pharma, Health care & Sports • E-commerce & Retail
ОГ
Олег Г.
Минск
Data инженер
Lead
4,500 Р/час
Apache AirFlow
Apache Hadoop
Apache Spark
Bash
Cassandra
CI/CD
Databricks
Docker
Docker Compose
DynamoDB
+42

Опытный инженер-программист с более чем 6-летним стажем работы, специализирующийся в области инженерии Big Data. Руководил проектированием и разработкой инфраструктуры данных в различных областях. Превосходные навыки проектирования высоконагруженных систем, изучения новых технических инструментов, оптимизации затрат и производительности. Домены Аналитика, Ритейл, Здравоохранение Языки программирования Python, SQL. Инженерия данных Apache Hadoop (HDFS, MapReduce, YARN, Hive), Apache Spark (PySpark, Core, SQL, Streaming, Structure Streaming и т.д.), ETL/ELT (Apache Airflow), Databricks, Snowflake, Брокеры сообщений (RabbitMQ, Kafka). Cloud AWS (EC2, Lambda, S3, RDS, Kinesis, Athena, CloudWatch, SNS, SQS, EKS, ECS и т.д.). Базы данных Реляционные базы данных (Greenplum, PostgreSQL), Базы данных NoSQL (Cassandra, DynamoDB). Машинное обучение и Data Science Python (Pandas, NumPy). Моделирование данных Многомерное моделирование (Star Schema, Snowflake Schema), Моделирование сущностей и отношений (ER), Нормализация / Денормализация. DevOps Docker (Docker Compose), CI/CD, Kubernetes, Bash, Terraform, Jenkins. Backend Flask, Connexion, SQLAlchemy, OpenAPI. Системы контроля версий Git (GitHub, Bitbucket).

Подробнее
E-commerce & Retail • Urban technology
АТ
Александр Т.
Гродно
Data инженер
Middle
2,465 Р/час
Apache AirFlow
Bitbucket
Clickhouse
Django
Django Rest Framework
Docker
Git
GreenPlum
HDFS
Hive
+30

Опыт работы на всех этапах жизненного цикла разработки программного обеспечения, включающий в себя: работа с базами данных PostgreSQL, ClickHouse, GreenPlum; исследовательский анализ данных с использованием Pandas, Numpy, Seaborn; построение ML-моделей для дополнения отсутствующих данных; проектирование и разработка ETL-процессов с использованием Apache Airflow, SQL, Python, Spark; инструменты скрейпинга BeautifulSoup, Selenium; работа с экосистемой Hadoop - HDFS, YARN, Spark, HBase, Hive, Pig; создание информационных дашбордов с помощью Tableau, Redash, Superset; back-end разработка с помощью Python, Django, DjangoRestFramework. Дополнительная информация: Курсы: Karpov.Courses (01/2021 – 07/2021) Аналитик данных Karpov.Courses (11/2021 – 12/2021) Симулятор аналитика Karpov.Courses (03/2022 – 09/2022) Инженер данных Тренинг-центр ISSoft (06/2022 – 09/2022) «Школа Big Data»

Подробнее

Недавно просмотренные специалисты

AI & Robotics • BioTech, Pharma, Health care & Sports • FinTech & Banking
КЗ
Константин З.
Минск
Data инженер
Lead
4,500 Р/час
AWS EC2
Yarn
Databricks
Redshift
Numpy
Hive
Data Factory
Bash
Pandas
DevOps
+50

Тимлид / дата-инженер с опытом работы более 5 лет. У меня большой опыт разработки и внедрения надежных и масштабируемых систем. Я хорошо разбираюсь в различных технологиях. Считаю успешную работу каждого члена команды результатом успешной работы всей команды. Программирование – это мое хобби, которое стало частью моей жизни. Языки программирования Python, SQL. Инженерия данных Apache Hadoop (HDFS, MapReduce, YARN, Hive), Apache Spark (PySpark, Core, SQL, Streaming, Structure Streaming и т.д.), ETL/ELT (Apache Airflow), Databricks, Брокеры сообщений (Kafka). Cloud AWS (Redshift, S3, EKS, RDS, MWAA, Secret Manager, EC2, SQS, SNS, Glue, Cloudwatch, Lambda, Cognito и т.д.), Azure (Data Factory, DevOps, Virtual Machines, App Service, Storage Account, Key Vault, Container Registry, Azure SQL и т. д.). Базы данных Реляционные базы данных (Greenplum, PostgreSQL, MS SQL), Базы данных NoSQL (Redis, MongoDB). Машинное обучение и Data Science Python (Pandas, NumPy), MLflow. Моделирование данных Многомерное моделирование (Star Schema, Snowflake Schema), Моделирование сущностей и отношений (ER), Нормализация / Денормализация. DevOps Docker (Docker Compose), Bash, Kubernetes, Terraform, Jenkins, CI/CD. Системы контроля версий Git (GitHub), Azure DevOps.

Подробнее