СБ
Сергей Б.
Мужчина
Беларусь, Минск, UTC+3
Ставка
4 375 Р/час
НДС не облагается
Специалист доступен с 7 сентября 2024 г.
Добавьте подходящих специалистов в список и оформите заявку для предварительного бронирования времени специалистов. После оформления заявки ваш персональный менеджер организует прохождение всех необходимых проверок с вами и каждым кандидатом из заявки. Специалист привлекается к проекту только после окончательного подтверждения его выхода с вашей стороны.
Подробнее
О специалисте
Специализация
Data инженер
Грейд
Навыки
Отрасли
Знание языков
Английский — B2
Главное о специалисте
Дата-инженер с опытом работы более 5 лет.
Я являюсь опытным разработчиком, которому нравится создавать новаторские и эффективные решения. У меня обширный опыт в разработке и глубокое понимание современных технологий. Проактивный командный игрок с отличными навыками коммуникации, способен быстро осваивать новые технологии и методологии. Ставлю требования бизнеса на первое место. Независимо от того, работаю я самостоятельно или в составе команды, моя цель – достигать результатов, которые превосходят ожидания и способствуют успеху бизнеса.
Языки программирования
Python, SQL, Scala, Java.
Инженерия данных
Apache Hadoop, HDFS, Apache Spark, PySpark, Apache Airflow.
Облачные технологии
YandexCloud (DataLens, Object Storage, Virtual Machines, Data Proc, Cloud Functions, Managed Kubernetes, Managed Service for PostgreSQL, KMS, IAM, Monitoring).
Базы данных
PostgreSQL, Greenplum, Oracle, ClickHouse, MongoDB, Redis.
Брокеры сообщений
Apache Kafka.
Data Science
Pandas, NumPy.
Бэкенд
FastAPI.
Моделирование данных
Многомерное Моделирование (Схема «Звезда»,, Схема «Снежинка»,), Сущность-Связь (ER) Моделирование, Нормализация / Денормализация, Data Vault 2.0.
DevOps
Docker, Docker Compose, Kubernetes, Bash Scripting.
Системы контроля версий
Git, GitLab, GitHub.
Проекты
(5 лет 7 месяцев)
DWH ДЛЯ БАНКА
Роль
Дата-инженер
Обязанности
Комплексное программное решение в банковской сфере, включающее масштабное хранилище данных для взаимодействия с большим количеством информации о пользователях и их операциях, а также функциональность для их высокопроизводительной обработки.
Обязанности
Проектирование и реализация схемы базы данных в Greenplum;
Разработка детального плана миграции данных, определение последовательности действий, временных рамок и ресурсов, необходимых для успешной миграции;
Построение ETL пайплайнов с помощью Apache Airflow;
Оценка и анализ структуры и качества данных в исходной базе данных Oracle для идентификации потенциальных проблем и требований к преобразованию данных перед миграцией;
Разработка и поддержание заданий Apache Spark для процессов ETL;
Участие в подготовке среды для миграции данных, включая настройку и развертывание необходимых инфраструктурных компонентов, резервирование ресурсов и создание резервных копий данных;
Управление конфигурацией базы данных Greenplum, включая настройку параметров, управление ресурсами;
Написание и оптимизация сложных SQL-запросов, функций и триггеров, а также отладка SQL-процедур;
Мониторинг и устранение неполадок заданий Apache Spark и производительности кластера;
Выполнение очистки, агрегирования и обогащения
данных с помощью Spark для подготовки данных к анализу;
Модификация Apache Airflow Python DAGs для запуска заданий Spark;
Определение зависимостей задач, перезапусков и параметров планирования в DAGs с помощью Airflow;
Разработка и переопределение пользовательских операторов и хуков для нужд проекта;
Разработка функциональности для маппинга метаданных хранилища под синтаксис Greenplum и Oracle;
Использование Spark Streaming для получения и обработки сообщений из Apache Kafka;
Код ревью.
Технологии
Python, SQL, Scala, Apache Spark, PySpark, Apache Airflow, Apache Kafka, Greenplum, YandexCloud (Object Storage, Virtual Machines, Data Proc, Managed Kubernetes, KMS, IAM, Monitoring), Oracle, Pandas, NumPy, Kubernetes, Docker, Docker Compose, Bash Scripting, GitHub.
Стек специалиста на проекте
monitoring, Kubernetes, Numpy, Data, Pandas, Oracle, Scala, GitHub, Object, Apache Spark, Yandex Cloud, Storage, IAM, Virtual Machines, Docker Compose, PySpark, Apache Kafka, Docker, SQL, Python, GreenPlum, Apache AirFlow, Bash scripting
Отрасль проекта
FinTech & Banking
Период работы
Февраль 2023 - По настоящее время
(1 год 8 месяцев)
СЕЛЬСКОХОЗЯЙСТВЕННЫЙ ПРОЕКТ
Роль
Дата-инженер
Обязанности
Программное решение для сельского хозяйства, позволяющее клиентам и их пользователям получать жизненно важную информацию о земельных ресурсах в выбранных сельскохозяйственных районах. Оно объединяет в себе передовые технологии и надежную аналитику данных, предлагая полноценную информацию о земельных ресурсах.
Обязанности
Проектирование и создание DWH в ClickHouse;
Создание и оптимизация сложных SQL-запросов для аналитики данных, включая использование функций ClickHouse для обработки больших объемов данных;
Разработка и оптимизация распределенных приложений на основе Apache Spark для обработки больших объемов данных, включая задачи ETL, анализа данных и потоковой обработки данных;
Разработка SQL-запросов и запросов DataFrame API в Apache Spark для выполнения аналитических запросов к данным, а также оптимизация запросов для повышения производительности;
Разработка и поддержка архитектуры потоковых данных с использованием Apache Kafka для обеспечения масштабируемости и надежности;
Интеграция Apache Spark с различными источниками данных, такими как файловые системы, базы данных, потоковые системы и облачные хранилища, для считывания и записи данных;
Использование Apache Airflow для планирования заданий ETL;
Реализация ETL-процессов для обработки и трансформации данных в реальном времени с использованием Kafka;
Разработка и оптимизация процессов извлечения, преобразования и загрузки данных с использованием Apache Spark для подготовки данных к анализу и обработке;
Реализация вычислений с использованием Cloud Functions;
Оптимизация производительности Apache Spark приложений путем настройки конфигурационных параметров, использования кэширования и других методов оптимизации;
Обеспечение высокой производительности баз данных SQL;
Написание тестов;HDFS
Код ревью.
Технологии
Python, SQL, Scala, Apache Spark, PySpark, Apache Airflow, Apache Kafka, ClickHouse, YandexCloud (Object Storage, Virtual Machines, Data Proc, Cloud Functions, Managed Kubernetes, Managed Service for PostgreSQL, KMS, IAM, Monitoring), PostgreSQL, MongoDB, Pandas, NumPy, Kubernetes, Docker, Docker Compose, Bash Scripting, GitLab.
Стек специалиста на проекте
monitoring, GitLab, Kubernetes, Clickhouse, Numpy, Data, Pandas, MongoDB, Scala, Object, Apache Spark, Cloud Functions, Yandex Cloud, Storage, IAM, Virtual Machines, Docker Compose, Services, PySpark, Apache Kafka, Docker, SQL, Python, Apache AirFlow, Bash scripting, PostgreSQL
Отрасль проекта
AgroTech
Период работы
Июнь 2021 - Январь 2023
(1 год 8 месяцев)
СЕРВИС ПО ПОДБОРУ АВТОМОБИЛЕЙ
Роль
Дата-инженер
Обязанности
Сервис помогает пользователям выбрать свой будущий автомобиль. Имеется база машин с большим количеством параметров. Пользователь вводит необходимые параметры, по ним сервис предлагает наиболее подходящие варианты.
Обязанности
Сбор данных из различных источников данных и их нормализация с помощью Pandas и NumPy;
Создание и оптимизация DAGs в Apache Airflow для определения порядка выполнения задач, зависимостей между ними и расписания запуска;
Cоздание и поддержка пользовательских плагинов и операторов Apache Airflow для реализации специфических задач обработки и анализа данных;
Оптимизация производительности кластера Hadoop путем настройки параметров конфигурации, оптимизации запросов и процессов, а также мониторинга и решения проблем производительности;
Написание сложных SQL-триггеров, процедур;
Оптимизация сложных SQL- запросов;
Разработка и поддержка архитектуры данных на базе Hadoop, включая создание схем данных, определение хранилищ данных и организацию процессов загрузки;
Миграция кода с Java на Python;
Разработка REST API с использованием FastAPI;
Подготовка документации для приложений, использующих SQL базы данных.
Технологии
Python, SQL, Java, Apache Spark, PySpark, Apache Airflow, Apache Hadoop, HDFS, Apache Hive, PostgreSQL, Redis, FastAPI, Pandas, NumPy, Kubernetes, Docker, Docker Compose, Bash Scripting, GitLab.
Стек специалиста на проекте
GitLab, Kubernetes, Numpy, Java, Pandas, Redis, FastAPI, Apache Hadoop, Apache Spark, HDFS, Docker Compose, PySpark, Docker, SQL, Python, Apache AirFlow, Bash scripting, PostgreSQL, apache hive
Отрасль проекта
Logistics & Transport
Период работы
Март 2019 - Май 2021
(2 года 3 месяца)
Формат работы
Формат работы
Удаленно
Командировки
Не готов
Релокация
Не готов
Готов работать на зарубежных проектах
Нет
Образование
Высшее
Учебное заведение
-
Специальность
Информатика и разработка программного обеспечения
Завершение учебы
2020 г.