СБ
Сергей Б.
Мужчина
Беларусь, Минск, UTC+3
Ставка
3 896,1 Р/час
НДС не облагается
Специалист доступен с 26 апреля 2025 г.
Добавьте подходящих специалистов в список и оформите заявку для предварительного бронирования времени специалистов. После оформления заявки ваш персональный менеджер организует прохождение всех необходимых проверок с вами и каждым кандидатом из заявки. Специалист привлекается к проекту только после окончательного подтверждения его выхода с вашей стороны.
Подробнее
О специалисте
Специализация
Data инженер
Грейд
Навыки
Отрасли
Знание языков
Английский — B2
Главное о специалисте
Дата инженер / Системный Аналитик с опытом работы более 5 лет.
Я являюсь опытным специалистом, которому нравится создавать новаторские и эффективные решения. У меня обширный опыт в разработке и глубокое понимание современных технологий. Проактивный командный игрок с отличными навыками коммуникации, способен быстро осваивать новые технологии и методологии. Ставлю требования бизнеса на первое место. Независимо от того, работаю я самостоятельно или в составе команды, моя цель – достигать результатов, которые превосходят ожидания и способствуют успеху бизнеса.
Языки программирования
Python, SQL.
Инженерия данных
Apache Hadoop, HDFS, Apache Spark, PySpark, Apache Airflow.
Облачные технологии
Yandex Cloud (DataLens, Object Storage, Virtual Machines, Data Proc, Cloud Functions, Managed Kubernetes, Managed Service for PostgreSQL, KMS, IAM, Monitoring).
Базы данных
PostgreSQL, Greenplum, Oracle, ClickHouse, MongoDB, Redis.
Брокеры сообщений
Apache Kafka.
Data Science
Pandas, NumPy.
Моделирование данных
Многомерное Моделирование (Схема «Звезда»,, Схема «Снежинка»,), Сущность-Связь (ER) Моделирование, Нормализация / Денормализация, Data Vault 2.0.
DevOps
Docker, Docker Compose, Kubernetes, Bash скриптинг.
Системы контроля версий
Git, GitLab, GitHub.
Проекты
(6 лет 2 месяца)
DWH ДЛЯ БАНКА
Роль
Дата инженер / Системный Аналитик
Обязанности
Комплексное программное решение в банковской сфере, включающее масштабное хранилище данных для взаимодействия с большим количеством информации о пользователях и их операциях, а также функциональность для их высокопроизводительной обработки.
Обязанности
Разработка модели, схемы и архитектуры данных для обеспечения эффективного хранения и поиска данных;
Управление ожиданиями заказчиков и обеспечение прозрачности процесса анализа данных на каждом этапе;
Проектирование и реализация схемы базы данных в Greenplum;
Опыт построения ER-диаграмм для проектирования баз данных и визуализации сущностей и связей между ними
Построение ETL пайплайнов с помощью Apache Airflow;
Работа с заказчиком в процессе итерационного сбора требований для создания наилучшего решения;
Документирование процесса создания и управления данными в хранилищах (DWH) для повышения прозрачности работы;
Участие в разработке документации по управлению данными для обеспечения соответствия требованиям;
Управление конфигурацией базы данных Greenplum, включая настройку параметров, управление ресурсами;
Проектировал диаграммы компонентов для описания взаимодействия модулей программного обеспечения;
Занимался проектированием и создание централизованных витрин данных для аналитики;
Написание и оптимизация сложных SQL-запросов, функций и триггеров, а также отладка SQL-процедур;
Опыт проектирования UML-диаграмм для документирования сложных архитектурных решений;
Оптимизация запросов в Greenplum для снижения нагрузки на систему и ускорения выполнения аналитики;
Оптимизация запросов и схем данных для повышения производительности хранилищ (DWH);
Выполнение очистки, агрегирования и обогащения данных с помощью Apache Spark для подготовки данных к анализу;
Модификация Apache Airflow Python DAGs для запуска заданий Apache Spark;
Определение зависимостей задач, перезапусков и параметров планирования в DAGs с помощью Airflow;
Внедрял схемы «Снежинка» для сложных и многомерных систем анализа данных;
Разработка функциональности для маппинга метаданных хранилища под синтаксис Greenplum и Oracle;
Использование Apache Spark Streaming для получения и обработки сообщений из Apache Kafka.
Технологии
Python, SQL, Apache Spark, PySpark, Apache Airflow, Apache Kafka, Greenplum, Yandex Cloud (Object Storage, Virtual Machines, Data Proc, Managed Kubernetes, KMS, IAM, Monitoring), Oracle, Pandas, NumPy, Kubernetes, Docker, Docker Compose, Bash скриптинг, GitHub.
Стек специалиста на проекте
monitoring, Numpy, Data, Bash, Pandas, Oracle, GitHub, Object, Apache Spark, Storage, IAM, Virtual Machines, Docker Compose, PySpark, SQL, Docker, Python, GreenPlum, Apache AirFlow, Yandex Cloud, Kubernetes, Apache Kafka
Отрасль проекта
FinTech & Banking
Период работы
Январь 2023 - По настоящее время
(2 года 4 месяца)
МУЗЫКАЛЬНЫЙ МАГАЗИН
Роль
Дата инженер / Системный Аналитик
Обязанности
Музыкальный магазин, где покупатели могут приобретать подписку на прослушивание музыки и получать персональные рекомендации с учетом своих вкусов. Сбор данных о музыке для пользователя. Пользователь имеет возможность скачивать музыку себе, создавать альбомы, оценивать плейлисты других пользователей и добавлять в них музыку.
Обязанности
Проектирование и оптимизация базы данных, выбирая подходящие технологии хранения данных и решения для хранения данных;
Успешный опыт нахождения баланса между требованиями заказчика и возможностями технической реализации;
Использование ER-диаграммы для проектирования схем данных в DWH-системах;
Проектирование и создание DWH в ClickHouse;
Создание и оптимизация сложных SQL-запросов для аналитики данных, включая использование функций ClickHouse для обработки больших объемов данных;
Опыт проектирования UML-диаграмм для документирования сложных архитектурных решений;
Подготовка аналитических отчетов для руководства на основе данных из хранилищ (DWH);
Разработка SQL-запросов и запросов DataFrame API в Apache Spark для выполнения аналитических запросов к данным, а также оптимизация запросов для повышения производительности;
Использовал ClickHouse для построения аналитических витрин данных, обеспечивающих высокую производительность и масштабируемость;
Для расширения аналитических возможностей проводил локальные доработки в системе по мере поступления запросов от пользователей;
Использовал Data Vault для управления изменениями в бизнес-логике и обеспечении аудируемости данных;
Интеграция Apache Spark с различными источниками данных, такими как файловые системы, базы данных, потоковые системы и облачные хранилища (DWH), для считывания и записи данных;
Оптимизировал процессы загрузки и обновления данных в хранилищах Data Vault;
Оптимизация процессов агрегации данных в ClickHouse для увеличения скорости обработки запросов;
Использование Apache Airflow для планирования заданий ETL;
Обеспечение высокой производительности баз данных SQL.
Технологии
Python, SQL, ApacheApache Spark, PySpark, Apache Airflow, Apache Kafka, ClickHouse, Yandex Cloud (Object Storage, Virtual Machines, Data Proc, Cloud Functions, Managed Kubernetes, Managed Service for PostgreSQL, KMS, IAM, Monitoring), PostgreSQL, MongoDB, Pandas, NumPy, Kubernetes, Docker, Docker Compose, Bash скриптинг, GitLab.
Стек специалиста на проекте
monitoring, GitLab, ClickHouse, Spark, Numpy, Data, Bash, Pandas, MongoDB, Object, Cloud Functions, Storage, IAM, Virtual Machines, Docker Compose, Services, PySpark, SQL, Docker, Python, Apache AirFlow, PostgreSQL, Yandex Cloud, Kubernetes, Apache Kafka
Отрасль проекта
Media
Период работы
Июнь 2021 - Декабрь 2022
(1 год 7 месяцев)
САЙТ ОБЪЯВЛЕНИЙ ПО ПРОДАЖЕ АВТОМОБИЛЕЙ
Роль
Дата-инженер
Обязанности
Платформа объявлений для покупки и продажи автомобилей, где пользователи могут размещать объявления с подробным описанием своих автомобилей и находить подходящие варианты для покупки. Удобная система фильтров помогает пользователям быстро находить автомобили, соответствующие их требованиям. Сайт также предлагает возможность связаться с продавцом напрямую, что упрощает процесс покупки и продажи.
Обязанности
Разработка и поддержка общей стратегии обработки данных и плана архитектуры для экосистемы Hadoop организации;
Сбор данных из различных источников данных и их нормализация с помощью Pandas и NumPy;
Проектирование и внедрение инфраструктур и методологий обработки и анализа данных с использованием MapReduce;
Создание и оптимизация DAGs в Apache Airflow для определения порядка выполнения задач, зависимостей между ними и расписания запуска;
Использовал 3НФ для разработки корпоративных хранилищ данных (DWH) с минимальной избыточностью;
Cоздание и поддержка пользовательских плагинов и операторов Apache Airflow для реализации специфических задач обработки и анализа данных;
Ведение документации по настройке и управлению хранилищами данных (DWH);
Использование компонентных диаграмм для описания микросервисной архитектуры;
Разработка архитектурных решений для хранилищ данных (DWH) на базе Apache Spark;
Оптимизация производительности кластера Hadoop путем настройки параметров конфигурации, оптимизации запросов и процессов, а также мониторинга и решения проблем производительности;
Написание сложных SQL-триггеров, процедур;
Оптимизация сложных SQL- запросов;
Разработка и поддержка архитектуры данных на базе Hadoop, включая создание схем данных, определение хранилищ данных (DWH) и организацию процессов загрузки;
Подготовка документации для приложений, использующих SQL базы данных.
Технологии
Python, SQL, Apache Spark, PySpark, Apache Airflow, Apache Hadoop, HDFS, Apache Hive, PostgreSQL, Redis, Pandas, NumPy, Kubernetes, Docker, Docker Compose, Bash скриптинг, GitLab.
Стек специалиста на проекте
GitLab, Numpy, Bash, Pandas, Redis, Apache Hadoop, Apache Spark, HDFS, Docker Compose, PySpark, SQL, Docker, Python, Apache AirFlow, apache hive, PostgreSQL, Kubernetes
Отрасль проекта
Logistics & Transport
Период работы
Март 2019 - Май 2021
(2 года 3 месяца)
Формат работы
Тип занятости
Фулл-тайм
Формат работы
Удаленно
Командировки
Не готов
Релокация
Не готов
Готов работать на зарубежных проектах
Нет
Образование
Высшее
Учебное заведение
Минский гос университет
Специальность
Информатика и разработка программного обеспечения
Завершение учебы
2020 г.