НК
Никита К.
Мужчина
Беларусь, Минск, UTC+3
Ставка
4 155,84 Р/час
НДС не облагается
Специалист доступен с 20 мая 2025 г.
Добавьте подходящих специалистов в список и оформите заявку для предварительного бронирования времени специалистов. После оформления заявки ваш персональный менеджер организует прохождение всех необходимых проверок с вами и каждым кандидатом из заявки. Специалист привлекается к проекту только после окончательного подтверждения его выхода с вашей стороны.
Подробнее
О специалисте
Специализация
Data инженер
Грейд
Навыки
Отрасли
Знание языков
Английский — C1
Главное о специалисте
Дата-инженер с опытом работы более 5 лет.
Языки программирования
Python, SQL.
Инженерия данных
HDFS, Apache Hadoop, Apache Hive, Apache Spark, PySpark, Apache Airflow.
Облачные технологии
Yandex Cloud (Object Storage, Compute Cloud, Data Proc, Virtual Machines, Managed Kubernetes, IAM, Cloud Functions, Managed Service for PostgreSQL).
Базы данных
PostgreSQL, ClickHouse, Greenplum, MongoDB, Elasticsearch, MS SQL, Redis.
Брокеры сообщений
Apache Kafka.
Анализ данных
Pandas, NumPy.
Визуализация данных
Power BI, Kibana.
Бэкенд
FastAPI, Flask.
Моделирование данных
Многомерное Моделирование (Схема «Звезда», Схема «Снежинка»), Моделирование Сущность-Связь (ER), Медальонная Архитектура, Data Vault, Нормализация / Денормализация.
DevOps
Docker, Docker Compose, Kubernetes, Bash scripting.
Системы контроля версий
Git, GitHub, Bitbucket.
Проекты
(5 лет 11 месяцев)
ПЛАТФОРМА ЭЛЕКТРОННОЙ КОММЕРЦИИ
Роль
Дата-инженер
Обязанности
Интернет-магазин товаров известных брендов, таких как: дизайнерская одежда, обувь и аксессуары для детей и взрослых. Магазин специализируется на распродажах, где вы можете купить брендовые вещи с большой скидкой.
Обязанности
Разработка и внедрение стандартов управления данными в среде Apache Spark и HDFS, чтобы обеспечить соответствие требованиям регуляторов и внутренних политик;
Настройка и управление связанными службами и наборами данных в Apache Kafka для обеспечения бесшовной передачи данных между различными системами;
Разработка и поддержка индексов Elasticsearch для эффективного хранения и поиска больших объемов данных;
Написание и оптимизация запросов HiveQL в Apache Hive для выполнения сложных аналитических запросов и отчетов на больших
объемах данных, хранящихся в HDFS;
Создание и оптимизация SQL-запросов и хранимых процедур в Greenplum для обработки больших объемов данных и обеспечения быстрой аналитики;
Разработка и настройка дашбордов Kibana для визуализации данных из Elasticsearch, включая создание графиков, диаграмм и отчетов для анализа данных и выявления ключевых трендов;
Разработка и поддержка Kafka Topics и консьюмеров, обеспечивающих надежную и эффективную передачу и обработку данных;
Создание RESTful API с использованием FastAPI для предоставления доступа к аналитическим данным и сервисам, поддерживая высокую производительность и масштабируемость;
Интеграция FastAPI с потоками данных Apache Kafka для обработки и предоставления данных в реальном времени через API;
Создание масштабируемых схем данных в Greenplum для обеспечения эффективного хранения и обработки больших объемов данных;
Разработка и поддержка интеграций между HDFS и Spark (ETL), что позволяет выполнять распределенные вычисления и анализ данных в рамках единой архитектуры обработки больших данных;
Онбординг новых дата-инженеров.
Технологии
Python, SQL, Apache Spark, PySpark, Apache Airflow, Apache Hadoop, HDFS, Apache Hive, Greenplum, Pandas, NumPy, Power BI, PostgreSQL, Elasticsearch, Kubernetes, Kibana, Apache Kafka, FastAPI, Docker, Docker Compose, Bash Scripting, GitHub.
Стек специалиста на проекте
Numpy, Elasticsearch, Pandas, Power BI, Kibana, GitHub, FastAPI, Apache Hadoop, Apache Spark, HDFS, Docker Compose, PySpark, SQL, Docker, Python, GreenPlum, Apache AirFlow, Bash scripting, apache hive, PostgreSQL, Kubernetes, Apache Kafka
Отрасль проекта
E-commerce & Retail
Период работы
Август 2022 - По настоящее время
(2 года 10 месяцев)
БАНКОВСКАЯ СИСТЕМА
Роль
Дата-инженер
Обязанности
Проект по интеграции банковской системы был комплексной задачей, направленной на бесшовную интеграцию баз знаний с аналитическими системами, с особым акцентом на создание OLAP-кубов. Основной целью проекта было создание надежной инфраструктуры данных, которая позволила бы организации получать практические рекомендации, эффективно управлять данными и принимать решения.
Обязанности
Настройка и управление Kubernetes кластером для обеспечения высокой доступности приложений и данных;
Создание хранилищ данных, адаптированных к конкретным бизнес-потребностям и отделам в ClickHouse;
Разработка и модификация SQL-процедур по спецификациям аналитиков данных, чтобы обеспечить точность и эффективность обработки данных;
Интеграция и настройка Elasticsearch для полнотекстового поиска и анализа данных, включая создание индексов и настройку кластеров для повышения эффективности поиска и аналитики;
Развертывание и конфигурация ClickHouse для высокоскоростной аналитики больших объемов данных, включая настройку кластера, создание таблиц и оптимизацию запросов для обеспечения быстрой обработки данных;
Оптимизация производительности и масштабируемости Elasticsearch и ClickHouse кластеров путем настройки параметров, мониторинга нагрузки и выполнения операций по поддержке и обслуживанию;
Создание и поддержка Helm-чартов для автоматизации развертывания приложений в Kubernetes, упрощая управление конфигурациями и зависимостями;
Развертывание и управление виртуальными машинами с использованием Compute Cloud и Virtual Machines для выполнения вычислительных задач и хостинга приложений;
Оптимизация производительности баз данных в Managed Service for PostgreSQL, включая настройку индексов, выполнение оптимизаций запросов и мониторинг производительности.;
Обработка данных с помощью скриптов Pandas и PySpark (ETL);
Создание и настройка Kibana дашбордов для визуализации данных, индексируемых в Elasticsearch;
Создание сложных поисковых запросов с использованием Elasticsearch Query DSL для поддержки различных бизнес-логик и сценариев поиска;
Разработка отчетов и аналитических инструментов, используя данные из Elasticsearch для поддержки бизнес-аналитики и принятия решений.
Технологии
Python, SQL, Apache Spark, PySpark, Apache Airflow, ClickHouse, Yandex Cloud(Object Storage, Compute Cloud, Data Proc, Virtual Machines, Managed Kubernetes, IAM, Cloud Functions, Managed Service for PostgreSQL), Pandas, NumPy, Kibana, Power BI, PostgreSQL, Elasticsearch, Docker, Docker Compose, Bash scripting, Kubernetes, GitHub.
Стек специалиста на проекте
ClickHouse, Numpy, Data, Elasticsearch, Pandas, Power BI, Kibana, GitHub, Object, Apache Spark, Cloud Functions, cloud, Storage, IAM, Virtual Machines, Docker Compose, Services, PySpark, SQL, Docker, Python, Apache AirFlow, Bash scripting, PostgreSQL, Yandex Cloud, Kubernetes
Отрасль проекта
FinTech & Banking
Период работы
Сентябрь 2020 - Июль 2022
(1 год 11 месяцев)
СИСТЕМА АНАЛИЗА ЭФФЕКТИВНОСТИ СЕРВИСА
Роль
Дата-инженер
Обязанности
Проект по анализу эффективности сервиса для получения информации о поведении адаптеров и улучшения их производительности. В рамках проекта использовался статистический анализ с визуализацией данных для выявления источников трафика, проблем и слабых мест платформы на основе сотен веб-сервисов.
Обязанности
Интеграция OLTP и OLAP системы с Data Lake для комплексного хранения и анализа данных, используя Apache Hive и HDFS;
Разработка и оптимизация запросов в Apache Hive для работы с большими объемами данных, хранящимися в HDFS;
Создание DAX в Power BI для выполнения сложных агрегаций и вычислений на разных уровнях детализации, таких как фиксированные, включаемые и исключаемые LOD-выражения;
Проведение анализа данных и их исследование с использованием Power BI для выявления трендов, паттернов и инсайтов, поддерживая принятие решений на основе данных;
Организация и мониторинг пайплайнов (ETL) данных и рабочие процессы с помощью Apache Airflow;
Интеграция Flask-приложений с системами обработки данных, чтобы обеспечить динамическое извлечение и представление данных в реальном времени;
Создание агрегирующих SQL запросов для расчета метрик конверсий;
Планировка задачи с использованием Apache Airflow;
Мониторинг логов Spark в консоли логов Apache Airflow для целей отладки и устранения неполадок;
Оптимизация баз данных MS SQL и Redis для улучшения производительности запросов и обработки данных;
Индексирование базы данных MS SQL для достижения лучшей производительности;
Написание Bash-скриптов для автоматизации рутинных задач и управления инфраструктурой;
Написание документации по структуре баз данных и SQL-процедурам;
Подготовка unit-тестов.
Технологии
Python, SQL, Power BI, Apache Hadoop, HDFS, Apache Spark, PySpark, Apache Hive, Flask, Apache Airflow, MS SQL, Pandas, NumPy, MongoDB, Docker, Docker Compose, Bash scripting, Bitbucket.
Стек специалиста на проекте
Numpy, Pandas, Power BI, Bitbucket, MongoDB, Apache Hadoop, Apache Spark, HDFS, Docker Compose, PySpark, SQL, Docker, Python, Flask, Apache AirFlow, Bash scripting, Microsoft, apache hive
Отрасль проекта
E-commerce & Retail
Период работы
Июль 2019 - Август 2020
(1 год 2 месяца)
Формат работы
Тип занятости
Фулл-тайм
Формат работы
Удаленно
Командировки
Не готов
Релокация
Не готов
Готов работать на зарубежных проектах
Нет
Образование
Высшее
Учебное заведение
-
Специальность
Информатика и разработка программного обеспечения
Завершение учебы
2020 г.