Матвей К. Data инженер, Senior
ID 15171
МК
Матвей К.
Мужчина
Беларусь, Минск, UTC+3
Ставка
4 375 Р/час
НДС не облагается
Специалист доступен с 13 сентября 2024 г.
Добавьте подходящих специалистов в список и оформите заявку для предварительного бронирования времени специалистов. После оформления заявки ваш персональный менеджер организует прохождение всех необходимых проверок с вами и каждым кандидатом из заявки. Специалист привлекается к проекту только после окончательного подтверждения его выхода с вашей стороны.
Подробнее
О специалисте
Специализация
Data инженер
Грейд
Навыки
Отрасли
Знание языков
Английский — B2
Главное о специалисте
Дата Инженер с опытом работы более 6 лет.
Моя цель в работе - стремление добиваться результатов, превосходящих чьи либо ожидания. Я понимаю важность соответствия моей работы конкретным требованиям каждого клиента и умею создавать эффективные стратегии, соответствующие потребностям. Я всегда ищу идеальное решение для всех задач каждого клиента.
Языки программирования
Python, SQL, Java.
Инженерия данных
Apache Hadoop, HDFS, Apache Hive, Apache Spark, PySpark, Apache Airflow.
Облачные сервисы
Yandex Cloud(DataLens, Object Storage, Compute Cloud, Data Proc, Cloud Functions, Managed Service for PostgreSQL).
Базы данных
ClickHouse, PostgreSQL, MongoDB, Redis.
Брокеры сообщений
Kafka.
Data Science
Pandas, NumPy.
Визуализация данных
Power BI, Tableau.
Бэкенд
Spring (MVC, Boot, Security, Data), FastAPI.
Моделирование данных
Многомерное Моделирование (Схема «Звезда», Схема «Снежинка»), Моделирование Сущность-Связь (ER), Нормализация / Денормализация, Data Vault 2.0.
DevOps
Docker, Docker Compose, Bash scripting, Kubernetes.
Системы контроля версий
Git, Bitbucket, GitHub.
Проекты
(6 лет 6 месяцев)
ПЛАТФОРМА ДАННЫХ ДЛЯ СЕТИ РЕСТОРАНОВ БЫСТРОГО ПИТАНИЯ
Роль
Дата Инженер
Обязанности
В рамках проекта мы создали масштабируемую инфраструктуру для интеграции данных из различных источников в режиме реального времени на базе Kubernetes. Есть несколько команд, которые отвечают за IoT, потоковые и событийно-управляемые части, рекламу, логистику и т. д.
Обязанности
Разработка и поддержка Apache Spark алгоритмов для ETL процессов. Оптимизация производительности Apache Spark алгоритмов путем конфигурирования и разбиения данных на партиции;
Разработка и поддержка пайплайнов непрерывной интеграции и развертывания приложений в Kubernetes;
Проектирование и разработка пользовательских интерфейсов в Power BI и Tableau для удобства работы с данными и интуитивного взаимодействия;
Реализация механизмов аутентификации и авторизации пользователей в API с помощью FastAPI;
Поддержка легаси Spark кода на Java;
Миграция устаревших Java Spark алгоритмов на PySpark;
Написание пользовательских операторов, хуков, сенсоров и триггеров для Apache Airflow при помощи плагинов;
Мониторинг и оптимизация времени выполнения стадий в пайплайнах Apache Airflow;
Управление временными рядами данных, включая агрегацию, интерполяцию и прогнозирование для применения моделей временных рядов;
Валидация и обработка входных данных, получаемых через API, с использованием встроенных инструментов FastAPI;
Оптимизация процесса A/B тестирования для увеличения эффективности и скорости принятия решений;
Выполнение различных аналитических операций, таких как агрегирование, вычисления и статистические операции над наборами данных в PostgreSQL;
Внедрение мер обеспечения безопасности данных, включая шифрование и контроль доступа, для защиты конфиденциальной информации;
Ревью кода.
Технологии
Python, Java, FastAPI, SQL, Tableau, Power BI, ClickHouse, Apache Airflow, Apache Spark, PySpark, Yandex Cloud(DataLens, Object Storage, Compute Cloud, Data Proc, Cloud Functions, Managed Service for PostgreSQL), Redis, PostgreSQL, Pandas, NumPy, Kubernetes, Docker, Docker Compose, Bash scripting, GitHub.
Стек специалиста на проекте
Kubernetes, Clickhouse, Numpy, Data, Java, Power BI, Pandas, Redis, GitHub, FastAPI, Object, Apache Spark, Cloud Functions, cloud, Yandex Cloud, Storage, Tableau, Docker Compose, Services, PySpark, Docker, SQL, Python, DataLens, Apache AirFlow, Bash scripting, PostgreSQL
Отрасль проекта
Travel, Hospitality & Restaurant business
Период работы
Сентябрь 2022 - По настоящее время
(2 года 1 месяц)
ВНУТРЕННЯЯ АНАЛИТИЧЕСКАЯ ПЛАТФОРМА НА ОСНОВЕ AI LLM
Роль
Дата Инженер
Обязанности
Аналитическая платформа Internal AI LLM - это сложное решение, использующее искусственный интеллект для интерпретации пользовательских запросов и предоставления конкретных данных с помощью больших языковых моделей. Эта платформа способна понимать нюансы языка, предоставлять точную и контекстную информацию, преобразовывать вопросы на естественном языке в код SQL/Python и собирать конкретные данные, одновременно интерпретируя их.
Обязанности
Решение технических вопросов, связанных с данными (в частности, вопросы миграции данных / ETL);
Настройка механизмов управления доступом и шифрования данных в Data Lake;
Общение с командой для сбора полных требований к данным, тем самым обеспечивая себе полное понимание того, чего от этих данных ожидают и как удовлетворить эти ожидания;
Составление стратегии процесса оптимизации моделей данных для повышения их масштабируемости и эффективности, используя общеизвестные лучшие практики;
Анализ схем таблиц для последующей, в зависимости от целей, нормализации и денормализации;
Создание новых и рефакторинг существующих ETL/ELT-пайплайнов;
Работа с большими объемами данных и их эффективная обработка с использованием современных инструментов;
Обработка текстовых данных, включая токенизацию, лемматизацию и векторизацию текста для использования в моделях машинного обучения;
Обработка Kafka сообщений для заполнения DWH новыми данными;
Следование лучшим практикам оптимизации позволило значительно повысить производительность заданий PySpark;
Написание SQL-запросов и сложных аналитических процедур, их анализ и оптимизация.
Технологии
Python, Java, SQL, FastAPI, Kafka, ClickHouse, Apache Spark, PySpark, YandexCloud(DataLens, Object Storage, Compute Cloud, Data Proc, Cloud Functions, Managed Service for PostgreSQL), MongoDB, Pandas, NumPy, Docker, Docker Compose, Bash scripting, Bitbucket.
Стек специалиста на проекте
Clickhouse, Numpy, Data, Java, Pandas, Bitbucket, MongoDB, FastAPI, Kafka, Object, Apache Spark, Cloud Functions, cloud, Yandex Cloud, Storage, Docker Compose, Services, PySpark, Docker, SQL, Python, DataLens, Bash scripting, PostgreSQL
Отрасль проекта
AI & Robotics
Период работы
Февраль 2021 - Август 2022
(1 год 7 месяцев)
СИСТЕМА ВЫСТАВЛЕНИЯ СЧЕТОВ
Роль
Дата Инженер / Бэкенд Разработчик
Обязанности
Биллинговая система для поставщиков цифровых услуг, позволяющая хранить и контролировать финансовую и техническую информацию, а также информацию об оборудовании. Проект представляет собой автоматизированную систему учета, обработки и анализа информации о финансовых операциях, а также автоматизированного построения финансовых отчетов за определенный период времени для отслеживания динамики.
Обязанности
Сокращение времени работы пайплайнов обработки данных за счет переписывания кода с Pandas на PySpark;
Внедрение метрик для отслеживания производительности Apache Spark алгоритмов;
Проектирование и реализация эффективных алгоритмов обработки и преобразования данных с помощью Apache Spark;
Реализовано кэширование запросов к эндпоинтам с помощью Redis;
Написание и поддержка Apache Airflow дагов на Python для оркестрации Spark алгоритмов;
Оптимизировал все основные запросы к базам данных путем рефакторинга SQL-запросов;
Использовал Apache Airflow для планирования заданий ETL;
Настройка уровня доступа к данным в приложении Spring;
Использовал автоматическую генерацию в Spring Data для генерации CRUD эндпоинтов;
Написание сложных SQL-запросов, процедур;
Реализация бизнес-логики Spring-приложений, управление эндпоинтами RESTful API, управление политиками доступа к эндпоинтам и т.д;
Использование Hadoop для обработки и хранения больших объемов данных;
Работа с различными форматами данных, включая Parquet и ORC, в контексте Hadoop и Hive;
Реализация аутентификации, авторизации и других функций безопасности для защиты внутренних ресурсов и конечных точек;
Создание локальной тестовой среды с помощью Docker;
Отладка и исправление ошибок.
Технологии
Python, Java, SQL, Apache Hadoop, HDFS, Apache Hive, Spring (MVC, Boot, Security, Data), Hibernate, Apache Airflow, Apache Spark, PySpark, , Pandas, Kafka, NumPy, Redis, Bash scripting, Docker, Docker Compose, GitHub.
Стек специалиста на проекте
Numpy, Data, Java, Pandas, Redis, MVC, GitHub, Kafka, Apache Hadoop, Apache Spark, boot, Security, HDFS, Docker Compose, PySpark, Docker, SQL, Python, Hibernate, Apache AirFlow, Bash scripting, Spring, apache hive
Отрасль проекта
FinTech & Banking
Период работы
Апрель 2018 - Январь 2021
(2 года 10 месяцев)
Формат работы
Формат работы
Удаленно
Командировки
Не готов
Релокация
Не готов
Готов работать на зарубежных проектах
Нет
Образование
Высшее
Учебное заведение
-
Специальность
Информатика и разработка программного обеспечения
Завершение учебы
2020 г.