ГВ
Герман В.
Мужчина
Беларусь, Минск, UTC+3
Ставка
3 545,15 Р/час
вкл. НДС 5% (131.43 Р)
Специалист доступен с 20 июня 2025 г.
Добавьте подходящих специалистов в список и оформите заявку для предварительного бронирования времени специалистов. После оформления заявки ваш персональный менеджер организует прохождение всех необходимых проверок с вами и каждым кандидатом из заявки. Специалист привлекается к проекту только после окончательного подтверждения его выхода с вашей стороны.
Подробнее
О специалисте
Специализация
Data инженер
Грейд
Навыки
Отрасли
Знание языков
Английский — B2
Главное о специалисте
Data-инженер с опытом работы в отрасли электронной коммерции и ритейла более 3 лет.
Участвовал в проекте по внедрению платформы снабжения и планирования для крупного производственного предприятия. Выполнял обязанности по управлению командой дата-инженеров, обсуждал архитектуру системы, подключался к источникам данных, оптимизировал SQL-запросы, создавал конвейеры Airflow, работал с Pandas, разрабатывал хранимые процедуры, настраивал соединения Kafka, проектировал витрины данных и HDFS.
Работал над созданием простого в интеграции приложения для персонализированной бизнес-аналитики на базе искусственного интеллекта. Занимался разработкой конечных точек Flask, нормализацией данных, контролем операций хранилища данных, разработкой моделей DBT, использовал Pandas, NumPy и SciPy, разрабатывал функции с помощью AWS Lambda.
Принимал участие в разработке платформы для сбора и обработки больших объёмов данных из различных источников. Администрировал базы данных, разрабатывал и оптимизировал сложные SQL-запросы, использовал Apache Spark, обрабатывал крупномасштабные наборы данных с помощью AWS EMR, выполнял статистические вычисления с помощью SciPy.
Проекты
(5 лет 7 месяцев)
Проект по внедрению платформы снабжения и планирования для крупного производственного предприятия.
Роль
Инженер данных
Обязанности
Проект по внедрению платформы снабжения и планирования для крупного производственного предприятия. Платформа объединяет множество источников данных и предоставляет заказчику оптимальные маршруты и материалы для создания продукции.
Обязанности:
● Участие в обсуждении архитектуры для обеспечения масштабируемости и производительности системы.
● Управление командой дата-инженеров, постановка задач и обеспечение эффективного выполнения задач.
● Сотрудничество с заинтересованными сторонами бизнеса и другими проектами.
● Подключение к различным источникам данных для получения, хранения и преобразования данных в соответствии с потребностями проекта.
● Оптимизация SQL-запросов в базах данных PostgreSQL и Oracle для повышения производительности и сокращения времени выполнения.
● Создание и планирование конвейеров Airflow для автоматизации процессов ETL, извлечения, преобразования и загрузки данных в хранилище данных.
● Использование Pandas для преобразования данных и применения пользовательской логики для очистки, фильтрации и подготовки данных для дальнейшей обработки.
● Написание сложных SQL-запросов и хранимых процедур для обработки данных, агрегирования и бизнес-логики.
● Настройка соединений Kafka для потоковой передачи данных в реальном времени и обеспечения интеграции с последующими процессами.
● Разработка процессов на основе таймера для запуска действий через запланированные интервалы, улучшающих автоматизацию рабочих процессов.
● Оптимизация производительности Airflow за счет улучшения планирования задач, управления зависимостями и эффективного масштабирования конвейеров.
● Создание витрин данных для информационных панелей FineBI, обеспечивающих эффективное агрегирование данных для получения глубокой бизнес-аналитики.
● Проектирование и внедрение HDFS для эффективного хранения данных в распределенной файловой системе.
● Оптимизация производительности процесса чтения/записи данных в HDFS.
● Интеграция GreenPlum с другими источниками данных (PostgreSQL, Hadoop) для обеспечения единой платформы для аналитики и отчетности.
● Внедрение ETL процессов для обработки данных в GreenPlum.
● Чтение и обработка сообщений Avro от Kafka для извлечения и хранения соответствующей информации для аналитики.
● Обеспечение корректного преобразования данных на каждом этапе конвейера, сохранение точности и согласованности данных.
● Разработка и использование пользовательских операторов Airflow для управления конкретными задачами, которые не могут быть решены встроенными операторами.
● Обсуждение требований к интеграции с клиентами для согласования потоков данных, форматов и взаимодействия с системой.
Стек специалиста на проекте
Avro, GitLab, SQLAlchemy, Numpy, Pandas, Oracle, Apache, Hadoop, HDFS, Pydantic, Docker Compose, Docker, Python, GreenPlum, GitLab CI/CD, Apache AirFlow, PostgreSQL
Отрасль проекта
E-commerce & Retail
Период работы
Июнь 2023 - По настоящее время
(2 года 1 месяц)
Простое в интеграции приложение для персонализированной бизнес-аналитики.
Роль
Инженер данных
Обязанности
Простое в интеграции приложение для персонализированной бизнес-аналитики — по всем функциям, от разработки до финансов и производства — на базе искусственного интеллекта.
Продукт, благодаря использованию искусственного интеллекта, упрощает и автоматизирует процессы в компаниях, а также предоставляет ключевую информацию и рекомендации о том, какое решение принять дальше. Основная цель — протестировать самые современные технологии для решения бизнес-задач.
Обязанности:
● Создание конечных точек Flask для реализации взаимодействия с бэкэндом
● Написание сложных SQL-запросов и хранимых процедур.
● Проведение нормализации данных
● Контроль операций хранилища данных (DWH)
● Разработка моделей DBT
● Общение с заинтересованными сторонами бизнеса
● Использовал Pandas, NumPy и SciPy для очистки, нормализации и разработки функций данных, чтобы обеспечить высококачественный ввод для моделей машинного обучения.
● Разработка функций с помощью AWS Lambda
● Разработка скриптов трансформации Python
● Использование AWS Athena для интерактивного запроса больших наборов данных, хранящихся в S3, оптимизации поиска данных и обеспечения быстрого анализа без необходимости дополнительной инфраструктуры.
● Создание конвейеров ETL/ELT с помощью Apache Airflow
● Разработка алгоритмов для группировки клиентов на основе покупательского поведения, демографических данных и данных о вовлеченности для поддержки персонализированных маркетинговых стратегий.
● Преобразование нормализованных данных в удобные бизнес-схемы
● Организация DWH и оптимизация его производительности
● Написание тестов для проверки корректности функций.
● Разработка скриптов Python для расширенного преобразования данных и интеграции искусственного интеллекта в рабочие процессы.
● Управление процессами миграции и трансформации данных
● Проведение проверок кода и поддержание стандартов кодирования.
Стек специалиста на проекте
DBT, ecr, AWS, documentation, functions, athena, Redshift, SQLAlchemy, Numpy, Pandas, SciPy, Bitbucket, S3, Steps, Pydantic, Alembic, Docker Compose, EKS, SQL, Docker, Python, Lambda, Flask, Apache AirFlow, RDS, Testing, PostgreSQL
Отрасль проекта
E-commerce & Retail
Период работы
Февраль 2021 - Май 2023
(2 года 4 месяца)
Платформа собирает и обрабатывает большие объемы данных из различных источников, предоставляя ценную информацию и рекомендации.
Роль
Инженер данных
Обязанности
Платформа собирает и обрабатывает большие объемы данных из различных источников, предоставляя ценную информацию и рекомендации. Пользователи могут исследовать данные с помощью интерактивной визуализации, выполнять расширенный анализ и создавать индивидуальные отчеты. Целью этого проекта является помощь в принятии обоснованных решений, повышение вовлеченности клиентов и повышение общей эффективности маркетинга.
Обязанности:
● Администрирование внутренних и облачных баз данных.
● Разработка и оптимизация сложных SQL-запросов и хранимых процедур.
● Использование Apache Spark для эффективной обработки и анализа терабайтов данных, обеспечивающее масштабируемое машинное обучение.
● Очистка и агрегирование данных с помощью Apache Spark
● Обработка крупномасштабных наборов данных с помощью AWS EMR, оптимизация рабочих процессов Apache Spark для распределенной обработки и преобразования данных.
● Выполнение сложных статистический вычислений с помощью SciPy для получения значимой информации и проверки предположений о данных.
● Проектирование и внедрение конвейеров ETL с помощью AWS Glue для автоматизации каталогизации данных, обнаружения схем и преобразования данных.
● Использование AWS Athena для запроса структурированных и полуструктурированных данных непосредственно из S3, что позволяет выполнять специальную аналитику и составлять отчеты.
● Контроль и оптимизация операций хранилища данных (DWH)
● Анализ поведения системы для выявления недостатков, настройки производительности и рекомендаций по возможностям оптимизации производительности.
● Общение с заинтересованными сторонами бизнеса по поводу системных требований
● Выявление и исключение аномалий из набора данных
● Проведение профилирования и анализа данных для обеспечения точности, полноты и согласованности данных.
● Проверка преобразований и миграции данных
● Проведение очистки данных для достижения наилучшего качества данных.
Стек специалиста на проекте
glue, Gitlab CI, AWS, GitLab, athena, emr, Numpy, Bash, Pandas, SciPy, FastAPI, Apache Spark, S3, Docker Compose, Snowflake, PySpark, Docker, Python, Lambda, RDS, PostgreSQL
Отрасль проекта
E-commerce & Retail
Период работы
Декабрь 2019 - Февраль 2021
(1 год 3 месяца)
Формат работы
Тип занятости
Фулл-тайм
Формат работы
Удаленно
Командировки
Не готов
Релокация
Не готов
Готов работать на зарубежных проектах
Нет
Образование
Высшее
Учебное заведение
БГУ
Специальность
Математики и информатики
Завершение учебы
2022 г.