ОА
Ольга А.
Женщина
Беларусь, Минск, UTC+3
Ставка
4 155,84 Р/час
НДС не облагается
Специалист доступен с 3 июля 2025 г.
Добавьте подходящих специалистов в список и оформите заявку для предварительного бронирования времени специалистов. После оформления заявки ваш персональный менеджер организует прохождение всех необходимых проверок с вами и каждым кандидатом из заявки. Специалист привлекается к проекту только после окончательного подтверждения его выхода с вашей стороны.
Подробнее
О специалисте
Специализация
Data аналитик
Грейд
Навыки
Отрасли
Знание языков
Английский — B2
Главное о специалисте
● Отличные знания Python
● Написание сложных SQL-запросов
● Оптимизация запросов
● DWH-моделирование
● Разработка ETL/ELT-пайплайнов
● Облачные сервисы
● Устранение неполадок
● Опыт работы с инструментами DevOps
Проекты
(6 лет 8 месяцев)
DWH и решения для ETL
Роль
Data Engineer
Обязанности
Проект сосредоточен на создании надёжного хранилища данных (DWH) и решения для ETL с целью поддержки программы лояльности Goodyear. Система упростила сбор данных о продажах из различных источников, обеспечив точные расчёты бонусов и их начисление для участников программы лояльности. Эта инициатива улучшила доступность данных, их точность и операционную эффективность в управлении программой лояльности.
● Разработка оптимизированных моделей данных в Snowflake для поддержки программы лояльности.
● Проектирование и реализация пайплайнов с использованием Apache NiFi и Apache Airflow для извлечения, трансформации и загрузки данных в Snowflake и платформу 360insights.
● Интеграция данных из нескольких источников, обеспечение их бесперебойного потока и трансформации.
● Использование DynamoDB для хранения транзакционных данных с высокой скоростью, таких как начисление бонусов в реальном времени и активность клиентов.
● Создание, тестирование и развертывание моделей dbt для трансформации данных в Snowflake.
● Мониторинг и оптимизация производительности запросов в Snowflake.
● Подготовка наборов данных и разработка отчётов в MyMeta.
● Реализация проверки и контроля качества данных на различных этапах ETL-пайплайнов.
● Использование PySpark для обработки больших объёмов данных в ETL-пайплайнах, повышение производительности и масштабируемости обработки данных.
● Автоматизация повторяющихся задач обработки данных с помощью Apache Airflow.
● Создание детальных технических проектных документов, описывающих процессы работы с данными, архитектуру системы и инфраструктуру, для обеспечения ясности при дальнейшем развитии и сопровождении.
● Сотрудничество с межфункциональными командами для согласования решений по обработке данных с бизнес-целями.
● Использование сервисов AWS, включая S3 для хранения и Lambda для бессерверных вычислений, для создания масштабируемых и надёжных решений.
● Проведение тестирования системы для соответствия всем техническим и бизнес-требованиям.
● Проектирование функций обработки данных с использованием Lambda.
● Настройка CI/CD-конвейеров с помощью GitLab CI/CD, автоматизация тестирования и развертывания компонентов ETL.
● Разработка панелей мониторинга и инструментов с использованием Apache Superset, предоставляющих дополнительные аналитические возможности для бизнеса.
Стек специалиста на проекте
DBT, Apache Superset, MyMeta, AWS, DevOps, Bitbucket, Hadoop, Kafka, Apache NiFi, S3, Snowflake, PySpark, SQL, Python, etc, Lambda, DynamoDB, GitLab CI/CD, Apache AirFlow, PostgreSQL
Отрасль проекта
Cloud Services
Период работы
Июнь 2024 - По настоящее время
(1 год 2 месяца)
Многофункциональная облачная платформа управления данными
Роль
Data Engineer
Обязанности
Многофункциональная облачная платформа управления данными, объединяющая все ключевые возможности работы с данными, включая хранение, выполнение запросов, оркестрацию задач, мониторинг и создание отчётов. Платформа обеспечивает бесшовное управление структурированными и неструктурированными данными, поддерживала продвинутую аналитику и обработку данных в реальном времени.
● Сотрудничество с бизнес-аналитиками и архитекторами данных для согласования моделей данных, бизнес-требований и архитектуры данных.
● Проведение профилирования данных и анализа для обеспечения их точности, полноты и согласованности.
● Настройка Azure Blob Storage для эффективного хранения данных.
● Конфигурация Data Lake.
● Интеграция пайплайнов с Azure Synapse Analytics, PostgreSQL и MongoDB для всестороннего анализа данных.
● Использование CosmosDB для управления метаданными и улучшенного управления данными.
● Проектирование ETL-конвейеров для трансформации и загрузки крупных наборов данных в хранилище данных.
● Использование PySpark для распределённой обработки данных и эффективной обработки больших объёмов данных.
● Применение Pandas и NumPy для очистки данных, трансформации и детального анализа меньших наборов данных.
● Автоматизация ETL-рабочих процессов с помощью Apache Airflow, обеспечивающая бесшовную трансформацию данных и их загрузку в хранилище данных.
● Развёртывание контейнеризированных приложений на кластерах Azure Kubernetes Service (AKS) для обеспечения масштабируемой и отказоустойчивой инфраструктуры.
● Управление развёртыванием Apache Airflow и Apache Superset в кластерах Kubernetes с использованием Helm.
● Интеграция Apache Superset с Azure Synapse Analytics для создания интерактивных панелей и отчетов.
● Построение аналитических конвейеров для генерации полезных инсайтов и улучшения процессов принятия решений.
● Использование Azure Virtual Machines для дополнительных вычислительных ресурсов и ресурсов хранения для работы со сложными рабочими нагрузками.
● Автоматизация развёртывания инфраструктуры с использованием Docker и Kubernetes для повышения масштабируемости и надёжности.
● Создание и оптимизация сложных SQL-запросов.
● Настройка решений для резервного копирования SQL-баз данных.
● Выполнение проверок качества данных, включая создание тест-кейсов и контрольных списков.
● Организация и настройка систем и объектов баз данных для максимальной эффективности и функциональности.
● Проведение исследовательского анализа данных.
Стек специалиста на проекте
Apache Superset, Synapse, GitLab, blob, Numpy, Data Lake, Pandas, MongoDB, Analytics, Hadoop, Storage, Cosmos DB, PySpark, Docker, Python, Apache AirFlow, Azure, aks, Kubernetes
Отрасль проекта
Cloud Services
Период работы
Декабрь 2022 - Май 2024
(1 год 6 месяцев)
Комплексные решения для отчетности, хранилищ данных (DWH) и бизнес-аналитики (BI) для заинтересованных сторон IBM.
Роль
Data Engineer
Обязанности
Проект направлен на создание комплексных решений для отчетности, хранилищ данных (DWH) и бизнес-аналитики (BI) для заинтересованных сторон IBM. Система упростила обработку данных и рабочие процессы отчетности за счёт интеграции инструментов продвинутой аналитики, что улучшило процесс принятия решений и операционную эффективность. Разработка велась в соответствии с методологией Agile для обеспечения итеративного улучшения и соответствия требованиям заинтересованных сторон.
● Разработка и создание интерактивных отчетов с использованием IBM Cognos Analytics для предоставления аналитики заинтересованным сторонам.
● Построение и поддержка моделей данных с использованием IBM Cognos Framework Manager, что обеспечило их согласованность и масштабируемость.
● Сотрудничество с разработчиками моделей данных для проектирования и оптимизации физической модели данных.
● Создание и документирование ETL-процессов для обеспечения бесперебойного потока данных и интеграции между различными системами.
● Проектирование процессов извлечения и трансформации данных на основе SQL для поддержки миграции систем и инициатив по обеспечению качества данных.
● Подготовка технической документации, описывающей процессы ETL, архитектурные решения и рабочие процессы поддержки для дальнейшего сопровождения.
● Участие в проектировании и реализации DevOps-пайплайнов, включая непрерывную интеграцию, автоматизированное развертывание и тестирование.
● Мониторинг и устранение неполадок в IBM DataStage и Jenkins, обеспечение их бесперебойной работы.
● Проведение детального анализа данных для выявления несоответствий между ожидаемыми и фактическими результатами.
● Настройка Docker Compose для упрощения развертывания приложений и компонентов ETL.
● Интеграция PostgreSQL для хранения промежуточных наборов данных, используемых в рабочих процессах отчетности.
● Использование Kubernetes для оркестрации контейнеров, что обеспечило надёжность и масштабируемость системы.
● Применение AWS S3 для резервного копирования и долговременного хранения данных.
● Анализ первопричин дефектов, связанных с данными, и внедрение эффективных решений для обеспечения их целостности.
● Поддержка клиентов IBM через платформу ServiceNow, предоставление решений для технических запросов и вызовов.
● Работа в тесном сотрудничестве с глобальной командой для согласования результатов проекта и обеспечения бесперебойной коммуникации между командами.
Стек специалиста на проекте
PostgreSQL, Python, Jenkins, Kubernetes, GitHub, DB2, Analytics, IBM, AWS S3, Docker Compose, Apache AirFlow, cloud, ServiceNow, Framework, cognos, datastage
Отрасль проекта
Cloud Services
Период работы
Июнь 2021 - Декабрь 2022
(1 год 7 месяцев)
Формат работы
Тип занятости
Фулл-тайм
Формат работы
Удаленно
Командировки
Не готов
Релокация
Не готов
Готов работать на зарубежных проектах
Нет