РХ
Руслан Х.
Мужчина, 41 год
Россия, Уфа, UTC+5
Ставка
4 415,58 Р/час
НДС не облагается
Специалист доступен с 14 сентября 2025 г.
Добавьте подходящих специалистов в список и оформите заявку для предварительного бронирования времени специалистов. После оформления заявки ваш персональный менеджер организует прохождение всех необходимых проверок с вами и каждым кандидатом из заявки. Специалист привлекается к проекту только после окончательного подтверждения его выхода с вашей стороны.
Подробнее
О специалисте
Специализация
Data Scientist
Грейд
Навыки
Отрасли
Проекты
(5 лет 2 месяца)
NDA
Роль
Data Engineer
Обязанности
Обязанности:
- Проектирование и реализация архитектуры хранилища данных на основе модели hNhM с учетом требований производительности и масштабируемости.
- Оптимизация структуры данных и индексации для повышения скорости запросов и обработки данных.
- Проектирование и разработка SQL-моделей для трансформации исходных данных в аналитические таблицы, которые будут использоваться для отчетности.
- Создание и поддержка пайплайнов извлечения, трансформации и загрузки данных (ETL) с использованием DBT для обеспечения актуальности и доступности данных.
- Интеграция DBT с системами CI/CD для автоматизации развертывания моделей и тестов в различных средах (разработка, тестирование, продакшен).
- Настройка мониторинга выполнения задач DBT и отладка возможных ошибок или проблем, возникающих в процессе трансформации данных.
- Разработка и внедрение девяти конвейров поставки данных через Oozie, включая настройку триггеров, обработку ошибок и мониторинг выполнения.
- Обеспечение интеграции с Hadoop и Kafka, включая настройку потоковой передачи данных и их трансформацию.
- Оптимизация процессов ETL (Extract, Transform, Load) для повышения их эффективности и снижения времени обработки.
- Проектирование и реализация порядка 20 DAG'ов (Directed Acyclic Graphs) в Apache Airflow для автоматизации процессов загрузки и обработки данных.
- Настройка мониторинга и алертов для отслеживания состояния выполнения DAG'ов и быстрого реагирования на сбои.
- Разработка документации по использованию и поддержке созданных DAG'ов для команды.
- Анализ текущих библиотек и инструментов, используемых в Data Science (DS) и Data Engineering (DE), для выявления пробелов и возможностей для улучшения.
- Разработка новых модулей и функций в библиотеке, включая инструменты для работы со Spark
- Проектирование и реализация процесса инкрементальной загрузки данных из трех различных баз данных (Firebird, PostgreSQL, MSSQL) в единое хранилище на базе PostgreSQL.
- Оптимизация процесса загрузки для минимизации времени простоя и снижения нагрузки на источники данных.
- Проведение тестирования на предмет целостности и точности загружаемых данных
- Разработка и внедрение логики загрузки данных с использованием Apache Airflow, включая создание задач, настройку зависимостей и параметров выполнения.
- Интеграция логики с существующими процессами ETL для обеспечения согласованности и целостности данных.
Стек специалиста на проекте
PostgreSQL, Apache Kafka, Docker, Java, SQL, Kubernetes, ClickHouse, Apache Hadoop, Apache Spark, Apache AirFlow, GOlang, PySpark, DBT
Отрасль проекта
Social Networking
Период работы
Ноябрь 2023 - По настоящее время
(1 год 11 месяцев)
VK
Роль
Data Engineer
Обязанности
Обязанности:
- Проведение анализа требований к данным и проектирование схемы базы данных в Clickhouse, оптимизированной для аналитических запросов.
- Создание таблиц, индексов и других объектов базы данных с учетом специфики используемых данных и частоты их обновления.
- Разработка и реализация порядка 15 DAG'ов в Apache Airflow для автоматизации процессов загрузки данных из внутренних источников (MySQL, Hadoop) и внешних источников (парсинг сайтов и загрузка XML).
- Настройка триггеров и расписаний для выполнения загрузок, а также обработка ошибок и уведомлений о статусе выполнения.
- Оптимизация процессов ETL (Extract, Transform, Load) для повышения производительности и надежности загрузки данных.
- Разработка скриптов для парсинга данных с веб-сайтов с использованием библиотек, таких как BeautifulSoup или Scrapy, а также настройка обработки полученных данных.
- Создание механизмов для автоматической загрузки и обработки XML-файлов, включая валидацию данных и их преобразование в формат, совместимый с Clickhouse.
- Обеспечение регулярного обновления данных из внешних источников с помощью настройки периодических задач.
- Проведение анализа существующих аналитических скриптов на предмет производительности, включая использование инструментов профилирования и мониторинга.
- Выявление узких мест и неэффективных запросов, а также разработка рекомендаций по их оптимизации.
- Рефакторинг SQL-запросов для улучшения их производительности, включая использование индексов, подзапросов и других методов оптимизации.
- Переписывание алгоритмов обработки данных для повышения их скорости выполнения и снижения потребления ресурсов.
- Проведение тестирования оптимизированных скриптов на различных объемах данных для оценки их производительности и корректности.
- Документирование изменений и результатов тестирования для дальнейшего анализа и использования командой
Стек специалиста на проекте
MySQL, Docker, XML, Java, Python, Scala, Kubernetes, ClickHouse, Scrapy, Apache Hadoop, GOlang, apache hive, BeautifulSoup4
Отрасль проекта
Social Networking
Период работы
Декабрь 2021 - Ноябрь 2023
(2 года)
Билайн
Роль
Data Engineer
Обязанности
Обязанности:
- Проведение детального анализа текущих SQL-запросов для понимания их логики, структуры и функциональности.
- Выявление узких мест в производительности и определение областей, требующих оптимизации.
- Разработка архитектуры кода для реализации бизнес-логики в Scala, включая выбор подходящих библиотек и инструментов Spark для обработки данных.
- Определение структуры данных и форматов, необходимых для эффективной работы с Spark.
- Переписывание сложных SQL-запросов на Scala с использованием DataFrame API и Spark SQL, обеспечивая эквивалентный функционал и производительность.
- Использование функций Spark для обработки больших объемов данных, таких как map, reduce, join, filter и других, для достижения необходимого результата.
Стек специалиста на проекте
MySQL, Docker, Python, Scala, Kubernetes, Spark, Apache Hadoop, apache hive
Отрасль проекта
Social Networking
Период работы
Март 2022 - Июнь 2022
(4 месяца)
Формат работы
Тип занятости
Фулл-тайм
Формат работы
Удаленно
Командировки
Не готов
Релокация
Не готов
Готов работать на зарубежных проектах
Нет
Образование
Высшее
Учебное заведение
Уфимский государственный авиационный технический университет
Специальность
Факультет информатики и робототехники Моделирование и исследование операций в организационно-технических системах
Завершение учебы
2007 г.