ДЧ
Даниил Ч.
Мужчина, 25 лет
Россия, Воронеж, UTC+3
Ставка
4 025,97 Р/час
НДС не облагается
Специалист доступен с 29 августа 2025 г.
Добавьте подходящих специалистов в список и оформите заявку для предварительного бронирования времени специалистов. После оформления заявки ваш персональный менеджер организует прохождение всех необходимых проверок с вами и каждым кандидатом из заявки. Специалист привлекается к проекту только после окончательного подтверждения его выхода с вашей стороны.
Подробнее
О специалисте
Специализация
Data инженер
Грейд
Навыки
Отрасли
Главное о специалисте
4.5+ лет опыта в роли Data Engineer: проектирование архитектуры, разработка и оптимизация высоконагруженных DWH и ELT/ETL процессов.
Опыт с Big Data и потоковой обработкой: реализация пайплайнов на Spark и Flink, обработка десятков ТБ данных в час.
Построение DWH с нуля: Wildberries — централизованный DWH для всех бизнес-доменов, включая 50+ интеграций и Clickstream (50+ ТБ/день).
Оптимизация производительности: сокращение инцидентов на 90%, ускорение выполнения ETL-процессов в 2 раза, рост доступности данных благодаря внедрению DQ и Data Governance.
Работа с распределёнными системами хранения и СУБД: HDFS, Iceberg, Hive, Clickhouse, Greenplum, MongoDB, Oracle, PostgreSQL.
Организация интеграций и CDC: внедрение Debezium + Kafka Connect, миграция с Hadoop на Clickhouse (500+ ТБ данных).
Опыт менторства и лидерства: наставничество, проведение технических собеседований, обучение команд-заказчиков по работе с ресурсами DWH.
Широкий технологический стек: Airflow, Dagster, dbt, Spark, Flink, Kafka, Trino, Kubernetes, Docker, Gitlab CI/CD, OpenMetadata.
Проекты
(5 лет 7 месяцев)
Wildberries
Роль
Data Engineer
Обязанности
О проекте (описание):
Проект по созданию централизованного DWH для всех бизнес доменов Wildberries
Сфера проекта:
Прикладная команда
Команда:
12 человек
Обязанности:
● Разработка архитектуры и roadmap развития DWH.
● Разработка и оптимизация джобов (Spark, Flink) по обработке десятков ТБ в час.
● Проектирование и разработка потоков данных, интеграции источников и API в DWH.
● Общение с заказчиками, анализ задач и разработка архитектурных требований.
● Предоставление ресурсов командам-заказчикам.
● Контроль и оптимизация потребления ресурсов командами-заказчиками, обучение.
● Менторство, проведение технических собеседований.
Достижения:
● Реализовал с нуля ELT-пайплайн центрального Clickstream (50+ TB/день) компании.
● Спроектировал и внедрил ETL/ELT-ядро для обработки дневной дельты в 80 PB.
● Приземлил 50+ интеграций и Spark-джобов.
● Реализовал с нуля интеграцию CRM Bitrix24, обеспечив полную финансовую прозрачность для всех команд, которые как-либо завязаны на продажу рекламы.
● Реализовал и стабилизировал основную витрину заказов компании, снизив количество инцидентов на 90% и обеспечив бесперебойную доступность данных для 4 ключевых бизнес-доменов компании.
● Реализовал систему очистки данных, высвободив 25-40% емкости кластера и отсрочит его расширение на год с прямой экономией в миллионы рублей.
Стек специалиста на проекте
Docker, Python, MongoDB, Kubernetes, GitLab, YouTrack, Hive, Data, Spark, ClickHouse, GreenPlum, MinIo, Kafka, Storage, Apache AirFlow, CI/CD, S3, HDFS, governance, elt, flink, Trino, Iceberg, dbs, Openmetadata, -
Отрасль проекта
Manufacturing
Период работы
Декабрь 2023 - По настоящее время
(1 год 9 месяцев)
more.tv
Роль
Data Engineer
Обязанности
О проекте:
Проект по созданию modern data stack DWH и переноса старого.
Сфера проекта:
Видеохостинг
Команда:
8 человек
Обязанности:
● Проектирование стандартов, формирование стратегии развития и разработка архитектуры хранилища и его слоев.
● Проектирование топологии Сlickhouse, расширение кластера.
● Разработка, поддержка и оптимизация интеграций и потоков данных на Dagster (Python), миграция с Airflow.
● Интеграция и поддержка CDC.
● Создание и развитие Data Quality.
● Развитие Data Governance.
● Синхронизация с Open Metadata (с Data Lineage, DQ и MLFlow).
● Сотрудничество и регулярное взаимодействие с заказчиками и пользователями.
Достижения
● Реализовал основную функциональность для ETL/ELT процессов, автоматизировав добавление всех новых интеграций.
● Реализовал новую топологию и перевел Сlickhouse на распределенную архитектуру, что повысило отказоустойчивость и производительность запросов на 40%.
● Проверками DQ покрыл около 300 таблиц и витрин, сократив время обнаружения проблем с 1-7 дней до пары часов и значительно повысив доступность данных.
● Перевел процессы загрузки источников на CDC (Debezium, Kafka Connect), сократив время загрузки данных с нескольких часов до минут и обеспечив near real-time актуальность данных.
● Перенес с Hadoop на Clickhouse около 500 ТБ данных и более 300 объектов.
Стек специалиста на проекте
MySQL, Docker, Jira, Confluence, Python, Grafana, Kubernetes, GitLab, Hive, Data, Spark, ClickHouse, Hadoop, MinIo, Kafka, Storage, Apache AirFlow, CI/CD, S3, HDFS, Dagster, DBT, governance, quality, debezium, elt, dbs, Openmetadata
Отрасль проекта
Telecom
Период работы
Декабрь 2022 - Декабрь 2023
(1 год 1 месяц)
Спортмастер Россия
Роль
Data Engineer, отдел автоматизации
Обязанности
О проекте:
Развитие DWH для аналитиков и разработка продуктов для data scientist-ов
Сфера проекта:
Retail
Команда:
15 человек
Обязанности:
● Проектирование архитектуры и разработка data продуктов и витрин данных.
● Проектирование, анализ и разработка ETL-процессов и интеграций (Airflow + HDFS, Spark).
● Автоматизация процессов обработки ТБ данных
● Разработка и оптимизации запросов SQL, разработка библиотек на Python.
● Работа с бизнес-заказчиками, сбор и формализация требований.
Достижения
● Спроектировал и внедрил 15+ витрин для отделов аналитики, что сократило время формирования отчетов с часов до минут.
● Разработал data-продукт из 5+ автоматических потоков сбора разметки данных для Data Science, что позволило запустить новую рекомендательную систему в 2 раза быстрее плана и повысило точность моделей.
● Разработал и автоматизировал более 20 ETL-процессов в Airflow, оптимизировал ключевые SQL-запросы и Spark-джобы, что обеспечило ежедневную стабильную обработку 10+ ТБ данных и снизило время их выполнения до 2 раз.
● Оптимизировал Python-библиотеку для унификации работы с данными, что ускорило разработку новых ETL-скриптов и сократило количество ошибок.
Стек специалиста на проекте
PostgreSQL, Docker, Elasticsearch, Jira, Confluence, Oracle, Bitbucket, Grafana, GitLab, Prometheus, Hive, Spark, Hadoop, GreenPlum, ETL, JupyterNoteBook, Storage, Apache AirFlow, CI/CD, HDFS, dbs, -
Отрасль проекта
Manufacturing
Период работы
Февраль 2020 - Декабрь 2022
(2 года 11 месяцев)
Формат работы
Тип занятости
Фулл-тайм
Формат работы
Удаленно
Командировки
Не готов
Релокация
Не готов
Готов работать на зарубежных проектах
Нет
Образование
Высшее
Учебное заведение
Воронежский государственный университет
Специальность
Воронеж Прикладной математики, информатики и механики, Математическое обеспечение и администрирование информационных систем
Завершение учебы
2022 г.
Высшее
Учебное заведение
Воронежский государственный университет
Специальность
Воронеж Факультет компьютерных наук
Завершение учебы
2024 г.