Проект в архиве Data инженер
71931
Подбор по данному проекту завершён.
Посмотрите наш каталог актуальных запросов, найдите подходящие и предложите ваших специалистов.
Ритейл
Data инженер
Middle
Senior
Ставка в час
Кол-во специалистов
6
Длительность проекта
год
Объем участия в проекте
Высокая нагрузка
~160 ч/мес
Формат взаимодействия
Удаленно
Требуемая локация специалиста
Любая
Доступность специалиста
по мск
Требуемое гражданство специалиста
любое
О клиенте
Отрасль
Ритейл
Тендерный запрос. Прием откликов до 22.05.2026, 11:00 (UTC 0)
Обязательные требования
Требования для уровня Middle:
- Общее представление о стеке технологий Lakehouse;
- Понимание различия работы между BigData/Lakehouse и с данными обычного размера;
- Знание SQL (индексы, функции, оптимизация, профилирование производительности);
- Знание языков программирования (JAVA, Python);
- Опыт работы c реляционными БД (Oracle, Postgres, MySQL, MsSQL,т.п.);
- Умение работать с Git (знание команд git pull/commit/push);
- Опыт работы с DBT, Cosmos, Ni-Fi;
- Опыт разработки на Spark;
- Понимание особенностей Trino;
- Понимание форматов данных Iceberg, Parquet, Avro;
- Понимание работы с minio или любого другого хранилища на основе S3;
- Опыт использования системами ведения проектов и документации.
Требования для уровня Senior:
- Общее представление о стеке технологий Lakehouse;
- Понимание различия работы между BigData/Lakehouse и с данными обычного размера;
- Знание SQL (индексы, функции, оптимизация, профилирование производительности);
- Знание языков программирования (JAVA, Python);
- Опыт работы c реляционными БД (Oracle, Postgres, MySQL, MsSQL,т.п.);
- Умение работать с Git (знание команд git pull/commit/push);
- Опыт работы с DBT, Cosmos, Ni-Fi;
- Опыт разработки на Spark;
- Навыки использования компонентов экосистемы Hadoop: Yarn, Ranger, Zookeeper, Hive metastore;
- Понимание особенностей Trino;
- Понимание форматов данных Iceberg, Parquet, Avro;
- Понимание работы с minio или любого другого хранилища на основе S3;
- Опыт использования системами ведения проектов и документации;
- Опыт разработки нетиповых интеграций (включая SAP-системы);
- Опыт разработки near-realtime потоков (Flink, Debezium);
- Опыт оптимизации высоконагруженных потоков (миллиарды записей инкремента) с использованием инструментов Observability (grafana, victoria metrics, zabbix).
Задачи на проекте
Задачи для уровня Middle:
- Сбор требований с бизнес-заказчиков и анализ источников данных;
- Разработка, реализация и поддержка интеграционных потоков, а также потоков сборки витрин-данных на стеке технологий, принятых в команде: Trino, Iceberg, S3, Spark, Apache Airflow, Kafka, Cosmos, Flink;
- Оперативное реагирование на информацию о проблемах в зоне ответственности, выполнение типовых задач в установленный срок;
- Поддержание в актуальном состоянии документации типовых интеграционных решений платформы больших данных;
- Предоставление отчетности о своей деятельности руководителю.
Задачи для уровня Senior:
- Разработка, реализация и поддержка интеграционных потоков, а также потоков сборки витрин-данных на стеке технологий, принятых в команде: Trino, Iceberg, S3, Spark, Apache Airflow, Kafka, Cosmos, Flink;
- Разработка нетиповых интеграций (в тч SAP);
- Системная разработка инструментов (переиспользуемых шаблонов) обработки данных;
- Разработка системного дизайна сложных решений (C2/DD);
- Оперативное реагирование на информацию о проблемах в зоне ответственности, выполнение типовых задач в установленный срок;
- Поддержание в актуальном состоянии документации типовых интеграционных решений платформы больших данных;
- Предоставление отчетности о своей деятельности руководителю.
Этапы отбора
2 этапа: 1 ТИ и интервью с ПО
Описание проекта и команды
Крупная ритейл компания.
Стек проекта: Greenplum, Trino, Apache Airflow, ClickHouse, Python, Spark, SQL (dbt), S3, Hadoop.
Требуются 3 специалиста уровня Middle и 3 специалиста уровня Senior.
Обязательные требования
Требования для уровня Middle:
- Общее представление о стеке технологий Lakehouse;
- Понимание различия работы между BigData/Lakehouse и с данными обычного размера;
- Знание SQL (индексы, функции, оптимизация, профилирование производительности);
- Знание языков программирования (JAVA, Python);
- Опыт работы c реляционными БД (Oracle, Postgres, MySQL, MsSQL,т.п.);
- Умение работать с Git (знание команд git pull/commit/push);
- Опыт работы с DBT, Cosmos, Ni-Fi;
- Опыт разработки на Spark;
- Понимание особенностей Trino;
- Понимание форматов данных Iceberg, Parquet, Avro;
- Понимание работы с minio или любого другого хранилища на основе S3;
- Опыт использования системами ведения проектов и документации.
Требования для уровня Senior:
- Общее представление о стеке технологий Lakehouse;
- Понимание различия работы между BigData/Lakehouse и с данными обычного размера;
- Знание SQL (индексы, функции, оптимизация, профилирование производительности);
- Знание языков программирования (JAVA, Python);
- Опыт работы c реляционными БД (Oracle, Postgres, MySQL, MsSQL,т.п.);
- Умение работать с Git (знание команд git pull/commit/push);
- Опыт работы с DBT, Cosmos, Ni-Fi;
- Опыт разработки на Spark;
- Навыки использования компонентов экосистемы Hadoop: Yarn, Ranger, Zookeeper, Hive metastore;
- Понимание особенностей Trino;
- Понимание форматов данных Iceberg, Parquet, Avro;
- Понимание работы с minio или любого другого хранилища на основе S3;
- Опыт использования системами ведения проектов и документации;
- Опыт разработки нетиповых интеграций (включая SAP-системы);
- Опыт разработки near-realtime потоков (Flink, Debezium);
- Опыт оптимизации высоконагруженных потоков (миллиарды записей инкремента) с использованием инструментов Observability (grafana, victoria metrics, zabbix).