Добавьте подходящих специалистов в список и оформите заявку для предварительного бронирования времени специалистов. После оформления заявки ваш персональный менеджер организует прохождение всех необходимых проверок с вами и каждым кандидатом из заявки. Специалист привлекается к проекту только после окончательного подтверждения его выхода с вашей стороны.
Участие в проектировании архитектуры ETL/ELT процессов и дата-платформ
Уверенное знание Apache Spark
Разработка, тестирование и мониторинг ETL/ELT процессов с использованием Apache Airflow, Apache NiFi для автоматизации потоков данных
Опыт использования GIT, Docker, Confluence, Jira
Опыт создания API-интеграций с внешними сервисами (Kafka, RabbitMQ и др.)
Знание SQL и опыт работы с PostgreSQL, Greenplum, Clickhouse, Hadoop, Hive
Разработка и поддержка инструментов доступа к Data Lake
Опыт работы с Unix-системами и CLI
Опыт командной работы и взаимодействия с инженерами, аналитиками и бизнесом
Аналитические и организационные навыки
Проекты
(3 года 4 месяца)
Проект направлен на разработку системы для обнаружения мошенничества в режиме реального времени с использованием технологий больших данных
Роль
Data engineer
Обязанности
Real-time Fraud Detection System
Проект направлен на разработку системы для обнаружения мошенничества в режиме реального времени с использованием технологий больших данных.
Система анализирует транзакции с использованием данных о клиентах, их картах, местах проживания и истории звонков.
Разработка и оптимизация структуры баз данных, написание сложных SQL- и pgSQL-запросов для обработки и анализа данных
Разработка и поддержка систем обработки потоковых данных с использованием Apache Kafka
Разработка, тестирование и мониторинг ETL/ELT процессов с использованием
Apache Airflow для автоматизации потоков данных
Работа с различными источниками данных, включая реляционные базы данных, Hadoop HDFS, веб-сервисы и логи приложений
Использование Hadoop, Hive, Hue для обработки и анализа больших объемов данных
Построение производных таблиц и витрин в GreenPlum для удовлетворения бизнес-требований по аналитике
Реализация механизмов валидации и верификации данных для обеспечения высокого качества и надежности данных
Создание и поддержка актуализированной проектной документации, технических спецификаций и пользовательских руководств в Confluence
Тесное сотрудничество с аналитиками данных, разработчиками и бизнес-пользователями для определения требований к данным и решения
бизнес-задач
Ведение и декомпозиция задач в Jira
Достижения
Создал и оптимизировал процессы загрузки и обработки данных, что значительно повысило производительность системы и ускорило время
обработки транзакций для обнаружения мошенничества
Предложил и внедрил автоматизацию повторяющихся процессов, таких как
регулярное обновление и очистка данных, что снизило время на рутинные
задачи и повысило общую эффективность команды
Разработка платформы для безопасного и надежного
Управления финансовыми операциями, интегрирующей различные сторонние
Системы и оптимизирующей выплаты продавцам на торговых площадках.
Создание промежуточных таблиц в Greenplum для хранения очищенных и
трансформированных данных
• Использование ClickHouse для хранения и анализа больших объемов данных в
реальном времени
• Разработка триггеров для выявления исключительных ситуаций на основе
заданий от дата-аналитиков
• Использование Jira для отслеживания задач и прогресса проекта
• Создание и поддержка актуализированной проектной документации,
технических спецификаций и пользовательских руководств в Confluence
• Сотрудничество с командой, использование GitLab для управления кодом и совместной работы
Достижения
Внедрил алгоритмы оптимизации, которые сократили время выполнения
скриптов на 15%
• Повысил надежность аналитических данных, что привело к снижению
количества ошибок и увеличению доверия к результатам аналитики