Добавьте подходящих специалистов в список и оформите заявку для предварительного бронирования времени специалистов. После оформления заявки ваш персональный менеджер организует прохождение всех необходимых проверок с вами и каждым кандидатом из заявки. Специалист привлекается к проекту только после окончательного подтверждения его выхода с вашей стороны.
Андрей — Data инженер уровня Middle+ из Краснодара. Специализируется на работе с большими данными и имеет опыт в отраслях FinTech & Banking, BioTech, Pharma, Health care & Sports, Realty & Constructoring. Владеет английским языком на уровне B1.
Ключевые навыки: Python, Ruby, SQL, Apache AirFlow, Django, Psycopg2, Pydantic, PySpark, Pytest, Rails, Requests, SQLAlchemy, CI/CD, ClickHouse, Docker, GitHub, GitLab, GreenPlum, HTML5, Kafka, PostgreSQL, RabbitMQ, Big Data, CSS3, GraphQL, Hadoop, REST, RSpec, DWH, ETL ELT, Grafana, JupyterNoteBook, oltp, Prometheus, Spark, Confluence, Git, Jira.
Имеет опыт работы на следующих проектах:
- Real-time Fraud Detection System (FinTech & Banking): разработка и оптимизация структуры баз данных, работа с Apache Kafka, ETL/ELT процессы с использованием Apache Airflow, использование Hadoop, Hive, Hue.
- HealthCare(USA) (BioTech, Pharma, Health care & Sports): разработка приложений и микросервисов на Ruby и Python, создание визуальных дашбордов на Grafana.
- Shieldpay (FinTech & Banking): создание промежуточных таблиц в Greenplum, использование ClickHouse, разработка триггеров для выявления исключительных ситуаций.
- Строительная компания (Realty & Constructoring): разработка хранилища данных, рефакторинг и оптимизация запросов, проектирование и внедрение решений для улучшения масштабируемости и отказоустойчивости хранилища данных.
Проекты
(4 года 1 месяц)
Real-time Fraud Detection System
Роль
Data Engineer
Обязанности
Проект направлен на разработку системы для обнаружения мошенничества в режиме реального времени с использованием технологий больших данных. Система анализирует транзакции с использованием данных о клиентах, их картах, местах проживания и истории звонков
Что реализовывал:
Разработка и оптимизация структуры баз данных, написание сложных SQL- и pgSQL-запросов для обработки и анализа данных
Разработка и поддержка систем обработки потоковых данных с использованием Apache Kafka
Разработка, тестирование и мониторинг ETL/ELT процессов с использованием
Apache Airflow для автоматизации потоков данных
Работа с различными источниками данных, включая реляционные базы данных, Hadoop HDFS, веб-сервисы и логи приложений
Использование Hadoop, Hive, Hue для обработки и анализа больших объемов данных
Построение производных таблиц и витрин в GreenPlum для удовлетворения бизнес-требований по аналитике
Реализация механизмов валидации и верификации данных для обеспечения высокого качества и надежности данных
Создание и поддержка актуализированной проектной документации, технических спецификаций и пользовательских руководств в Confluence
Ведение и декомпозиция задач в Jira
Тесное сотрудничество с аналитиками данных, разработчиками и бизнес-пользователями для определения требований к данным и решения бизнес-задач
Создал и оптимизировал процессы загрузки и обработки данных, что значительно повысило производительность системы и ускорило время
обработки транзакций для обнаружения мошенничества
Предложил и внедрил автоматизацию повторяющихся процессов, таких как регулярное обновление и очистка данных, что снизило время на рутинные задачи и повысило общую эффективность команды
Дополнительно занимался проведением интервью с бизнесом и конечными пользователями для выявления их пожеланий и требований.
Также делал опросы, направленные на сбор мнений и предложений по функционалу и характеристикам будущей системы.
Далее согласование с клиентом ключевых показателей эффективности (KPI), которые будут использоваться для оценки успеха проекта.
Определение бизнес-метрик, на основе которых будет строиться аналитика в хранилище данных.
Потом создание прототипов будущих отчетов и dashboard'ов для визуализации и обсуждения с пользователями.
Демонстрация прототипов клиенту и сбор обратной связи для внесения изменений и уточнений.
Разбор конфигурационных файлов приложений.
Добавление плагинов в NiFi.
Работа с ОС Linux через терминал.
Проект направлен на создание надежных сервисов и программ лояльности для клиентов учреждений
Что реализовывал:
- Разработка приложений и микросервисов на Ruby и Python
- Написание юнит-тестов и проведение тестирования.
- Создание визуальных дашбордов на Grafana
- Реализован сбор статистики с помощью Prometheus/Grafana
- Создал собственную библиотеку для Ruby (https://rubygems.org/gems/freight_calc)
Стек специалиста на проекте
PostgreSQL, Python, Ruby, Grafana, Prometheus, PySpark, библиотеки
Отрасль проекта
BioTech, Pharma, Health care & Sports
Период работы
Декабрь 2022 - Сентябрь 2023
(10 месяцев)
Shieldpay
Роль
Data Engineer
Обязанности
Цели проекта - Разработка платформы для безопасного и надежного управления финансовыми операциями, интегрирующей различные сторонние системы и оптимизирующей выплаты продавцам на торговых площадках
Что реализовывал:
Создал промежуточные таблицы в Greenplum для хранения очищенных и трансформированных данных
Использовал ClickHouse для хранения и анализа больших объемов данных в реальном времени
Разработал триггеры для выявления исключительных ситуаций на основе заданий от дата-аналитиков
Создал и поддерживал актуализированную проектную документацию, технические спецификации и пользовательские руководства в Confluence
Разработал проверку и тестирование кода в GitLab CI/CD, что позволило сократить количество ошибок при релизах новой версии ETL процессов. Сотрудничал с командой, использовал GitLab для управления кодом и совместной работы
Участвовал в разработке документации по переносу витрин из PostgreSQL в ClickHouse;
Работа с ОС Linux через терминал