ВМ
Владислав М.
Мужчина
Беларусь, Минск, UTC+3
Ставка
3,625 Р/час
НДС не облагается
Специалист доступен с 8 декабря 2023 г.
Добавьте подходящих специалистов в список и оформите заявку для предварительного бронирования времени специалистов. После оформления заявки ваш персональный менеджер организует прохождение всех необходимых проверок с вами и каждым кандидатом из заявки. Специалист привлекается к проекту только после окончательного подтверждения его выхода с вашей стороны.
Подробнее
О специалисте
Специализация
Data инженер
Грейд
Навыки
Отрасли
Знание языков
Английский — B2
Главное о специалисте
Дата Инженер с опытом работы более 5 лет.
Дата Инженер с глубоким пониманием принципов и методов моделирования данных, обладающий способностью разрабатывать и внедрять эффективные структуры данных, соответствующие требованиям бизнеса. Мой опыт заключается в построении и оптимизации пайплайнов обработки данных, работе с большими массивами данных и создании эффективных систем обработки данных. Всегда готов решать новые задачи, продолжать учиться и расти как профессионал.
Проекты
(5 лет 6 месяцев)
Платформа для работы с недвижимостью
Роль
Дата Инженер
Обязанности
Целью данного проекта было создание уникальной индексной платформы для инвестирования в недвижимость путем обработки транзакционных и пространственных данных, формирования агрегированных ценовых индексов и разработки на их основе многочисленных финансовых деривативов. Одновременно с покупкой недвижимости клиенты компании приобретают опционный контракт на обеспечение цены недвижимости в будущем.
Обязанности и достижения
● Определениевсехаспектовразработки, начиная с соответствующих технологий и рабочих процессов и заканчивая стандартами кодирования;
● Управлениекомандойразработчиковдля достижения конкретных целей и задач;
● Разработкаивнедрениепроцессови процедур обработки данных;
● Онбординг,наставничестводля начинающих разработчиков;
● Обработкастриминговыхданныхс помощью Kafka;
● НастройкаброкеровипартицийвKafka;
● ВыполнениезаданийсApacheAirflow;
● Мониторингиподдержание
работоспособности и доступности кластера Apache Airflow;
● Хранениеразличныхрыночныхданных, торговых активностей в Snowflake DWH;
● Мониторингианализпроизводительности транзакций;
● ИспользованиеPySparkдляэффективной обработки и загрузки данных в распределенную систему хранения данных;
● Оценкабизнес-процессов, прогнозирование требований, выявление областей, требующих улучшения, разработка и внедрение решений;
● Автоматизацияразвертыванияи масштабирования кластеров Apache Spark;
● ОптимизацияпроизводительностиApache Spark посредством настройки конфигурации и разбивки данных;
● Настройкасистеммониторингаи протоколирования для отслеживания состояния и производительности заданий PySpark и конвейеров обработки данных;
● Выявлениеирешениепроблем производительности базы данных путем оптимизации SQL-запросов, стратегий индексирования и конфигураций базы данных;
● Оптимизацияхраненияипоискаданныхв Databricks для повышения производительности;
● Проектированиеисоздание представлений базы данных, обеспечивающих упрощенный и эффективный доступ к сложным структурам данных, что позволяет упростить формирование запросов и отчетов;
Стек специалиста на проекте
Базы данных, Spark, Numpy, Pandas, MongoDB, Redis, GitLab, Terraform, Kafka, Apache Spark, Firestore, Cloud Functions, DWH, Storage, Pub/Sub, Docker Compose, Snowflake, PySpark, Docker, Python, Cloyd, Apache AirFlow, PostgreSQL, Работоспособность
Отрасль проекта
Realty & Constructoring
Период работы
Декабрь 2021 - По настоящее время
(2 года 1 месяц)
Платформа страхования
Роль
Дата Инженер
Обязанности
Справочная система по страхованию. Позволяет создавать новые разделы, темы, разделы обсуждений и вопросов, F&Q, бесплатные консультации. Получение информации о свободных нотариусах, страховых агентах, фирмах, ближайших офисах компаний из любой точки Европы.
Обязанности и достижения
● Инженерия данных;
● Планирование, внедрение, управление,
мониторинг и модернизация мер безопасности для защиты данных организации;
● Обеспечение не противоречивости, точности и полноты данных путем осуществления проверки данных с использованием PySpark;
● Настройка пайплайнов обработки для больших массивов данных;
● Использование ApacheAirflow для организации и автоматизации пайплайнов ELT/ETL;
● Разработка и реализация сценариев и правил преобразования данных при миграции из APIs в Greenplum;
● Планирование задач с ApacheAirflow;
● Настройка конфигураций PySpark для повышения производительности работы, включая оптимизацию распределения ресурсов, разбиения на разделы и кэширования;
● Маскирование конфиденциальных данных для обеспечения дифференцированной конфиденциальности, позволяющее проводить важную аналитику без раскрытия секретной информации;
● Разработка и реализация PySpark для выполнения распределенной обработки данных, таких как агрегирование, объединение и фильтрация;
● Настройка GCP Dataproc для обработки данных;
● Проектирование и разработка пайплайнов ELT / ETL, написанных на PySpark;
● Конфигурирование и обслуживание кластеров Cassandra, включая настройку стратегий репликации и разбиения на разделы;
● Разработка конвейеров CI/CD.
Технологии
Python, Apache Spark, PySpark, Pandas, Numpy, Apache Airflow, GCP (Dataproc, BigTable, Cloud Functions, Cloud Storage, Datastore и т.д.), Greenplum, Kafka, Cassandra, Oracle, Docker, Docker Compose, Bitbucket.
Стек специалиста на проекте
Numpy, API, Pandas, Oracle, Bitbucket, ETL, Cassandra, Kafka, Apache Spark, Cloud Functions, ARIS, Storage, maps, GCP, Docker Compose, xAPI, Мониторинг, PySpark, Docker, Python, Планирование, GreenPlum, Аналитика, Cloyd, Apache AirFlow
Отрасль проекта
Insurance
Период работы
Апрель 2020 - Ноябрь 2021
(1 год 8 месяцев)
Управление компанией
Роль
Дата Инженер
Обязанности
Присутствует два типа пользователей: администраторы и простые сотрудники. Имелась общая база данных, которая заполнялась проектом внешнего заказчика (сотрудники разбирали xml-файлы и заполняли базу соответствующими данными). Администраторы могут входить в систему от имени простого сотрудника, в случае если сотрудник находится под управлением администратора. Администратор и сотрудник могут видеть статистику работы сотрудника, при этом администратор имеет расширенные метрики на своей стороне.
Обязанности и достижения
● Инженерия данных;
● Построение ETL пайплайнов;
● Обработка больших массивов данных с
помощью Apache Spark;
● Планирование конвейеров ETL с помощью
Apache Airflow;
● Написание и оптимизация сложных
SQL-запросов для анализа данных и
создания отчетов;
● Разработка и сопровождение хранимых
процедур и представлений SQL;
● Перестроение моделей данных с помощью
Apache Hadoop;
● Аналитические запросы к данным с
помощью Apache Hive;
● Создание озера данных на облачном
хранилище GCP;
● Настроить Kubernetes(k8s) на GCP для
масштабирования доступных ресурсов;
● Обеспечение соответствия баз данных
требованиям пользователей;
● Фильтрация данных от аномалий;
● Предоставление многопользовательского
облачного хостинга с VPS;
● Разработка в соответствии с основными
идеями DWH;
● Обеспечение аутентификации и
авторизации для базы данных SQL.
Стек специалиста на проекте
BigQuery, Numpy, Hive, Git, Pandas, Redis, GitLab, Apache, Kafka, Apache Hadoop, Apache Spark, Storage, GCP, Docker Compose, PySpark, Docker, Python, Cloyd, Apache AirFlow, PostgreSQL
Отрасль проекта
RnD
Период работы
Июль 2018 - Март 2020
(1 год 9 месяцев)
Формат работы
Формат работы
Офис, Удаленно
Командировки
Готов
Релокация
Не готов
Готов работать на зарубежных проектах
Да