ЕГ
Егор Г.
Мужчина
Россия, Самара, UTC+4
Ставка
2 568,95 Р/час
вкл. НДС 5% (95.24 Р)
Специалист доступен с 3 июля 2025 г.
Добавьте подходящих специалистов в список и оформите заявку для предварительного бронирования времени специалистов. После оформления заявки ваш персональный менеджер организует прохождение всех необходимых проверок с вами и каждым кандидатом из заявки. Специалист привлекается к проекту только после окончательного подтверждения его выхода с вашей стороны.
Подробнее
О специалисте
Специализация
Data инженер
Грейд
Навыки
Отрасли
Главное о специалисте
работал с чистым SQL на уровне продвинутых запросов (оконные функции, условные операторы выбора и т.д.);
опыт работы с UNIX-системами на уровне простых операций;
развитые коммуникативные навыки;
опыт написание тестов для разработанного функционала;
опыт рефакторинга кода;
опыт проведения code review;
участие в создании ETL процессов
опыт сбора информации из Интернета путем парсинга
применял как уже обученные модели машинного обучения/глубокого обучения, так и занимался их обучением самостоятельно
опыт работы с большими данными в Hadoop и Spark и в составлении сложных SQL запросов в Apache Hive
опыт работы с Apache Airflow
опыт работы с Python для анализа данных (pandas, numpy, matplotlib, seaborn)
Проекты
(3 года 1 месяц)
Создание и развитие библиотеки графовой аналитики
Роль
Data engineer (scientist/analyst)
Обязанности
Описание
Создание и улучшение существующего функционала внутренней библиотеки графовой аналитики
Команда
3 Python-разработчика, 1 PO, 2 аналитика, 2 Data Scientist;
Стек
git, networkx, Python, Numpy, Pytest, Pylint, Ipywidgets
Что реализовал
Разработка нового функционала: random_graph - для создания случайного графа, добавление метода neighbours, degree в основной класс библиотеки, разработка алгоритма укладки графа методом Фрухтермана-Рейнгольда. Проведение рефакторинга кода: доработка методов и legacy кода. Покрытие библиотеки тестами, а также пользовательской документацией. Помощь команде в распределении задач по работе над новым функционалом библиотеки. Ревью кода команды перед Pull request-ом в основную ветку master.
Период работы
Ноябрь 2021 - Май 2023
(1 год 7 месяцев)
Исследование контента на образовательной платформе СберКласс
Роль
Data engineer (scientist/analyst)
Обязанности
Описание
Проведение анализа контента с целью выявления нецензурного содержание, такого как матерные выражения, упоминания алкоголя и наркотических веществ. Исследование контента на образовательной платформе позволило повысить качество и безопасность обучения детей на платформе.
Команда
2 Data Scientist, 1 PO, 3 аналитика;
Стек
Python, Pandas, ffmpeg, requests, selenium, vosk, tesseract, opencv, scikit-learn
Что реализовал
Реализовал парсинг сайта образовательной платформы СберКласс и собрал данные в виде таблиц. По собранным данным производилось скачивание контента и его предобработка: выделение аудиодорожек и “нарезка” кадров из видео-роликов. Проводил сопоставление текстов с аудио дорожек со списком нецензурных слов. Для использования моделей глубокого обучения применял аугментацию изображений и затем занимался обучением модели семейства “yolo” для задачи детекции объектов. Применение обученной модели позволило выявить около ста объектов, которые имели нецензурное содержание.
Период работы
Март 2021 - Март 2022
(1 год 1 месяц)
Исследование отзывов на маркетплейсы
Роль
Data analyst
Обязанности
Описание
В рамках проекта проводился анализ отзывов, оставленных пользователями на различных платформах. Получение полного представления о мнении клиентов, их удовлетворенности и выявление проблемных моментов, которые могли бы повлиять на репутацию компании. Сформулировать рекомендации по улучшению работы компании в целом, что способствует повышению уровня сервиса и удовлетворенности.
Команда
1 data scientist, 1 PO, 2 аналитика;
Стек
Python, Pandas, selenium, scikit-learn, requests, beautifulsoup4
Что реализовал
Реализовал парсинг сайтов-агрегаторов отзывов. В ходе исследования использовал методы обработки естественного языка (Natural Language Processing), чтобы сегментировать и классифицировать отзывы.
Период работы
Ноябрь 2020 - Март 2021
(5 месяцев)
Формат работы
Тип занятости
Фулл-тайм
Формат работы
Удаленно
Командировки
Не готов
Релокация
Не готов
Готов работать на зарубежных проектах
Нет