ДС
Дмитрий С.
Мужчина, 27 лет
Россия, Санкт-Петербург, UTC+3
Ставка
3 000 Р/час
НДС не облагается
Специалист доступен с 1 января 2025 г.
Добавьте подходящих специалистов в список и оформите заявку для предварительного бронирования времени специалистов. После оформления заявки ваш персональный менеджер организует прохождение всех необходимых проверок с вами и каждым кандидатом из заявки. Специалист привлекается к проекту только после окончательного подтверждения его выхода с вашей стороны.
Подробнее
О специалисте
Специализация
Data аналитик
Грейд
Навыки
Отрасли
Главное о специалисте
работал в связке Python + PostgreSQL для написания самообновляющихся в Apache Airflow скриптов для дашбордов MS PowerBI, Redash, Metabase, поддерживал их состояние, исправлял ошибки в случае их возникновения;
построение отчетов в вышеуказанных пакетах визуализации согласно ТЗ;
участвовал в дизайне и проверке результатов простых A/B-тестов (сравнение конверсий, изменений средних значений), обсуждал их результаты с внутренними заказчиками;
выполнял ad-hoc запросов внутренних заказчиков в формате .csv/.xlsx/.pkl по мере необходимости;
поиск инсайтов и точек роста на проектах совместно с командой (brainstorm);
оценивал качество моделей машинного обучения - самостоятельно построенных или предобученных;
участвовал в code review коллег по команде;
участвовал в обучении / менторстве коллег;
опыт работы с библиотеками машинного обучения;
тесное взаимодействие с QA / backend-разработчиками
Проекты
(3 года 2 месяца)
Платформа для исследования удовлетворенности ЮЛ продуктами экосистемы банка
Роль
Data Analyst
Обязанности
Описание проекта:
Платформа представляет собой систему, собирающую данные об удовлетворенности клиентов-юридических лиц продуктами экосистемы банка (CSI). Данные на платформу поступают следующим образом: клиент обращается в техническую поддержку с определенной проблемой, после решения которой у клиента просят оценить работу по нескольким критериям по шкале 1-5. Весь текст разговора и оценки поступают в общее хранилище, из которого можно формировать инфографику. Платформа предназначена, в первую очередь, для детекции плохих оценок (alert) и поиска набора признаков, которые имеют наибольший вес при ее выставлении (долгое время ожидания, грубый оператор и т.д.) для обеспечения приемлемой предсказательной способности.
Состав команды:
1 PO, 1 BA, 2 Frontend-разработчика, 2 DS, 1 DA
Технологии на проекте:
Jupyter Notebook, Jira, Confluence, Data Analysis and Machine Learning Libraries (Numpy, Pandas, Matplotlib, Seaborn, Scikit-learn)
Задачи/реализованный функционал:
Проверка статистических гипотез - влияние признака или группы признаков на оценки пользователей (корреляция Пирсона, ANOVA и т.д.). Дообучение действующей на проекте модели машинного обучения на новых признаках, имеющих статистическую значимость (градиентный бустинг) или построение новых моделей с нуля (например, TF-IDF + LightGBM + nltk / spacy для классификации речи операторов).
Оценка возможности использования предобученных моделей машинного обучения на проекте (например, насколько хорошо модель, обученная у коллег из другого проекта на тексте подойдет для анализа речи клиента и/или оператора на нашем).
Улучшение детекции неприемлемого контента (например, нецензурной лексики) без методов машинного обучения (доработка уже готовых регулярных выражений или же создание своих с нуля).
Стек специалиста на проекте
Numpy, AntD, Pandas, Machine learning, Scikit-learn, Seaborn, Confluence, Data Analysis, Matplotlib, Jira, JupyterNoteBook
Отрасль проекта
FinTech & Banking
Период работы
Февраль 2023 - Февраль 2024
(1 год 1 месяц)
Платформа для подбора экспертов для оказания образовательных услуг
Роль
Data Analyst
Обязанности
Описание проекта:
Платформа для подбора подходящего эксперта, оказывающего образовательную услугу заказчику. Чаще всего это - курсовые, контрольные и т.д. работы, выполнение которых требуется студентам учреждений среднего специального или высшего образования к определенному дедлайну. Система подбора работает следующим образом: заказчик вводит все необходимые сведения (тип, предмет работы, сумма денег, которую он готов заплатить, дедлайн и т.д.) на сайт, после чего он выдает список рекомендованных экспертов, которых можно выбрать. Любое взаимодействие происходит строго на платформе путем внутреннего чата на самой платформе, там же оговариваются все легальные способы оплаты, а также изменения изначального задания: корректировки, отмены, дополнительные услуги и т.д.
Состав команды:
1 Team-Lead, 1 DS, 1 DE, 2 DA, 1 PM
Технологии на проекте:
Jupyter Notebook, Apache Airflow, VSCode / PyCharm, DataGrip / DBeaver, MS PowerBI, Redash, Metabase, Git, Jira, Confluence, Data Analysis and Machine Learning Libraries (Numpy, Pandas, Matplotlib, Seaborn, Scikit-learn, etc.), Notion
Задачи/реализованный функционал:
Рефакторинг legacy-кода на проекте (удаление лишних и дублирующихся строк кода в репозитории, формирование и/или оптимизация функций для ускорения отработки скриптов в Apache Airflow). Построение новых DAG или тасок для Apache Airflow в зависимости от ТЗ с целью разработки автоматически обновляющихся дашбордов, мониторинг состояния отработки тасок и корректности метрик в построенных дашбордах. За время работы на проекте количество дашбордов в разных системах визуализации выросло почти вдвое.
Участие в дизайне и проверке результатов A/B-тестов (сравнение p_value и уровня значимости, иногда bootstrap), обсуждение наличия статистической значимости с коллегами по команде и внутренними заказчиками. Каждый успешный A/B-тест приносил в среднем ~3-5% от выручки.
Оценка возможности использования предобученных моделей машинного обучения (Hugging Face + sklearn + PyTorch) на наших проектах - получение метрик и сравнение их с эталонным значением.
Совместно с DE разработали non-ML-алгоритм ранжирования желаемых вознаграждений экспертов, который впоследствии был протестирован QA и внедрен в production, что привело к росту выручки на ~7-10%.
Стек специалиста на проекте
Numpy, AntD, Git, Pandas, Notion, DBeaver, PyCharm, Machine learning, Scikit-learn, Redash, Seaborn, vscode, Confluence, Data Analysis, Matplotlib, PowerBI, metabase, Apache AirFlow, DataGrip, Jira, JupyterNoteBook, Microsoft
Отрасль проекта
EdTech
Период работы
Январь 2021 - Февраль 2023
(2 года 2 месяца)
Формат работы
Тип занятости
Фулл-тайм
Формат работы
Удаленно
Командировки
Не готов
Релокация
Не готов
Готов работать на зарубежных проектах
Нет