АБ
Анна Б.
Женщина, 22 года
Россия, Санкт-Петербург, UTC+3
Ставка
2 825,85 Р/час
вкл. НДС 5% (104.76 Р)
Специалист доступен с 24 августа 2025 г.
Добавьте подходящих специалистов в список и оформите заявку для предварительного бронирования времени специалистов. После оформления заявки ваш персональный менеджер организует прохождение всех необходимых проверок с вами и каждым кандидатом из заявки. Специалист привлекается к проекту только после окончательного подтверждения его выхода с вашей стороны.
Подробнее
О специалисте
Специализация
Data аналитик
Грейд
Навыки
Отрасли
Проекты
(3 года 1 месяц)
ВВГУ НОЦ "ИИ"
Роль
Data аналитик
Обязанности
Задача:
Разработать предиктивную модель предсказания смертности от сепсиса внутри госпиталя и внедрить ее в практику. Разработка документации и визуализации
Цель — максимально точный и интерпретируемый прогноз, пригодный для
внедрения в медицинскую практику.
Архитектура и процессы:
1. Сбор и интеграция данных
Подключилась к хранилищам краевой больницы (PostgreSQL, ClickHouse), откуда шла выгрузка таблиц: patients, labs, diagnosis, treatment Предобработала полученные данные:
Обработка пропусков: Для числовых признаков (например, результаты анализов) пропуски заполняю средним или медианным значением. Для категориальных — модой или отдельной категорией «unknown».
Стандартизация: Приводятся к единому формату единицы измерения (например, все
лабораторные показатели переводятся в float) и текстовые значения (например, "повышенное итоговой выборке останутся все пациенты из основной таблицы, даже если по ним нет данных в других таблицах. Результатом становится широкая аналитическая витрина данных.
2. ETL и автоматизация:
Автоматизировала рутинные процессы подготовки данных и обеспечила их регулярное
обновление:
Проектировала ETL-процессы. Весь процесс из первого этапа разбивается на логические
задачи. Например: extract_postgres_data, clean_symptoms_table, join_tables, load_to_datamart.
Также добавляется подгрузка Excel таблицы с новыми данными по расписанию.
Создаю DAG-пайплайн в Airflow. Пишу Python-скрипт, описывающий DAG (направленный ациклический граф):
Определяется расписание запуска (schedule_interval).
Задачи (операторы) связываю в последовательность, где каждая следующая задача
зависит от успешного выполнения предыдущей.
Настраиваю механизмы оповещения на случай сбоев и автоматические повторные
запуски (retries).
Оптимизирую производительности. Сокращаю время подготовки выборок за счёт:
Вместо выполнения сложных JOIN для каждого запроса, пайплайн заранее создаёт
готовую, оптимизированную витрину данных.
Проверяю ключевые поля, используемым для объединения и фильтрации, в базах данных
строю индексы. В Airflow задачи, не зависящие друг от друга, запускаются параллельно.
3. Исследовательский анализ данных (EDA)
Теперь я работаю с обработанными данными. На этом этапе идет представление результатов анализа для медперсонала. Использовала Seaborn и Matplotlib для визуализации распределений, корреляций и зависимости исхода от признаков. Построила heatmap по взаимосвязям, использовала pairplots для кластеризации групп риска.
4. Построение моделей
Были построены модели по целевой переменной "Статус пациента"(выжил/умер).
Модель baseline: логистическая регрессия (чтобы оценить базовую интерпретируемость и
метрики) и дерево решений.
Основная модель CatBoost. Альтернативы: XGBoost, LightGBM, нейросеть на PyTorch и
TensorFlow с 3 слоями (ReLU + Sigmoid).
Ключевыми метриками являлись:
ROC AUC — основной фокус (достигли ~0.91).
Precision/Recall на положительном классе — критичны для клинической значимости.
Учитывался дисбаланс классов → применяла стратифицированную кросс-валидацию +
class_weight='balanced'.
Для интепретации модели использовала SHAP, что показал важность признаков. Создала
интерактивные графики SHAP summary, decision plots для демонстрации врачам.
Стек специалиста на проекте
Git, Docker, Python, Machine learning, Tensorflow, Matplotlib, Seaborn, XGBoost, PyTorch, NLP, Apache AirFlow, CI/CD, CatBoost, Lightgbm, shap, Bert, gpt, llm, rag, logistic regression
Отрасль проекта
EdTech
Период работы
Октябрь 2024 - По настоящее время
(11 месяцев)
ES Transit
Роль
Data - аналитик
Обязанности
Задача:
Автоматизировать аналитику HR базе Bitrix24 и CRM. Разработать BI-дашборды с акту-альной бизнес-аналитикой: : конверсия, CPA, динамика сделок, HR-отчеты.
Оценить новую HR-стратегию через A/B тест. Создать модель прогнозирования срока найма сотрудника.
Аналитика HR-департамента:
1. Подключение данных
Подключилась к задачам внутри CRM Битрикс:
Настроила коннектор: Включила коннектор для прямого доступа к задачам внутри HR
департамента и выбрала Задачи. В задачах отражены нанимаемые сотрудники
Отбор данных: В данных таблиц устранила дубликаты, пропуски, стандартизация. Из таб-лицы выбрала нужные для работы столбцы, как заказчик, исполнитель, наблюдатель, ко-личество
комментариев. Вычислила и добавила столбцы, например длительность закрытия вакан-сий, количество переоткрытий вакансий, число комментарий с прикрепленным фай-лом(резюме в формате .pdf)
2. Разработка BI-дашбордов:
Организовала модель данных с таблицами и добавила DAX меры. После опроса HR
департамента построила дашборд с необходимыми параметрами:
Зафиксировала требования к BI-дашборду в итоговой работе: фильтры по времени, долж-ности, статусу кандидата, источнику резюме. Добавила срезы по должности, рекрутеру, каналу привлечения, источнику. Внедрила динамику по неделям/месяцам
Создала витрину в PowerBI с подгрузкой данных Битрикса с агрегациями по:
Дашборды включали карточки KPI: среднее время найма, стоимость найма, текущие от-крытые вакансии
Итоговые дашборды были использованы на еженедельных планерках, время их создания
сокращено на 30%
ML-модель для прогнозирования срока найма
1. Подготовка данных
Данные брались из задач CRM (должность, департамент, регион, канал привлечения, зп,
ответственный и прочее), что были подготовлены в предыдущих кейсах.
Я подготовила данные к обучению: One-hot encoding, масштабирование, feature engineering, разделяю выборку на тестовую и обучаемую. Целевая переменная - срок най-ма.
2. Создание модели
Построила модель PyTorch со следующей структурой:
Входной • слой с признаками
• 2 скрытых слоя (64, 32), ReLU, Dropout
• Выход: регрессия - предсказание числа дней.
Если модель переобучалась, то исправляла это через регуляризацию и Dropout. Ключевы-ми метриками являлась RMSE. Модель обновлялась раз в 2 недели. Обучение модели встроено в Битрикс: был создан робот с автоматизацией внутри задач HR-департамента для запуска процесса обучения модели с интервалом в 2 недели.
A/B тест каналов найма
Команда HR тестировала стратегии привлечения кандидатов:
A — один канал найма
B — новые каналы найма
Моей задачей стояло построить A/B тест и проверить, какой способ эффективнее. Сфор-мировала гипотезу: Новая стратегия сокращает время найма.
Далее подготовила данные из задач HR отдела по каналу найма. Время и стоимость найма уже были рассчитаны выше. Группы разделялись на "A" или "B" по источникам. В расчет брала данные где время найма <= 60 дням. Проводила проверку нормальности Shapiro-Wilk иT-test для независимых выборок.
В моем случае P-value < 0.05, значит новая стратегия сокращает срок найма на ~15%. Раз-работала скрипт на Python, который ежедневно обновлял Excel-отчёты, агрегировал дан-ные по воронке найма и отправлял отчёт руководителю отдела во внутреннем мессендже-ре. HR и CEO меняют стандартную практику найма на новую.
Стек специалиста на проекте
PostgreSQL, MySQL, SQL, Python, Power BI, Битрикс24, Pandas, PyTorch, MS Excel
Отрасль проекта
E-commerce & Retail
Период работы
Сентябрь 2023 - Октябрь 2024
(1 год 2 месяца)
ООО Примторгинвест
Роль
ML - инженер
Обязанности
Задача:
Построить модели прогнозирования: расходов и выручки для оптимизации
Бюджета. Предсказать спрос и выручку по аукционам
Централизованная БД :
1. Сбор и интеграция данных
Проанализировала структуру имеющихся данных: тендеры, контракты, техника, сотруд-ники, финансы, аукционы. Спроектировала централизованную схему хранения в MySQL и ClickHouse: выделила справочники, связующие таблицы, агрегаты. Для выгрузки данных из Access/Excel использовала Python (openpyxl, pyodbc), для ClickHouse — clickhouse-driver.. В ClickHouse настроила хранение "тяжёлых" логов и разделила по датам для ускорения выборок.
В результате спроектировала БД:
• Таблицы: contracts, employees, auctions, equipment, counterparties
• Добавляю внешние ключи, индексацию, регулярные агрегаты (например, итоги по квар-талам)
2. ETL и автоматизация:
Разработала простую ETL-схему:
Extract - регулярная выгрузка и парсинг Excel/CSV
Transform - очистка, фильтрация, агрегации в pandas (удаление дублей, типизация,
нормализация числовых данных)
Load - загрузка в витрины MySQL/ClickHouse
Использовала pandas и numpy для расчетов: доход, расходы, прибылью. Использовала Google Colab как среду для прототипирования и запуска регулярных задач (через плани-ровщик).
Предсказание спроса и выручки по аукционам:
1. Сбор и интеграция данных
Подключилась к базе данной ClickHouse и взяла таблицу с выигранными аукционами: auctions.
Добавила историю всех аукционов, где приняли участие, из личного кабинета по API при помощи RestAPI.
Основные признаки:
1. Тип лота, отрасль, регион, сезон
2. Среднее количество участников, наличие крупных игроков
3. Стартовая цена, шаг ставки
4. Кол-во предыдущих побед по данному направлению
2. Разработка MVL модели
Подготовила бинарной метки: 1 если аукцион выигран, 0 если проигран. Обучала модель
LightGBMClassifier
Применение позволило:
•Метрики: F1-score, Precision важны была не просто точность, а возможность выбрать лучшие лоты
• Результат: ROC AUC ~0.87 на валидации, PR AUC ~0.76
• Был настроен скрипт для ввода параметров аукциона и вывода предсказания
•Отказаться от невыгодных аукционов
• Увеличить вероятность выиграть в аукционах, которые модель определила как хорошие, на 20%
Стек специалиста на проекте
MySQL, Python, ClickHouse, Pandas, Numpy, Matplotlib, ETL, Jupyter, CatBoost, OpenPyXL, Lightgbm, Google colab
Отрасль проекта
E-commerce & Retail
Период работы
Август 2022 - Сентябрь 2023
(1 год 2 месяца)
Формат работы
Тип занятости
Фулл-тайм
Формат работы
Удаленно
Командировки
Не готов
Релокация
Не готов
Готов работать на зарубежных проектах
Нет
Образование
Высшее
Учебное заведение
Владивостокский государственный университет (экс ВГУЭС — Владивостокский государственный университет экономики и сервиса), Владивосток
Специальность
Прикладная информатика
Завершение учебы
2025 г.