Анна Б. Data аналитик, Middle+

ID 30108
АБ
Анна Б.
Женщина, 22 года
Россия, Санкт-Петербург, UTC+3
Ставка
2 825,85 Р/час
вкл. НДС 5% (104.76 Р)
Специалист доступен с 8 октября 2025 г.

Добавьте подходящих специалистов в список и оформите заявку для предварительного бронирования времени специалистов. После оформления заявки ваш персональный менеджер организует прохождение всех необходимых проверок с вами и каждым кандидатом из заявки. Специалист привлекается к проекту только после окончательного подтверждения его выхода с вашей стороны.

Подробнее
О специалисте
Специализация
Data аналитик
Грейд
Middle+
Навыки
Python
SQL
PostgreSQL
Scikit-learn
CatBoost
XGBoost
Lightgbm
Tensorflow
Keras
PyTorch
automl
Pandas
Numpy
Matplotlib
Seaborn
EDA
feature
Engineering ML OPS
MySQL
BigQuery
Apache AirFlow
DVC
DBT
Docker
Git
GitHub
Power BI
Tableau
ClickHouse
Отрасли
E-commerce & Retail
EdTech
Проекты   (3 года 3 месяца)
ВВГУ НОЦ "ИИ"
Роль
Data аналитик
Обязанности
Задача: Разработать предиктивную модель предсказания смертности от сепсиса внутри госпиталя и внедрить ее в практику. Разработка документации и визуализации Цель — максимально точный и интерпретируемый прогноз, пригодный для внедрения в медицинскую практику. Архитектура и процессы: 1. Сбор и интеграция данных Подключилась к хранилищам краевой больницы (PostgreSQL, ClickHouse), откуда шла выгрузка таблиц: patients, labs, diagnosis, treatment Предобработала полученные данные: Обработка пропусков: Для числовых признаков (например, результаты анализов) пропуски заполняю средним или медианным значением. Для категориальных — модой или отдельной категорией «unknown». Стандартизация: Приводятся к единому формату единицы измерения (например, все лабораторные показатели переводятся в float) и текстовые значения (например, "повышенное итоговой выборке останутся все пациенты из основной таблицы, даже если по ним нет данных в других таблицах. Результатом становится широкая аналитическая витрина данных. 2. ETL и автоматизация: Автоматизировала рутинные процессы подготовки данных и обеспечила их регулярное обновление: Проектировала ETL-процессы. Весь процесс из первого этапа разбивается на логические задачи. Например: extract_postgres_data, clean_symptoms_table, join_tables, load_to_datamart. Также добавляется подгрузка Excel таблицы с новыми данными по расписанию. Создаю DAG-пайплайн в Airflow. Пишу Python-скрипт, описывающий DAG (направленный ациклический граф): Определяется расписание запуска (schedule_interval). Задачи (операторы) связываю в последовательность, где каждая следующая задача зависит от успешного выполнения предыдущей. Настраиваю механизмы оповещения на случай сбоев и автоматические повторные запуски (retries). Оптимизирую производительности. Сокращаю время подготовки выборок за счёт: Вместо выполнения сложных JOIN для каждого запроса, пайплайн заранее создаёт готовую, оптимизированную витрину данных. Проверяю ключевые поля, используемым для объединения и фильтрации, в базах данных строю индексы. В Airflow задачи, не зависящие друг от друга, запускаются параллельно. 3. Исследовательский анализ данных (EDA) Теперь я работаю с обработанными данными. На этом этапе идет представление результатов анализа для медперсонала. Использовала Seaborn и Matplotlib для визуализации распределений, корреляций и зависимости исхода от признаков. Построила heatmap по взаимосвязям, использовала pairplots для кластеризации групп риска. 4. Построение моделей Были построены модели по целевой переменной "Статус пациента"(выжил/умер). Модель baseline: логистическая регрессия (чтобы оценить базовую интерпретируемость и метрики) и дерево решений. Основная модель CatBoost. Альтернативы: XGBoost, LightGBM, нейросеть на PyTorch и TensorFlow с 3 слоями (ReLU + Sigmoid). Ключевыми метриками являлись: ROC AUC — основной фокус (достигли ~0.91). Precision/Recall на положительном классе — критичны для клинической значимости. Учитывался дисбаланс классов → применяла стратифицированную кросс-валидацию + class_weight='balanced'. Для интепретации модели использовала SHAP, что показал важность признаков. Создала интерактивные графики SHAP summary, decision plots для демонстрации врачам.
Стек специалиста на проекте
Git, Docker, Python, Machine learning, Tensorflow, Matplotlib, Seaborn, XGBoost, PyTorch, NLP, Apache AirFlow, CI/CD, CatBoost, Lightgbm, shap, Bert, gpt, llm, rag, logistic regression
Отрасль проекта
EdTech
Период работы
Октябрь 2024 - По настоящее время  (1 год 1 месяц)
ES Transit
Роль
Data - аналитик
Обязанности
Задача: Автоматизировать аналитику HR базе Bitrix24 и CRM. Разработать BI-дашборды с акту-альной бизнес-аналитикой: : конверсия, CPA, динамика сделок, HR-отчеты. Оценить новую HR-стратегию через A/B тест. Создать модель прогнозирования срока найма сотрудника. Аналитика HR-департамента: 1. Подключение данных Подключилась к задачам внутри CRM Битрикс: Настроила коннектор: Включила коннектор для прямого доступа к задачам внутри HR департамента и выбрала Задачи. В задачах отражены нанимаемые сотрудники Отбор данных: В данных таблиц устранила дубликаты, пропуски, стандартизация. Из таб-лицы выбрала нужные для работы столбцы, как заказчик, исполнитель, наблюдатель, ко-личество комментариев. Вычислила и добавила столбцы, например длительность закрытия вакан-сий, количество переоткрытий вакансий, число комментарий с прикрепленным фай-лом(резюме в формате .pdf) 2. Разработка BI-дашбордов: Организовала модель данных с таблицами и добавила DAX меры. После опроса HR департамента построила дашборд с необходимыми параметрами: Зафиксировала требования к BI-дашборду в итоговой работе: фильтры по времени, долж-ности, статусу кандидата, источнику резюме. Добавила срезы по должности, рекрутеру, каналу привлечения, источнику. Внедрила динамику по неделям/месяцам Создала витрину в PowerBI с подгрузкой данных Битрикса с агрегациями по: Дашборды включали карточки KPI: среднее время найма, стоимость найма, текущие от-крытые вакансии Итоговые дашборды были использованы на еженедельных планерках, время их создания сокращено на 30% ML-модель для прогнозирования срока найма 1. Подготовка данных Данные брались из задач CRM (должность, департамент, регион, канал привлечения, зп, ответственный и прочее), что были подготовлены в предыдущих кейсах. Я подготовила данные к обучению: One-hot encoding, масштабирование, feature engineering, разделяю выборку на тестовую и обучаемую. Целевая переменная - срок най-ма. 2. Создание модели Построила модель PyTorch со следующей структурой: Входной • слой с признаками • 2 скрытых слоя (64, 32), ReLU, Dropout • Выход: регрессия - предсказание числа дней. Если модель переобучалась, то исправляла это через регуляризацию и Dropout. Ключевы-ми метриками являлась RMSE. Модель обновлялась раз в 2 недели. Обучение модели встроено в Битрикс: был создан робот с автоматизацией внутри задач HR-департамента для запуска процесса обучения модели с интервалом в 2 недели. A/B тест каналов найма Команда HR тестировала стратегии привлечения кандидатов: A — один канал найма B — новые каналы найма Моей задачей стояло построить A/B тест и проверить, какой способ эффективнее. Сфор-мировала гипотезу: Новая стратегия сокращает время найма. Далее подготовила данные из задач HR отдела по каналу найма. Время и стоимость найма уже были рассчитаны выше. Группы разделялись на "A" или "B" по источникам. В расчет брала данные где время найма <= 60 дням. Проводила проверку нормальности Shapiro-Wilk иT-test для независимых выборок. В моем случае P-value < 0.05, значит новая стратегия сокращает срок найма на ~15%. Раз-работала скрипт на Python, который ежедневно обновлял Excel-отчёты, агрегировал дан-ные по воронке найма и отправлял отчёт руководителю отдела во внутреннем мессендже-ре. HR и CEO меняют стандартную практику найма на новую.
Стек специалиста на проекте
PostgreSQL, MySQL, SQL, Python, Power BI, Битрикс24, Pandas, PyTorch, MS Excel
Отрасль проекта
E-commerce & Retail
Период работы
Сентябрь 2023 - Октябрь 2024  (1 год 2 месяца)
ООО Примторгинвест
Роль
ML - инженер
Обязанности
Задача: Построить модели прогнозирования: расходов и выручки для оптимизации Бюджета. Предсказать спрос и выручку по аукционам Централизованная БД : 1. Сбор и интеграция данных Проанализировала структуру имеющихся данных: тендеры, контракты, техника, сотруд-ники, финансы, аукционы. Спроектировала централизованную схему хранения в MySQL и ClickHouse: выделила справочники, связующие таблицы, агрегаты. Для выгрузки данных из Access/Excel использовала Python (openpyxl, pyodbc), для ClickHouse — clickhouse-driver.. В ClickHouse настроила хранение "тяжёлых" логов и разделила по датам для ускорения выборок. В результате спроектировала БД: • Таблицы: contracts, employees, auctions, equipment, counterparties • Добавляю внешние ключи, индексацию, регулярные агрегаты (например, итоги по квар-талам) 2. ETL и автоматизация: Разработала простую ETL-схему: Extract - регулярная выгрузка и парсинг Excel/CSV Transform - очистка, фильтрация, агрегации в pandas (удаление дублей, типизация, нормализация числовых данных) Load - загрузка в витрины MySQL/ClickHouse Использовала pandas и numpy для расчетов: доход, расходы, прибылью. Использовала Google Colab как среду для прототипирования и запуска регулярных задач (через плани-ровщик). Предсказание спроса и выручки по аукционам: 1. Сбор и интеграция данных Подключилась к базе данной ClickHouse и взяла таблицу с выигранными аукционами: auctions. Добавила историю всех аукционов, где приняли участие, из личного кабинета по API при помощи RestAPI. Основные признаки: 1. Тип лота, отрасль, регион, сезон 2. Среднее количество участников, наличие крупных игроков 3. Стартовая цена, шаг ставки 4. Кол-во предыдущих побед по данному направлению 2. Разработка MVL модели Подготовила бинарной метки: 1 если аукцион выигран, 0 если проигран. Обучала модель LightGBMClassifier Применение позволило: •Метрики: F1-score, Precision важны была не просто точность, а возможность выбрать лучшие лоты • Результат: ROC AUC ~0.87 на валидации, PR AUC ~0.76 • Был настроен скрипт для ввода параметров аукциона и вывода предсказания •Отказаться от невыгодных аукционов • Увеличить вероятность выиграть в аукционах, которые модель определила как хорошие, на 20%
Стек специалиста на проекте
MySQL, Python, ClickHouse, Pandas, Numpy, Matplotlib, ETL, Jupyter, CatBoost, OpenPyXL, Lightgbm, Google colab
Отрасль проекта
E-commerce & Retail
Период работы
Август 2022 - Сентябрь 2023  (1 год 2 месяца)
Формат работы
Тип занятости
Фулл-тайм
Формат работы
Удаленно
Командировки
Не готов
Релокация
Не готов
Готов работать на зарубежных проектах
Нет
Образование
Высшее
Учебное заведение
Владивостокский государственный университет (экс ВГУЭС — Владивостокский государственный университет экономики и сервиса), Владивосток
Специальность
Прикладная информатика
Завершение учебы
2025 г.

Похожие специалисты

E-commerce & Retail • FinTech & Banking
ДХ
Дарья Х.
Минск
Data аналитик
Senior
4 046,49 Р/час
Time series
Time Series Analysis
Time Series Forecasting
Forecasting
forecast
Predictive Analytics
Classical ML
Classical ML models
MLflow
ML Engineering
+171

▪ Data Scientist / Data Analyst c более чем 6 летним опытом в области анализа данных и машинного обучения в различных отраслях, включая банковское дело, финансовые услуги, e-commerce и стартапах. ▪ Применение передовых методов анализа данных и машинного обучения для глубокого анализа текущих данных и процессов, оптимизации операций и извлечения ценных инсайтов, а также их адаптации к бизнес-потребностям. ▪ Разработка и проектирование систем разной сложности в соответствии с техническими требованиями и задачами, включая высокоэффективные, высоконагруженные и масштабируемые микросервисные приложения. ▪ Глубокий анализ существующих решений, их улучшение и адаптация к требованиям бизнес-процессов. ▪ Коммуникабельность, мотивация и способность быстро вливаться в текущие процессы команды с целью достижения результатов.

Подробнее
Manufacturing • Telecom
АЗ
Алексей З.
Москва
Data аналитик
Senior
3 871,64 Р/час
Apache AirFlow
Apache Spark
Bash
Bootstrap
CSS
Deep Learning
Docker
Flask
Git
HTML
+46

О себе: Постоянно учусь и стремлюсь к знаниям. Высокий уровень самоорганизации и любовь к делу помогают каждый день узнавать что-то новое. Воспринимаю сложные задачи и трудности как очередную ступень на пути вверх. Стек компетенций: • Python (Matplotlib, Numpy, Pandas, Google.colab, Tensorflow, Keras, Torch и др.); • SQL/NoSQL (MySQL, PostgreSQL, MongoDB, SQLite); • BI платформы (Tableau, Qlik Sense, Power BI); • Сбор данных (Scrapy, Selenium, BeautifulSoup, Xpath); • Методы аналитики маркетинговойактивности, системы web-аналитики; • GIt; • Bash Первую программу для управления заказами и складом для компании занимающийся доставкой воды и кулеров, написал в 2005 году. Работает до сих пор. Писал роботов для биржевой торговли на mql4. Заинтересовался ИИ и пошел учиться в Университет ИИ. Хобби - искусство, графический дизайн, фотография.

Подробнее
E-commerce & Retail • EdTech • Urban technology
ВК
Владислав К.
Красноярск
Data аналитик
Middle
3 917,65 Р/час
Agile
aiogram
Apache AirFlow
BI
BI инструменты
BigQuery
CI/CD
ClickHouse
Confluence
DataGrip
+94

Владислав — Data аналитик уровня Middle из Красноярска. Специализируется на анализе данных, визуализации и автоматизации процессов. Имеет опыт работы в отраслях EdTech, E-commerce & Retail, Urban technology. Владеет английским языком на уровне B1. Участвовал в трёх проектах: 1. Разработка образовательной защищённой цифровой платформы, где занимался взаимодействием с проектным менеджером, сбором и анализом требований пользователей, оптимизацией обработки данных, проектированием и созданием дашборда в Grafana. 2. Создание системы мониторинга инцидентов и управления рисками для экстренных и аварийно-спасательных служб Красноярского края. Задачи включали расчёт ключевых показателей эффективности, построение визуализаций и интерактивных отчётов, автоматизацию сбора и консолидации данных. 3. Разработка системы мониторинга качества мобильной связи и сбора отзывов от пользователей через Telegram-бот для Красноярского края. В рамках проекта анализировал географическое распределение жалоб, разрабатывал Telegram-бота для отображения данных и сбора отзывов, автоматизировал сбор и обработку данных о телеком-инфраструктуре.

Подробнее

Недавно просмотренные специалисты

EdTech • Government & Public Sector
НГ
Наталья Г.
Белгород
Технический писатель
Middle+
3 981,88 Р/час
API
Jira
Confluence
BPMN
Draw.io
Планирование
MS PowerPoint
Atlassian
СУБД
Miro
+23

Наталья — опытный технический писатель с более чем 10-летним стажем работы в области разработки документации для сложных IT-проектов. Она имеет глубокое знание архитектуры, бизнес-процессов и стандартов безопасности, эффективно работает с большим объемом информации и создает документацию, соответствующую требованиям заказчиков. В своей карьере она занималась разработкой документации для различных проектов, включая систему здравоохранения и умный дом, а также интеграцией бизнес-процессов с использованием нотации BPMN. Наталья хорошо знакома с ГОСТ, ISO и различными инструментами, такими как Confluence, Jira и Visio. Ее опыт работы включает как взаимодействие с госзаказчиками, так и управление проектами в условиях сжатых сроков.

Подробнее
Manufacturing • Realty & Constructoring
ВИ
Вадим И.
Москва
Директор по правовым вопросам
8 571,42 Р/час
Заключение договоров
Управление командой
Претензионно-исковая деятельность
+3

Юридический стаж - 25 лет, управленческий - 15 лет. Эксперт в области договорного права, претензионно-исковой работы, корпоративного управления. Говорю "на одном языке" с лицами, принимающими решение, "технарями", финансистами. Член Советов директоров, Ревизионной комиссии. Эксперт Национальной Ассоциации корпоративных директоров. Член Союза юристов в сфере строительства и ЖКХ. Могу быть полезен в бизнесе: - в мозговых штурмах (кейс - общение в режиме "об кого подумать"); - в организации (оптимизации) работы юридической службы; - в получении "второго мнения" по сложным юридическим вопросам; - в организации качественного абонентского юридического обслуживания при отсутствии собственных штатных юристов. Мои сильные стороны: • бизнес-ориентированный участник команды, который может самостоятельно принимать решения и брать на себя ответственность; • умею эффективно выстраивать взаимодействие с лицами, принимающими решения, со всеми подразделениями компании, контрагентами и т.д.; • нахожу правовые решения под задачи бизнеса, быстро реагирую на меняющиеся обстоятельства в правовой и бизнес-средах; • умею работать как член команды и как самостоятельная автономная единица, способен принимать    ответственные решения в условиях ограниченного времени; • умею не просто решать операционные юридические вопросы, а включаться в бизнес-решения, понимая цели акционеров и стратегию развития бизнеса. Не имею вредных привычек. Увлечения: чтение, настольный  теннис, шахматы. Женат,  2 дочери (17 и 8 лет).

Подробнее