ДХ
Дарья Х.
Женщина, 27 лет
Беларусь, Минск, UTC+3
Ставка
4 046,49 Р/час
вкл. НДС 20% (540 Р)
Специалист доступен с 3 октября 2025 г.
Добавьте подходящих специалистов в список и оформите заявку для предварительного бронирования времени специалистов. После оформления заявки ваш персональный менеджер организует прохождение всех необходимых проверок с вами и каждым кандидатом из заявки. Специалист привлекается к проекту только после окончательного подтверждения его выхода с вашей стороны.
Подробнее
О специалисте
Специализация
Data аналитик
Грейд
Навыки
Отрасли
Знание языков
Английский — B2
Русский — C2
Главное о специалисте
▪ Data Scientist / Data Analyst c более чем 6 летним опытом в области анализа данных и машинного обучения в различных отраслях, включая банковское дело, финансовые услуги, e-commerce и стартапах.
▪ Применение передовых методов анализа данных и машинного обучения для глубокого анализа текущих данных и процессов, оптимизации операций и извлечения ценных инсайтов, а также их адаптации к бизнес-потребностям.
▪ Разработка и проектирование систем разной сложности в соответствии с техническими требованиями и задачами, включая высокоэффективные, высоконагруженные и масштабируемые микросервисные приложения.
▪ Глубокий анализ существующих решений, их улучшение и адаптация к требованиям бизнес-процессов.
▪ Коммуникабельность, мотивация и способность быстро вливаться в текущие процессы команды с целью достижения результатов.
Проекты
(6 лет 1 месяц)
End-to-end решение
Роль
Data Scientist
Обязанности
End-to-end решение — Telegram-бот для операторов техподдержки, основанный на архитектуре RAG (Retrieval-Augmented Generation) с использованием крупных языковых моделей (LLM), таких как YandexGPT. Система обеспечивает автоматизированную поддержку консультантов по вопросам внутренних регламентов, обработке обращений клиентов (жалобы, благодарности, запросы по заказам) и информации об актуальных акциях через интеграцию с Google Sheets API.
• Сбор информации у бизнеса и формирование бизнес-требований к функциональности бота и админ-панели: проведение интервью с экспертами поддержки, сбор use cases, документирование сценариев использования и KPI эффективности
• Проектирование и согласование технических требований на основе бизнес-потребностей с участием продуктовой команды и инженеров
• Реализация RAG-архитектуры с векторным хранилищем: использование LangChain для оркестрации цепочек запросов, Sentence Transformers для эмбеддингов текста, FAISS, Weaviate — как векторные базы данных для хранения и поиска релевантных фрагментов знаний
• Интеграция с Telegram API через aiogram, реализация обработчиков сообщений, состояний диалога и middleware для логирования
• Подключение к Google Sheets через Google Sheets API v4 с использованием gspread и oauth2client + service account для автоматического получения актуальных данных об акциях и промо
• Разработка модуля семантического поиска: чанкирование документов с помощью LangChain TextSplitter (RecursiveCharacterTextSplitter), переиндексация при обновлении источников
• Настройка автоматического обновления базы знаний: перезагрузка, индексация и очистка устаревших данных через скрипты на Python с парсингом PDF, DOCX-документов (PyPDF2, python-docx)
• Создание интерфейса админ-панели на Streamlit для управления документами, статусами обращений и историями диалогов
• Сбор и структурирование обращений с сохранением полного контекста: текст, метаданные, пользовательские данные — сохраняются в PostgreSQL с последующей выгрузкой в S3 для анализа
• Классификация кейсов жалоб и запросов: применение обученных NLP-моделей для автоматической разметки тематики обращений
• Внедрение статусов "обработано/не обработано" для контроля соблюдения SLA: реализация workflow на Streamlit с обновлением поля в БД через CRUD-операции
• Оптимизация времени генерации ответов: кэширование результатов поиска и генерации через Redis (с redis-py) и декораторы functools.lru_cache
• Реализация fallback-механизма: при недоступности внешней LLM через YandexGPT API автоматически активируется локальная легковесная модель —что обеспечивает бесперебойную работу
• Логирование всех взаимодействий пользователей с системой
• Организация регулярного обновления документов в векторной базе знаний с помощью Apache Airflow: настроены ETL-пайплайны (DAGs) с расписанием (по cron), которые извлекают данные из Google Docs, PDF, внутренних порталов, чанкируют и переиндексируют их в векторное хранилище
• Автоматическое оповещение о сбоях в пайплайнах через интеграцию Airflow с Telegram с помощью TelegramOperator
• Настройка CI/CD процесса с использованием GitLab CI/CD
• Полное документирование архитектуры, процессов и инструкций в Confluence: создание страниц с диаграммами (Mermaid), руководствами по развёртыванию и процессами обновления знаний
Технологии: Python, YandexGPT, LLM, RAG (Retrieval-Augmented Generation), LangChain, Sentence Transformers, FAISS, Weaviate, Vector Database, Google Sheets AP, gspread, OAuth2, Service Account, Telegram API, aiogram, Streamlit, PostgreSQL, Amazon S3, Redis, Apache Airflow, DAGs, Cron, GitLab CI/CD, Confluence, PyPDF2, python-docx, Pandas, NumPy, Scikit-learn, HuggingFace Transformers, JSON, YAML, Docker, Docker Compose, Kubernetes (K8s), Argo, Grafana, ETL, Data Processing, Text Embeddings, Semantic Search, Document Chunking, RecursiveCharacterTextSplitter, Monitoring, Alerting, TelegramOperator, Cloud Integration, Caching, Asyncio, JupyterLab
Стек специалиста на проекте
monitoring, database, langchain, Grafana, YandexGPT, transformers, docx, Data processing, vector, Streamlit, gspread, argo, text, Sheets, llm, weaviate, dags, Amazon S3, Numpy, Google, JSON, Pandas, Redis, PyPDF2, Cron, JupyterLab, Scikit-learn, Telegram API, ETL, cloud, HuggingFace, Integrations, aiogram, Docker Compose, Asyncio, Docker, Python, Confluence, YAML, GitLab CI/CD, Apache AirFlow, rag, FAISS, технологии, oauth2, caching, Kubernetes, PostgreSQL
Отрасль проекта
E-commerce & Retail
Период работы
Июнь 2025 - По настоящее время
(5 месяцев)
Система мониторинга клиентов банка
Роль
Data Scientist/Data Analyst
Обязанности
Построение системы мониторинга клиентов банка, анализ финансового поведения и прогнозирование спроса и предложения финансовых продуктов, оценки рисков, что позволило улучшить качество принятия решений, адаптировать предложение банковских услуг для различных сегментов клиентов и оптимизировать финансовые операции банка.
▪ Проведение разведочного анализа данных (EDA) для выявления закономерностей, обнаружения аномалий, проверки качества данных и определения направления инженерии признаков перед разработкой модели.
▪ Time Series Forecasting Solutions:
□ Использование ARIMA, Prophet, ETNA и LSTM для улучшения точности прогнозов временных рядов.
□ Применение SOTA моделей для прогнозирования потока наличности банкоматов.
▪ Credit Scoring and Risk Assessment:
□ Разработка моделей кредитного скоринга для оценки кредитного риска корпоративных клиентов.
□ Разработка мониторинговых моделей для анализа кредитного портфеля для оптимизации принятий решений
▪ Fraud Detection:
□ Анализ транзакций для выявления подозрительных паттернов и операций с использование алгоритмов кластеризации K-means, DBSCAN и иерархической кластеризации
▪ Customer Segmentation and Personalization:
□ Сегментация клиентов на основе их финансового поведения с использованием кластерного анализа.
▪ A/B тестирование для оценки эффективности различных стратегий и продуктовых решений.
▪ Участие в планировании и оценке сроков выполнения задач, управление и проведение код-ревью
Стек специалиста на проекте
PostgreSQL, Git, MySQL, Docker, SQL, Python, Jenkins, Pandas, Numpy, Scikit-learn, Seaborn, XGBoost, PyTorch, JupyterLab, JupyterNoteBook, CatBoost, A/B testing, Plotly, Lightgbm, cloud, AIM, Streamlit, EDA, tools, lightning, memory, arima, lstm, prophet, jupiterhub
Отрасль проекта
FinTech & Banking
Период работы
Октябрь 2022 - Июнь 2025
(2 года 9 месяцев)
Система ценообразования на квартиры для высоконагруженной популярной платформы по продаже недвижимости
Роль
Data Analyst/Data Scientist
Обязанности
Разработка и внедрение системы ценообразования на квартиры для высоконагруженной популярной платформы по продаже недвижимости. Система предоставляет пользователям рекомендации по оптимальной цене продажи квартиры, а также прогнозирует время до получения предложений от потенциальных покупателей.
● Data Science & Analytics:
○ TS Forecasting: Применение алгоритмов машинного обучения для анализа данных о рынке недвижимости, определения оптимальной цены и времени ожидания.
○ Scoring: Реализация ML-модели скоринга, для оценки риска.
○ Fraud Detection: Разработка системы для обнаружения мошеннических операций в реальном времени.
○ Использование библиотек Pandas, Polars, NumPy, Scikit-learn, PyTorch для обработки и анализа данных.
● Оптимизация производительности: Интеграция системы с облачными сервисами для обеспечения высокой доступности и быстрого отклика системы. Использование Cloud решений для хранения и обработки данных.
● Тестирование и деплой: Реализация автоматизированных тестов с использованием pytest. Настройка CI/CD процессов с помощью GitLab CI/CD для автоматического развертывания изменений в продакшене.
● Коммуникация с заказчиками: Регулярное общение с заказчиками для сбора требований, обратной связи и корректировки стратегии разработки в соответствии с бизнес-потребностями.
Стек специалиста на проекте
Git, Docker, SQL, Jenkins, Kubernetes, Pytest, GitLab, Machine learning, TypeScript, Tensorflow, Pandas, Базы данных, Numpy, Data Analysis, Scikit-learn, PyTorch, Аналитика, Testing, Data Science, Apache AirFlow, CI/CD, Vision, Backend, GitLab CI/CD, Polars, tools, containerization, control, WITH, Нереляционные БД (NoSQL), mlмодели
Отрасль проекта
E-commerce & Retail
Период работы
Август 2021 - Сентябрь 2022
(1 год 2 месяца)
Формат работы
Тип занятости
Фулл-тайм, Парт-тайм (4 ч/день)
Формат работы
Удаленно, Офис
Командировки
Не готов
Релокация
Не готов
Готов работать на зарубежных проектах
Да
Образование
Высшее
Учебное заведение
Белорусский государственный университет
Специальность
Актуарная математика
Завершение учебы
2019 г.