Владимир Б. Data Scientist, Senior
ID 28282
ВБ
Владимир Б.
Мужчина, 30 лет
Россия, Саратов, UTC+4
Ставка
4 025,97 Р/час
НДС не облагается
Специалист доступен с 12 июля 2025 г.
Добавьте подходящих специалистов в список и оформите заявку для предварительного бронирования времени специалистов. После оформления заявки ваш персональный менеджер организует прохождение всех необходимых проверок с вами и каждым кандидатом из заявки. Специалист привлекается к проекту только после окончательного подтверждения его выхода с вашей стороны.
Подробнее
О специалисте
Специализация
Data Scientist
Грейд
Навыки
Отрасли
Главное о специалисте
Опытный специалист по машинному обучению (ML) с углубленной специализацией в области компьютерного зрения (CV) и обработки естественного языка (NLP), а также многолетним опытом работы в качестве Full Stack разработчика.
Умение создавать прототипы, управлять проектами и командами.
Активное участие в сообществе Data Science и постоянно исследую новые подходы.
Проекты
(8 лет 2 месяца)
Fringe
Роль
Senior Data Scientist / ML Architect
Обязанности
Разработка продуктов с использованием OCR и scrapping с моим участием в качества архитектора/главы отдела разработки:
Банк из топ 2 Росcии:
- Разработка и обучение модели OCR для задачи извлечения ключевых данных в невыделяемых PDF презентациях на основе multi-modal LLM. Достигнута точность 98% по метрике f1 по извлеченным показателям (числовые данные).
- Реализован ETL пайплайн для скраппинга 20+ сайтов платформ, включающий извлечение ключевых данных из HTML на основе LLM и извлечение парамеров из неструктурированных данных на основе OCR. Построение DWH для хранения результатов.
24AI:
Разработка инфографики и использованием OCR для создания шаблонов на основе изображения инфографики. Использовались модели text-detection в связки с multi-modal LLM для извлечения текста с изображением, его размера, шрифта и местоположения.
Юридическое агенство из топ3:
Оцифровка сканов документов и нередактируемых PDF с последующим NER и vector search по текстам документов и описаниям изображений. Достигнута целевая метрика AP@5 в 95% на более чем 700 тысяч документов.
LightShelf:
Разработка модели OCR для классификации товаров на полках магазинов. Реализована модель OCR для извлечения текста на товаре по bbox модели детекции. Добавление извлеченной текстовой информации в строковом и векторном виде позволила увеличить точность модели классификации товаров на 27% относительно модели без OCR на 8тысяч классов.
Moduse:
Разработка пайплайна парсинга для сбора данных с 30 маркетплейсов одежды (более 2млн страниц товаров). Разработка CV модели аттрибуции товаров на 20+ классов на основе обученной contrastive-learning-based модели. Построенный пайплайн включает в себя набор микросервисов для scrapping с использованием proxy, data lake для хранения HTML, ETL процесс процессинга HTML и инференса DL модели на изображениях и текстах для классификации и векторизации.
Обязанности:
• Выявление бизнес проблемы и декомпозиция требований;
• Разработка описания архитектуры разрабатываемой системы;
• Контроль и организации работы команды, реализация функционала, который не могут сделать другие
• Определение технического стека и оценка задач.
Состав команды:
6 data scientist, 1 devops, 1 backend, 1 qa, teamlead, project manager, business assistant
Стек специалиста на проекте
C++, Python, Kubernetes, AWS, Pandas, DWH, Apache AirFlow, MLflow, PySpark, Dagster, DBT, ray, ocr
Отрасль проекта
E-commerce & Retail
Период работы
Апрель 2022 - По настоящее время
(3 года 4 месяца)
Aliexpress
Роль
Senior Data Scientist
Обязанности
Задача заключалась в самостоятельной разработке системы атрибуции продуктов, включая выявление атрибутов с наименьшим охватом корректных значений и создание масштабируемой системы, позволяющей использовать zero-shot и few-shot обучение для всех атрибутов.
Обязанности:
● Анализ исходных данных для формирования и приоритизации задач
● Проведение экспериментов с различными моделями, оценка их применимости и выбор оптимальной
● Обучение и валидация моделей
● Интеграция в производственные конвейеры
Достижения
● Достигнуто увеличение охвата целевых атрибутов на 60% (включая цвет)
● Реализована модель, позволяющая повышать охват для низкоприоритетных атрибутов без дополнительного обучения
● Созданная модель интегрирована в конвейер и показала эффективность в A/B-тестах
Стек специалиста на проекте
Hive, PyTorch, Apache AirFlow, MLflow, PySpark, Trino
Отрасль проекта
E-commerce & Retail
Период работы
Апрель 2022 - Июнь 2023
(1 год 3 месяца)
ESN
Роль
Senior Data Scientist
Обязанности
Основные продукты, разрабатываемые ESN — социальные сети «chipz» и «punch», основанные на пользовательском контенте, с большим количеством фильтров и генеративных сетей, при этом модели должны работать непосредственно на мобильных устройствах. Моя задача заключалась в оптимизации моделей, созданных другими командами, для обеспечения их работы в реальном времени на телефоне.
Обязанности:
● Выбор технологического стека для оптимизации моделей
● Построение конвейера для квантования, дистилляции и конвертации моделей в форматы CoreML и TFlite
● Создание тестов и адаптация конвейера для новых моделей
Достижения
● Реализовал конвейеры на базе mediapipe для запуска моделей на iOS и Android
● Конвертировал модели, которые, по публичной информации, ещё «невозможно» было конвертировать
● Все разработанные модели достигли скорости 30-60 fps на устройстве в реальном времени
Стек специалиста на проекте
C++, Python, ONNX, ray, mediapipe, mnn, Trino
Отрасль проекта
Social Networking
Период работы
Февраль 2022 - Февраль 2023
(1 год 1 месяц)
Формат работы
Тип занятости
Фулл-тайм
Формат работы
Удаленно
Командировки
Не готов
Релокация
Не готов
Готов работать на зарубежных проектах
Нет
Образование
Высшее
Учебное заведение
Саратовский государственный университет
Специальность
Обработка изображений и сигналов
Завершение учебы
2023 г.
Высшее
Учебное заведение
Саратовский государственный университет
Специальность
Прикладная математика и информатика
Завершение учебы
2018 г.
Высшее
Учебное заведение
Саратовский государственный университет
Специальность
Математика и информатика
Завершение учебы
2016 г.