Кирилл У. Data Scientist, Middle
ID 21878
КУ
Кирилл У.
Мужчина, 25 лет
Россия, Смоленск, UTC+3
Ставка
3 376,62 Р/час
НДС не облагается
Специалист доступен с 3 июля 2025 г.
Добавьте подходящих специалистов в список и оформите заявку для предварительного бронирования времени специалистов. После оформления заявки ваш персональный менеджер организует прохождение всех необходимых проверок с вами и каждым кандидатом из заявки. Специалист привлекается к проекту только после окончательного подтверждения его выхода с вашей стороны.
Подробнее
О специалисте
Специализация
Data Scientist
Грейд
Навыки
Отрасли
Главное о специалисте
Более 5 лет опыта работы в области Data Science и python разработки. Большой интерес к Data Mining и анализу, AI технологиям, машинному обучению. Хорошие аналитические навыки и умение решать проблемы. Ориентирован на результат, способен быстро вникать в новые технологии. Есть опыт самостоятельной работы на проекте и в составе команды разработчиков. Является senior data engineer, но при этом активно развивает свои навыки и участвует в проектах в области data science.
Проекты
(5 лет 1 месяц)
Система проксирования запросов LLM
Роль
Data Scientist
Обязанности
Разработка и внедрение моделей LLM для обработки запросов;
Настройка и оптимизация API для взаимодействия с LLM;
Обучение моделей и их настройка под специфические запросы;
Интеграция модели LLM с существующими системами;
Мониторинг и анализ работы моделей;
Оптимизация работы моделей для улучшения производительности;
Обработка ошибок и улучшение модели на основе обратной связи;
Внедрение и поддержка методов безопасности при работе с данными;
Работа с командой разработчиков для улучшения взаимодействия систем;
Обновление и поддержка модели LLM в рабочей среде;
Файнтюнинг LLM моделей под кастомные запросы и специфические датасеты;
Работа с текстовыми метриками: BLEU, NIST, ROUGE, METEOR.
Стек специалиста на проекте
HAProxy, OpenAI API, Grafana, AWS, Hugging face transformers, llm, Redis, OAuth, Nginx, Celery, Prometheus, JWT, PyTorch, HTTPS, GCP, Docker, Python, Flask, Azure, Django, REST API, PostgreSQL, Kubernetes
Отрасль проекта
EdTech
Период работы
Август 2024 - Февраль 2025
(7 месяцев)
Дообучение LLM моделей по RAG архитектуре
Роль
Data Scientist
Обязанности
Сбор и предобработка данных: Использование Python (Pandas, Numpy, re) для загрузки, очистки и токенизации текстовых документов;
Построение корпуса знаний: Формирование базы данных текстов с использованием SQL/NoSQL решений (например, PostgreSQL или MongoDB) для хранения и управления документами;
Генерация эмбеддингов: Применение моделей Sentence Transformers для преобразования текстов в векторные представления на Python;
Индексация векторов: Создание и оптимизация векторного индекса с использованием библиотеки FAISS для быстрого поиска ближайших соседей;
Разработка модуля поиска: Реализация API на Python для извлечения релевантных документов из индекса FAISS;
Формирование промптов: Создание шаблонов на Python для объединения исходного запроса и извлечённого контекста в единый промпт для Llama3;
Дообучение Llama3: Настройка и тренировка модели с использованием Hugging Face Transformers и PyTorch для генерации ответов на основе расширенного промпта;
Настройка пайплайна обучения: Интеграция всех компонентов (retriever, генератор, обработка данных) с использованием Docker и orchestration-инструментов (например, Airflow);
Оптимизация seq2seq моделей для задачи генерации ответов;
Занимался fine-tuning и alignment: Применение методов обратной связи от пользователей для улучшения качества генерации ответов, включая использование методов активного обучения и регуляризации, а также оптимизацию гиперпараметров через MLflow и автоматизированные тесты с Pytest.
Стек специалиста на проекте
word2vec, sense, transformers, GitLab, tfidf, Hugging face transformers, Numpy, Pandas, Pytest, GitHub, PyTorch, FastText, CI, MLflow, Docker, Python, Apache AirFlow, re, FAISS, MangoDB
Отрасль проекта
Manufacturing
Период работы
Апрель 2024 - Август 2024
(5 месяцев)
Анализ документов для автоматизированной обработки данных
Роль
Data Scientist
Обязанности
Автоматизированная обработка документов (OCR, классификация, извлечение данных);
Разработка NLP-модели для анализа и понимания документов;
Оптимизация алгоритмов для извлечения ключевой информации;
Разработка пайплайна для интеграции моделей в рабочую среду;
Применение LLM-моделей для анализа юридических и финансовых документов;
Разработка кастомных токенизаторов и алгоритмов нормализации текста;
Оценка качества распознавания с применением BLEU, ROUGE, METEOR.
Стек специалиста на проекте
PostgreSQL, Docker, Python, MongoDB, Tensorflow, Meteor, NLTK, PyTorch, Tesseract, OpenCV, word2vec, tfidf, SpaCy, ocr
Отрасль проекта
FinTech & Banking
Период работы
Апрель 2024 - Июнь 2024
(3 месяца)
Формат работы
Тип занятости
Фулл-тайм
Формат работы
Удаленно
Командировки
Не готов
Релокация
Не готов
Готов работать на зарубежных проектах
Нет
Образование
Высшее
Учебное заведение
Белорусский государственный университет
Специальность
Компьютерная безопасность (математические методы и программные системы)
Завершение учебы
2021 г.