Инженер по обеспечению надежности генеративного ИИ

г. Москва

Инженерия и эксплуатация

25 июня 2026 г.

Чем предстоит заниматься:

Проектировать и развивать AI Gateway: единый доступ к внешним и внутренним LLM, маршрутизация запросов, лимиты, фоллбэки, контроль стоимости, аутентификация и ролевая модель доступа
Развивать платформу LLM-инференса: развертывание и эксплуатация open-source LLM, OpenAI-совместимые API, потоковая генерация, управление версиями моделей, производительность, отказоустойчивость и мониторинг
Развивать RAG/Retrieval -платформу: векторные и лексические индексы, гибридный поиск, версионирование индексов, сервис эмбеддингов, кэширование, фильтрация, партицирование данных и интеграции с источниками знаний
Развивать Agent Runtime: запуск и сопровождение агентных графов, управление состоянием, очереди асинхронных шагов, отказоустойчивость, ограничения на выполнение и контроль зацикливаний
Развивать MCP Gateway/Registry: подключение инструментов и контекстов, управление доступом, мониторинг вызовов инструментов, аудит действий и стандартизация интеграций
Автоматизировать жизненный цикл GenAI-артефактов: сборка образов агентов, CI/CD-пайплайны, интеграционные тесты с эмуляторами LLM, прогон evaluation-наборов, канареечные релизы и откаты
Развивать платформу оценивания качества GenAI-решений: автоматические проверки, LLM-as-judge, тестовые наборы, метрики качества генерации, качества поиска, безопасности и стабильности поведения
Развивать наблюдаемость GenAI-систем: трассировка запросов, вызовы LLM, вызовы инструментов, шаги агентов, метрики задержек, ошибок, качества, стоимости и потребления токенов
Внедрять защитные механизмы для GenAI-сервисов: проверка входов и выходов, защита от prompt injection, контроль чувствительных данных, ограничения инструментов и политики безопасного использования
Оптимизировать использование вычислительных ресурсов для LLM/RAG/агентных сценариев с учетом надежности, производительности, задержек и стоимости
Исследовать новые инструменты и подходы в GenAIOps, оценивать их применимость и внедрять там, где это повышает надежность, скорость разработки или эффективность платформы

Мы ожидаем:

Опыт промышленной разработки, внедрения или эксплуатации GenAI-, ML- или Data-платформ
Практический опыт работы с LLM-инференсом: vLLM, Text Generation Inference, Triton Inference Server, llama.cpp или аналогичные решения
Понимание особенностей эксплуатации LLM: задержки, throughput, batch-запросы, потоковая генерация, контекстное окно, потребление памяти, GPU-ресурсы и стоимость инференса
Опыт проектирования или эксплуатации API для доступа к моделям, включая OpenAI-совместимые интерфейсы, авторизацию, лимиты, маршрутизацию и отказоустойчивость
Понимание принципов RAG: разбиение документов на фрагменты, эмбеддинги, векторный и гибридный поиск, reranking, фильтрация, версионирование индексов и оценка качества retrieval
Практический опыт работы с векторными хранилищами, поисковыми движками или библиотеками поиска: FAISS, Qdrant, Milvus, OpenSearch, Elasticsearch или аналогами
Понимание архитектуры AI-агентов: инструменты, состояние, память, графы выполнения, асинхронная обработка, ограничения автономности и эскалация к человеку
Опыт запуска и сопровождения сервисов в Kubernetes: workloads, Helm, ingress, autoscaling, observability, диагностика и устранение проблем
Опыт настройки CI/CD для сервисов, ML- или GenAI-артефактов, желательно на базе GitLab
Уверенное владение Python для разработки платформенных сервисов, автоматизации, интеграций и внутренних инструментов
Опыт работы с Docker и OCI-образами: сборка, оптимизация, публикация и эксплуатация
Понимание принципов мониторинга и алертинга для GenAI-систем: трассировка, логи, метрики, качество генерации, ошибки инструментов, токены, задержки и стоимость
Понимание подходов к оцениванию GenAI-решений: golden datasets, regression tests, LLM-as-judge, human evaluation, метрики качества ответов и качества поиска
Опыт безопасной работы с секретами, токенами, сертификатами, чувствительными данными и сервисными учетными записями
Понимание основных рисков генеративного ИИ: галлюцинации, prompt injection, утечки данных, небезопасные инструменты, избыточная автономность агентов и неконтролируемая стоимость
Уверенное владение Linux: настройка, мониторинг, диагностика сетевых, ресурсных и производительных проблем

Мы предлагаем:

ДМС со стоматологией, телемедициной и программой поддержки ментального здоровья;
Страхование жизни;
Ежемесячные промокоды на Lamoda: два по 25%, два по 15% и в день рождения — 40%;
Программа привилегий и скидок от BestBenefits;
До 15 дней больничного в год оплачиваем в размере 100% от действующего оклада;
Бесплатные юридические консультации;
Дополнительные выходные в случае важных событий;
Яркие мероприятия и много неформального общения.

Развитие для каждого:

Опытный наставник для каждого новичка;
Обучение и участие во внешних конференциях;
Помогаем развивать личный бренд, выступать на конференциях и писать статьи;
Performance Review дважды в год, чтобы развиваться системно;
Проводим митапы и demo-дни для обмена знаниями;
Погружаем в fashion и каждый сезон знакомим с модными трендами.

Откликайтесь

Хочу работать в Lamoda!

Выбирай подходящую вакансию в подразделении ИТ, отправляй нам своё резюме и стань частью команды Lamoda.

Вакансии подразделения