🎯 К каким бизнес-метрикам привязывают HR-бренд?

Проводим исследование и будем рады поговорить с теми, кто отвечает за репутацию работодателя. За участие дарим записи Хабрасеминара!

→ Пройти опрос и забрать записи

Специалист поддержки SL2

Требования

Инженер технической поддержки
Middle
Kubernetes
Prometheus
Grafana

Условия

Можно удалённо

Описание вакансии


О компании и команде

Мы набираем IT специалистов в большую команду для работы на проектах для крупного и динамичного российского банка.
Команда будет занимать разработкой инструментов и процессов для реализации единой платформы для разработки, развертывания и эксплуатации решений на основе LLM, а так же агентской платформы для работы с ИИ-агентами.

Проект направлен на создание единой технологической платформы для разработки, развертывания и эксплуатации решений на основе больших языковых моделей с использованием инфраструктуры АС «Суперкомпьютер». Ключевая задача - переход от точечных пилотов к промышленному внедрению ИИ с централизацией управления безопасностью, качеством и стоимостью, а также настроить приоритизацию клиентских запросов. Архитектура платформы четырехуровневая: инфраструктурный слой (GPU-кластер), слой оркестрации и LLMOps, слой знаний (RAG), агентская платформа.

Задачи

Поддержка ML-платформы и Kubernetes (Основной фокус):
• Эксплуатация платформы:
o Мониторинг состояния сервисов инференса в Kubernetes (доступность подов, потребление ресурсов, перезапуски).
o Диагностика проблем с запуском контейнеров моделей (ошибки инициализации, нехватка памяти, проблемы с зависимостями).
• Мониторинг и инциденты:
o Настройка дашбордов для отслеживания метрик качества сервисов;
o Первичная реакция на инциденты: сбор логов, анализ трассировок, эскалация разработчикам (L3) при невозможности устранения в течение 15-30 минут;
o Анализ причин деградации производительности моделей (дрейф данных, проблемы инфраструктуры);
• Поддержка пользователей (Data Scientists / Разработчики):
o Консультирование по использованию API платформы для деплоя и управления моделями;
o Обучение работе с инструментами платформы (CLI, SDK, веб-интерфейс);
o Создание инструкций и FAQ по типовым задачам развертывания;
• Безопасность и доступы:
o Управление доступом к функциям платформы согласно политикам безопасности;
o Контроль соблюдения регламентов при работе с данными;
Поддержка векторной БД Milvus (Опционально ):
• Управление доступом:
o Создание баз данных и ролей в Milvus и назначение прав;
• Мониторинг Milvus:
o Поддержка дашбордов Grafana для векторной БД (метрики: задержка поиска, загрузка CPU узлов query, использование диска, статус лидера etcd, отставание Kafka);
o Реагирование на алерты (критические: остановка узлов, потеря лидера etcd, место на диске < 10%; предупреждения: задержка поиска > 5с, лаг Kafka > 1000).

Ожидания от кандидата

  • Опыт использования Kubernetes (диагностика подов, работа с kubectl, понимание networking и storage);
  • Понимание принципов работы ML-моделей (инференс, API моделей, форматы данных);
  • Опыт настройки мониторинга и алертинга (Prometheus, Grafana, ELK);
  • Навыки скриптования (Python/Bash) для автоматизации рутинных задач;
  • Умение работать с пользователями и писать техническую документацию.

Условия работы

  • Официальное трудоустройство по ТК РФ в аккредитованную IT компанию, белая заработная плата;
  • Удаленная формат работы;
  • ДМС после испытательного срока
  • И многое другое.