Задачи
- развитие платформы хранения и обработки больших данных;
- внедрение новых инструментов для анализа данных / машинного обучения;
- разработка сервисов облегчающих работу data-science-специалистов;
- решение различных задач связанных с производительностью и отказоустойчивостью big-data-инфраструктуры;
- создание новых и поддержка рабочих пайплайнов - MapReduce, Spark, Samza;
- взаимодействие с командами DataScience и SRE;
- написание новой и дополнение уже имеющейся документации.
Требования
- готовность к самостоятельному обучению и постоянному развитию;
- понимание принципов работы локальных сетей и основных сетевых сервисов;
- знания принципов работы баз данных и распределенных систем хранения и обработки данных;
- знание Bash/Python для автоматизации процессов и Java/Scala для поддержки ETL и внедрения новых сервисов;
- опыт администрирования GNU/Linux, сборки пакетов и понимание принципов заложенных в Kerberos/SSL;
- опыт работы с системами мониторинга и инструментами для сбора метрик;
- опыт работы с со свежими версиями продуктов фонда Apache: Hadoop, Kafka, Spark, Zeppelin, Airflow, Zookeeper.
Технологический стэк: hadoop-3.1.x / kafka-2.4.x / spark-2.3.x / airflow-1.10.x / zeppelin-0.8.x / zookeeper-3.6.x.
Мы предлагаем
Официальная зарплата
Гибкий график работы
Офис в центре города
ДМС
Бонусы от партнеров
Интересные задачи