hadoop linux spark

Data engineer (Data Science platform), Москва

Одноклассники

Одноклассники – одна из крупнейших социальных сетей. OK – самый высоконагруженный в мире сервис, написанный на Java. Большинство задач, которые возникают перед нами каждый день, не имеют готовых решений, поэтому мы используем большое количество собственных разработок. 

Задачи

  • развитие платформы хранения и обработки больших данных;
  • внедрение новых инструментов для анализа данных / машинного обучения;
  • разработка сервисов облегчающих работу data-science-специалистов;
  • решение различных задач связанных с производительностью и отказоустойчивостью big-data-инфраструктуры;
  • создание новых и поддержка рабочих пайплайнов - MapReduce, Spark, Samza;
  • взаимодействие с командами DataScience и SRE;
  • написание новой и дополнение уже имеющейся документации.

Требования

  • готовность к самостоятельному обучению и постоянному развитию;
  • понимание принципов работы локальных сетей и основных сетевых сервисов;
  • знания принципов работы баз данных и распределенных систем хранения и обработки данных;
  • знание Bash/Python для автоматизации процессов и Java/Scala для поддержки ETL и внедрения новых сервисов;
  • опыт администрирования GNU/Linux, сборки пакетов и понимание принципов заложенных в Kerberos/SSL;
  • опыт работы с системами мониторинга и инструментами для сбора метрик;
  • опыт работы с со свежими версиями продуктов фонда Apache: Hadoop, Kafka, Spark, Zeppelin, Airflow, Zookeeper.

Технологический стэк: hadoop-3.1.x / kafka-2.4.x / spark-2.3.x / airflow-1.10.x / zeppelin-0.8.x / zookeeper-3.6.x.

Мы предлагаем

Официальная зарплата
Гибкий график работы
Офис в центре города
ДМС
Бонусы от партнеров
Интересные задачи