Описание:
Мы - Wildberries, крупнейший маркетплейс Европы, 30 млн пользователей ежедневно и технологические задачи, у которых нет аналогов. Наша компания стабильно развивается и работает в усиленном режиме: использует современный стек и новейшие технологии, разрабатывает множество новых hi-tech продуктов. Сейчас мы в поиске сильного Data Engineer в команду разработки платформы данных в Data Office. Вам предстоит принять участие в разработке Data Lakehouse, расширить его возможностями Streamhouse и развить его в Nethouse в перспективе. Проект крайне амбициозный. Мы находимся на ранней стадии, поэтому у вас будет уникальная возможность оказать существенное влияние на продукт и увидеть результат своих трудов. Мы занимаемся платформенной разработкой, но спектр задач у нас достаточно широкий, поэтому мы готовы предложить сотрудничество широкому кругу специалистов уровня Middle и Senior из разных областей экспертизы. Наш стек: Java (Sparks jobs)/ Python (DAG, скрипты), Go (сервисы), Apache Avro, Apache Kafka, Apache Flink, Apache Spark, Apache Airflow, Apache ORC, Apache Iceberg, Trino, S3, Ansible, Gitlab CI, Grafana, k8s, OpenMetadata. Что нужно делать: Разрабатывать пайплайн поставки данных в Data Lakehouse. Разрабатывать механизм для потоковой проверки качества данных (DQ). Разрабатывать механизм для автоматической сборки витрин. Внедрить Apache Kylin и Apache Paimon для последующего переноса кубов и NRT-отчётов. Проектировать, прототипировать и проверять гипотезы для внедрения новых компонентов и улучшения существующих решений. Что мы от вас ожидаем: Уверенное владение одним из ЯП: Java, Scala или Python. Наш основной ЯП - Java. Если опыта с ним нет, то достаточно желания и готовности перейти на него. Свободное владение SQL. Опыт работы со Spark или Flink. Опыт работы с Docker и docker-compose. Способность самостоятельно решать сложные технические задачи. Стремление писать документацию. Умение работать в команде и делиться знаниями. Также большим плюсом будет: Знание принципов, особенностей применения и построения хранилищ данных (DWH, Data Lake, Lakehouse). Значимый опыт работы с большими объёмами данных. Опыт работы с Apache Iceberg. Опыт работы с Clickhouse. Понимание особенностей форматов данных Avro, ORC, Parquet.
Мы предлагаем:
Полная удаленка, гибрид или офис с диванчиками, гамаками, качелями, кафе и зелеными зонами. У нас уже целых 5 офисов, мы находимся на станциях: Парк Культуры, Белорусская, Охотный ряд, Автозаводская, Динамо. Бесплатное питание в офисах компании. Современный стек, действительно масштабные задачи, все команды горят работой, нет бюрократии и тайм-трекеров. Официальное трудоустройство в аккредитованную IT-компанию с 1 рабочего дня. Конкурентная заработная плата. Действительно интересные и масштабные задачи. Наш проект находится на ранней стадии, и у тебя будет уникальная возможность оказать существенное влияние на продукт и увидеть результат своих трудов. Дружный и профессиональный коллектив. М