Position

Data Engineer,
Moscow

Location


Moscow

Office Address


Project Description


Наша agile-команда создает информационную платформу GM TA (Global Markets Trading Analytics) в интересах Департамента Глобальных Рынков (ДГР).
ДГР - предоставляет корпоративным и розничным клиентам широкий спектр продуктов и услуг на локальных и зарубежных финансовых рынках. Ключевые направления бизнеса - Fx trading, Commodities, Equity, Founding, Fixed Income, Rates, Credit Valuation Adjustment, Structured Products, Investment Banking.
Этот бизнес потребляет и порождает огромное количество данных, которые должны обрабатываться c целью:
• поддержки регулярных бизнес-операций
• проведения Ad hoc анализа
• подготовки регулярной аналитической / управленческой отчетности
• разработки моделей машинного обучения, направленных на решение широкого спектра прикладных задач прогнозирования, классификации, кластеризации, выявления поведенческих паттернов и отклонений от них, сентимент-анализ и т.д.
Разрабатываемая нами информационная платформа - высоконагруженное решение, призванное обеспечить достижение всех этих целей.
Текущий инструментальный стек платформы:
• Python, Java
• Informatica PowerCenter
• Kafka, AirFlow
• InfluxDB, kdb+, OneTick
• MS SQL, PostgreSQL, MongoDB
• Grafana, Qlik Sense, Kibana, ELK
• OpenShift
• Python ML/DL libraries, PySpark, TensorFlow

Responsibilities


    - Основной задачей будет вывод ML-моделей в промышленную эксплуатацию.
    - Поддержка и создание новых интеграционных потоков.
    - Поддержка и изменение модели данных.
    - Поддержка и создание витрин данных.
    - Создание сопутствующей технической документации.

Skills


Must have

    Практический опыт работы кандидата в активной фазе - то, что ежедневно практикуется в течение последнего года по направлениям:
    1. DevOps
    a. Фреймворки для ведения распределенной коллективной разработки - практика использования конкретных фреймворков - GitHub, BitBucket
    b. Тестирование кода, регрессионное тестирование - что конкретно делается и как именно
    c. Практика использования фреймворков для контроля за ходом проектных работ - Jira, Confluence
    2. Процессы сбора данных (практика использования конкретных инструментов)
    a. ETL / ELT
    b. Интеграционные шины
    c. Оркестраторы
    d. Streaming и Batch режимы загрузки данных
    3. СУБД и модели данных
    a. Нормализованные и денормализованные модели данных: 1NF, 2NF, 3NF, Data Vault, Star и Snowflow scheme
    b. Row и Column based БД
    4. Кодирование
    a. Практика применения скриптовых и компилируемых языков программирования
    b. Практика использования командной строки в Windows и Unix-системах
    5. SQL
    a. ANSI SQL
    b. Процедурный SQL
    c. Оптимизация SQL-запросов
    d. Транзакции в T-SQL (Oracle)
    e. Индексы в T-SQL (Oracle)
    f. Опыт работы с аналитическими (оконными) функциями

Nice to have

    Теоретические знания
    1. Процессы сбора данных
    a. ETL / ELT - примеры, назначение и подходы к использованию
    b. Интеграционные шины - примеры, назначение и подходы к использованию
    c. Оркестраторы - примеры, назначение и подходы к использованию
    d. Лямбда-архитектура, streaming и batch режимы загрузки данных - назначение и особенности использования
    2. СУБД и модели данных
    a. Нормализованные и денормализованные модели данных: 1NF, 2NF, 3NF, Data Vault, Star и Snowflow scheme - назначение и принципиальные отличия
    b. Row и Column based БД - примеры, назначение и подходы к использованию
    c. Индексы, партиционирование - какие бывают, примеры использования
    d. Планы запросов, типы join-ов: nested loops, merge join, hash join. Чем отличаются
    3. Программирование
    a. Базовые знания ООП - наследование, инкапсуляция, полиморфизм
    b. Отличия скриптовых языков (примеры) и языков семейства Java, C#

Languages


English: A2 Elementary

Seniority


Regular

Relocation package


If needed, we can help you with relocation process. Click here for more information.

Work Type


BI Engineering

Ref Number


VR-61462