Курс валют
$ 79.15
91.84
Нижний Новгород

10 млн записей на десятки ГБ: как «Русполимет» построил систему хранения и аналитики данных в облаке

Русполимет
Фото: Бизнес News
Металлургическая компания «Русполимет» развернула систему хранения и аналитики данных в облаке Yandex Cloud: 60 таблиц и 10 млн записей на десятки гигабайт. О кейсе рассказывается в блоге облачного сервиса.

Изначально в проекте участвовали три подразделения, сейчас «Русполимет» тиражирует его на все службы. Итог — кардинальное уменьшение времени подготовки аналитических отчетов: на что раньше уходили дни, теперь — секунды. Руководители направлений и топ-менеджеры в любой момент могут получить необходимые данные в реальном времени.

«Русполимет» ведёт учёт данных, развивает платформу, дата-компетенции и техподдержку.

Поиск решения для управления данными

С 2019 года компания начала цифровизацию и внедрила: SAP S4/HANA — систему планирования ресурсов предприятия; SAP HCM — систему управления персоналом для оптимизации кадровых процессов; SAP PP/DS — решение для оптимизации и детального планирования производства; SAP PM (ТОРО) — систему управления технического обслуживания и ремонта оборудования. После этого бизнес-процессы стали более прозрачными, у предприятия появилось общее информационное пространство.

Построение облачной инфраструктуры оказалось оптимальным: развёртывание основных компонентов систем и масштабирование инфраструктуры проходит быстро, при этом на старте не нужно вкладывать много средств и ресурсов в администрирование.

При выборе облачного провайдера «Русполимету» было важно, чтобы поставщик услуг размещал серверы на территории России и имел сертификаты безопасности данных. Компания должна соблюдать требования 152-ФЗ и стандарта ISO/IEC 27001.

Аналитика в облаке

Инфраструктура «Русполимета» включает виртуальные машины Yandex Compute Cloud, СУБД Yandex Managed Service for PostgreSQL, Yandex Managed Service for ClickHouse®, а также Yandex Object Storage и DataLens.

В августе 2022 года «Русполимет» запустил «пилот» корпоративного хранилища данных в облаке. Сначала на тестовых данных сформировали отчёт по сдаче готовой продукции. В первом квартале 2023 года данные в компании разделили по подразделениям (доменам), во втором квартале начали строить BI-отчётность для трёх доменов: закупок, кадров и производства.

Для оркестрации потоков данных на виртуальных машинах Compute Cloud развернули Apache Airflow®. Дата-инженеры спроектировали методы сбора, трансформации и транспортировки данных. Apache Airflow собирает сырые данные из нескольких источников и отправляет их в Object Storage. Также в объектном хранилище размещены дельты. Это обеспечивает надёжное хранение и историчность данных. Из Object Storage данные поступают в кластер Yandex Managed Service for PostgreSQL, в котором реализовали детальный слой DDS по схеме «снежинка».

Чтобы управлять запросами и следить за историей происхождения и изменениями данных, использовали фреймворк с открытым исходным кодом для выполнения, тестирования и документирования SQL-запросов DBT (data build tool). С его помощью дата-инженеры трансформируют данные, делят детальный слой по сущностям и преобразовывают в удобный формат, а затем оркестратор перемещает их в слой Data Mart — витрины данных. Для хранения готовых витрин используется кластер Managed Service for ClickHouse®.

Аналитики на данных из витрин строят дашборды в DataLens. При этом отчёты запускают в продакшн только после того, как данные описаны и учтены в каталоге данных Lottabyte. Там аналитики и бизнес-эксперты ведут учёт дата-активов, фиксируют показатели и метрики, описывают дата-продукты и ведут реестр проверок качества данных. Данные загружаются из источников ежедневно в конце рабочего дня.

Критически важную информацию, например, цены и персональные данные, «Русполимет» хранит on-premises. Сейчас совместно с Yandex Cloud и партнёром «БССГ» компания завершила пилот с использованием решения по токенизации данных Damask, чтобы безопасно хранить в облаке любую информацию.

Платформа хранит и обрабатывает около 250 таблиц объёмом до 1,5 млрд записей. Общий объём информации в тестовых и продуктивных окружениях — около 1 ТБ. На данный момент компания развивает слои DDS и Data Mart, расширяет перечень аналитических продуктов, совершенствует архитектуру платформы и оптимизирует процесс загрузки данных.

«Русполимет» создал отдел аналитики

В компании был создан отдел управления данными. Команда выполнила большую часть задач, которые были поставлены на старте проекта: создание платформы, учёт и регламенты работы с данными, повышение качества решений, развитие дата-компетенций. Завершен пилот по токенизации данных, в ближайшее время его запустят в продакшн. Терминология в компании стала единой для всех служб. База знаний растёт и ориентирована на то, чтобы сотрудники могли самостоятельно строить аналитические отчёты.

Димитрий Волков, директор по цифровой трансформации АО «Русполимет»:

«Вся инфраструктура платформы расположена в Yandex Cloud, это упрощает управление, повышает скорость работы и гарантирует надёжность. В будущем мы планируем загружать в хранилище потоковые данные, например, показатели оборудования. Компания также собирается строить ML-модели, например, для планирования ремонта оборудования и контроля качества выплавки. Мы продолжаем работать над безопасностью данных и совместно с компанией-партнёром внедряем Damask — решение по защите конфиденциальных данных при хранении и дальнейшем анализе».

АО «Русполимет» (г. Кулебаки, Нижегородская область) - производитель спецсталей и сплавов, а также широкого спектра изделий из них (кольцевая продукция, поковки, прутки), в том числе с высокоточной мехобработкой, для авиации, судостроения, энергетического и общего машиностроения, нефтяной и газовой промышленности. История завода насчитывает более 155 лет.