Avro и Kafka: испытания тестировщика в мире Big Data
-
20 мин
Avro - удобный формат для работы с потоками данных в Kafka и хранения в Big Data, но на практике он часто превращается в источник проблем для QA и аналитиков.
В докладе рассмотрим ключевые проблемы, с которыми столкнулись при тестировании отчетности с исходниками в бинарном формате:
- невозможность быстро кастомизировать данные для проверки различных сценариев;
- долгий и сложный поиск конкретных сделок в массиве файлов в хранилище;
- ограничения работы с Kafka без использования реестра схем.
Данные ограничения существенно замедляют и усложняют тестирование. Для обхода этих сложностей мы прошли путь от «ручных костылей» и Jupyter-ноутбуков к более универсальным решениям — разработке собственных конвертеров и внедрению TRINO как платформенного инструмента для анализа.
Для слушателей будет доступен не просто обзор популярного бинарного формата, а практический набор идей и инструментов для работы с Avro, позволяющий сократить время на рутину и сосредоточиться на проверке бизнес-логики.