30.08.2023 Новости, Открытый код/LinuxИркутская компания ITSumma разработала opensource-плагин для Apache Spark, который значительно ускоряет обработку данных за счет параллельных операций чтения и записи. Решение spark-greenplum connector — это многофункциональный плагин для платформ обработки и анализа больших данных. Используя его, вместо встроенного в Apache Spark коннектора, дата-инженеры смогут увеличить скорость чтения и записи из и в базу данных Greenplum в десятки раз и быстро масштабировать количество подключаемых и обрабатываемых источников. С помощью коннектора инженеры смогут настроить структурированный стриминг с использованием микропакетной обработки. Эта функциональность помогает получать оперативные обновления требуемых данных, что повышает скорость обработки практически до реального времени. У spark-greenplum connector имеется ряд дополнительных возможностей. Например, использование анонимного блока или функции PL/pgSQL в качестве источника или поглотителя данных при операциях чтения и записи. Это позволяет делегировать часть обработки данных на сторону БД. На его основе можно строить ETL-решения и анализировать данные in-memory. Он обладает высокой скоростью передачи данных, большой гибкостью в настройке, а также: — автоматически формирует схемы данных; — разбивает вычисления на параллельные независимые потоки; — поддерживает push-down операторы. Apache Spark и Greenplum — это популярные opensource-решения, которые используются в большинстве российских платформ по работе с большими данными ...
читать далее.