27.03.2023, Попов Иван, г. Иркутск Как свернуть горы партиций с помощью PySpark
В выгрузке больших данных, расположенных внутри таблиц Hive, Data-инженерам помогает фреймворк Spark. Но все ли так просто? Транзакционные таблицы зачастую имеют колоссальный объем, на обработку которого целиком может не хватать мощностей кластера. В посте я поделюсь своим опытом работы с большими таблицами в условиях ограниченных вычислительных ресурсов.