Koalas – Pandas для Spark.
Koalas – Python-библиотека, которая внедряет Pandas API поверх Apache Spark.
В сферах анализа данных, Pandas является библиотекой по умолчанию. Большинство специалистов по обработке данных начинают именно с Pandas и Numpy, а затем, при необходимости, переходят на другие библиотеки.
Pandas отлично подходит для анализа малого количества данных. При столкновении же с большими наборами данных не обойтись без использования Spark.