Превью для статьи

Обнаружение новизны изображений с помощью Python и библиотеки scikit-learn

В статье расскажу, как с помощью библиотек scikit-learn, opencv, numpy, imutilsс выявить новизну входных изображений. Многие программы требуют наличия возможности решить, принадлежит ли новый объект тому же распределению, что и существующие объекты (это промежуточный результат), или его следует рассматривать как новизну. Часто эта возможность используется для очистки реальных наборов данных.

Превью для статьи

Латентное размещение Дирихле: Gensim и Scikit-Learn

Поиск поднимаемых тем в некотором множестве текстов – одна из распространенных задач в Dаtа Sсiеnсе, называемая тематическим моделированием. Одним из методов решения такой задачи является Латентное размещение Дирихле, или LDА. Самыми известными библиотеками для создания LDА моделей можно назвать Gеnsim и Sсikit-Lеаrn. В этой статье мы проведем их сравнение.

Превью для статьи

Использование Pipeline в работе с данными

В своей работе Data Scientist используют различные модели для улучшения качества метрик. Чтобы применить модель, предварительно необходимо затратить существенные ресурсы на обработку всего массива необработанных данных. Мы расскажем об инструменте, которым пользуемся для оптимизации этого процесса. Инструмент Pipeline позволяет объединить несколько операций обработки данных в единую модель библиотеки Python «Scikit-learn».

Data News