Превью для статьи

Деревья решений в pySpark: от семечка до параметрической оптимизации случайного леса

Меня зовут Клим, и сегодня я буду вашим проводником в PySpark MLlib. В этом посте я расскажу о простом для понимания, но в то же время достаточно эффективным алгоритме — дерево решений, а также его расширенной модификацией случайные леса решений.

Превью для статьи

ML-подходы по поиску похожих изображений

Компьютерное зрение (computer vision, CV) – активно развивающаяся научная область, связанная с анализом изображений и видео. В последнее время данному направлению уделяется большое внимание, так как CV позволяет решать множество задач, таких как: детекцию объектов, классификацию изображений, распознавание лиц и т.д., которые в свою очередь применяются в разных сферах жизни от мобильных приложений для наложения масок на лицо во время звонка до построения систем безопасности, поиска преступников и мошенников

Превью для статьи

Избавляемся от продуктов априори – использование ассоциативных правил для поиска комбинаций

Я люблю готовить, поэтому постоянно закупаюсь ингредиентами для различных блюд. В последний раз я закупил их слишком много, и срок годности подходит к концу. Как спасти продукты, используя алгоритм Apriori, расскажу в посте.

Превью для статьи

GAN-модели для генерации набора данных из изображений

Для машинного обучения в специфических областях очень остро стоит проблема нехватки данных для обучения. В посте рассмотрю один из способов генерировать изображения

Превью для статьи

Как разделять набор данных

Как оптимально разделить набор данных на обучающую, валидационную и тестовую выборки?

Превью для статьи

Обнаружение фейковых новостей по их заголовкам

Фальшивые новости – проблема современного общества. Такие новости без труда вводят людей в заблуждение через различные социальные сети, мессенджеры и СМИ. Всё это может привести к дезинформации населения, манипуляциям со стороны власти и общественным кризисам.

Превью для статьи

Создание кросс-таблиц

В ходе анализа данных периодически возникает потребность в их обобщении, а именно создания кросс-таблиц. Кросс-таблица — это сводная таблица, заголовки в которой могут располагаться как по строкам, так и по столбцам, позволяя отобразить взаимосвязь двух и более переменных друг с другом.
В построении таких таблиц поможет Pandas