Превью для статьи

Пайплайн для создания классификации текстовой информации

Актуальность работы с большими объемами текстовой информации ещё долгое время (а может быть и всегда) будет неоспорима. При этом спектр задач весьма вариативен — от задач по поиску именованных сущностей, до классификации и кластеризации текстов обрабатываемых документов.

Превью для статьи

Как предсказать «побег» при помощи ML-модели

Санкционная политика недружественных стран значительно подкосила деятельность Торговых центров. Многие иностранные брэнды закрыли свои магазины в торговых центрах и ушли из России, чем существенно снизили арендный поток. Арендодателям пришлось в срочном порядке искать новых потенциальных арендаторов на освободившиеся места.

Превью для статьи

Строим свое будущее: как выбрать квартиру, опираясь на методы регрессионного анализа?

Доброе утро, друзья!
Найти квартиру себе по душе – одна из самых сложных и актуальных задач. В публикации рассмотрим зависимость стоимости квартиры от различных факторов на основе регрессионной модели и спрогнозируем стоимость на объекты недвижимости, опираясь на их свойства и параметры.

Превью для статьи

Ансамбли моделей для распознавания рукописных цифр

Применение нескольких моделей машинного обучения для решения задачи является частой практикой. Данная технология выигрывает по качеству в сравнении с одной моделью. Однако, для успешного результата такой технологии необходимо разбираться в ее модификациях. Расскажу об алгоритмах ансамблирования

Превью для статьи

Работа с текстом в табличных данных (BERT + Ridge + CatBoost)

Табличные данные могут быть представлены по-разному: от простейших количественных измерений по каждому наблюдению, до привязки к нему текста или изображений. Данный пост о кейсе обработке текста в «табличках» с помощью BERT + Ridge и CatBoost.

Превью для статьи

Построение интерпретируемого классификатора

Зачастую хорошие результаты в различных ds задачах дают модели, создающие векторные представления объектов обучающей выборки. Но такие модели часто становятся чёрным ящиком, в который закидываем данные и просто верим ему. Иногда этого недостаточно и хочется получать информацию о том, почему модель приняла то или иное решение. Разберем один из способов как это можно сделать на примере задачи классификации предложений

Превью для статьи

Не тормози! Используй DASK!

Чем больше у нас данных, тем больше возможностей у аудитора извлечь из них полезную в работе информацию. Однако сбор данных — это только часть задачи, первый этап. Аудитору необходимо решить и где их хранить, и как обработать.
Обычно для этого используются проверенные временем инструменты, например, Pandas и NumPy. Они эффективны и пользуются большим доверием.
По мере увеличения объёма данных мы начинаем сталкиваться с физическими ограничениями этих инструментов. Отчасти эта проблема решается увеличением объёма оперативной памяти. Но это не всегда возможно и только отодвигает проблему, не решая её принципиально. Также хотелось бы иметь возможность обрабатывать данные параллельно на нескольких компьютерах или используя несколько процессоров/ядер. Для решения задач можно было бы перейти к более масштабируемому решению, такому как Spark, но, зачастую, такая доработка требует много времени.
Разве не было бы замечательно, если бы вы могли сделать это в своей системе локально, а при необходимости и масштабировать до кластера? В этом может помочь Dask.