Превью для статьи

Пайплайн для создания классификации текстовой информации

Актуальность работы с большими объемами текстовой информации ещё долгое время (а может быть и всегда) будет неоспорима. При этом спектр задач весьма вариативен — от задач по поиску именованных сущностей, до классификации и кластеризации текстов обрабатываемых документов.

Превью для статьи

Дисбаланс классов: как правильно провести классификацию на несбалансированной выборке

Решение задачи классификации наблюдений при явном доминировании одного класса в выборке над другим прежде всего опирается на природу дисбаланса, как обосновать применимость методов, не уйти в решение задачи поиска аномалий и верно классифицировать наблюдения рассмотрим в статье

Превью для статьи

Ликвидация классового дисбаланса в данных. Увеличение числа примеров миноритарного класса.

Нередко возникают ситуации, когда в обучающем наборе данных доля примеров некоторого класса слишком мала. Данное явление называется классовым дисбалансом, и эта проблема в дальнейшем усложняет обучение нейронных сетей. Рассмотрим различные методы в рамках стратегии увеличения числа примеров миноритарного класса, позволяющие решить эту проблему.

Превью для статьи

Ликвидация классового дисбаланса в данных. Удаление некоторого числа примеров мажоритарного класса

Подготавливаем данные для тренировки нейросети. Убираем проблему дисбаланса данных, удаляя экземпляры из класса с большим числом записей.