Превью для статьи

Пайплайн для создания классификации текстовой информации

Актуальность работы с большими объемами текстовой информации ещё долгое время (а может быть и всегда) будет неоспорима. При этом спектр задач весьма вариативен — от задач по поиску именованных сущностей, до классификации и кластеризации текстов обрабатываемых документов.

Превью для статьи

Тематическое моделирование с использованием эмбеддингов BERT

Обработка естественного языка одно из востребованных направлений машинного обучения, которое постоянно развивается. В 2018 году компания Google представила новую модель — BERT, сделавшую прорыв в области обработки естественного языка. Несмотря на то, что сейчас у BERT много конкурентов, включая модификации классической модели (RoBERTa, DistilBERT и др.) так и совершенно новые (например, XLNet), BERT всё ещё остается в топе nlp-моделей.

Превью для статьи

Доверять Джини или нет: вот в чем вопрос

Коэффициент Джини, кривая Лоренца, TPR и FPR– одни из самых популярных атрибутов экономических задач, решаемых с помощью ML. Все они используются для оценки качества модели и, так или иначе, связаны друг с другом. Предлагаю вспомнить, как они рассчитываются

Превью для статьи

Анализ тональности текста с использованием фреймворка LightAutoML

При проведении аудита периодически возникают задачи анализа тональности текстов, таких как обращения клиентов. Существует множество готовых решения для определения тональности. В этой статье мы рассмотрим одно из решений, а именно LightAutoML.

Превью для статьи

Градиентный бустинг с CatBoost (часть 2/3)

Продолжим разговор о CatBoost и рассмотрим Cross Validation, Overfitting Detector, ROC-AUC, SnapShot и Predict.