Пайплайн для создания классификации текстовой информации

Советуем почитать

Обработка записей разговоров на Python. Поиск пересечений в диалоге

DeepPavlov «из коробки» для задачи NLP на Python

Снижаем размерность эмбеддингов предложений для задачи определения семантического сходства

Пайплайн для создания классификации текстовой информации

Поиск ошибок в логике работы чат-бота с помощью TF-IDF и DBSCAN

Оценка качества работы систем Speech to Text

Data News

16-17 апреля 2024 года

XVI Национальная конференция ИВА «Внутренний аудит в России

26-27 июля 2024 года

PyCon Russia - конференция для python-разработчиков

Превью для статьи

13.04.2023, Дарморезов Вадим, г. Москва

Пайплайн для создания классификации текстовой информации

Актуальность работы с большими объемами текстовой информации ещё долгое время (а может быть и всегда) будет неоспорима. При этом спектр задач весьма вариативен — от задач по поиску именованных сущностей, до классификации и кластеризации текстов обрабатываемых документов.

Text mining Технологии аудита

Превью для статьи

28.04.2022, Ибрагимов Роман,г. Екатеринбург

Тематическое моделирование с использованием эмбеддингов BERT

Обработка естественного языка одно из востребованных направлений машинного обучения, которое постоянно развивается. В 2018 году компания Google представила новую модель — BERT, сделавшую прорыв в области обработки естественного языка. Несмотря на то, что сейчас у BERT много конкурентов, включая модификации классической модели (RoBERTa, DistilBERT и др.) так и совершенно новые (например, XLNet), BERT всё ещё остается в топе nlp-моделей.

Text mining Технологии аудита

Превью для статьи

15.04.2022, Маркова Виктория,г. Воронеж

Доверять Джини или нет: вот в чем вопрос

Коэффициент Джини, кривая Лоренца, TPR и FPR– одни из самых популярных атрибутов экономических задач, решаемых с помощью ML. Все они используются для оценки качества модели и, так или иначе, связаны друг с другом. Предлагаю вспомнить, как они рассчитываются

Machine learning and neural networks Другие технологии

Превью для статьи

29.12.2021, Кирилл Вронский, г. Хабаровск

Анализ тональности текста с использованием фреймворка LightAutoML

При проведении аудита периодически возникают задачи анализа тональности текстов, таких как обращения клиентов. Существует множество готовых решения для определения тональности. В этой статье мы рассмотрим одно из решений, а именно LightAutoML.

Text mining Технологии аудита

Превью для статьи

14.12.2021, Новицкий Никита, г. Самара

Градиентный бустинг с CatBoost (часть 2/3)

Продолжим разговор о CatBoost и рассмотрим Cross Validation, Overfitting Detector, ROC-AUC, SnapShot и Predict.

Machine learning and neural networks Другие технологии