Пайплайн для создания классификации текстовой информации

Советуем почитать

Обработка записей разговоров на Python. Поиск пересечений в диалоге

DeepPavlov «из коробки» для задачи NLP на Python

Снижаем размерность эмбеддингов предложений для задачи определения семантического сходства

Пайплайн для создания классификации текстовой информации

Поиск ошибок в логике работы чат-бота с помощью TF-IDF и DBSCAN

Оценка качества работы систем Speech to Text

Data News

16-17 апреля 2024 года

XVI Национальная конференция ИВА «Внутренний аудит в России

26-27 июля 2024 года

PyCon Russia - конференция для python-разработчиков

Превью для статьи

13.04.2023, Дарморезов Вадим, г. Москва

Пайплайн для создания классификации текстовой информации

Актуальность работы с большими объемами текстовой информации ещё долгое время (а может быть и всегда) будет неоспорима. При этом спектр задач весьма вариативен — от задач по поиску именованных сущностей, до классификации и кластеризации текстов обрабатываемых документов.

Text mining Технологии аудита

Превью для статьи

30.01.2023, Ларин Алексей, г. Воронеж

Как предсказать «побег» при помощи ML-модели

Санкционная политика недружественных стран значительно подкосила деятельность Торговых центров. Многие иностранные брэнды закрыли свои магазины в торговых центрах и ушли из России, чем существенно снизили арендный поток. Арендодателям пришлось в срочном порядке искать новых потенциальных арендаторов на освободившиеся места.

Machine learning and neural networks Другие технологии

Превью для статьи

24.01.2023, Новицкий Никита/ Миквельман Дарья, г. Самара

Строим свое будущее: как выбрать квартиру, опираясь на методы регрессионного анализа?

Доброе утро, друзья!
Найти квартиру себе по душе – одна из самых сложных и актуальных задач. В публикации рассмотрим зависимость стоимости квартиры от различных факторов на основе регрессионной модели и спрогнозируем стоимость на объекты недвижимости, опираясь на их свойства и параметры.

Machine learning and neural networks Другие технологии

Превью для статьи

17.01.2023, Анна Ламеева, г.Москва

Ансамбли моделей для распознавания рукописных цифр

Применение нескольких моделей машинного обучения для решения задачи является частой практикой. Данная технология выигрывает по качеству в сравнении с одной моделью. Однако, для успешного результата такой технологии необходимо разбираться в ее модификациях. Расскажу об алгоритмах ансамблирования

Computer vision Технологии аудита

Превью для статьи

01.09.2022, Перевалов Кирилл,г. Новосибирск

Работа с текстом в табличных данных (BERT + Ridge + CatBoost)

Табличные данные могут быть представлены по-разному: от простейших количественных измерений по каждому наблюдению, до привязки к нему текста или изображений. Данный пост о кейсе обработке текста в «табличках» с помощью BERT + Ridge и CatBoost.

Text mining Технологии аудита

Превью для статьи

18.03.2022, Лекомцев Александр,г. Новосибирск

Построение интерпретируемого классификатора

Зачастую хорошие результаты в различных ds задачах дают модели, создающие векторные представления объектов обучающей выборки. Но такие модели часто становятся чёрным ящиком, в который закидываем данные и просто верим ему. Иногда этого недостаточно и хочется получать информацию о том, почему модель приняла то или иное решение. Разберем один из способов как это можно сделать на примере задачи классификации предложений

Text mining Технологии аудита

Превью для статьи

02.02.2022, Жевнеров Константин, г. Воронеж

Не тормози! Используй DASK!

Чем больше у нас данных, тем больше возможностей у аудитора извлечь из них полезную в работе информацию. Однако сбор данных — это только часть задачи, первый этап. Аудитору необходимо решить и где их хранить, и как обработать.
Обычно для этого используются проверенные временем инструменты, например, Pandas и NumPy. Они эффективны и пользуются большим доверием.
По мере увеличения объёма данных мы начинаем сталкиваться с физическими ограничениями этих инструментов. Отчасти эта проблема решается увеличением объёма оперативной памяти. Но это не всегда возможно и только отодвигает проблему, не решая её принципиально. Также хотелось бы иметь возможность обрабатывать данные параллельно на нескольких компьютерах или используя несколько процессоров/ядер. Для решения задач можно было бы перейти к более масштабируемому решению, такому как Spark, но, зачастую, такая доработка требует много времени.
Разве не было бы замечательно, если бы вы могли сделать это в своей системе локально, а при необходимости и масштабировать до кластера? В этом может помочь Dask.

Data manipulation Другие технологии