Поиск ошибок в логике работы чат-бота с помощью TF-IDF и DBSCAN

Советуем почитать

Обработка записей разговоров на Python. Поиск пересечений в диалоге

DeepPavlov «из коробки» для задачи NLP на Python

Снижаем размерность эмбеддингов предложений для задачи определения семантического сходства

Пайплайн для создания классификации текстовой информации

Поиск ошибок в логике работы чат-бота с помощью TF-IDF и DBSCAN

Оценка качества работы систем Speech to Text

Data News

16-17 апреля 2024 года

XVI Национальная конференция ИВА «Внутренний аудит в России

26-27 июля 2024 года

PyCon Russia - конференция для python-разработчиков

Превью для статьи

06.04.2023, Котов Илья, г. Екатеринбург

Поиск ошибок в логике работы чат-бота с помощью TF-IDF и DBSCAN

На примере задачи поиска логических ошибок робота, я продемонстрирую, как методы тематического моделирования помогут исследователя при работе с большим объемом текстовых данных.

Text mining Технологии аудита

Превью для статьи

04.10.2022, Маркова Виктория, г. Екатеринбург

Как почистить данные, не удаляя лишние знаки

Рассмотрим кейс быстрой очистки данных с использованием токенайзера python-библиотеки Natasha.

Text mining Технологии аудита

Превью для статьи

11.07.2022, Гершевский Егор, г. Самара

Обнаружение фейковых новостей по их заголовкам

Фальшивые новости – проблема современного общества. Такие новости без труда вводят людей в заблуждение через различные социальные сети, мессенджеры и СМИ. Всё это может привести к дезинформации населения, манипуляциям со стороны власти и общественным кризисам.

Text mining Технологии аудита

Превью для статьи

12.05.2022, Малеев Владислав,г. Иркутск

Распознавание нейросетью фейковых новостей по их тексту

Каждый день в сети появляется огромное количество «фейковых» новостей. Обычный человек, даже при наличии у него некоторых навыков, может принять «фейковую» новость за реальную. В таком случае на помощь приходят нейронные сети

Text mining Технологии аудита

Превью для статьи

11.05.2022, Анна Ламеева, г.Москва

Три подхода к анализу текстов

Один из способов проанализировать текст на первоначальном этапе – выделить в нем ключевые слова. Это помогает раскрыть содержание текстов более подробно, несильно вчитываясь в суть. Однако анализ ключевых слов можно провести в рамках разных задач, решаемых с помощью NLP (Natural Language Processing).
Рассмотрю три подхода выделения ключевых слов в тексте, применяемых в рамках разных задач анализа текста.

Text mining Технологии аудита

Превью для статьи

30.03.2022, Никита Стокалюк, г. Ростов-на-Дону

Применение Yargy-парсера при переводе русскоязычных слов в числа

Проект Natasha хорошо зарекомендовал себя в решении задач NER для работы с русским языком. Он предоставляет возможности для базовой обработки текстов: сегментация на токены и предложения, морфологический и синтаксический анализы, лемматизация и, наконец, распознавание именованных сущностей – аспект, который мы подробно рассмотрим сегодня. Также будет представлено составление своих правил с помощью Yargy-парсера, что необходимо в тех случаях, когда готовые решения показывают низкое качество.

Text mining Технологии аудита

Превью для статьи

11.01.2022, Атамасова Екатерина,г. Екатеринбург

BigARTM – тематическое моделирование на Python

Одной из задач обработки естественного языка является разделение коллекции текстов на темы, а также, выделение ключевых слов. Это делается для того, чтобы категорировать документы, например, для удобного поиска или получения общего представления о всей коллекции.
В данной статье рассказывается о библиотеке BigARTM (Python) для разделения текстов по тематикам.

Text mining Технологии аудита