Превью для статьи

Три подхода к анализу текстов

Один из способов проанализировать текст на первоначальном этапе – выделить в нем ключевые слова. Это помогает раскрыть содержание текстов более подробно, несильно вчитываясь в суть. Однако анализ ключевых слов можно провести в рамках разных задач, решаемых с помощью NLP (Natural Language Processing).
Рассмотрю три подхода выделения ключевых слов в тексте, применяемых в рамках разных задач анализа текста.

Превью для статьи

Анализ тональности с помощью ruGPT-3

ruGPT-3 – крупнейшая нейросеть для русского языка. Модель представлена Sberdevices в ноябре 2020 года. ruGPT-3 демонстрирует state-of-the-art возможности для русского языка и умеет продолжать любой текст. Размер модели от 125 млн до 13 млрд параметров. Модель показывает отличные результаты без дообучения для различных типов задач, это является главной особенностью моделей типа GPT(Generate Pretrained Transformers). Более подробно можно прочитать здесь.

Превью для статьи

BigARTM – тематическое моделирование на Python

Одной из задач обработки естественного языка является разделение коллекции текстов на темы, а также, выделение ключевых слов. Это делается для того, чтобы категорировать документы, например, для удобного поиска или получения общего представления о всей коллекции.
В данной статье рассказывается о библиотеке BigARTM (Python) для разделения текстов по тематикам.

Превью для статьи

Анализ тональности текста с использованием фреймворка LightAutoML

При проведении аудита периодически возникают задачи анализа тональности текстов, таких как обращения клиентов. Существует множество готовых решения для определения тональности. В этой статье мы рассмотрим одно из решений, а именно LightAutoML.

Превью для статьи

Анализ текста средствами библиотеки Stanza

Для решения задач обработки текстов на естественном языке на сегодняшний день существует множество библиотек для python. Один из них — библиотека Stanza от StanfordNLPGroup.

Превью для статьи

Перевод любых PDF-документов в текст: с распознаванием текста на изображениях и без

В ходе исследовательских проектов с применением NLP-моделей возникает необходимость извлечь текст из всех доступных видов файлов.

Превью для статьи

Анализ естественного языка (NLP)

В 1913 году ученые математики, используя ручной подсчет определили, что 43% гласных и 57% согласных содержит роман А.С. Пушкина «Евгений Онегин». Основной задачей было — построить первую модель генерирования языка и доказать, что статистические свойства языка можно моделировать. Сегодня расскажу, как, используя современные методы обработки языка, научить машину определять тематику текста.

Data News