Превью для статьи

Microsoft Bing и ChatGPT – buddy DA/DS-аудитора

Кто такой buddy? Человек, который может подсказать решение, когда ты зашёл в тупик, подскажет, как лучше прокачать навыки, ответит, если тебе что-то непонятно. Личный buddy – мечта любого. Мы с моим коллегой DA/DS-аудиторы и решили протестировать новые инструменты: ChatGPT, чат поисковика Bing и выяснить, смогут ли они стать нашими buddy.

Превью для статьи

Пайплайн для создания классификации текстовой информации

Актуальность работы с большими объемами текстовой информации ещё долгое время (а может быть и всегда) будет неоспорима. При этом спектр задач весьма вариативен — от задач по поиску именованных сущностей, до классификации и кластеризации текстов обрабатываемых документов.

Превью для статьи

NLP. Проект по распознаванию адресов. Natasha, Pullenti, Stanza

Многие аналитики данных сталкиваются с задачей распознавания адресов, напечатанных на документах. Я выбрал несколько самых популярных библиотек, поддерживающих русский язык, и сравнил, какую же из них использовать — Natasha, Stanza и PullEnti?

Превью для статьи

Обнаружение фейковых новостей по их заголовкам

Фальшивые новости – проблема современного общества. Такие новости без труда вводят людей в заблуждение через различные социальные сети, мессенджеры и СМИ. Всё это может привести к дезинформации населения, манипуляциям со стороны власти и общественным кризисам.

Превью для статьи

Алгоритмы для выделения ключевых слов: Rake, YAKE!, TextRank

Добрый день! Сегодня речь пойдет про алгоритмы выделения ключевых слов Rake, YAKE! И TextRank. Выделение ключевых слов становится все более актуальным с постоянным ростом объемов текстовой информации, которую необходимо каким-то образом классифицировать по тематике. Рассмотренные модели обладают интересными свойствами и преимуществами по сравнению с классическими алгоритмами, поскольку не требуют обучения.

Превью для статьи

Распознавание нейросетью фейковых новостей по их тексту

Каждый день в сети появляется огромное количество «фейковых» новостей. Обычный человек, даже при наличии у него некоторых навыков, может принять «фейковую» новость за реальную. В таком случае на помощь приходят нейронные сети

Превью для статьи

Три подхода к анализу текстов

Один из способов проанализировать текст на первоначальном этапе – выделить в нем ключевые слова. Это помогает раскрыть содержание текстов более подробно, несильно вчитываясь в суть. Однако анализ ключевых слов можно провести в рамках разных задач, решаемых с помощью NLP (Natural Language Processing).
Рассмотрю три подхода выделения ключевых слов в тексте, применяемых в рамках разных задач анализа текста.