Превью для статьи

Пайплайн для создания классификации текстовой информации

Актуальность работы с большими объемами текстовой информации ещё долгое время (а может быть и всегда) будет неоспорима. При этом спектр задач весьма вариативен — от задач по поиску именованных сущностей, до классификации и кластеризации текстов обрабатываемых документов.

Превью для статьи

Как сократить количество фотографий котов, применив хеширование из стандартной библиотеки Python

Дисковое пространство — ценный ресурс. Сегодня я расскажу, как с помощью хеширования можно найти дубликаты файлов и освободить место на диске.

Превью для статьи

Алгоритмы для выделения ключевых слов: Rake, YAKE!, TextRank

Добрый день! Сегодня речь пойдет про алгоритмы выделения ключевых слов Rake, YAKE! И TextRank. Выделение ключевых слов становится все более актуальным с постоянным ростом объемов текстовой информации, которую необходимо каким-то образом классифицировать по тематике. Рассмотренные модели обладают интересными свойствами и преимуществами по сравнению с классическими алгоритмами, поскольку не требуют обучения.

Превью для статьи

Распознавание нейросетью фейковых новостей по их тексту

Каждый день в сети появляется огромное количество «фейковых» новостей. Обычный человек, даже при наличии у него некоторых навыков, может принять «фейковую» новость за реальную. В таком случае на помощь приходят нейронные сети

Превью для статьи

Агрегатор новостных лент

Возникла задача анализа цитируемости/определения эмоциональной окраски новостей о компании. Для проведения анализа нужно собрать большой массив новостей. Для решения этой задачи прекрасно подойдет библиотека «Newspaper3k»

Превью для статьи

Ассиметричное шифрование

В век цифр, информация стала не просто ценной, а жизненно важной, ведь от неё, в буквальном смысле, зависит всё. Расскажем о симметричном и асимметричном методах шифрования данных и сравним две библиотеки, использующие эти методы.

Превью для статьи

Анализ текста средствами библиотеки Stanza

Для решения задач обработки текстов на естественном языке на сегодняшний день существует множество библиотек для python. Один из них — библиотека Stanza от StanfordNLPGroup.