
Детекция токсичных комментариев на минималках, или как жить и делать NLP, когда отобрали GPU.
В данной статье мы рассмотрим задачу выявления токсичных комментариев с приемлемым качеством и при минимальном использовании ресурсов, что может быть полезно при отсутствии мощных серверов для проведения предсказания.

Выбор функции потерь для задач построения нейронных сетей
При построении нейронных сетей перед нами часто встаёт вопрос правильного выбора функции потерь, используемой для формирования соответствий между входными и выходными параметрами. В рамках данной статьи мы рассмотрим три функции потерь для нейросетей, решающих регрессионные задачи.

Построение текстовой классификации задач из системы управления проектами методами Natural language processing.
В современном мире существуют разные системы управления, которые представляют собой рабочее пространство для ведения проектов. Одной из таких систем является Jira. Система Jira помогает пользователям обмениваться информацией, отслеживать соблюдение сроков выполнения работы, а также просматривать прогресс решения задач.

NLP и аудит.
Начнем с идеи. Помните, я демонстрировал небольшой очерк на тему парсинга сайтов в контексте аудита? Не помните – вот ссылка: https://newtechaudit.ru/parsing-i-audit/. Представьте теперь, что данные с сайта получены и готовы к обработке. К примеру, у вас есть желание выявить негативные комментарии со страницы отзывов и предложений, собрать статистические показатели успехов рекламных кампаний, кластеризовать по темам тексты заявлений или просто подготовить контент сайта к более детальной машинной или ручной аналитике. Но что может произойти? Люди любят писать с ошибками в орфографии или пунктуации, баловаться со склонениями или злоупотреблять служебными частями речи даже в официальных документах. Это серьезная подножка работе классификаторов, кластеризаторов, аналитиков и любителей чистого русского языка. Что же делать? Приведем далее некоторые базовые методы преображения текста и его подготовки к анализу. Как это делать? Воспользуемся Python и добавим немного математики!

Выбор модели машинного обучения для анализа тональности текста. От простого к сложному.
Существует множество возможностей использования NLP. В список самых полезных из них определённо входит анализ тональности текста. Вы хотите улучшить свой продукт, но боитесь обрекать пользователя на тяжеловесный фидбэк? Вы хотите составить объёмную статистику из ничего? А может, вы хотите провести конкурс на лучшую мотивационную речь? — Добро пожаловать в Sentiment analysis. Всё должно быть просто…
А если датасет на русском языке? А если элементы очень короткие, на сложную тему и общение происходит в среде, где принято не показывать своих эмоций? В данной статье будут рассмотрены логические этапы выбора модели от простого случая к самому сложному.

Оffline распознавание речи. Библиотека Vosk
Преобразование аудио в текст — популярная и повсеместно используемая технология. В этой статье я расскажу, как распознать речь из аудиофайла на своем ПК без использования онлайн сервисов

Обработка документов docx с параграфами и таблицами
Доброе утро, друзья.
Мы уже рассказывали как очистить текст от лишних символов, от стопслов, а сегодня хотим показать как обработать документ docx с параграфами и таблицами с сохранением последовательности текста внутри него.