Превью для статьи

CodeBert для автогенерации комментариев к коду

Код программ отличается от естественного языка из-за его формализма и строгости, однако ничто не мешает воспринимать его как последовательность токенов и работать с ним, как с обычным языком. Существуют исследования, которые показали, что модель BERT, обученная на большом наборе данных, неплохо справляется с некоторыми задачами, связанными с обработкой программного кода.

Превью для статьи

DeepPavlov «из коробки» для задачи NLP на Python

Как проанализировать текст в постах на habr.com? Примеры парсинга и поиск ответов на вопросы в тексте с помощью deepPavlov.

Превью для статьи

Снижаем размерность эмбеддингов предложений для задачи определения семантического сходства

С каждым годом растет сложность моделей, решающих вопросы семантически- и контекстно-ориентированной обработки естественного языка (NLP). Также нельзя забывать и про проблемы мультиязычности моделей. Все это сильно сказывается на увеличении их размеров и системных требований к железу для их обучения, дообучения, да и просто запуска. Задачи NLP сегодня – это прикладные задачи, их хочется решать на доступном оборудовании за доступное время

Превью для статьи

Читают ли андроиды об электроовцах?

Всем привет, в жизни, прям как в романе Филипа Дика, найти ответ на вопрос непросто… Может ли AI нам помочь? В данной публикации представлены примеры работ с системами автоматического ответа.

Превью для статьи

Fine-Tune модели основанной на трансформерах (Rubert) для классификации текстов

В посте представлю state of the art подход для решения задачи бинарной классификации, а именно детекция сообщений, в которой присутствует жалоба на сотрудника.

Превью для статьи

Предсказания, гадания… FILL-MASK моделирование!

В различных отраслях, связанных с клиентским сервисом, задачи NLP не редкость: суммаризация, сентиментный анализ, рекомендательные сервисы. По ссылке ниже кейс моделирования с маскированием

Превью для статьи

Работа с текстом в табличных данных (BERT + Ridge + CatBoost)

Табличные данные могут быть представлены по-разному: от простейших количественных измерений по каждому наблюдению, до привязки к нему текста или изображений. Данный пост о кейсе обработке текста в «табличках» с помощью BERT + Ridge и CatBoost.