Превью для статьи

Codeium и StarCoder: нейросети с автодополнением кода

В мире технологий происходит настоящая революция. На передовом фронте этой революции стоят нейронные сети — мощные и удивительные инструменты искусственного интеллекта, которые сегодня изменяют наше представление о возможностях компьютеров. Сегодня мы познакомим вас с двумя моделями-помощниками с автодополнением кода: StarCoder и Codeium.

Превью для статьи

Кластеризация текста в PySpark

Текст – это не просто коллекция слов. Он содержит мысли и намерения автора. Вручную невозможно обработать огромное количество текстовой информации и понять, какие данные она может содержать. В таком случае поможет кластеризация текста.

Превью для статьи

Нечеткое сравнение строк с помощью rapidfuzz

В публикации расскажу, как при решении задачи нечеткого сравнения строк, среди разных инструментов сравнения (по косинусному сходству, по сходству Левенштейна, по сходству Джаро‑Винклера) был выбран лучший вариант нечеткого сопоставления. Сравнение инструментов производилось исходя из скорости выполнения, правильности сравнения и простоты реализации, с помощью библиотек rapidfuzz и sklearn

Превью для статьи

Роботы-эмпаты, миф или реальность?

Нужно быстро провести UX-исследование продукта? Предобученные модели-трансформеры помогут!

Превью для статьи

Как научить Наивного Байеса давать персональные рекомендации

В публикации расскажу о подходе,
позволяющем расширить функциональные возможности метода Наивного Байеса благодаря использованию весовых коэффициентов для различных групп признаков объекта датасета. С помощью разработанной ML‑модели можно улучшить качество классификации текстов при использовании обучающей выборки небольшого объёма и сократить время обучения модели.

Превью для статьи

Поиск ошибок в логике работы чат-бота с помощью TF-IDF и DBSCAN

На примере задачи поиска логических ошибок робота, я продемонстрирую, как методы тематического моделирования помогут исследователя при работе с большим объемом текстовых данных.

Превью для статьи

Fine-Tune модели основанной на трансформерах (Rubert) для классификации текстов

В посте представлю state of the art подход для решения задачи бинарной классификации, а именно детекция сообщений, в которой присутствует жалоба на сотрудника.