Превью для статьи

Деревья решений в pySpark: от семечка до параметрической оптимизации случайного леса

Меня зовут Клим, и сегодня я буду вашим проводником в PySpark MLlib. В этом посте я расскажу о простом для понимания, но в то же время достаточно эффективным алгоритме — дерево решений, а также его расширенной модификацией случайные леса решений.

Превью для статьи

Снижаем размерность эмбеддингов предложений для задачи определения семантического сходства

С каждым годом растет сложность моделей, решающих вопросы семантически- и контекстно-ориентированной обработки естественного языка (NLP). Также нельзя забывать и про проблемы мультиязычности моделей. Все это сильно сказывается на увеличении их размеров и системных требований к железу для их обучения, дообучения, да и просто запуска. Задачи NLP сегодня – это прикладные задачи, их хочется решать на доступном оборудовании за доступное время

Превью для статьи

Библиотека eli5 в приложении к задачам регрессии и классификации

Привет! Этот пост о моём опыте использования Python-библиотеки eli5 для анализа двух типов моделей: линейной регрессии и решающего дерева, а также о том, как библиотека eli5 представляет параметры этих моделей на известных датасетах

Превью для статьи

Сравнительный анализ эффективности работы Cython и Python

Что «умеет» Cython, его плюсы и минусы, когда его стоит использовать и чем он превосходит Python? Подробнее по ссылке

Превью для статьи

3 пакета Python для генерации синтетических данных

Нет данных? Сгенерируй!
Рассмотрим три способа генерации синтетических данных с помощью пакетов Python.

Превью для статьи

Обнаружение фейковых новостей по их заголовкам

Фальшивые новости – проблема современного общества. Такие новости без труда вводят людей в заблуждение через различные социальные сети, мессенджеры и СМИ. Всё это может привести к дезинформации населения, манипуляциям со стороны власти и общественным кризисам.

Превью для статьи

Продолжаем осваивать PySpark. Предобработка текста для машинного обучения

Рассмотрим базовые методы предобработки данных для моделей машинного обучения: научимся токенизировать текст и разберем нестареющую классику — TF-IDF, Word2Vec и CountVectorizer.