Деревья решений в pySpark: от семечка до параметрической оптимизации случайного леса

Советуем почитать

Генерация паспортных данных для обучения моделей

Я знаю, что ты делал этой ночью

LLM'ы в преобразовании запроса на естественном языке в SQL (text2sql)

Ускоряем обучение с подкреплением на 50%

Доверительный интервал коэффициента Джини. Что это?

Создание персонажей в Python с помощью LLM: from GPT to Kandinsky

Data News

16-17 апреля 2024 года

XVI Национальная конференция ИВА «Внутренний аудит в России

26-27 июля 2024 года

PyCon Russia - конференция для python-разработчиков

Превью для статьи

19.10.2023, Портнов Клим, г. Москва

Деревья решений в pySpark: от семечка до параметрической оптимизации случайного леса

Меня зовут Клим, и сегодня я буду вашим проводником в PySpark MLlib. В этом посте я расскажу о простом для понимания, но в то же время достаточно эффективным алгоритме — дерево решений, а также его расширенной модификацией случайные леса решений.

Machine learning and neural networks Технологии аудита

Превью для статьи

27.04.2023, Паймеров Владимир, г. Москва

ML-подходы по поиску похожих изображений

Компьютерное зрение (computer vision, CV) – активно развивающаяся научная область, связанная с анализом изображений и видео. В последнее время данному направлению уделяется большое внимание, так как CV позволяет решать множество задач, таких как: детекцию объектов, классификацию изображений, распознавание лиц и т.д., которые в свою очередь применяются в разных сферах жизни от мобильных приложений для наложения масок на лицо во время звонка до построения систем безопасности, поиска преступников и мошенников

Computer vision Технологии аудита

Превью для статьи

17.04.2023, Лосев Алексей,г. Иркутск

Избавляемся от продуктов априори – использование ассоциативных правил для поиска комбинаций

Я люблю готовить, поэтому постоянно закупаюсь ингредиентами для различных блюд. В последний раз я закупил их слишком много, и срок годности подходит к концу. Как спасти продукты, используя алгоритм Apriori, расскажу в посте.

Databases and big data Другие технологии

Превью для статьи

30.08.2022, Кравцов Артем,г. Екатеринбург

GAN-модели для генерации набора данных из изображений

Для машинного обучения в специфических областях очень остро стоит проблема нехватки данных для обучения. В посте рассмотрю один из способов генерировать изображения

Computer vision Технологии аудита

Превью для статьи

15.08.2022, Майстренко Виктория, г. Хабаровск

Как разделять набор данных

Как оптимально разделить набор данных на обучающую, валидационную и тестовую выборки?

Data manipulation Другие технологии

Превью для статьи

11.07.2022, Гершевский Егор, г. Самара

Обнаружение фейковых новостей по их заголовкам

Фальшивые новости – проблема современного общества. Такие новости без труда вводят людей в заблуждение через различные социальные сети, мессенджеры и СМИ. Всё это может привести к дезинформации населения, манипуляциям со стороны власти и общественным кризисам.

Text mining Технологии аудита

Превью для статьи

30.06.2022, Виктор Мурачев, г. Хабаровск

Создание кросс-таблиц

В ходе анализа данных периодически возникает потребность в их обобщении, а именно создания кросс-таблиц. Кросс-таблица — это сводная таблица, заголовки в которой могут располагаться как по строкам, так и по столбцам, позволяя отобразить взаимосвязь двух и более переменных друг с другом.
В построении таких таблиц поможет Pandas

Databases and big data Другие технологии