Превью для статьи

Продолжаем осваивать PySpark. Предобработка текста для машинного обучения

Рассмотрим базовые методы предобработки данных для моделей машинного обучения: научимся токенизировать текст и разберем нестареющую классику — TF-IDF, Word2Vec и CountVectorizer.

Превью для статьи

Способы упрощения текстов: плюсы, минусы, альтернативы

Сложно понять содержимое текста, если в нем встречается много незнакомых слов. Вариант решения этой проблемы – замена слов на близкие к ним по значению. Заменить слово на синоним можно, например, тремя способами – трансформером, word2vec и его модификацией — RusVectores.

Превью для статьи

Инструкция к применению «Как установить PySpark на Windows и сделать в нём Word2Vec»

Мы говорим Big Data, подразумеваем — Apache Spark. Сейчас это, пожалуй, самый мощный и модный фреймворк для распределённой обработки больших данных в задачах Data Science, поэтому для всех аналитиков как никогда важна задача изучения Spark и получения практических навыков работы с ним. Однако привычная среда обитания Spark — это, как правило, серверные кластеры промышленного масштаба […]

Превью для статьи

Ловля цен. Практическое руководство в море закупок

Представьте себе, что перед Вами бескрайнее море, в воде плещется рыба, светит солнце. Сегодня речь пойдет о рыбалке, точнее о различных способах ловли рыбы. А задачу поставим так: не наловить как можно больше рыбы, а как поймать самую большую и красивую. Действительно, множество товаров, представленных на закупках, похожи на море, а найти стоимость товара в закупках равносильно поимке рыбы. Чем крупнее рыба, тем больше она похожа на наш товар. От того насколько точно мы смогли найти альтернативные товары в море закупок зависит ценовой диапазон нашего товара.

Data News