Подготовка данных Python
Картинка анонса

Стандартизация адресов с Elasticsearch

Передо мной стояла задача сравнения большого количества адресов из разных баз данных с целью поиска совпадений. И единственным рациональным, на мой взгляд, решением было привести адреса к единому виду. Для нормализации адресов использован единый российский государственный адресный реестр — ФИАС, базы которого находятся в открытом доступе.

Подготовка данных Python
Картинка анонса

Стандартизация адресов с Elasticsearch

Передо мной стояла задача сравнения большого количества адресов из разных баз данных с целью поиска совпадений. И единственным рациональным, на мой взгляд, решением было привести адреса к единому виду. Для нормализации адресов использован единый российский государственный адресный реестр — ФИАС, базы которого находятся в открытом доступе.

Python NLP
Картинка анонса

Обзор токенизаторов, входящих в состав библиотеки NLTK

Одна из самых популярных на сегодняшний день python-библиотек для работы с текстами на естественном языке – NLTK (Natural Language Toolkit) – содержит большой список готовых токенизаторов.
Возникает вопрос, какой же токенизатор выбрать для решения конкретной задачи. Для ответа на него необходимо понимать, как работает тот или иной токенизатор, на какие блоки он может разбить исходный текст. В этой статье я постараюсь описать работу токенизаторов, входящих в состав NLTK, чтобы вопрос выбора стал несколько проще. Все примеры будут приведены с использованием русского языка.

Подготовка данных Machine Learning
Картинка анонса

Active learning для разметки своими руками

В глобальной сети можно встретить огромное число разнообразных наборов данных для обучения ваших моделей. Однако часто бывает так, что задача очень специфична и требует подготовки своего собственного уникального датасета. О том, как можно быстро и качественно разметить свои данные для задач CV вы узнаете из этой статьи.

Подготовка данных SQL
Картинка анонса

Секреты выборки данных из очень больших таблиц

Лайфхак SQL. Как соединить две очень большие таблицы и выгрузить из них данные? Спойлер – никак, в статье мы рассмотрим пример выгрузки данных из двух очень больших таблиц без прямого JOIN-а

Классификация Pandas
Картинка анонса

Алгоритмы поиска схожих объектов в рекомендательных системах

«Досмотрю вот это видео на YouTube и пойду спать! Ой, в рекомендациях еще одно интересное. Сон, прости…». «Закажу в IKEA только стулья. Ах, сайт показал мне еще посуду, постельное белье и новую кухню в сборке. Когда там следующая зарплата?». «Бесконечный плейлист любимых музыкальных жанров в СберЗвуке заряжает меня позитивом! Как специалистам удается создавать выборку специально для меня?».

Подготовка данных Machine Learning
Картинка анонса

Генерация признаков из временных рядов

На тему обработки timeseries (временной ряд, англ) написано множество статей и создано несчетное количество часов видео. Но, попробуйте задать поисковой системе вопрос: как работать с временными рядами. Уверен, вы закопаетесь в многообразии ссылок, похожих по смыслу и содержанию. Однако, ни одна из них не ответит на вопрос полностью.

Подготовка данных Machine Learning
Картинка анонса

Оптимизация запросов HIVE

В Hive запросы даже небольших объемов данных занимают минуты. Предлагаем ознакомиться с основными методами автоматизации, позволяющими достичь существенного увеличения производительности.

Загрузить ещё