Превью для статьи

Zero-shot classification

Zero-shot классификация текстов представляет из себя задачу классификации, где модель не нуждается в обучении. Модель способна предсказать, к какому из заданных пользователем классов с наибольшей вероятностью относится текст

Превью для статьи

Параллельная обработка и преобразование JSON-фалов в Pandas

Структурированные данные – хорошо, а полуструктурированные – не проблема. Формат json хоть и является очень популярным, однако не очень удобен для анализа, особенно если данных много, и они разделены на отдельные файлы. Давайте разберем процесс преобразования множества json-файлов различной структуры в привычный аналитикам pandas.DataFrame.

Превью для статьи

Основы работы со Spark DataFrame

При работе с распределенными базами данных, возникают задачи, которые, ввиду технических ограничений, сложно или невозможно решить с помощью всем привычного пакета Pandas на Python. Решением может стать использование распределенных вычислений Spark и его собственных DataFrame.

Превью для статьи

Визуализируем данные из xml в виде социальной сети

Вы наверняка часто слышали об XML и вам известно хотя бы одно приложение, экспортирующее данные в этот формат. XML имеет большую совместимость и благодаря этому применяется для обмена данными между базами данных и пользовательскими компьютерами. Но как именно с ним работать и анализировать? Разберу практическую задачу с экспортированными данными в XML и визуализацией этих данных

Превью для статьи

Создание кросс-таблиц

В ходе анализа данных периодически возникает потребность в их обобщении, а именно создания кросс-таблиц. Кросс-таблица — это сводная таблица, заголовки в которой могут располагаться как по строкам, так и по столбцам, позволяя отобразить взаимосвязь двух и более переменных друг с другом.
В построении таких таблиц поможет Pandas

Превью для статьи

Компьютерное зрение в поиске атмосферных осадков

Компьютерное зрение решает задачи поиска, отслеживания и классификации объектов в самых разнообразных областях: промышленности, медицине, сфере безопасности. Одно из возможных новых применений компьютерного зрения — выявление атмосферных осадков при помощи видеокамер наружного наблюдения. Поговорим о том, как можно реализовать такой алгоритм.

Превью для статьи

Алгоритмы для выделения ключевых слов: Rake, YAKE!, TextRank

Добрый день! Сегодня речь пойдет про алгоритмы выделения ключевых слов Rake, YAKE! И TextRank. Выделение ключевых слов становится все более актуальным с постоянным ростом объемов текстовой информации, которую необходимо каким-то образом классифицировать по тематике. Рассмотренные модели обладают интересными свойствами и преимуществами по сравнению с классическими алгоритмами, поскольку не требуют обучения.

Data News