Превью для статьи

Что, где, откуда: извлекаем реляционный датасет из JSON

Всем привет!
В публикации разберу, как извлечь реляционный датасет из JSON

Превью для статьи

В погоне за космическим Титаником

Хочу рассказать об опыте применения разведочного анализа (EDA) для улучшения точности ML-модели, на примере задачи из соревнования Spaceship Titanic

Превью для статьи

Применение простых Автоэнкодерных архитектур в задачах поиска аномалий при максимально несбалансированных данных

В посте хочу поделиться способом решения задач классификации, а именно поиска аномалий, при помощи неприспособленного, на первый взгляд, для этого инструмента — автоэнкодера.

Превью для статьи

«Чекаем чеки» или менее известные инструменты для OCR

Для того, чтобы машина могла получить данные из физических документов, применяются технологии оптического распознавания символов (OCR). Наиболее распространённым инструментом для OCR до развития нейронных сетей являлся движок tesseract. Помимо него являются популярными продукты компании ABBYY, например ABBYY FineReader. Однако существуют и другие инструменты OCR, о которых знают немногие. О них и расскажем в этом посте.

Превью для статьи

Numpy и Pillow для генерации изображений

Необходимо сгенерировать изображения, не затрачивая при этом много времени? Предлагаю обратить внимание на две библиотеки, которые помогут это сделать — Pillow и Numpy.

Превью для статьи

Быстрый старт в Apache Spark ML

В рамках публикации расскажу о первоначальной обработке данных датасета, а также об обучении модели градиентного бустинга. Покажу базовые трансформации и действия, необходимые для получения результата обучения модели, что послужит хорошим и быстрым стартом для понимания работы Spark ML

Превью для статьи

Оценка качества работы систем Speech to Text

Привет! Передо мной стояла задача транскрибации большого количества телефонных разговоров. В этом посте расскажу об основных и альтернативных метриках качества, применяемых для оценки работы систем автоматизированного распознавания речи, а также об ошибках в распознавании слов и символов.

Data News