Превью для статьи

Полируем Parquet

Порой случается так, что различные данные невозможно загрузить, обработать и сохранить для передачи или дальнейшей обработки из-за их большого объема. Тем не менее эту проблему можно решить путем грамотного выбора формата их хранения.

Превью для статьи

Parquet что это такое и зачем пригодился?

Как сделать большую выборку данных и сохранить результат для последующей обработки?

Превью для статьи

Ищем выбросы. Критерий Шовене

Поиск выбросов, аномалий. Эта тема актуальна если исследователь — аналитик хочет получить адекватные результаты и избежать эффекта GIGO ( garbage in, garbage out — «мусор на входе — мусор на выходе»). Рассмотрим один из способов выявления аномальных выбросов – критерий Шовене.

Превью для статьи

Самостоятельная разметка данных для распознавания русского рукописного текста

В данной статье я опишу наш опыт создания датасета для обучения модели распознавания рукописного текста.
Предварительный анализ работ по этой теме показал, что в публичном доступе отсутствуют размеченные наборы данных на русском языке. Доступные данные либо описывают английский текст, либо не доступны для коммерческого использования. Нам не подходило такое условие, поэтому единственным вариантом стало создание собственных данных.

Превью для статьи

Process mining текстовых чатов по сделкам с недвижимостью

Определяем логику процесса запроса документов по сделкам с недвижимостью с помощью текстовых чатов

Превью для статьи

Анализ сообщений коммерческого чата на предмет игнорирования вопроса клиента на основе модели NLP

В этой статье расскажем о методе извлечения информации из текстовых сообщений чата компании. Посмотрим высоко-рисковые чаты, которые содержат случаи игнорирования клиентов и требуют дополнительного анализа и решений. Применим одну из моделей NLP

Превью для статьи

Что выбрать, TEXT или VARCHAR(MAX)?

Какой тип данных для текстовых полей в MS SQL лучше выбрать, text или varchar(MAX)? Расскажем в этой статье.