Анализ данных Python
Картинка анонса

Простая обработка возобновляющихся данных или как создать легко воспроизводимый DS проект.

Сегодня уделим внимание инструменту Kedro, который позволяет создавать структурированный проект анализа данных с простой настройкой и воспроизведением в другом рабочем пространстве.

Анализ данных Python
Картинка анонса

Простая обработка возобновляющихся данных или как создать легко воспроизводимый DS проект.

Сегодня уделим внимание инструменту Kedro, который позволяет создавать структурированный проект анализа данных с простой настройкой и воспроизведением в другом рабочем пространстве.

Обработка документов
Картинка анонса

Python и стандартная библиотека zipfile

Статья о том, как сократить время и объем данных за счет Python и стандартной библиотеки ZipFile.

Python Pandas
Картинка анонса

Поиск и обработка информации на файловых ресурсах

Рассказываем, как можно реализовать инструмент, с помощью которого можно будет работать с содержимым файлов разных форматов и записывать результаты поиска в удобном формате.

Обработка документов SQL
Картинка анонса

SQL Server: заменяем управляющие символы ASCII

В этой статье мы рассмотрим функцию replace и созданную пользовательскую функцию Rep_ASCII, позволяющие упростить очистку данных от печатаемых и непечатаемых символов ASCII, что является наиболее сложным в процессе ETL

Text mining Python
Картинка анонса

Можно ли научить модель понимать содержание текста?

В школе каждый из нас сталкивался с пересказом текста: читаешь главу из 10 страниц, а дальше у тебя есть 5 минут, чтобы коротко изложить классу и учителю, что важного ты узнал из прочитанного. Невозможно выучить текст, как стихотворение, поэтому переработав прочитанную информацию, каждый из нас старался ее обобщить. То же самое в некотором приближении может повторить и модель машинного обучения.

Обработка документов C#
Картинка анонса

Рецензирование DOCX на C#

В этом году я учувствовал в конкурсе по реализации сервиса, который должен проверять формат оформления документов и вносить изменения в режиме правки. Существующие библиотеки либо не решали эту задачу вовсе, либо оказались платными. Было принято решение погрузиться в формат документа MS Word (Office Open XML) и написать свою библиотеку на .net Framework.

Обработка документов Python
Картинка анонса

Делаем автореферат со Spacy и экстрактивной суммаризацией

При работе с большим количеством текстовых данных часто возникает потребность в усечении текста с целью выделения основной его сути. В целом, наличие краткой аннотации или автореферата документов может значительно ускорить процесс их обработки и фильтрации.

Загрузить ещё