Text mining Python
Картинка анонса

Можно ли научить модель понимать содержание текста?

В школе каждый из нас сталкивался с пересказом текста: читаешь главу из 10 страниц, а дальше у тебя есть 5 минут, чтобы коротко изложить классу и учителю, что важного ты узнал из прочитанного. Невозможно выучить текст, как стихотворение, поэтому переработав прочитанную информацию, каждый из нас старался ее обобщить. То же самое в некотором приближении может повторить и модель машинного обучения.

Text mining Python
Картинка анонса

Можно ли научить модель понимать содержание текста?

В школе каждый из нас сталкивался с пересказом текста: читаешь главу из 10 страниц, а дальше у тебя есть 5 минут, чтобы коротко изложить классу и учителю, что важного ты узнал из прочитанного. Невозможно выучить текст, как стихотворение, поэтому переработав прочитанную информацию, каждый из нас старался ее обобщить. То же самое в некотором приближении может повторить и модель машинного обучения.

Обработка документов C#
Картинка анонса

Рецензирование DOCX на C#

В этом году я учувствовал в конкурсе по реализации сервиса, который должен проверять формат оформления документов и вносить изменения в режиме правки. Существующие библиотеки либо не решали эту задачу вовсе, либо оказались платными. Было принято решение погрузиться в формат документа MS Word (Office Open XML) и написать свою библиотеку на .net Framework.

Обработка документов Python
Картинка анонса

Делаем автореферат со Spacy и экстрактивной суммаризацией

При работе с большим количеством текстовых данных часто возникает потребность в усечении текста с целью выделения основной его сути. В целом, наличие краткой аннотации или автореферата документов может значительно ускорить процесс их обработки и фильтрации.

Обработка документов GO (Golang)
Картинка анонса

Ускоряемся с GO

Анализ данных в эпоху нарастающей Big Data требует от инструментов всё большей производительности: уменьшение времени обработки при увеличении объёмов данных. Рассмотрим один из способов её увеличения.

Обработка документов
Картинка анонса

Создание надстройки VSTO Word для формирования шаблонов документов. Часть 2

В каждом распоряжении всегда присутствуют дата, номер и название, но количество пунктов в тексте всегда отличается. В этой статье мы расскажем, как добавлять новые пункты одним нажатием с помощью надстройки VSTO.

Нейронные сети Python
Картинка анонса

Классификация изображений с помощью TensorFlow и Keras

Классифицировать десятки тысяч скриншотов документов по типу.
Когда стоит такая задача, никто не станет перебирать файлы вручную. В этой статье расскажу о своём опыте классификации изображений с использованием нейросети

Обработка документов Python
Картинка анонса

Чтение текстовых PDF файлов в Python

В работе мы часто сталкиваемся с материалами в формате текстовых PDF файлов. Сегодня поделимся с вами скриптом, который поможет преобразовать PDF формат. В нашем случае задача заключалась в том, чтобы найти ключевые объекты в содержимом файлов.

Загрузить ещё