Обработка документов Python
Картинка анонса

Кастомизация токенизатора Razdel

При работе с текстовыми документами часто возникает необходимость разбить содержимое этого документа на отдельные строки для дальнейшей работы с ними. Для решения этой задачи существуют различные токенизаторы. Однако, документы, обрабатываемые в банковской сфере, очень часто имеют специфический формат и без дополнительной настройки эти токенизаторы плохо справляются со своей работой.

Обработка документов Python
Картинка анонса

Кастомизация токенизатора Razdel

При работе с текстовыми документами часто возникает необходимость разбить содержимое этого документа на отдельные строки для дальнейшей работы с ними. Для решения этой задачи существуют различные токенизаторы. Однако, документы, обрабатываемые в банковской сфере, очень часто имеют специфический формат и без дополнительной настройки эти токенизаторы плохо справляются со своей работой.

Python Machine Learning
Картинка анонса

Топ 8 «потайных» библиотек Python для ML в 2021 году

Python – один из самых часто используемых при машинном обучении языков программирования. На данный момент насчитывается более 137 000 библиотек и 198 000 пакетов, применяемых в данной области. В сообществе DataScientist-ов наиболее популярны pandas, NumPy – для манипуляций с данными, matplotlib, seaborn, plotpy – для визуализации данных, scikit-learn, TensorFlow – для разработки моделей. Однако, в этой статье мы расскажем о малоизвестных в мире DS библиотеках.

Саморазвитие
Картинка анонса

Исследования в области распознавания русского рукописного текста при помощи нейросетевых технологий. Реализация и тестирование прототипа

Недавно мы работали над задачей автоматического распознавания русского рукописного текста. В этой статье я расскажу непосредственно про использованную нами модель (нейронную сеть), её архитектуру, тренировку и результаты, которых удалось достичь.

Саморазвитие
Картинка анонса

Решение задачи классификации с помощью нейронной сети и Python

В данной статье мы посмотрим, как можно решить задачу классификации и помощью нейронной сети на языке Python, а также разберемся, какие показатели влияют на точность нейронной сети.

Саморазвитие
Картинка анонса

Инструкция к применению «Как установить PySpark на Windows и сделать в нём Word2Vec»

Мы говорим Big Data, подразумеваем — Apache Spark. Сейчас это, пожалуй, самый мощный и модный фреймворк для распределённой обработки больших данных в задачах Data Science, поэтому для всех аналитиков как никогда важна задача изучения Spark и получения практических навыков работы с ним. Однако привычная среда обитания Spark — это, как правило, серверные кластеры промышленного масштаба […]

Python Pandas
Картинка анонса

Pandas. Как изменить значения внутри Dataframes?

В этой статье я расскажу о том, что означает предупреждение при работе с библиотекой Pandas: “SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame” и о том, как правильно присваивать значения внутри датафрейма.

Саморазвитие
Картинка анонса

Поможет ли ML найти идеальную пару?

Каким образом используя набор признаков можно найти человека, который тебе точно понравится?

Загрузить ещё