Превью для статьи

Использование библиотеки vaex для обработки больших объёмов данных

При работе с большими датасетами, используя стандартные средства Pandas, может возникнуть проблема недостатка оперативной памяти, что приведёт к невозможности обработать эти данные. Для таких случаев был разработан ряд вспомогательных библиотек, рассмотрю одну из них – vaex

Превью для статьи

Python – наше всё: поиск строк в файле по ключевым словам

Устали фильтровать данные в excel? Тогда присоединяйтесь! Вы узнаете, как с помощью Python осуществить поиск строк в файле по ключевым словам в столбцах.

Превью для статьи

Подбор параметров для построения модели для различных видов переменных

При построении моделей, не зависимо от используемого метода, выбор используемых при построении признаков оказывает значительное влияние на результат. Правильный подбор и фильтрация позволяют не только ускорить обработку данных, но и вероятно улучшить качество модели в целом. Именно поэтому правильный алгоритм определения значимых признаков играет большую роль, что и будет рассмотрено в данной статье.

Превью для статьи

Дисбаланс классов при классификации

При решении практических задач классификации часто приходится сталкиваться с дисбалансом классов. Такая ситуация может влиять на итоговый результат модели. Хочу рассказать, как дисбаланс и его устранение отражается на результатах классификации на примере простого классификатора логистической регрессии.

Превью для статьи

Не тормози! Используй DASK!

Чем больше у нас данных, тем больше возможностей у аудитора извлечь из них полезную в работе информацию. Однако сбор данных — это только часть задачи, первый этап. Аудитору необходимо решить и где их хранить, и как обработать.
Обычно для этого используются проверенные временем инструменты, например, Pandas и NumPy. Они эффективны и пользуются большим доверием.
По мере увеличения объёма данных мы начинаем сталкиваться с физическими ограничениями этих инструментов. Отчасти эта проблема решается увеличением объёма оперативной памяти. Но это не всегда возможно и только отодвигает проблему, не решая её принципиально. Также хотелось бы иметь возможность обрабатывать данные параллельно на нескольких компьютерах или используя несколько процессоров/ядер. Для решения задач можно было бы перейти к более масштабируемому решению, такому как Spark, но, зачастую, такая доработка требует много времени.
Разве не было бы замечательно, если бы вы могли сделать это в своей системе локально, а при необходимости и масштабировать до кластера? В этом может помочь Dask.

Превью для статьи

Сбор данных с обходом капчи посредством PyAutoGui, Keras и Tensorflow

Как увеличить скорость работы в сравнении с человеческими ресурсами.

Превью для статьи

Инструменты для решения NER-задач для русского языка

В нашей деятельности довольно часто приходится работать с большими объемами документов, к примеру, исполнительными листами, заявлениями, договорами, из текстов которых нам зачастую необходимо извлечь весьма конкретную информацию: ФИО, даты рождения, наименования должности, паспортные данные, адрес, ИНН и наименование компаний, даты подписания документов и так далее. Всё это относится к задаче распознавания именованных сущностей (NER). Так какие инструменты могут помочь нам в решении данной задачи для русского языка?

Data News