SQL
Картинка анонса

Pipelined или Конвейерная функция

В 1913 году Генри Форд запустил первый сборочный конвейер по сборке генераторов. Как итог: сокращение сборки генератора с 20 до 5 минут. Принцип готовый промежуточный результат передается дальше по конвейеру был применен в специальных функциях Oracle.

SQL
Картинка анонса

Pipelined или Конвейерная функция

В 1913 году Генри Форд запустил первый сборочный конвейер по сборке генераторов. Как итог: сокращение сборки генератора с 20 до 5 минут. Принцип готовый промежуточный результат передается дальше по конвейеру был применен в специальных функциях Oracle.

Pandas NLP
Картинка анонса

BigARTM – тематическое моделирование на Python

Одной из задач обработки естественного языка является разделение коллекции текстов на темы, а также, выделение ключевых слов. Это делается для того, чтобы категорировать документы, например, для удобного поиска или получения общего представления о всей коллекции.
В данной статье рассказывается о библиотеке BigARTM (Python) для разделения текстов по тематикам.

Анализ данных Pandas
Картинка анонса

От Pandas к Dask

Приходится ли Вам обрабатывать табличные данные на персональных компьютерах? Зачастую обработка таких данных выполняется с помощью Python и библиотеки Pandas.
Несмотря на удобство и широкий функционал библиотеки Pandas, обработка с её помощью больших наборов данных становится затруднительной. Преодолеть ограничения, связанные с большим объемом данных, позволяет библиотека Dask.

Анализ данных Python
Картинка анонса

Как вырастить дерево при помощи Python.

Бывает так, что IT-сотрудник для анализа данных подключает библиотеку и бездумно использует все представленные в ней методы, совершенно не понимая, какие алгоритмы и механизмы находятся «под капотом». Поэтому в рамках этой статьи мы разберём простейший алгоритм «Дерево решений» из библиотеки sklearn, а точнее, как он работает с точки зрения математики и теории вероятностей, как алгоритм «учится», и что происходит, когда мы передаём ему данные для обучения.

Text mining Python
Картинка анонса

Инструменты для решения NER-задач для русского языка

В нашей деятельности довольно часто приходится работать с большими объемами документов, к примеру, исполнительными листами, заявлениями, договорами, из текстов которых нам зачастую необходимо извлечь весьма конкретную информацию: ФИО, даты рождения, наименования должности, паспортные данные, адрес, ИНН и наименование компаний, даты подписания документов и так далее. Всё это относится к задаче распознавания именованных сущностей (NER). Так какие инструменты могут помочь нам в решении данной задачи для русского языка?

Анализ данных Python
Картинка анонса

Многопоточная дешифровка и транскрибация записей телефонных переговоров системы NICE

В этой статье мы хотим познакомить читателей с опытом применения продукта от компании NICE Systems — системой NICE Interaction Management. Данная система обеспечивает тотальную запись разговоров, экранов и всех сопутствующих CTI-данных работы операторов контактных центров.

Подготовка данных Анализ данных
Картинка анонса

QlikView трансформация данных и построение модели

В данной статье я хочу описать основные отличия синтаксиса в QV от SQL и схемы модели данных.

Загрузить ещё