Обработка больших данных при помощи библиотеки .NET for Apache Spark

Советуем почитать

Обработка больших данных при помощи библиотеки .NET for Apache Spark

Функции и процедуры в Greenplum

Реализация цикличного выполнения запросов с помощью Apache Beeline и командной строки

Избавляемся от продуктов априори – использование ассоциативных правил для поиска комбинаций

Использование функции DATETRUNC() в SQL

Как свернуть горы партиций с помощью PySpark

Data News

16-17 апреля 2024 года

XVI Национальная конференция ИВА «Внутренний аудит в России

26-27 июля 2024 года

PyCon Russia - конференция для python-разработчиков

Превью для статьи

28.12.2023, Станевич Антон, г. Иркутск

Обработка больших данных при помощи библиотеки .NET for Apache Spark

В наше время остро стоит вопрос обработки больших данных, за все годы развития компьютерной инфраструктуры было накоплено и продолжает накапливаться огромное количество различных данных и старые методы их интерпретации уже не могут считаться оптимальными.
В моей работе я часто сталкиваюсь с необходимостью загрузки, трансформации, интерпретации различных данных и в этом посте я расскажу об использованном мной инструменте — фреймворке .NET for Apache Spark

Databases and big data Другие технологии

Превью для статьи

21.11.2023, Котов Илья, Коробова Марина, г. Екатеринбург

Codeium и StarCoder: нейросети с автодополнением кода

В мире технологий происходит настоящая революция. На передовом фронте этой революции стоят нейронные сети — мощные и удивительные инструменты искусственного интеллекта, которые сегодня изменяют наше представление о возможностях компьютеров. Сегодня мы познакомим вас с двумя моделями-помощниками с автодополнением кода: StarCoder и Codeium.

Machine learning and neural networks Технологии аудита

Превью для статьи

19.10.2023, Портнов Клим, г. Москва

Деревья решений в pySpark: от семечка до параметрической оптимизации случайного леса

Меня зовут Клим, и сегодня я буду вашим проводником в PySpark MLlib. В этом посте я расскажу о простом для понимания, но в то же время достаточно эффективным алгоритме — дерево решений, а также его расширенной модификацией случайные леса решений.

Machine learning and neural networks Технологии аудита

Превью для статьи

12.10.2023, Смолюк Анастасия,г. Екатеринбург; Путилова Елена,г. Екатеринбург

Feature engineering и кластерный анализ клиентов на PySpark

Кластеризация клиентов является важным инструментом, так как позволяет лучше понимать клиентов и предлагать им более персонализированный сервис. Также она может быть полезна для компании в поиске решения при возникновении проблем с клиентами. Побробнее в публикации.

Machine learning and neural networks Технологии аудита

Превью для статьи

19.09.2023, Егорова Анна, г. Москва

Как привести динамически-структурированные JSON в формат Key: Value

В данном посте я показываю способ обработки json строк с помощью языка программирования scala, когда схема файла заранее неизвестна или может быть изменена.

Data manipulation Другие технологии

Превью для статьи

28.08.2023, Кулакова Алена, Ангелов Иван, г. Новосибирск

Microsoft Bing и ChatGPT – buddy DA/DS-аудитора

Кто такой buddy? Человек, который может подсказать решение, когда ты зашёл в тупик, подскажет, как лучше прокачать навыки, ответит, если тебе что-то непонятно. Личный buddy – мечта любого. Мы с моим коллегой DA/DS-аудиторы и решили протестировать новые инструменты: ChatGPT, чат поисковика Bing и выяснить, смогут ли они стать нашими buddy.

Graph mining Технологии аудита

Превью для статьи

31.07.2023, Серов Александр, г. Екатеринбург

Оптимизации работы Jupyter notebook при помощи параллельных вычислений (Библиотека Joblib)

В данном посте я расскажу о возможностях применения параллельных вычислений в интерактивной среде Jupyter notebook языка Python.

Data manipulation Другие технологии