Превью для статьи

Codeium и StarCoder: нейросети с автодополнением кода

В мире технологий происходит настоящая революция. На передовом фронте этой революции стоят нейронные сети — мощные и удивительные инструменты искусственного интеллекта, которые сегодня изменяют наше представление о возможностях компьютеров. Сегодня мы познакомим вас с двумя моделями-помощниками с автодополнением кода: StarCoder и Codeium.

Превью для статьи

Быстрый старт в Apache Spark ML

В рамках публикации расскажу о первоначальной обработке данных датасета, а также об обучении модели градиентного бустинга. Покажу базовые трансформации и действия, необходимые для получения результата обучения модели, что послужит хорошим и быстрым стартом для понимания работы Spark ML

Превью для статьи

Spark способы оптимизации запросов

Основная проблема при работе с BigData – это не написание скрипта для получения результата, а максимальное сокращение времени его работы и объема затрачиваемых ресурсов. Для решения этих задач отлично подходит Apache Spark с его удивительно гибкими возможностями по оптимизации кода. Сегодня я опишу несколько способов оптимизации запросов.

Превью для статьи

ML на распределенных данных

При работе с большими данными часто используются алгоритмы ML. Так как большие данные хранятся в распределённых хранилищах, то для работы с ML, в классическом варианте, нужно сначала собрать все данные в одно место, а потом начать работу сними – это не всегда удобно. Но есть более интересный и удобный вариант – библиотека MLlib Apache Spark.

Превью для статьи

Конфигурирование SparkSession

Добрый день, друзья!
Сегодня мы продолжим рассматривать Spark, в частности расскажем о способах конфигурирования SparkSession.

Превью для статьи

Параметрическая оптимизация задач Spark

Скорость обработки больших данных средствами фреймворка Apache Spark во мно-гом обеспечивается грамотной настройкой его параметров. Об этом мы и поговорим в данной статье

Превью для статьи

Что такое Spark и с чем его едят?

Статья больше рассчитана для новичков, кто впервые сталкивается со Spark. Сейчас кол-во информации растет, и требуются ресурсы и время для ее обработки. В связи с этим на свет появляться модель MapReduce, которая параллельно вычисляет операции на кластерах.
MapReduce отлично упрощает анализ big data на больших, но ненадежных кластерах. Стоит отметить, что с ростом популярности фреймворка пользователи хотят большего.