Превью для статьи

Обработка больших данных при помощи библиотеки .NET for Apache Spark

В наше время остро стоит вопрос обработки больших данных, за все годы развития компьютерной инфраструктуры было накоплено и продолжает накапливаться огромное количество различных данных и старые методы их интерпретации уже не могут считаться оптимальными.
В моей работе я часто сталкиваюсь с необходимостью загрузки, трансформации, интерпретации различных данных и в этом посте я расскажу об использованном мной инструменте — фреймворке .NET for Apache Spark

Превью для статьи

Codeium и StarCoder: нейросети с автодополнением кода

В мире технологий происходит настоящая революция. На передовом фронте этой революции стоят нейронные сети — мощные и удивительные инструменты искусственного интеллекта, которые сегодня изменяют наше представление о возможностях компьютеров. Сегодня мы познакомим вас с двумя моделями-помощниками с автодополнением кода: StarCoder и Codeium.

Превью для статьи

Деревья решений в pySpark: от семечка до параметрической оптимизации случайного леса

Меня зовут Клим, и сегодня я буду вашим проводником в PySpark MLlib. В этом посте я расскажу о простом для понимания, но в то же время достаточно эффективным алгоритме — дерево решений, а также его расширенной модификацией случайные леса решений.

Превью для статьи

Feature engineering и кластерный анализ клиентов на PySpark

Кластеризация клиентов является важным инструментом, так как позволяет лучше понимать клиентов и предлагать им более персонализированный сервис. Также она может быть полезна для компании в поиске решения при возникновении проблем с клиентами. Побробнее в публикации.

Превью для статьи

Как привести динамически-структурированные JSON в формат Key: Value

В данном посте я показываю способ обработки json строк с помощью языка программирования scala, когда схема файла заранее неизвестна или может быть изменена.

Превью для статьи

Microsoft Bing и ChatGPT – buddy DA/DS-аудитора

Кто такой buddy? Человек, который может подсказать решение, когда ты зашёл в тупик, подскажет, как лучше прокачать навыки, ответит, если тебе что-то непонятно. Личный buddy – мечта любого. Мы с моим коллегой DA/DS-аудиторы и решили протестировать новые инструменты: ChatGPT, чат поисковика Bing и выяснить, смогут ли они стать нашими buddy.

Превью для статьи

Оптимизации работы Jupyter notebook при помощи параллельных вычислений (Библиотека Joblib)

В данном посте я расскажу о возможностях применения параллельных вычислений в интерактивной среде Jupyter notebook языка Python.