Превью для статьи

Codeium и StarCoder: нейросети с автодополнением кода

В мире технологий происходит настоящая революция. На передовом фронте этой революции стоят нейронные сети — мощные и удивительные инструменты искусственного интеллекта, которые сегодня изменяют наше представление о возможностях компьютеров. Сегодня мы познакомим вас с двумя моделями-помощниками с автодополнением кода: StarCoder и Codeium.

Превью для статьи

A/B тестирование: как сделать правильный выбор?

А/В-тестирование – метод, который используется для сравнения двух версий переменной, например, дизайна сайта при маркетинговом исследовании с целью выявления лучшей версии. Это критически важный метод исследования в Data Science, который часто используется различными организациями при принятии решений с целью оптимизации существующего продукта и максимизации прибыли. В посте расскажу об этой теме подробнее.

Превью для статьи

Выявление неявных связей при анализе графов или как увидеть незримое

Неявные связи в графах. Что это и как с ними работать, разберу на примерах

Превью для статьи

Как почистить данные, не удаляя лишние знаки

Рассмотрим кейс быстрой очистки данных с использованием токенайзера python-библиотеки Natasha.

Превью для статьи

Визуализируем данные из xml в виде социальной сети

Вы наверняка часто слышали об XML и вам известно хотя бы одно приложение, экспортирующее данные в этот формат. XML имеет большую совместимость и благодаря этому применяется для обмена данными между базами данных и пользовательскими компьютерами. Но как именно с ним работать и анализировать? Разберу практическую задачу с экспортированными данными в XML и визуализацией этих данных

Превью для статьи

Почему ваш pandas работает в 3000 раз медленнее?

Наверное, все пользователи pandas знают, что многие действия можно сделать разными способами. Но далеко не каждый понимает, в чем разница, и почему их код может работать более чем в 3000 раз медленнее, чем у соседа. Давайте разберемся, в чём проблема.

Превью для статьи

Koalas – Pandas для Spark.

Koalas – Python-библиотека, которая внедряет Pandas API поверх Apache Spark.
В сферах анализа данных, Pandas является библиотекой по умолчанию. Большинство специалистов по обработке данных начинают именно с Pandas и Numpy, а затем, при необходимости, переходят на другие библиотеки.
Pandas отлично подходит для анализа малого количества данных. При столкновении же с большими наборами данных не обойтись без использования Spark.