Превью для статьи

Генерация паспортных данных для обучения моделей

Для тренировки нейронных сетей необходимы датасеты с достаточным количеством тренировочных данных. Зачастую в рамках разработки ML‑модели, именно составление датасета, пригодного для её обучения, занимает большую часть времени и усилий. В случае, если датасет нельзя составить из реальных данных, прибегают к генерации синтетических данных

Превью для статьи

LLM’ы в преобразовании запроса на естественном языке в SQL (text2sql)

Данные занимают центральное место в информационном обществе. Именно информация является основой для принятия решений, развития бизнеса и научных исследований. Многие организации инвестируют огромные средства в системы, способные хранить, обрабатывать и анализировать данные.

Превью для статьи

Создание персонажей в Python с помощью LLM: from GPT to Kandinsky

Поделюсь опытом использования больших языковых моделей (LLM) для создания персонажей с Python и моделей OpenAI и Sber.

Превью для статьи

Codeium и StarCoder: нейросети с автодополнением кода

В мире технологий происходит настоящая революция. На передовом фронте этой революции стоят нейронные сети — мощные и удивительные инструменты искусственного интеллекта, которые сегодня изменяют наше представление о возможностях компьютеров. Сегодня мы познакомим вас с двумя моделями-помощниками с автодополнением кода: StarCoder и Codeium.

Превью для статьи

Создай, оформи, опубликуй. Sphinx — незаменимый помощник в мире Python документации

В данном посте пройдём путь от знакомства с мощным инструментом для документации Sphinx до публикации нашей собственной документации на GitHub Pages. Мы узнаем насколько широко Sphinx используется в мире открытого исходного кода, включая такие проекты как Django, The Linux Kernel, TensorFlow, Pandas и многие другие.

Превью для статьи

Генерация синтетических изображений с использованием диффузионно-трансформерной модели (DiT)

Нередко на практике, когда работаешь с алгоритмами машинного обучения, а в особенности с нейронными сетями, сталкиваешься с проблемой нехватки данных для нормального обучения модели или хотя бы получения более‑менее стабильного результата. Вот и мы оказались в подобной ситуации, решая задачу компьютерного зрения, связанную с анализом наличия нарушений в помещениях закрытого типа: нужных изображений оказалось недостаточно для качественной модели, аугментация нам не сильно помогла, а спарсить изображения из Интернета оказалось невозможно из‑за специфики данных.

Превью для статьи

GAN-модели для генерации набора данных из изображений

Для машинного обучения в специфических областях очень остро стоит проблема нехватки данных для обучения. В посте рассмотрю один из способов генерировать изображения