Превью для статьи

Обработка больших данных при помощи библиотеки .NET for Apache Spark

В наше время остро стоит вопрос обработки больших данных, за все годы развития компьютерной инфраструктуры было накоплено и продолжает накапливаться огромное количество различных данных и старые методы их интерпретации уже не могут считаться оптимальными.
В моей работе я часто сталкиваюсь с необходимостью загрузки, трансформации, интерпретации различных данных и в этом посте я расскажу об использованном мной инструменте — фреймворке .NET for Apache Spark

Превью для статьи

Codeium и StarCoder: нейросети с автодополнением кода

В мире технологий происходит настоящая революция. На передовом фронте этой революции стоят нейронные сети — мощные и удивительные инструменты искусственного интеллекта, которые сегодня изменяют наше представление о возможностях компьютеров. Сегодня мы познакомим вас с двумя моделями-помощниками с автодополнением кода: StarCoder и Codeium.

Превью для статьи

Как управлять своими задачами с помощью телеграм-бота на JS

Telegram — одна из популярных социальных сетей. Большую часть времени проводя в telegram, в какой-то момент я подумала, что было бы удобно управлять своими задачами, не выходя из приложения, просто перейдя из диалога с другом в диалог с ботом.
В данной публикации я расскажу о создании телеграм-бота на JS.

Превью для статьи

Безопасность решений контроля доступа на объект

Привет! В данной публикации я расскажу о системах СКУД, уязвимостях устаревших технологий и средствах защиты от внешнего вмешательства.

Превью для статьи

Функции и процедуры в Greenplum

Сегодня расскажу, как я использовал функции и процедуры в Greenplum и как мне удалось существенно оптимизировать запрос с использованием функции.

Превью для статьи

Извлечение открытых данных сайта zakupki.gov.ru с помощью СУБД BaseX

Благодаря концепции открытого правительства, развиваемой в России, в свободном доступе появляются данные о работе государственных органов. Одной из таких площадок с данными является сайт Единой информационной системы (ЕИС) в сфере закупок. Там есть удобный поиск информации, но гораздо больше полезного можно найти на FTP версии сайта — ftp://ftp.zakupki.gov.ru, где хранятся архивы XML‑документов с публичной частью информации о состоявшихся закупках: извещения, протоколы, сведения о договорах. В моем случае была задача проверить, а размещаются ли протоколы и сведения о договорах в соответствии с требованиями 223-ФЗ.

Превью для статьи

Как свернуть горы партиций с помощью PySpark

В выгрузке больших данных, расположенных внутри таблиц Hive, Data-инженерам помогает фреймворк Spark. Но все ли так просто? Транзакционные таблицы зачастую имеют колоссальный объем, на обработку которого целиком может не хватать мощностей кластера. В посте я поделюсь своим опытом работы с большими таблицами в условиях ограниченных вычислительных ресурсов.