Шильников Сергей
Эксперт в области Data Science,
Machine Learning.
Руководитель отдела по
внедрению AI технологий
в компании.

2021-04-06

Примерно месяц назад многие (и я здесь тоже) писали про созданный компанией MyHeritage инструмент на основе машинного обучения Deep Nostalgia: он позволял слегка оживить старые фотопортреты с помощью всего нескольких элементов мимики: моргание, легкая улыбка, наклон головы. Сделано было деликатно и со вкусом: сейчас компания отчиталась, что были загружены и обработаны 72 миллиона фотографий. Учитывая такой успех, там решили не останавливаться и добавили ещё несколько возможностей — воздушный поцелуй, например. Вторая волна интереса вряд ли сравнится с первой, но если результаты первых проб понравились, есть смысл продолжить ;) https://gizmodo.com/deep-nostalgia-can-now-make-old-photos-of-your-relati-1846620089

2021-04-06

Дайджест. Выпуск от 03.04.2021-05.04.2021 № 3 (3) События ● Разработку «гугломобиля» возглавил выходец из России. Выходец из России Дмитрий Долгов, сооснователь и технический директор Waymo – входящего в Aphabet (Google) разработчика беспилотных автомобилей, занял пост главы компании. Вместе с ним должность CEO разделит Текедра Мавакана, бывший операционный директор Waymo. »»» ● Астраханский школьник стал победителем Всероссийского космического конкурса. В Нальчике завершилась «Космическая программа «Сириус-2021». Это заключительный этап общероссийской программы «Дежурный по планете», объединяющей технологические конкурсы и проекты для школьников и студентов в области космоса. »»» ● Ученые разработали игру, чтобы показать риски распознавания эмоций искусственным интеллектом. Исследователи Кембриджского университета создали онлайн-игру Emojify, которая демонстрирует возможности технологий распознавания эмоций человека. С ее помощью ученые надеются повысить осведомленность о технологии и способствовать широкому обсуждению ее использования, пишет The Guardian. »»» ● Создание Центра компетенций в области искусственного интеллекта обсудили в Академгородке. В этом году после долгого перерыва возобновил работу Клуб межнаучных контактов – неофициальная площадка научного сообщества новосибирского Академгородка. Очередное заседание 2 апреля было посвящено вопросам развития технологий, основанных на искусственном интеллекте. В заседании приняли участие министр науки и инновационной политики Новосибирской области Алексей Васильев, руководитель Сибирского отделения РАН Валентин Пармон, ведущие ученые математических институтов Академгородка, ректора вузов и представители ИТ-компаний. »»» ● Искусственный интеллект хотят внедрить в российские суды. В «Сколково» разработали концепцию машиночитаемого права. Рабочая группа «Нормативное регулирование» при АНО «Цифровая экономика» из российского инновационного центра «Сколково» одобрила концепцию права, понятного для алгоритмов, и направила её в Минэкономразвития. Об этом 5 апреля сообщает РБК. »»» Экономика ● Цена на дополненную реальность под ключ: как формируется стоимость. Все чаще заказчики, рассматривающие AR для своего продукта недоумевают, почему цена на разработку может быть высокой. Давайте подробнее разберем, из чего же формируется стоимость проектов с AR и сколько в среднем требуется времени на разработку решений с применением технологий дополненной реальности. »»» ● Управление цепочками поставок Shell доверят искусственному интеллекту. Accenture в партнерстве с Ripjar, ведущей британской компанией в области аналитики данных, приступила к реализации проекта для Royal Dutch Shell по совершенствованию системы управления рисками в цепочках поставок на базе технологий искусственного интеллекта. »»» ● Данные обезличены. Медицину двигают технологии искусственного интеллекта. Анализ обезличенных медицинских данных пациентов за счет технологий искусственного интеллекта (ИИ) позволит современной медицине сократить время на диагностику и исследования. Особенно это касается интеллектуальных систем анализа компьютерных томограмм легких. »»» Практика ● Коронавирус научились диагностировать по голосу. Новый способ диагностировать коронавирус представили израильские ученые. Для прохождения теста на COVID-19 достаточно просто записать голосовое сообщение, а точность определения превышает 80%. Презентовала новый инструмент израильская компания Vocalis Health, которая получила известность благодаря разработке программного обеспечения для систем на основе искусственного интеллекта и машинного обучения. Об этом сообщается на сайте производителя. »»» ● Искусственный интеллект удалось обучить прогнозировать качество воздуха. Стало известно, что научным экспертам из Соединенных Штатов Америки удалось предсказать качество воздуха с помощью искусственного интеллекта. Авторы работы также отметили, что до сегодняшнего момента с этим не смогли справиться даже спутники и станции. »»» ● Искусственный интеллект написал и исполнил «новые песни‎» Nirvana и Эми Уайнхаус.

2021-04-06

Искусственный интеллект попробовал написать новые треки Nirvana, Джимми Хендрикса и Эми Уайнхаус, взяв за основу по 30 песен каждого исполнителя. Об этом пишет Engadget. »»» Технологии ● MIT: Роботов RF-Grasp научили находить скрытые объекты с помощью радиоволн. Исследователи Массачусетского технологического института использовали радиоволны, чтобы помочь роботам находить скрытые объекты, сообщили в пресс-службе 1 апреля. »»» ● Комплексные системы хранения данных EVi и GSi анонсирует Infortrend. Компания Infortrend® Technology, Inc. (TWSE: 2495), являющаяся ведущим в своей отрасли поставщиком корпоративных хранилищ, вводит в производство новые системы EonServ for AI (EVi) и EonStor GSi (GSi). Эти комплексные системы хранения и вычисления данных обеспечивают организациям высокоэффективную инфраструктуру для реализации целого ряда прикладных задач корпоративного уровня, связанных с использованием искусственного интеллекта, включая граничные вычисления, интеллектуальные системы управления мультимедийными ресурсами, медицинского назначения, анализ посещаемости объектов розничной торговли, распознавание изображений в системах видеонаблюдения и многое другое. »»» ● Google DeepMind might have just solved the “Black Box” problem in medical AI. Искусственный интеллект Google DeepMind смог решить проблему «черного ящика» в медицине. Ключевым препятствием для ИИ в здравоохранении является проблема «черного ящика». Для большинства систем ИИ модель трудно интерпретировать, и трудно понять, почему они ставят определенный диагноз или рекомендации. Это огромная проблема как для врачей, так и для пациентов. »»» Вооружение ● Пентагон объявил о массовом использовании ИИ в военных и оборонных целях. Объединенный центр искусственного интеллекта Пентагона нанимает компании для подготовки военных данных для использования с ИИ. Об этом пишет C4ISRNET. »»» Микс ● Роботы видят сквозь стены, военные используют шлемы Microsoft и другие новости из мира ИИ. ForkLog собрал наиболее важные новости из мира ИИ за прошедшую неделю. »»» Мнение ● Исправьте это немедленно: почему пользователи ненавидят чат-ботов. Практически любой пользователь хотя бы раз сталкивался с чат-ботом или голосовым ассистентом, когда пытался решить вопрос с банком или сотовым оператором. Издатель ИД «Открытые системы» Денис Самсонов рассказывает в колонке для Forbes, почему внедрение новой технологии — это фальстарт и какие технологические проблемы и ошибки на самом деле закрывают виртуальные помощники. »»» ● Эксперт Intel: миру нужны знатоки искусственного интеллекта. В октябре 2019 года в России утвердили Национальную стратегию развития искусственного интеллекта (ИИ) до 2030 года. В числе поставленных задач – вырастить квалифицированные кадры для этой сферы. Развитие навыков по работе с искуственным интеллектом это цель новой образовательной программы Intel® AI for Youth "Технологии искусственного интеллекта для каждого". Зачем миру изучать ИИ, и чем эта сфера привлекательна для молодого специалиста, корреспонденту проекта "Социальный навигатор" рассказал директор по развитию корпоративного бизнеса Intel в России Сергей Жуков. »»» ● «Необходимо договориться о правилах применения искусственного интеллекта». Первый зампред правления Сбербанка Александр Ведяхин — об этических сложностях, грандиозных возможностях и рисках использования машинного разума. »»» ● Винсент Чанг, Advantech: Искусственный интеллект и 5G открывают новые горизонты для автоматизации. Винсент Чанг, генеральный менеджер Advantech в России, рассказал о том, как на стыке промышленного интернета вещей, разработок искусственного интеллекта и сетей связи пятого поколения возникают новые сервисы, а также поделился результатами и планами по развитию бизнеса в России. »»» Наука ● Учёные ускорили термоядерный реактор в 100 раз при помощи ИИ. Учёные из нидерландского университета разработали алгоритм искусственного интеллекта (ИИ), который позволяет ускорить термоядерный реактор.

2021-04-06

https://iz.ru/1146818/khariton-galitckii/neobkhodimo-dogovoritsia-o-pravilakh-primeneniia-iskusstvennogo-intellekta

2021-04-06

Автор статьи предлагает использовать Icecream для дебаггинга. https://proglib.io/w/1076e6ef

2021-04-05

https://youtu.be/06-AZXmwHjo Несмотря на то что 80

2021-04-05

https://youtu.be/06-AZXmwHjo Несмотря на то что ~80% ML проекта занимает работа с данными, в настоящий момент фокус исследователей и DS/AI сообщества прикован к построению самих моделей. При этом на практике бОльший прирост метрики дает улучшение датасета для обучения модели, а не выбором\разработкой лучшей модели. Разработка и введение в пром модели всего лишь важная веха, а не окончательный результат работы команды - тк дальше необходимо выстраивать мониторинг работы модели и реагировать на различные кейсы снижения качества работы модели в проме.

2021-04-04

Бум NFT сопровождается реально творческими находками — и отнюдь не на арт-рынке ;) Вот, например, пара во время церемонии бракосочетания обменялась не кольцами, а токенами : The record of them exchanging these virtual rings will be permanently stored on the Blockchain for all to see as proof of “our commitment to each other”. https://www.news18.com/news/buzz/us-couple-exchanges-nfts-as-virtual-rings-during-wedding-ceremony-3605618.html

2021-04-01

#жзл Сегодня (и это не первоапрельская шутка) день рождения у самого известного человека в российском ML - Воронцова Константина Вячеславовича, более того, ему сегодня исполнилось ровно 50 лет! https://ru.wikipedia.org/wiki/Воронцов,_Константин_Вячеславович

2021-04-01

Друзья, сегодня делимся с вами подборкой полезных приложений, которые научат вас программировать даже в дороге: ✅ Udacity - известный ресурс для обучения программирования выпустил бесплатное приложение (бесплатные курсы по программированию от ведущих экспертов IT-отрасли), пользователь может существенно повысить уровень своего образования. Доступно для Android и iOS. ✅ Javvy - интерактивное учебное пособие по языку программирования Java. Весь курс обучения включает более 150 уроков. Доступно в Google Play и iTunes. ✅ Coursera - Online coursera - бесплатные курсы ведущих университетов мира на Coursera теперь доступны и в виде приложений для Android и iOS. ✅ CodeCombat – одна из самых популярных игр, обучающих программированию. Приложение часто используется в образовательных учреждениях для обучения разработке. Содержит курсы для всех возрастов. Источник: https://tproger.ru

2021-03-31

https://youtu.be/0jeSSBSSQxc

2021-03-30

https://www.sbidea.ru/mk2023/promo Новая модель компетенций Сбера

2021-03-28

Вижу, что часто поступают запросы от новичков по поводу того, что учить и в каком порядке, чтобы войти в сферу работы с данными и получить первую работу. Действительно, сейчас настолько много технологий и инструментов, что во всём этом многообразии легко растеряться. Поэтому, я решил немного внести ясность и написать серию постов о процессе обучения человека, который до этого не имел никакого опыта работы с данными. Также оставлю ссылки на полезные ресурсы, где вы можете получить необходимые знания и навыки. Итак, вот мой список того, что необходимо учить и в каком порядке: 1. Google Sheets / Excel. Если вы находитесь в самом начале пути и никогда на практике не работали хоть с какими-то данными, то нужно начать с самых-самых основ, т.е. изучить фундаментальные принципы работы с данными. Google Sheets или Excel, по моему мнению, отлично подходят для этой задачи, так как здесь вы можете без знаний каких-либо языков программирования "пощупать" данные, сделать все базовые операции с ними и понять разницу между плоской и сводной таблицами:) В Excel вы можете провести быструю оценку данных (посмотреть количество ячеек, сумму значений в конкретном столбце, среднее значение и т.д.), сделать предварительную обработку (поменять тип данных, заменить символы и т.д.) и агрегацию данных (построить сводную таблицу), применить различные функции к данным для дальнейшего анализа. Конечно, очевидно, что со знаниями одного Excel вас вряд ли возьмут на какую-то серьёзную позицию в компании, но вы поймёте фундаментальные концепции и пройдёте практически через все стадии цикла работы с данными. По поводу ресурсов здесь сложно что-то конкретное посоветовать, потому что я учил эксельку в универе ещё) Поэтому, здесь ищите и выбирайте, что вам больше нравится. 2. SQL и теория баз данных. Я уже писал, что SQL - это must have навык для любой позиции в работе с данными. Поэтому, просто учите его и больше практикуйтесь. Как только увидите, что решаете уже задачи средней и высокой сложности, можете уже составлять резюме и стучаться в разные компании на позиции Trainee или Junior. Скорее всего, на этом этапе вы будете помогать в разработке хранилища данных более опытным специалистам, архитекторам и BI-разработчикам. Отсюда вытекает следующий навык) Ресурсы по изучению SQL и теории баз данных: Интерактивный тренажёр по SQL (курс) Оконные функции в SQL Лучшие вопросы средней сложности по SQL на собеседовании аналитика данных Онлайн тренажер с упражнениями по SQL Задачки на LeetCode Глава книги Олега Агапова об инжиниринге данных про теорию баз данных на GitHub 3. Знание BI-инструмента. Я бы рекомендовал в первую очередь изучить либо Power BI, либо Tableau, так как это, наверное, самые популярные инструменты, и они встречаются во многих вакансиях. 2 BI инструмента изучать ни к чему - не будете знать хорошо ни один из них. Выберите какой-то один. После изучения не нужно думать, что вы не готовы к реальной работе и хвататься за очередные курсы, которые вам мало, что дадут. Смело составляйте резюме. Со знаниями SQL и BI-инструмента уже можно получить работу начинающего BI-разработчика и получать реальный опыт. Реальный опыт во много раз ценнее, чем десятки пройденных курсов. Ресурсы по изучению Power BI и Tableau: Полезные материалы по Power BI в одном месте Tableau Tutorial Google Sheets / Excel, SQL и BI - база, которая позволит вам с нуля войти в сферу работы с данными и получать реальный опыт. Дальше вы уже можете выбрать дальнейшее направление для развития. От выбранного направления будет зависеть то, что вам нужно будет изучать. Я выделяю 5 основных направлений: 1) Инжиниринг данных 2) Data-аналитика 3) Продуктовая аналитика и web-аналитика 4) Визуализация 5) Data Science В ближайшие дни опишу навыки и их порядок изучения для каждого направления. Должно быть полезно.

2021-03-28

В прошлом посте я описал навыки, которые необходимы для входа в профессию в работе с данными человеку, который начал свой путь с 0. Также я предоставил ссылки на полезные ресурсы по их освоению. Пост закончился тем, что после освоения базовых навыков, можно углубляться в одно из 5 направлений и развиваться в нём. Поэтому, с этого поста я начну писать о навыках, которые нужны в этих направлениях и так же приложу ссылки на полезные курсы, статьи и видео. И начнём мы с направления Data Engineering - моего любимого направления, в котором я развиваюсь сам) Ок, мы разобрались с экселькой, базами данных, SQL и научились на достаточном уровне пользоваться одним из BI-инструментов. Что учить дальше и в каком порядке, чтобы стать инженером данных? Вот мой список: 1. Принципы ETL/ELT, основные форматы файлов (csv, xlsx, xml, json), архитектура "клиент-сервер", web-технологии (REST API, webhook). Речь здесь идёт больше о понимании технологий, а не конкретных инструментах. Но для понимания принципов ETL/ELT вы можете установить какой-нибудь ETL-инструмент себе на компьютер (например, Pentaho Data Integration) и попробовать построить относительно простые data-пайплайны. Лично я сразу пробовал строить ETL-процесс с использованием Python и SQL, но когда я только начинал разбираться в data-инжиниринге, я не знал о ETL-инструментах с графическим интерфейсом:) Но, если вы никогда не программировали, то такие инструменты будут хорошим вариантом для изучения главного процесса, за который отвечают инженеры данных. Более того, в готовых ETL-инструментах уже есть встроенные средства для ETL-подсистем. С языком программирования внедрять и использовать ETL-подсистемы сложнее и дольше, поэтому и понять все аспекты ETL получится не так быстро, как с GUI. В принципе, вы можете даже посмотреть вакансии ETL-разработчиков. Их не так много, как вакансий на data-инженеров, но они есть, и вы можете уже получить реальный опыт построения ETL-процессов в компании. Полезные ресурсы для изучения: Модуль про ETL от Data Learn Что такое REST API Что такое вебхуки 2. Python. После того, как вы поняли принципы ETL, изучили самые распространённые форматы файлов, с которыми работают инженеры данных и изучили базовые web-технологии, пора учиться строить data-пайплайны с использованием языков программирования. Конечно, ETL-процессы можно строить и с использованием инструментов с графическим интерфейсом. Но если посмотреть на рынок труда, то в любой вакансии на data-инженера вы увидите как must have Python, Java или Scala. Поэтому, если хотите иметь больше возможностей и зарабатывать больше в этой сфере, нужно знать, как строить ETL с использованием кода. Моё мнение - код придаёт больше гибкости решению и даёт больше возможностей в плане повышения качества (если вы умело программируете). По моему опыту также скажу, что, используя код, можно снизить стоимость поддержки всей аналитической инфраструктуры в несколько раз. Также я часто в других каналах вижу вопросы по типу "Нужно учить только Python или Java/Scala?", "Почему учить Python, а не Java/Scala?" и т.д. Мой ответ: если у вас не было до этого опыта программирования, учите Python и только его. Точно не нужно распыляться на несколько языков. Python проще в освоении за счёт своей простоты синтаксиса и хорошей читабельности чужого кода. И он встречается как требование в большинстве вакансий. Да, Java и Scala быстрее в плане производительности самого кода (за счёт компиляции в машинный код), но не так много систем, где необходима наивысшая производительность кода. Да и с нынешними возможностями "железа" и облачными технологиями, имеет смысл больше уделять производительности труда инженеров, а не кода. Python как раз отлично подходит для этой цели. Даже если вам не хватает возможностей Python, есть Spark (PySpark), который, кстати, спроектирован на Scala. Вакансии с Java и Scala - это хороший вариант для опытных back-end разработчиков, у которых был опыт работы на этих языках и которые хотят переквалифицироваться в data-инженеров. Процесс изучения Python рекомендую построить следующим образом:

2021-03-28

1) Изучить базовый синтаксис языка и порешать задачки на применение этого синтаксиса. 2) После изучения синтаксиса попробовать построить простой ETL с использованием кода. Вы можете установить на свой компьютер базу данных PostgreSQL и загрузить туда какие-то данные. После этого с использованием Python извлечь данные из этой базы данных, агрегировать их, посчитать какие-то метрики и загрузить этот датасет куда-нибудь, например, в Google BigQuery. Достаточным уровнем владения можно считать тот, при котором вы можете самостоятельно сделать ETL. Ресурсы: Программирование на Python Streamlined Data Ingestion with pandas Writing Efficient Python Code Writing Functions in Python Object-Oriented Programming in Python 3. Командная строка (Shell) и Linux. Допустим вы уже можете самостоятельно написать код на Python, который будет выполнять ETL. Но чтобы он работал в production и выполнялся по расписанию, нужна соответствующая среда. Такой средой могут быть Linux-сервер, Docker-контейнер, облачные сервисы по типу App Engine или Cloud Functions (Google Cloud) и др. Но чтобы, например, сделать deploy кода на сервере или в Docker-контейнере, нужно иметь базовые знания командной строки. Кроме того, командную строку можно использовать для подключения к базам данных, редактирования файлов и даже для обработки данных, не устанавливая при этом дополнительный софт. Ресурсы для изучения: Linux для начинающих Data Processing in Shell Introduction to Bash Scripting 4. Git. Git - это система контроля версий. Она позволяет эффективно работать с версиями ваших файлов с кодом, не создавая их копии и не занимая место на жёстком диске. С помощью Git вы также можете отправлять файлы в облако (облачные репозитории, такие как GitHub или Git Bucket) для надёжного хранения и эффективной работы команды, если над проектом работает несколько инженеров. Как по мне, Git - это must have навык для всех, кто хоть как-то соприкасается с программированием. Ресурсы для изучения: Основы Git, GitHub и GitHub Actions 5. Docker. Очень распространённый инструмент для деплоя ETL-кода и развёртывания приложений. Ресурсы для изучения: Docker - Всё что нужно знать чтобы начать работать с Docker Полное практическое руководство по Docker: с нуля до кластера на AWS 6. Базовые знания компьютерных сетей. Считаю, очень полезный и важный навык, так как к удалённым серверам и базам данных мы подключаемся, используя сетевые технологии. Мы используем различные протоколы и порты, которые позволяют нам получать и передавать данные. Буквально на этой неделе у меня была задача по привязке статического IP-адреса к Cloud-функции (в Google Cloud) и базовые знания сетей значительно ускорили процесс настройки VPC (Virtual Privat Cloud), роутера и NAT-сервера. В общем, это классный скилл). Ресурсы для изучения: Курс от Microsoft Серия постов об основах компьютерных сетей (прочитайте первые 6 глав) Не ожидал, что так много информации будет выходить. Поэтому, наверное, разделим путь data-инженера на 2 блока. Сегодня я описал первый блок. Этот блок включает в себя все базовые знания, которые в дальнейшем позволят изучить любую технологию или инструмент, которые нужны на конкретном проекте. С этими знаниями вы можете спокойно претендовать на позицию Junior Data Engineer, начать получать опыт в качестве этой профессии и развивать свои скиллы. И не забываем, что мы берём ситуацию, когда у вас не было большого боевого опыта) Вообще, если вы, например, уже начали работать в качестве BI-разработчика, как я описал в предыдущем посте, и вы планируете дальше развиваться в инжиниринге, я советую сразу находить возможности обкатывать ваши навыки на текущем месте работы. У вас есть данные, с которыми можно это делать)Просто поговорите с руководством о том, что хотите научиться этому, а там, глядишь и переквалифицируетесь сразу:) В следующем посте опишу уже более специфические навыки, которые связаны с облачными технологиями, Big Data и DevOps практиками.

2021-03-28

Всем привет! В прошлом посте я начал описывать путь обучения и становления data-инженера. Контент получился подробный, и я решил разделить его на 2 части. В первой части я описал базовые навыки, которыми должен обладать data engineer, чтобы выполнять большую часть бизнес-задач и мог освоить практически любую технологию, связанную с интеграцией и обработкой данных. Сегодня я опишу, на мой взгляд, уже более специфические навыки, связанные с конкретными инструментами и необходимые для отдельных бизнес-задач. Итак, мы освоили базовую теорию баз данных, научились писать SQL-запросы, разобрались, что такое ETL, начали кодить на Python и деплоить наш код в production. Что дальше? 1. Cloud Computing (облачные вычисления). Сейчас очень растёт популярность облачных технологий и всё в большем количестве вакансий в качестве требований для data-инженера отмечается опыт работы с одним из крупных облачных провайдеров - Amazon Web Services, Microsoft Azure и Google Cloud. Здесь, в первую очередь, нам нужно фундаментально понимать принципы облачных вычислений и знать основные модели предоставления услуг от облачных провайдеров: IaaS, PaaS, SaaS (есть ещё производные модели, такие как KaaS и FaaS). Для каждой модели каждый провайдер предоставляет соответствующие сервисы. В первую очередь это касается сервисов из группы Compute, которая составляет костяк любого облака. После изучения принципов облачных вычислений, понимания основных моделей предоставления услуг и базового изучения инструментов, отвечающих за вычислительные возможности облака важно изучить продукты из группы Storage - второго основного элемента любого cloud. Здесь важно понимать, какие сервисы есть для SQL и NoSQL баз данных, что можно использовать в качестве файлового хранилища (Data Lake), а что в качестве хранилища данных (Data Warehouse). Это база, которую нужно знать, чтобы понять возможности Cloud. Дальше вы уже можете более глубоко изучать инструменты, которые необходимы для конкретного проекта или задачи. Очень часто вижу вопрос: "Какое облако учить?" Мой ответ: всё зависит от того, какое облако чаще используют в вашей стране или какое облако используют компании, в которых вы хотели бы работать. Лично у меня исторически сложилось так, что я начал работать с Google Cloud, так как я работаю с маркетинговыми данными, а у GCP много удобных бесшовных интеграций с различными маркетинговыми сервисами от Google. Если же вы работаете или планируете работать с российским рынком, то хорошим вариантом будет Yandex Cloud. Насколько я знаю, в России есть строгие ограничения по хранению данных - данные географически должны храниться в рамках РФ. Т.е. вы не можете использовать сервера, которые находятся за пределами страны, а как раз такие сервера предоставляют 3 крупных провайдера (AWS, Azure и GCP). Yandex Cloud же может предоставить сервера внутри РФ, и вы не будете нарушать закон. * Возможно, я чего-то не учёл здесь, поэтому поправьте меня в комментариях, если что. Нужно знать главное - принципы у всех провайдеров одни и те же. Все делают одно и то же, просто сервисы немного отличаются. Но, если вы комфортно чувствуете себя с каким-то одним облаком, вам не составит огромного труда попробовать другое, так как вы будете понимать принципы. Поэтому, это не критически важно, какое конкретное облако вы выберете для изучения. Главное, не хватайтесь за все))Толку от такого изучения будет мало.

2021-03-28

Ресурсы для изучения: AWS Cloud Practitioner Essentials Data Analytics Fundamentals Amazon Redshift - Getting Started Guide Azure Fundamentals part 1: Describe core Azure concepts Azure Fundamentals part 2: Describe core Azure services Azure Fundamentals part 3: Describe core solutions and management tools on Azure Data Engineering, Big Data, and Machine Learning on GCP Серия постов по Google BigQuery 2. Работа с orchestration tools (или на русском - оркестраторами). Оркестратор - это инструмент, который позволяет объединить все наши этапы по извлечению, трансформации и загрузке данных в единую логическую цепочку, в единый data-пайплайн, чтобы весь ETL-процесс работал слаженно и бесперебойно. Такими инструментами могут выступать: 1) Специализированные решения для оркестрации по типу Apache Airflow, Apache NiFi или Luigi. 2) Готовые ETL-инструменты, такие как AWS Glue, Azure Data Factory, Google Cloud Dataflow, Matillion ETL, Fivetran и др. Также возможности оркестрации есть в таком инструменте, как Data Build Tool (dbt), но этот инструмент предназначен только для трансформаций данных внутри хранилища данных. Т.е. в ETL он делает T - transform. За E - extract и L - load этот инструмент не отвечает. Какой из этих инструментов учить зависит, опять-таки, от многих факторов: популярности отдельных инструментов в вашей стране, компании, в которой вы хотите работать, какого-то личного видения и т.д. Лично я сейчас активно работаю с dbt и решения по типу Apache Airflow ещё не доводилось использовать. Но у меня у самого есть желание хорошо выучить какой-то инструмент для оркестрации всего ETL-процесса и, скорее всего, это будет Airflow, так это решение гибкое - оно не ограничивает вас каким-то одним вендором (как, например, Amazon Glue или Azure Data Factory) и позволяет использовать DevOps-практики. Вы можете развернуть его на локальном сервере или на любом облаке. Но, опять же, повторюсь, всё зависит от многих факторов и тут нужно выбрать инструмент, подходящий конкретно вам. Сразу все инструменты учить нет смысла - достаточно знать один. 3. Spark. Теперь переходим к Big Data. Когда вы работаете уже с очень большими объёмами данных, стандартных решений может быть недостаточно, и вы прибегаете к технологиям параллельной обработки больших массивов данных. Одной из таких технологий является Spark. Так как вы до этого учили Python, то и учить Spark я вам рекомендую, используя уже знакомый вам синтаксис. Этот фреймворк называется PySpark (использовать возможности Spark можно также, программируя на Java или Scala). Хорошим вариантом для изучения PySpark будет использование Databricks Community Edition. Он бесплатный, и там вы можете сразу запускать свой код на PySpark. В общем, очень удобно. Ресурсы для изучения: Introduction to PySpark Big Data Fundamentals with PySpark Cleaning Data with PySpark Databricks Community Edition В принципе, это основные навыки, которые нужны будут вам, чтобы шагнуть на новую ступеньку в развитии вас как data-инженера. Здесь я не упомянул экосистему Hadoop и сделал это намеренно, так как считаю, что Hadoop - это больше legacy-штука и, со временем, его будут использовать всё реже и реже. Сейчас основной тренд в построении аналитической инфраструктуры направлен на облачные технологии. Это можно увидеть по большому количеству проектов, связанных с миграцией аналитики из on-premise в cloud. В принципе возможности Hadoop можно использовать и в облаке, но не совсем понимаю зачем, если, например, HDFS можно полностью заменить AWS S3, Cloud Storage или Delta Lake, а Hive или Impala - Redshift Spectrum или Google BigQuery. В общем, я топлю за путь изучения с погружением в Cloud, но вы можете быть со мной не согласны. После изучения вышеперечисленных технологий и применения их в коммерческих проектах, можно пойти дальше и начать изучать DevOps для data-инжиниринга. В принципе у вас уже есть некоторые знания DevOps-инженера - вы уже изучили Linux и командную строку, Git, Docker и это очень неплохой бекграунд. Теперь можно двигаться дальше и разобраться с более сложными штуками:

2021-03-28

4. CI/CD. В принципе, если вы, имея предыдущие навыки, успели поработать на больших коммерческих проектах, то, скорее всего, вы уже сталкивались с CI/CD и использовали специальные инструменты. CI/CD расшифровывается как Continuous Integration и Continuous Deployment. Это автоматический процесс компиляции, тестирования и деплоя вашего кода и приложений в production. Пример CI/CD пайплайна: вы написали код на Python для вашего ETL и сделали push этого кода через Git на GitHub. После этого запускается так называемый build, который запускает автоматический процесс тестирования и деплоймента вашего кода на рабочий сервер или в Docker-контейнер. Для запуска CI/CD пайплайнов используются специальные сервисы, такие как Jenkins, GitLab CI/CD, Bamboo, Circle CI. Облачные провайдеры имеют свои CI/CD сервисы, например, Google Cloud Build, Azure DevOps или AWS CodePipeline. Что учить, опять-таки, зависит от компании и проекта. Я, например, в своей работе использую Cloud Build, так как тесно работаю с Google Cloud. Полезные ресурсы здесь посоветовать сложнее, потому что я учил Cloud Build, просто разбираясь с ним на практике, читая разные статьи и справку Google Cloud. Знаю только хороший курс по Jenkins. Если вы до этого не имели опыта с CI/CD, могу рекомендовать этот курс, так как мне нравится как его автор подаёт материал. 5. Infrastructure as Code (IaC). Это когда мы поднимаем всю инфраструктуру, т.е. создаём сервера, группы серверов, load balancer, кластеры контейнеров, привязываем ip-адреса и т.д., через код. Это очень удобно, когда мы создаём отдельные ресурсы для разных сред (dev, test, prod) и хотим просто скопировать всю инфраструктуру на другой проект. Сам с таким не работал, но хочу обязательно получить такой опыт) Для IaC также используются свои сервисы, такие как Terraform, AWS CloudFormation, Ansible, Puppet и др. Часто слышу о первых 3-х. Какой из них изучать, снова-таки, зависит от компании и проекта. Полезные ресурсы: Курс по Terraform Урок по AWS Cloud Formation Думаю, на этом закончим. Как вы смогли увидеть, путь становления data-инженером высокого уровня длинный и интересный. Очень много различных технологий и инструментов. С таким скоупом не соскучишься:) В следующих постах хочу рассказать о том, что учить и в каком порядке для других специализаций, опираясь на свой опыт и опыт коллег по рынку. Эти пути могут быть не менее интересными для вас:)

2021-03-27

15th April data scientists from EPAM are going to share their expertise in different domains like computer vision, natural language processing, user analytics and delivering model to production. The event is suitable for both juniors who has recently started their career in data science or have already had some experience working with data and ML / DL. What: Online DS Meetup When: April 15th, 2021 Speakers: 1 - Andrey Derevyanka (Lead DS @ Epam Systems), "Computer Vision Inventory: Gonna Count Them All!" : I will give an overview of a project where we applied Computer Vision and Deep Learning to the Inventory task. We counted boxes and other things to free humans from the routine and improve the final step of a supply chain. 2 - Andrei Zolotarev (DS @ Epam Systems), "From jupyter notebooks to production" : I will describe how we moved from the research stage to the production stage on a project for an internet provider. We will consider a specific case of building ML pipeline for enhancing customer service. This presentation will be useful for DataScientists who are not familiar with productionizing ML project and interested in this topic. 3 - Anton Guldinskii (DS @ Epam Systems), "Transformer on top of Transformer" : I will speak about one NLP project where the main task was Text Summarization of financial analytical reports. We will look in details what architecture we applied and what techniques we used for labeling, preprocessing and postprocessing. 4 - Ilya Starikov (Senior DS @ Epam Systems), "Personalization or Surveillance. Web user identification and the role of ML in this area." : I will make a short intro to web user tracking. We will speak about the purposes of web user identification and examples of features for it. You will learn what is fingerprinting, what kind of ML approaches are helping to track users' interests and what kind of approaches are trying to defend us from surveillance. Register and more details: https://community-z.com/events/epam-data-science-meetup-en

2021-03-26

Пятничная подборка интересных мероприятий на следующую неделю:

2021-03-26

#coursera #projectmanagement https://grow.google/projectmanagement/ Не так давно Google анонсировал свой образовательный проект Grow. Суть проекта - создание курсов и сертификаций по ключевым для технологических компаний компетенциям. При этом полученные сертификации заменяют диплом высшего образования для соискателей работы в Google. Например, курсы по управлению проектами был размещен на Coursera, к которой,как вы помните, у сотрудников банка бесплатный доступ до августа. Вероятно, подобным практикам последуют и другие технологические компании по всему миру.

2021-03-26

Всем привет! На youtube канале школы 21 появилось 2 вебинара по LightAutoML - теория и преимущества для бизнеса (часть 1) и практика с разбором кернелов на Kaggle, использующих LightAutoML (часть 2). Если у вас есть знакомые дсы или программисты, интересующиеся машинным обучением, большая просьба поделиться с ними ссылками: 1) https://www.youtube.com/watch?v=QX2QCDFkQCE 2) https://www.youtube.com/watch?v=TYu1UG-E9e8

2021-03-26

Всем привет! В Вышке пройдет мини-курс "Fake News, Disinformation, Propaganda, Media Bias, and the COVID-19 Infodemic" Преслава Накова. Аннотация, форма регистрации и все подробности доступны по ссылке.

2021-03-26

Еще одно скорое событие в Вышке: 12 апреля 2021 г. пройдет международный симпозиум «Использование анализа открытых больших данных для целей выявления глобальных трендов и вызовов, связанных с формированием и использованием человеческого потенциала», организуемый Институтом статистических исследований и экономики знаний (ИСИЭЗ) НИУ ВШЭ в рамках XXII Апрельской международной научной конференции по проблемам развития экономики и общества (https://conf.hse.ru/2021/). Планируется обсуждение вопросов, связанных с развитием технологий обработки больших данных и анализа естественного языка в приложении к актуальным задачам предиктивной аналитики, прогнозирования, выявления глобальных трендов и вызовов в этой сфере. Участники обсудят направления развития технологий обработки больших данных и анализа естественного языка (Natural Language Provessing, NLP) и их приложения к актуальным задачам предиктивной аналитики, долгосрочного прогнозирования науки и технологий и выявления глобальных трендов и вызовов. Особое внимание будет уделено создаваемым приложениям для управления в сфере развития человеческого потенциала. Больше подробностей и регистрация доступны по ссылке .

2021-03-25

https://press.sber.ru/publications/sber-opublikoval-godovoi-otchet-za-2020-god-v-sostav-kotorogo-voshel-otchet-ob-ustoichivom-razvitii-esg-otchet Годовой отчёт Сбера за 2020 год состоит из двух частей — отчёта менеджмента и отчёта об устойчивом развитии (ESG-отчёт). Ссылка на отчет: https://www.sberbank.ru//common/img/uploaded/_new_site/com/gosa2021/yr-sber-ar20-rus.pdf?_ga=2.99174742.978048003.1616665379-29440717.1616665379

2021-03-25

https://habr.com/ru/company/sberdevices/blog/548812/ SberDevices написали первый пост про cинтез речи (TTS): что под капотом, какие челленджи были, как их решали. Сбере синтез используется в очень многих местах и выдерживает тысячи RPS: внутренние нужды, коллцентры, экосистема, и, ассистенты: Афина, Джой и Сбер. И девайсы: Портал, Сбербокс, мобильные приложухи Сбербанк Онлайн и прочие.

2021-03-23

https://meetup.tinkoff.ru/event/tinkoffai-speech/ 25 марта 2021, 19:00 – 20:20 (мск) пройдет митап Тинькофф о технологиях синтеза и распознавания речи. 2 доклада: 1. Text-to-speech: cooking recipe. Будет рассмотрен пайплайн сервиса синтеза речи. 2. Потоковое распознавание речи.

2021-03-23

https://www.rbc.ru/finances/23/03/2021/6058e0ef9a79478f68308d71 ЦБ предупредил о появлении группировки хакеров, изучающей уязвимости мобильных приложений банков. Он привел два примера взлома — с хищением данных и денег. Популярность в пандемию приобрели и вирусы-шпионы в рассылках по компаниям Отчет ЦБ "Основные типы компьютерных атак в кредитно-финансовой сфере": https://www.cbr.ru/Collection/Collection/File/32122/Attack_2019-2020.pdf

2021-03-22

Многие методы машинного обучения накладывают ограничение на типы признаков – все они должны быть числовыми. Но как быть, если ваши данные содержат текстовые категории, например, город, тип продукта, вид транзакций и т.п.? Ответ один – закодировать их числами! https://newtechaudit.ru/kategorialnye-priznaki-v-mashinnom-obuchenii/

2021-03-18

Practical Deep Learning: A Python-Based Introduction (2021) Автор: Ron Kneusel Количество страниц: 448 Если вам интересно узнать о машинном обучении, но вы не знаете, с чего начать, то это книга, которую вы так долго ждали. Сосредоточившись на подразделе машинного обучения, известном как глубокое обучение, автор объясняет основные концепции и дает основу, необходимую для начала построения ваших собственных моделей. Вместо того, чтобы просто излагать варианты использования существующих наборов инструментов, книга поможет вам понять, зачем нужно глубокое обучение, и вдохновит вас на дальнейшие исследования. Скачать книгу

2021-03-18

Поговорим немного об NLP

2021-03-18

https://www.youtube.com/watch?v=jMNKkOZDn2o Сейчас в кино идет фильм о нашумевшей в свое время анонимной торговой интернет-площадке, находившейся в зоне .onion анонимной сети Tor, работавшей с 2011 по 2013 год https://ru.wikipedia.org/wiki/Silk_Road Готовьтесь к просмотру фильма правильно :) https://habr.com/ru/post/376717/ Пять ошибок анонимности, которые стоили главе Silk Road свободы https://habr.com/ru/post/196464/ Розыск и поимка владельца Silk Road. Отчет агента ФБР https://habr.com/ru/post/370993/ Агент, расследовавший дело Silk Road, сел в тюрьму за кражу биткоинов «Ужасного Пирата Робертса» https://habr.com/ru/news/t/526568/ Биткоины Silk Road на $1 млрд переместили в другой кошелек https://habr.com/ru/post/190220/ Интервью с владельцем Silk Road https://habr.com/ru/post/356762/ Создатель Silk Road приговорён к пожизненному заключению https://habr.com/ru/post/196164/ Задержан владелец Silk Road, изъяты 3,6 миллиона долларов https://habr.com/ru/post/197964/ История «Silk Road» попадёт на большой экран

2021-03-17

Доброе утро, друзья! Все любители анализа данных знают, какую роль в машинном обучении играет качество входной информации. Далеко не любые данные можно собрать с помощью парсинга — многие требуют дополнительной разметки. Совсем недавно Яндекс запустил на Coursera онлайн-курс про разметку данных с помощью краудсорсинга. Курс рассказывает о том, как быстро получать и размечать большие объемы данных и решать сложные бизнес-задачи. Курс будет полезен разработчикам моделей машинного обучения, аналитикам данных, исследователям и менеджерам, работающим с ИИ. Проекты основаны на практических задачах — распознавании и выделении объектов на фотографиях, транскрипции аудиофайлов в текст, классификации запросов и оценке релевантности результатов поиска. Лекции можно пройти бесплатно, они идут на английском языке (есть русские субтитры) и не требуют специальной подготовки. Курс рассчитан на пять недель. Подробнее по ссылке. https://www.coursera.org/learn/practical-crowdsourcing?action=enroll

2021-03-17

Немного о фишках Python

2021-03-17

https://www.forbes.ru/tehnologii/423425-zakryt-geshtalt-kak-lev-hasis-stroit-partnerstva-radi-torgovyh-i-platezhnyh

2021-03-16

Обещал написать, как теперь работает #стартапдня Knock – что ж, обещания надо исполнять, сегодня пост о нем. В новой модели стартап фокусируется на тех, кто продает дом перед тем, как купить новый, – на “цепочках” в российской терминологии. Пользователь заполняет заявку на сайте о своем жилье и уровне дохода. Knock оценивает его платежеспособность и высчитывает условия потенциальной ипотеки для нового дома – “до миллиона долларов, первый платеж такой, процент сякой”. Если продавца всё устраивает, он идет на Zillow выбирать свою мечту и спокойно покупает её на деньги Knock, без сложных схем, практически “наличными сейчас”. Дальше он переезжает и готовит старый дом к продаже. Knock даже платит ему 25 000 долларов вперед на уборку и мелкий ремонт. Дальше – агент, Zillow, всё как обычно и без участия стартапа. Но о цепочке думать не надо, дом можно показывать без жильцов, да и подготовка, будем надеяться, прошла не зря. После второй сделки Knock забирает себе 1.5% комиссии за услуги и остается с обычной ипотекой, которую потом когда-нибудь перепродает банку. В итоге процесс переезда получается для клиента удобнее обычного и, может быть, выгоднее – 1.5% вполне можно было отыграть за счет более комфортной переговорной позиции. Последние инвестиции Knock привлекал 2 года назад, это были чудовищные 400 миллионов долларов – можно предположить, что большая часть все-таки долг, а не вхождение в капитал. Читаю статьи о том раунде, по ним не до конца понятно, в какой модели он тогда работал, журналистам такие мелочи неинтересны. Кажется, это было уже нечто похожее на текущую схему. Сейчас стартап работает в 25 городах. https://www.knock.com/ #мегараунд #недвижимость #сша #fintech #кредит

2021-03-16

Доклад Антона (@xgfsru) не состоявшийся 4 марта будет 18 марта.

2021-03-12

#python https://realpython.com/python-f-strings/ Описываются преимущества использования f-строк для вывода информации в Python (начиная с версии 3.6). Оказывается использование f-строк удобнее и быстрее по сравнению с %-форматирование и str.format{}.

2021-03-11

Доброе утро, друзья! Ключевые точки — это концепция, о которой следует помнить при работе с изображениями. В основном это точки интереса на изображении. Ключевые точки аналогичны характеристикам данного изображения. Это места, которые определяют то, что интересно на изображении. Ключевые точки важны, потому что независимо от того, как изображение изменяется (поворот, сжатие, расширение, искажение), мы всегда найдем одни и те же ключевые точки для изображения. Масштабно-инвариантное преобразование признаков (SIFT) — очень популярный алгоритм обнаружения ключевых точек. Расскажу по подробнее в статье: https://newtechaudit.ru/sift-surf/

2021-03-11

https://dl.acm.org/doi/10.1145/3394486.3407096 Доклад J.P.Morgan на KDD2020 о проектах внедрения ML\AI инструментов. Один из инструментов AI pptX - для автоматизации создания аналитических материалов. Бизнес-аналитики ежегодно создают миллиарды слайдов, отчетов и документов. Большинство этих документов имеют четко определенную структуру, состоящую из повторяющегося содержания, генерируемого на основании каких-либо данных. Разработанный в компании инструмент AI pptX позволяет автоматизировать данный процесс. Благодаря его применению удалось снизить объем данных, вводимых пользователем при создании аналитических материалов на 45%.

2021-03-10

Уважаемые коллеги, в настоящий момент мы готовим очередное соревнование DSC13 по теме анализа текстов обращений граждан на портал mos.ru. Ищем желающих потестить бейзлайн соревнования (colab ноутбук + датасет) и дать обратную связь. Желающие поучаствовать - пишите kvlisenkov1@sberbank.ru. Желающих собираем до конца сегодня 10.03.21.

2021-03-10

https://towardsdatascience.com/top-10-research-papers-in-ai-1f02cf844e26

2021-03-10

https://engineering.fb.com/2021/02/23/data-infrastructure/silent-data-corruption/ 22.03.2021 Facebook опубликовал статью о незаметном повреждении данных (silent data corruption). Проблема silent data corruption не является новой, но в условиях огромных (сотни тысяч серверов) ИТ-инфраструктур технологических компаний становится значительной. В примере приводится кейс использования Spark (рис 1), в котором демонстрируется как можно потерять данные при проведении вычислений. Также в статье исследуются распространенные типы дефектов CPU, приводятся способы управлять риском незаметного повреждения данных. Статья: https://arxiv.org/abs/2102.11245

2021-03-04

https://databricks.com/blog/2020/07/10/a-data-driven-approach-to-environmental-social-and-governance.html Databricks сопоставила (рис0) официальные ESG отчеты финансовых организаций и информации об освещении ESG активностей этих организаций в СМИ: 1. С помощью тематического моделирования выявили 9 основных ESG тем (рис1) 2. С помощью суммаризации текста проанализировали 70+страничный отчет Goldman Sachs в разрезе каждой из 9 ESG тем (рис2) 3. С помощью сентимент анализа информацию СМИ о ESG активностях компаний и графовой аналитики связей между компаниями создали скоринг по каждой из 3х (E,S,G) компонент (рис 3) По каждому шагу предоставлены примеры кода.

2021-03-04

Дурной пример, говорят, заразен ;) Мало того, что модный Клабхаус выпустили только для пользователей айфонов, так теперь не маленький стартап, а большой Microsoft выкатил очень интересное приложение для текстовой расшифровки речи на совещаниях. Строго говоря, это не сам Microsoft, в его экспериментальное исследовательское подразделение Microsoft Garage, но все равно прикольно. Про стенографическое приложение мечтают давно, но пока хорошего так и нет. Я попробовал этот Group Transcribe просто в режиме стенографирования моего монолога на русском и остался впечатлён качеством: на зачитанной мной странице текста пришлось в итоге исправить шесть мест, с таким качеством уже можно работать. Хотя ведёт себя приложение как положено эксперименту: иногда начинает глючить, перестаёт слышать голос - и уж точно не балует богатством функций и настроек. Но само распознавание таково, что я с интересом жду продолжения этого банкета :) https://appleinsider.com/articles/21/03/03/microsoft-wants-its-new-group-transcribe-app-to-replace-meeting-notes

2021-03-04

https://databricks.com/blog/2020/07/10/a-data-driven-approach-to-environmental-social-and-governance.html Databricks сопоставила (рис0) официальные ESG отчеты финансовых организаций и информации об освещении ESG активностей этих организаций в СМИ: 1. С помощью тематического моделирования выявили 9 основных ESG тем (рис1) 2. С помощью суммаризации текста проанализировали 70+страничный отчет Goldman Sachs в разрезе каждой из 9 ESG тем (рис2) 3. С помощью сентимент анализа информацию СМИ о ESG активностях компаний и графовой аналитики связей между компаниями создали скоринг по каждой из 3х (E,S,G) компонент (рис 3) По каждому шагу предоставлены примеры кода.

2021-03-04

https://dyakonov.org/2021/03/04/ml-scikit-learn/ Новая статья от профессора Дьяконова. Применение библиотек требует от профессионалов досконально разбираться в особенностях реализации в них методов машинного обучения.

2021-03-02

OpenAI опубликовали описание DALL-E [1], версию GPT-3 [2] с 12 миллиардами параметров и используемую для автоматического создания изображений из текстового описания. Ко всему этому есть исходный код [3], научная статья [4], а также множество наглядных примеров. С развитием этой технологии она может найти много областей применения, например, для автоматизации составления фотороботов, или для людей ограниченных в возможности рисовать руками, или для художников из недалёкого будущего кто будет рисовать словами, а не кистью. Ссылки: [1] https://openai.com/blog/dall-e/ [2] https://arxiv.org/abs/2005.14165 [3] https://github.com/openai/dall-e [4] https://arxiv.org/abs/2102.12092 #ai #visual #research #study

2021-03-01

Корпоративная культура Amazon очень своеобразна. Пример. Никто не делает презентаций на внутренних совещаниях. Вместо этого сотрудники излагают свои идеи на шести страницах, которые все, даже сам Безос, читают в полной тишине, что занимает до 30 минут. Безос считает, что так сотрудники тщательнее продумывают свои идеи, а представление их на бумаге более убедительно.

2021-03-01

https://habr.com/ru/post/544788/

2021-02-28

Что читать DE в телеге? Сегодня подборка полезных TG-каналов для дата-инженера: • Инжиниринг данных https://t.me/rockyourdata Канал Дмитрия Аношина, эксперта по BI. Автор также ведет курс datalearn.ru, где обучает дата-инжиниринг (бесплатно) • Data Eng https://t.me/dataeng Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных. • Moscow Spark https://t.me/moscowspark Чат московского community Apache Spark. • DE or DIE Chat https://t.me/deordie_chat Чат сообщества DE or DIE, созданный дата инженерами. Поддерживают ребята из DoDo Engineering. Проводят митапы DE or DIE вместе с NewProLab • Smart Data https://t.me/smart_data_channel Канал про Data Engineering, аналитику и данные. • Я у мамы Data Engineer! https://t.me/ohmydataengineer • Data online events & Moscow meetups https://t.me/data_events Очень полезный канал - все ивенты, связанные с данными • Data jobs feed https://t.me/datajobschannel Канал с вакансиями в сфере обработки данных (инженеры, аналитики). Полезно для понимания тенденций на рынке и востребованных навыков Если знаете еще полезные каналы - пишите в комментариях!

2021-02-28

Всем привет! 1-6 марта Инфокультура отметит Международный День открытых данных 2021. Накануне Дня открытых данных, с 1 по 5 марта, проведем серию практических мастер-классов по работе с открытыми данными в онлайн. Приглашаем участвовать всех желающих

2021-02-28

Прочитал Будущее без работы. Книга про прогноз как будет изменяться работа для человека в условиях развития автоматизации и какие будут последствия этих изменений, а также что можно сделать для смягчения последствий для человека. Книга состоит из трех частей: введение в проблематику; описание вероятных угроз; возможные ответные меры. Первая часть: - Рассматривать работу в терминах конкретных рабочих мест уже бессмысленно. Большинство профессиональных задач декомпозируются на части, многие из которых могут быть автоматизированы - Подражание человеческому интеллекту - больше не единственный путь для развития способностей машин. - Будущее автоматизации будет основано на армии узких ИИ, а не на общем ИИ. - Цитата "Если машинам не нужно воспроизводить человеческий интеллект, чтобы стать разумными, то огромные пробелы в современном научном понимании интеллекта имеют гораздо меньшее значение, чем принято считать. Нам не нужно разгадывать тайны работы мозга и разума, чтобы построить машины, способные превзойти людей. А если машинам не нужно нас копировать, то нет никаких оснований думать, что наши способности представляют предел возможностей будущих машин. Ведь принято считать, что интеллектуальная доблесть человека настолько велика, что для машин она недосягаема. На самом деле очень маловероятно, что так будет и впредь." Вторая часть: - Вводится классификация способностей, которые люди используют в работе. На примерах показывается, что эти способности том или ином виде уже воспроизводит автоматизация: 1. Мануальные (дроны, автопилоты, строительство) 2. Когнитивные (кредитный скоринг; медицина; образование; финансы; музыка; фейки) 3. Аффективные (угадывание эмоций) НО показанные примеры могут быть оспорены тк порой бывает трудно отличить серьезные корпоративные амбиции и достижения от простых трюков маркетологов, зарабатывающих на жизнь гиперболами. - Заблуждение: машины освободят нас от рутины, чтобы мы могли заняться более творческой работой. 3 причины, почему люди, потерявшие прежнюю работу, не смогут занять имеющиеся рабочие места: 1. Несоответствие навыков. Нарастание со временем поляризации рынка труда: больше высокооплачиваемой и низкооплачиваемой работы, меньше среднеоплачиваемой работы. 2. Несоответствие места проживания. По крайней мере для США верно то, что несмотря на всю шумиху вокруг удаленной работы, место жительства рядом с центрами работы имеет больше значения чем когда либо. 3. Личные несоответствия. Высококвалифицированные работники неохотно берутся за доступную работу. - Два вида капитала: традиционный (собственность в тч новейшие системы и машины) и человеческий (знания и навыки). Ценность человеческого капитала будет падать - в пределе до 0, а владельцы традиционного капитала будут только богатеть. Третья часть: - По мере расширения способностей машин образование будет помогать людям все меньше. Но на данный момент: больше образования - лучший ответ на угрозу технологической безработицы. - Предложения по подходам к образованию: 1. Чему мы учим. Учиться навыкам, которые позволяют лучше разбираться в том, в чем машины плохи, а не в том в чем хороши. 2. Как мы учим. Лучший вариант - очное обучение под руководством талантливого учителя. Если его нет - адаптивные платформы обучения; массовые онлайн курсы с талантливыми лекторами. 3. Когда мы учим. Обучение на протяжении всей жизни - способ застраховаться от непостижимых требований, которые в будущем нам будет предъявлять мир труда. - НО существуют пределы образования. Учиться трудно: обучение новым вещам требует времени и усилий и способность к обучению у людей разная.

2021-02-27

Во-первых, мне нравится слово deepfakery ;) Задумался над адекватным переводом. Во-вторых, и сама идея хороша, и реализация: мимолетная улыбка, легкий наклон головы выглядят естественно, но как же они оживляют старые фотки. Особенно хорошо должно работать для фоток тех, кого живьём никогда не видел. Ещё один маленький шажок в направлении виртуальной посмертной жизни близких (или просто интересных нам) людей. https://techcrunch.com/2021/02/26/myheritage-now-lets-you-animate-old-family-photos-using-deepfakery/

2021-02-26

https://habr.com/ru/post/543412/ За последние несколько лет трансферное обучение дало толчок новой волне state-of-the-art результатов в обработке естественного языка (NLP). Эффективность трансферного обучения заключается в предварительном обучении модели на большом доступном неразмеченном корпусе текстов для одной из задач самообучения (self-supervised learning): например, языкового моделирования или заполнения пропусков в тексте. Затем модель может быть дообучена на меньших наборах данных и зачастую показывает (значительно) лучшие результаты, чем в случае обучения на одних только размеченных данных. Об успехах трансферного обучения стало известно еще в 2018 году, когда были представлены такие модели, как GPT, ULMFiT, ELMo, BERT, а в 2019 году успешность такого подхода стала еще более очевидна с разработкой новых моделей вроде XLNet, RoBERTa, ALBERT, Reformer и MT-DNN. Скорость, с которой эта сфера развивается, не позволяет, однако, с уверенностью сказать, какие из разработок оказали наибольшее влияние и насколько эффективно их можно комбинировать.

2021-02-26

https://m.habr.com/ru/company/sberdevices/blog/543988/

2021-02-25

https://newtechaudit.ru/prognoziruem-kurs/

2021-02-25

Слово «хакатон» в английском языке появилось относительно недавно. В 1999 году разработчики OpenBSD собрали первый в мире хакатон. Название же придумали очень просто: слова "hack" и "marathon" просто сложили вместе (слово "hack" здесь в значении "программная разработка"). В 2016 году количество хакатонов, которое было проведено за год достигло 3500. Ловите актуальное расписание онлайн-хакатонов: ✅ 27 января - 21 марта, онлайн (Data Fusion Contest) ВТБ и «Сколково» приглашают вас принять участие в чемпионате по анализу данных. Вас ждут 2 задачи:

2021-02-25

Только для своих. Как устроен Clubhouse — закрытая голосовая соцсеть, в которую уходят миллионы людей. Clubhouse — это социальная сеть, где пользователи просто общаются друг с другом. Но у неё есть две ключевые особенности. Во-первых, разговаривать нужно голосом в аудиочатах. Во-вторых, вокруг Clubhouse сложилась атмосфера эксклюзивности, поскольку зарегистрироваться там можно только по приглашению. Чтобы попасть в Clubhouse, необходимо иметь при себе устройство с iOS (версия под Android в разработке) и получить приглашение от зарегистрированного пользователя. Петербургский разработчик рассказал, как запустить Clubhouse без iPhone с помощью консольного python приложения, которое позволит пользоваться большинством функций социальной сети. Clubhouse оказался теплой ламповой площадкой, но для владельцев андроидов соцсеть недоступна. Официальная версия для гугловской платформы, возможно, выйдет не ранее мая. Статья сделана с обучающей и справочной целью. Создавать ботов, участвовать в кибербуллинге и прочих плохих вещах крайне не рекомендуется. https://habr.com/ru/post/543198/

2021-02-25

Уже 20 лет MIT радует любителей предсказаний, публикуя краткосрочный прогноз, в котором перечисляет десяток технологий, которые должны сильно рвануть в наступившем году. Составители списка не скрывают, что он эклектичен и субъективен; тем интересней его читать, потому что списки, составленные по жестким процедурам, всегда оказываются унылыми. В десятке 2021 года мне приятно видеть remote everything, мою любимую нынче тему, и GPT-3, всеобщую игрушку. Но интересней то, что мне не сильно попадалось на глаза: сверхточное геопозиционирование или перспективы водородного топлива (например, как буфера для всяких зелёных источников). В общем, вся десятка безусловно заслуживает того, чтоб подумать и приглядеться. https://www.technologyreview.com/2021/02/24/1014369/10-breakthrough-technologies-2021/

2021-02-25

DALL·E is a 12-billion parameter version of GPT-3 trained to generate images from text descriptions, using a dataset of text–image pairs.

2021-02-25

Похоже, что OpenAI выложил модель DALL-E https://github.com/openai/DALL-E (256px?) #AI

2021-02-25

А за ними - Tableau. Остальные выглядят бледно на их фоне.

2021-02-25

В эту пятницу (26 февраля) с 10:30 до 12:30 (мск) состоится митап DS&AI сообщества Банка. Предварительная повестка: коллеги из SberCLoud расскажут про MLSpace 1. Новые возможности в ML Space (по сравнению с функционалом AI Cloud прошлого года) 2. Покажем возможности сервиса и пример полного цикла по созданию и разворачиванию модели через ML Space 3. Roadmap развития сервиса ML Space 4. Коснемся планов по созданию маркетплейса AI-приложений Инструкция по подключению размещена тут. Обращаем внимание, что мероприятие проводится только на сотрудников Банка, просьба не пересылать информацию внешним участникам.

2021-02-25

Cледующий митап DS&AI сообщества Банка состоится уже в эту пятницу (26 февраля) с 10:30 до 12:30 (мск). Предварительная повестка: коллеги из SberCLoud расскажут про MLSpace 1. ⁣ ⁣ ⁣ ⁣ ⁣ ⁣ ⁣Новые возможности в ML Space (по сравнению с функционалом AI Cloud прошлого года) 2. ⁣ ⁣ ⁣ ⁣ ⁣ ⁣ ⁣Покажем возможности сервиса и пример полного цикла по созданию и разворачиванию модели через ML Space 3. ⁣ ⁣ ⁣ ⁣ ⁣ ⁣ ⁣Roadmap развития сервиса ML Space 4. ⁣ ⁣ ⁣ ⁣ ⁣ ⁣ ⁣Коснемся планов по созданию маркетплейса AI-приложений Инструкция по подключению размещена тут https://sberchat.sberbank.ru/@iad_inform.

2021-02-25

Cледующий митап DS&AI сообщества Банка состоится уже в эту пятницу (26 февраля) с 10:30 до 12:30 (мск). Предварительная повестка: коллеги из SberCLoud расскажут про MLSpace 1. ⁣ ⁣ ⁣ ⁣ ⁣ ⁣ ⁣Новые возможности в ML Space (по сравнению с функционалом AI Cloud прошлого года) 2. ⁣ ⁣ ⁣ ⁣ ⁣ ⁣ ⁣Покажем возможности сервиса и пример полного цикла по созданию и разворачиванию модели через ML Space 3. ⁣ ⁣ ⁣ ⁣ ⁣ ⁣ ⁣Roadmap развития сервиса ML Space 4. ⁣ ⁣ ⁣ ⁣ ⁣ ⁣ ⁣Коснемся планов по созданию маркетплейса AI-приложений Инструкция по подключению размещена тут https://sberchat.sberbank.ru/@iad_inform.

2021-02-24

https://youtu.be/O1Tx7gUnJQM Дается краткий обзор платформы IDP Банка + введение в задачу NER.

2021-02-24

Обученная модель оценивает принадлежность к социальной группе по стилю письма Группа британских исследователей из нескольких учебных заведений разработала алгоритм автоматической оценки социальной идентичности ASIA (Automated Social Identity Assessment Using Linguistic Style). На примере постов на онлайн-форумах учёные показали, что их обученная модель с точностью около 70% определяет приоритетность влияния принадлежности к социальной категории по стилистическим особенностям письма в сложных и изменяющихся средах, где могут конкурировать несколько идентичностей. Доступ к ASIA открыт в интернете для исследователей в области психолингвистики и социальных взаимоотношений. Научная статья: https://link.springer.com/article/10.3758%2Fs13428-020-01511-3

2021-02-24

Глубокие нейронные сети становятся неотъемлемой частью IT-продуктов, провоцируя появление нового направления кибератак. Хакеры пытаются обмануть нейросети с помощью данных, которые не смогли бы обмануть человека. Кэти Уорр рассматривает мотивацию подобных атак, риски, которые влечет вредоносный ввод, а также методы повышения устойчивости ИИ к таким взломам. PS больше про картинки, но есть разделы как можно атаковать голосовые помощники. https://www.piter.com/product/nadezhnost-neyronnyh-setey-ukreplyaem-ustoychivost-ii-k-obmanu Для сотрудников Банка бесплатно на сайте O'Reilly: https://learning.oreilly.com/library/view/strengthening-deep-neural/9781492044949/

2021-02-24

Понадобилось почитать больше про UMAP – метод уменьшения размерности разработанный McInnes, Healy, and Melville в 2018. Метод уже мега популярен, вероятно наравне с T-SNE, и на это есть следующие причины: 1. Визуализации выглядят красивее, лучше баланс отображения глобальной и локальной стркутуры данных 1. Небольшое изменение гиперпараметров не так сильно изменяет результат, как в T-SNE 1. Он быстрее T-SNE в 5-10 раз Гугловцы сделал потрясяющий интерактивный гайд с объяснением работы UMAP. Вчера залип в него на час. Работать с этой штукой тоже просто # pip install umap-learn mapper = umap.UMAP().fit(data) umap.plot.points(mapper, labels=data_labels)

2021-02-22

Сегодня 22.02.2021 , в 19:00 по Москве продолжаем смотреть и обсуждать Лекцию #3 KnowledgeGraph-курса. Будут обсуждаться - B-tree, B+tree, LSM-tree - для организации хранения графовых бд. Ссылка на зума, как обычно, будет в чате @kg_course перед началом. Напомним кратко прошедшую часть лекции. Она была посвящена SPARQL - языку запросов к графовым бд. Это не так сложно - взгляните на примеры: SELECT ?s WHERE { ?s :knows ?Alice .} # найти всех кто знает Алису select (count(*) as ?num) where {?s ?p ?o} # Найти количество триплетов (ребер) в графе знаний Наиболее доступный и известный всем граф знаний - Wikidata - уже содержит 12 098 892 788 ребер (="триплетов", = "фактов"). По ссылке https://query.wikidata.org/ вы можете прямо сейчас написать запрос и получить ответ. Обратите внимание на вкладку EXAMPLES - примеры запросов на все случае жизни. Хотите найти лекарства, которые воздействуют на гены связанные с пролиферацией в клетке ? Смотрите в EXAMPLES. ПС Видео записей смотрите на нашем Ютуб канале SBERLOGA

2021-02-22

https://www.opennet.ru/opennews/art.shtml?num=54627

2021-02-20

https://www.ozon.ru/product/silnyy-iskusstvennyy-intellekt-na-podstupah-k-sverhrazumu-kollektiv-avtorov-219874762/ Вчера купил книгу "Сильный ИИ", которую ГОГ подарил ВВП на прошедшей AI Journey 2020. Узнал много нового. Особенно заинтересовала разделы о связи когнитивных наук и AGI. Книга посвящена описанию структуры области AGI для формирования бэкграунда для всех заинтересованных. Книга - уникальный источник по AGI на русском языке. Авторы обещают издать расширенный вариант книги с техническими подробностями. Некоторые заметки: 1. Идея AGI предполагает, что компьютеры смогут решать как новые узкие, так и сложные задачи 2. Компьютер не обязан воспроизводить человеческое мышление во всех проявлениях, чтобы считаться интеллектуальным 3. Общепризнанных стандартизированных метрик оценки AGI нет. Исследователям пока приходится самим качественно оценивать прогресс в AGI на основе текущего понимания интеллекта 4. В главе 3 дано краткое понятное изложение текущего (конец 2020) развития технологий ИИ на базе нейронных сетей: компьютерное зрение, NLP, Deep RL. Вывод: говорить о реалистичном достижении AGI в рамках современной волны развития нейронных сетей пока не приходится. 5. В главе 3 также описываются когнитивные архитектуры т.е. подходы к моделированию когнитивных функций человека. 6. В главе 4 описываются варианты воплощения ИИ как агента RL и робота, а также эволюционный подход.

2021-02-19

Dive Into Algorithms: A Pythonic Adventure for the Intrepid Beginner (2021) Автор: Bradford Tuckfield Количество страниц: 248 Dive Into Algorithms - это обширный тур по многим из самых интересных алгоритмов в мире. Вы изучите стандартные алгоритмы информатики для поиска, сортировки и оптимизации; человеческие алгоритмы, которые помогают нам определить, как поймать бейсбольный мяч или съесть нужное количество еды в буфете; и продвинутые алгоритмы, например, используемые в машинном обучении и искусственном интеллекте. Вы даже узнаете, как древние египтяне и русские крестьяне использовали алгоритмы для умножения чисел, как древние греки использовали их для нахождения наибольших общих делителей и как японские ученые в эпоху самураев разработали алгоритмы, способные генерировать магические квадраты. Скачать книгу

2021-02-19

Всем привет! Приглашаем вас в четверг, 25 февраля, в 19-00 на очередной семинар. Тема: "4 соревнования Dialogue Evaluation 2020”. Докладчики: Иван Смуров, ABBYY, МФТИ Илья Гусев, МФТИ Мария Пономарева, ABBYY, ВШЭ Екатерина Артемова, ВШЭ На семинаре будут представлены соревнования Dialogue Evaluation 2021. Мы расскажем о постановках задач, которым посвящены соревнования и представим базовые подходы к их решению. По результатам участия в каждом соревновании можно будет подать статью на конференцию Диалог. Семинар пройдет в онлайн-формате. Ссылка на регистрацию (!) Алгоритм регистрации: надо заполнить форму до 16-00 25.02, ближе к семинару вам придет письмо с ссылкой на zoom и паролем.

2021-02-19

https://sbercloud.ru/ru/warp/gpt-3 Эта страница создана для того, чтобы продемонстрировать исследователям данных и разработчикам возможности трансформерной модели ruGPT-3

2021-02-18

3 причины, по которым новый курс по глубокому обучению из MIT идеально подходит для начинающих. https://proglib.io/w/ca0b8a88

2021-02-18

https://www.rbc.ru/finances/18/02/2021/602d2aac9a79472a463bc4ad?from=from_main_8

2021-02-18

#курс Качественный курс “Введение в анализ данных и машинное обучение” от читателя моего блога (кстати, если есть кому что показать - присылайте). Готовился для школьников, но, мне кажется, подходит любым начинающим в ML. Очень симпатично оформлен. https://timeseries-ru.github.io/course/README.html

2021-02-17

В NewYorker статья "Who Should Stop Unethical A.I.?" [1] о нарастающей тревоге учёных за результаты разработки искусственного интеллекта. Чем лучше идут исследования, чем совершеннее становятся системы автоматического принятия решения, тем больше опасений. Многие начинают избегать направления исследований которые потенциально могут привести к появлению оружия нового поколения. Там же отсылки про саморегулирование научного сообщества, как это было с исследованиями плутония в 1941 году, когда учёные сознательно, придерживали их до конца войны или с исследованиями связанными с возможностью создания биооружия. Главные риски в том что почти все исследования в области ИИ имеют двойное назначение. Сейчас Вы разрабатываете автономных дронов для доставки грузов вместо курьеров, а через несколько лет они могут разрушать инфраструктуру противника в гибридных войнах. Сейчас Вы проектируете системы распознавания лиц, поведения и угроз для выявления преступников, а через несколько лет они могут использоваться диктатурами для подавления протестов населения и ужесточения контроля за гражданами. И так далее, это длинный список всех рисков и последствий. И, действительно, в случае ИИ до сих пор нет "своей Хиросимы", большого знакового события-катастрофы с участием ИИ или автоматической системы принятия решения способного напугать человечество. Если оно произойдёт то мы получим мощнейший всплеск нео-луддизма с тотальным ограничением всех ИИ исследований по всему миру. Ссылки: [1] https://www.newyorker.com/tech/annals-of-technology/who-should-stop-unethical-ai #ai #ethics

2021-02-17

#видео Теперь и «Раблз» занялись ютуб-блогерством;) Про то, как всё устроено в X5 (я ещё не досмотрел, поэтому без комментариев): https://youtu.be/C-pZyCAxq5E

2021-02-16

https://newtechaudit.ru/oczenka-stabilnosti-populyaczii-s-pomoshhyu-indeksa-psi/

2021-02-16

Что интересного? На вебинаре максимально кратко и содержательно расскажут о новых фичах Стандарта: зачем они нужны, насколько они круты, когда и для чего их можно будет использовать в своих программах. Особое внимание: модули, концепты диапазона (Ranges), корутины и трёхстороннее сравнение и другие нововведения.

2021-02-16

Всем привет! Приглашаем всех поучаствовать в соревновании по симплификации предложений на русском языке. Что такое симплификация? Например, когда вы пытаетесь своей бабушке объяснить, чем занимаетесь – вы стараетесь не употреблять жаргона и специальных терминов, строить предложение, не используя сложных оборотов. То есть на входе дается сложное предложение, а на выходе должно быть простое. Соревнование начнется 15 февраля и продлится до 15 марта. Для русского языка нет доступного большого набора данных, поэтому мы предоставим небольшой валидационный датасет, а также переведенный англоязычный корпус. В качестве метрики качества будет использоваться SARI (полнота по n-граммам). Мы также приглашаем всех описать свой опыт участия в статье на конференцию Диалог. Ждем всех! Репозиторий соревнования: https://github.com/dialogue-evaluation/RuSimpleSentEval Страница соревнования: https://competitions.codalab.org/competitions/29037 Чат: https://t.me/rsse2021

2021-02-15

Сегодня расскажем про пару статей, которые не получили пока большой популярности, но идеи или подходы, предлагаемые в них, кажутся интересными. Extracting Training Data from Large Language Models Nicholas Carlini, Florian Tramer, Eric Wallace, Matthew Jagielski, Ariel Herbert-Voss, Katherine Lee, Adam Roberts, Tom Brown, Dawn Song, Ulfar Erlingsson, Alina Oprea, Colin Raffel Google, Stanford, UC Berkeley, Northeastern University, OpenAI, Harvard, Apple Статья: https://arxiv.org/abs/2012.07805 #NLP #dataleak #security #transformers Стандартный вопрос в контексте больших языковых моделей — насколько модель в процессе обучения действительно учится обобщать, а насколько просто запоминает входные данные? Авторы статьи исследуют, как можно, работая с моделью как с чёрным ящиком, извлечь из неё в точности те данные, которые были использованы для обучения, а в особенности — редкую и уникальную информацию. (До тех пор, пока вы учитесь на публичных датасетах, это выглядит не очень серьезной проблемой, но если вы, например, использовали обучение модели, скажем, на медицинских картах пациентов, это уже потенциальный риск.) В качестве бейзлайна предложена простая схема из двух этапов: - генерация — сэмплим из модели много строк без кондишенинга по стратегии top-k. - фильтрация — считаем для каждой строки perplexity согласно модели и оставляем только некоторый top (т.е. строки с самой низкой perplexity). Анализ бейзлайна показывает, что в результате действительно получаем довольно много точно запомненного текста (авторы упоминают MIT public license, какие-то популярные гайдлайны, адреса и ники популярных людей), но это не очень интересно, т.к. очевидно, что все эти тексты встречались в обучающих данных чаще других, ну и в целом, предложенная схема сэмплинга часто давала очень однообразные результаты. Кроме того, в результатах очень много случаев, когда генерация вырождалась в повторение одного или нескольких слов (стандартная для жадного сэмплинга проблема). Дальше авторы предлагают пару улучшений схемы сэмплирования: сэмплинг с кондишенингом на случайные строки из интернета и сэмплинг с постепенным понижением температуры (чтобы повысить разнообразие начала текста, но не потерять в последующей связности); а также способы более качественной фильтрации: - сравнение perplexity с другими моделями (мы ищем именно заученный контент, а вероятность, что две разные модели заучат одно и то же, довольно мала) - важный частный случай -- сравнение с такой же моделью, но меньшего размера (меньшие модели меньше склонны к заучиванию) - сравнение perplexity на той же модели того же текста, но lowercased (опять же, шансов, что модель заучит два варианта написания, довольно мало) - сравнение perplexity с сжимаемостью текста zlib-ом (позволяет фильтровать случаи с повторением одного слова) - усреднение perplexity скользящим окном. Прогнав различные комбинации предложенных методов, авторы взяли по 100 топовых примеров и вручную проверили их присутствие в обучающих данных/в интернете. В итоге получили примерную оценку эффективности каждого из методов — лучший дал около 60%, в среднем по всем методам около 30%. Среди выявленных данных нашлись ФИО, контактные данные, UUIDs, конфиги, цитаты IRC-переписки и прочее. Часть из выделенных данных встречалась лишь в одном документе обучающем датасета (хотя и несколько раз). Из курьезного нашлись последовательности квадратов чисел, числа Фибоначчи, цифры числа pi. К слову, на цифрах числа pi показывают, что выбор стратегии сэмплинга и обуславливающего префикса сильно влияет на результат — простейший подход даёт 25 цифр, а правильно подобранный префикс позволяет вытащить до 824 правильных цифр числа pi. Также показывают, что способность/склонность к заучиванию напрямую связана с размером модели. В целом, кажется, что это далеко не последняя работа на эту тему — чем больше публикуемые модели, тем больше они требуют разных данных для обучения, и тем больше повода искать в них интересные заученные строки.

2021-02-14

#part1spring2021 Всем привет! На Stepik появились новые модули на обоих курсах: и в базовом, и в продвинутом потоке. Можно смотреть видео и изучать материал. Кроме того, к завтрашнему дню мы выложим первые домашние задания на обоих потоках. Напоминаем, что регистрация на новые курсы заканчивается сегодня! Если вы пока не присоединились к курсу, но хотите это сделать, даём ссылки на курсы базового и продвинутого потоков. Для поступления нужно вступить в курс на Степике, а также заполнить анкету в уроке "О нас".

2021-02-13

https://youtu.be/8nTXED4R5T4

2021-02-08

Месяцы разнообразных ограничений, массово простимулировавшие использование онлайна, не только технологическим компаниям добавили доходов и возможностей. Киберпреступники и жулики всех мастей тоже не упустили шанс. Евгений Касперский опубликовал краткий анализ происходившего в области киберугроз за месяцы пандемии. Огорчает, что и тут есть явное влияние на профессии будущего ;( «...мы наблюдаем взрывной рост киберпреступности — она становится массовой, и число профессиональных киберпреступников увеличивается. Начинающие хакеры быстро обучаются и вливаются в профессиональные группировки...» Очень советую статью прочитать целиком — увлекательно и познавательно. https://hbr-russia.ru/innovatsii/tekhnologii/854790

2021-02-08

https://datatalks.club/books/20210208-ml-design-patterns.html The design patterns in this book capture best practices and solutions to recurring problems in machine learning. The authors, three Google engineers, catalog proven methods to help data scientists tackle common problems throughout the ML process. These design patterns codify the experience of hundreds of experts into straightforward, approachable advice. In this book, you will find detailed explanations of 30 patterns for data and problem representation, operationalization, repeatability, reproducibility, flexibility, explainability, and fairness. Each pattern includes a description of the problem, a variety of potential solutions, and recommendations for choosing the best technique for your situation. https://www.oreilly.com/library/view/machine-learning-design/9781098115777/ https://github.com/GoogleCloudPlatform/ml-design-patterns

2021-02-05

Слайды со вчерашнего выступления на OpenTalks.ai. Что важного (на мой взгляд) произошло в NLP в 2020-м году. https://www.slideshare.net/grigorysapunov/nlp-in-2020

2021-02-05

Интересные моменты по NLP, проходящей сейчас конференции https://opentalks.ai/ru/timetable#!/tab/261573640-2 . Эта конференция - от создателей наших любимых альманахов по ИИ: 1. Nvidia представила подход https://github.com/NVIDIA/Megatron-LM к обучению мультимиллиардных LMs при помощи техники Model Parallelism. Статья: https://arxiv.org/abs/1909.08053 . 2. Некая компания http://cybersyn.ch/ представила подход к архитектуре робота сервисного центра. Докладчик работает в тч в Сбере, поэтому может будет интересно https://github.com/Cybersyn-Lab/scr2a. 3. КВ Воронцов предоставил интересный доклад по борьбе с фейковыми новостями с помощью ИИ . Желающие погрузиться - читайте базовый обзор по теме: https://www.sciencedirect.com/science/article/abs/pii/S095741741930661X 4. Г Сапунов представил интересный доклад с обзор NLP 2020 https://www.slideshare.net/grigorysapunov/nlp-in-2020 .

2021-02-04

Всем привет! Наш семинар возобновляет вещание. Приглашаем вас в четверг, 11 февраля, в 19-00. Тема: "Spacy для NLP: прошлое, настоящее, будущее". Докладчик: Юрий Бабуров, CTO в компании ApRbot (обработка неструктурированных документов), создатель библиотек spaCy-Ru, python-readability и соавтор крупнейшего корпуса русской речи OpenSTT, преподаватель курса по нейросетям в магистратуре НГУ, соавтор курса https://dlcourse.ai Аннотация: Spacy для NLP: прошлое, настоящее, будущее. Расскажу про задачи, которые решает пакет Spacy, и про то, как он это делает. Морфология и лемматизация, NER, синтаксический анализ, классификация. SOTA или скорость. Семинар пройдет в онлайн-формате. Ссылка на регистрацию (!) Алгоритм регистрации: надо заполнить форму, ближе к семинару вам придет письмо с ссылкой на zoom и паролем.

2021-02-03

Безос, уходит с поста гендира Амазона (после 20 лет он понял, что надо меняться). Текст его письма к сотрудникам я перевел его для себя т.к. был растроган до слез. ---- Друзья Амазонцы: Рад объявить, что в третьем квартале я займу пост председателя совета директоров Амазона, а Энди Ясси станет генеральным директором. На посту председателя СД я намерен сосредоточить свою энергию и внимание на новых продуктах и ранних инициативах. Энди хорошо известен в компании и работает на Amazon почти столько же времени, сколько и я. Он будет отличным лидером, я полностью доверяю ему. Это путешествие началось около 27 лет назад. Amazon был всего лишь идеей, и у него не было даже названия. Вопрос, который мне задавали чаще всего в то время: "Что такое интернет?". К счастью, это продлилось не долго. Сегодня у нас работают 1,3 миллиона талантливых, преданных своему делу людей, мы обслуживаем сотни миллионов клиентов и предприятий, и признаны одной из самых успешных компаний в мире. Как это произошло? Изобретение. Изобретение - это корень нашего успеха. Мы делали безумные вещи вместе, а затем превращалих их в обыденное явление. Мы были пионерами в области обзоров от клиентов, покупки в один клик, персонализированных рекомендациях, безумно быстрой доставке Prime, в Kindle, в Alexa, маркетплейсах, инфраструктуре облачных вычислений и многом другом. Если вы делаете все правильно, через несколько лет изобретение становится обыденностью. Люди зевают. И этот зевок - величайший комплимент, который может получить изобретатель. Я не знаю другой компании с таким же послужным списком изобретений, как у Amazon, и я считаю, что мы сейчас в самом изобретательском состоянии. Надеюсь, вы гордитесь нашей изобретательностью так же, как и я. Думаю, так и должно быть. По мере того, как Amazon становился большим, мы решили использовать наш масштаб и возможности для того, чтобы возглавить движение по важным социальным вопросам. Два ярких примера: наша 15-долларовая минимальная зарплата и Обещание по охране климата. В обоих случаях мы были первыми, а затем попросили других пойти с нами. В обоих случаях это сработало. Другие крупные компании идут нам навстречу. Надеюсь, вы тоже гордитесь этим. Я нахожу свою работу значимой и веселой. Я работаю с самыми умными, талантливыми, гениальными товарищами по команде. Когда времена были хорошими, мы старались быть скромными. В трудные надо было быть сильными и поддерживать, и мы веселили друг друга. Это радость - работать в таком коллективе. Несмотря на то, что я до сих пор тусуюсь в офисе, я рад этому переходу. Миллионы клиентов зависят от нас и наших услуг, а более миллиона сотрудников зависят от нас в плане средств к существованию. Быть генеральным директором Amazon - это огромная ответственность, и она поглощает. Когда у вас есть такая ответственность, трудно уделять внимание чему-либо еще. Как Председатель Совета директоров я буду продолжать участвовать в важных инициативах Amazon, но у меня также будет время и энергия, чтобы сосредоточиться на Day 1 Fund, Bezos Earth Fund, Blue Origin, The Washington Post и других моих увлечениях. У меня никогда не было больше энергии, так что это не уход на пенсию. Я крайне увлечен тем воздействием, которое, как мне кажется, могут оказать эти организации. Сложно представить Amazon более чем сейчас направленным в будущее. Мы идем полным ходом, ровно так как требует от нас мир. В нашем распоряжении есть штуки, которые будут продолжать удивлять. Мы обслуживаем частных лиц и предприятия, мы первые в двух огромных отраслях промышленности и в совершенно новом классе устройств. Мы являемся лидерами в таких областях, как машиностроение и логистика, и если идея кого-то из Амазона потребует еще одного нового навыка, мы достаточно гибки и терпеливы, чтобы научиться. Продолжайте изобретать и не унывайте, если идея поначалу выглядит безумной. Не забывайте блуждать. Пусть любопытство будет вашим компасом. "День 1" остается в силе. Джефф https://www.aboutamazon.com/news/company-news/email-from-jeff-bezos-to-employees

2021-02-03

5 февраля c 15:00 до 16:00 будет проведен внутрибанковский meetup "SPARK: архитектура, экосистема и применение для анализа данных Банка". ⁣ ⁣Содержание: применении Spark для анализа больших данных. Будут разобраны ключевые концепции данного фреймворка, а также основные принципы работы входящих в него модулей. Инструкция по подключению: https://sberchat.sberbank.ru/@iad_inform

2021-02-03

State of ... / Состояние в области ... - это большой жанр отчетов/докладов/обзоров состояний в отраслях который стал довольно популярен у исследовательских и коммерческих компаний в последние несколько лет. Я регулярно пишу со ссылками на подобные обзоры за 2020 годи собрал их в одну публикацию: - State of CSS - состояние CSS фреймворков за 2020 год - State of JS - состояние движков для Javascript за 2020 год - State of devops - состояние технологий development operations от Puppet - State of remote work - состояние дистанционной работы от Buffer - State of AI 2020 - состояние технологий искусственного интеллекта - State of profession - состояние профессий от GreenBiz - State of work - состояние труда от Workfront - State of European Tech - состояние технологий в Евросоюзе - State of Application Service - состояние рынка приложений от F5 - State of Enterprise open source - состояние корпоративного рынка открытого кода от Redhat - State of software supply chain - состояние рынка цепочки поставок ПО от Sonatype - State of API - состояние рынка API от Postman Не привожу примеры State of data science, их ежегодно публикуют пара десятков организаций Все эти обзоры разного качества, но примерно одного жанра. Хотя они и составляются с оглядкой на рыночное позиционирование компаний, но имеют ценность в отличие от большей части маркетинговых материалов. Лично я отслеживаю пару десятков источников таких отчетов поскольку часто в них проскакивают тренды которые по другому не найдешь и не заметишь. В принципе же такого жанра не хватает во многих отраслях в России. #reports #data #tech

2021-02-03

5 февраля c 15:00 до 16:00 будет проведен внутрибанковский meetup "SPARK: архитектура, экосистема и применение для анализа данных Банка". ⁣ ⁣Содержание: применении Spark для анализа больших данных. Будут разобраны ключевые концепции данного фреймворка, а также основные принципы работы входящих в него модулей. Инструкция по подключению: https://sberchat.sberbank.ru/@iad_inform

2021-02-02

Люди везде одинаковые, но вот стесняются разного и по-разному. Одна из самых дорогих EdTech компаний в США не блещет революционным педагогическим подходом или уникальными технологиями. Она просто предоставляет ответы на задачи из всех учебников и задачников. Ее название поэтому достигло того же уровня популярность, что и Google: оба используются в речи как глаголы. На Chegg работают только в Индии более 70 тысяч фрилансеров, экспертов в области инженерных дисциплин и естественных наук. И, строго говоря, именно такие компании демонстрируют, почему нужен настоящий EdTech: тут студенты своими кровными долларами показывают, что они думают о вузах и насколько не уважают традиционное образование. Но пока живы обычные колледжи и университеты, будет процветать и Chegg. Кстати, а вам тоже сразу послышалось ГДЗ? :) https://www.forbes.com/sites/susanadams/2021/01/28/this-12-billion-company-is-getting-rich-off-students-cheating-their-way-through-covid/?sh=3bc8da37363f

2021-01-29

AutoX запустили полностью беспилотные такси в Шенжене. Тестировать беспилотники без страхующего водителя в салоне компания начала осенью 2020, а теперь открыла сервис для всех желающих. Это первый подобный запуск в Китае и второй в мире после роботакси Waymo в пригороде Феникса Чандлере. Вызвать беспилотник AutoX можно в обычном приложении такси, впрочем неизвестно, можно ли как-то специльно отметить там, что хочешь именно беспилотник. Вообще деталей про запуск очень мало. Известно только, что в качестве территории оперирования был выбран район Пиньшань. Это такой пригород Шенженя, который беспилотные компании часто выбирают для пилотных запусков. Forbes пишут, что, судя по видео, он в целом похож на Чандлер по уровню сложности среды. Автор статьи отмечает, что пока не будет озвучено каких-то цифр, трудно оценивать запуск, но само то, что компания готова катать широкую публику в своих беспилотниках без сопровождения страхующего водителя, говорит об определенном уровне уверенности AutoX в безопасности и качестве своей технологии. https://www.forbes.com/sites/bradtempleton/2021/01/27/autox-opens-real-robotaxi-service-in-china-to-the-general-public/?sh=32700ebf5a6f

2021-01-26

Microsoft патентует технологию для общения с умершими Компания Microsoft подала заявку на патент, судя по названию которого, планирует создавать чат-боты для реконструкции общения с любой личностью. Собственно, почти с любой, поскольку для создания "цифрового двойника" понадобятся данные о человеке, например, изображения, голосовые данные, сообщения в социальных сетях, электронные письма и т.п. С одной стороны, идея жутковата: чатбота можно использовать для создания цифровых аватаров ушедших родственников. Но есть ещё один аспект: создание такого ИИ может открыть новую эру кибермошенничества и кражи личных данных. Ситуация смягчается тем, что, с большой вероятностью, разработка не пройдёт путь от патента до готовой работающей программы, как и абсолютное большинство аналогов https://futurism.com/the-byte/microsoft-patent-ai-dead-family

2021-01-26

https://vc.ru/video/199229-video-robosobaka-ot-boston-dynamics-gulyaet-po-korporativnomu-universitetu-sbera-i-igraet-v-snegu

2021-01-25

#образование Хороший курс для начинающих по DL: “Методы обработки и анализа больших данных” (читался для МИЭТ). Автор - доктор технических наук Роман Соловьёв, известен на Kaggle под ником ZFTurbo (победами на кегле и на других платформах). Очень приятно читает, все лекции продуманы, примеры из своей практики. Правда, курс маленький и не все темы раскрыты достаточно подробно. Где-то, наверное, есть ещё ноутбуки автора (примеры показанные на лекции очень хорошо написаны). https://youtube.com/playlist?list=PLMyPRULSXkaWaJrQOWCBw0nVVVydPsPPj

2021-01-25

Внезапно the Economist обратил свой взор на трансформацию Сбера. И спрашивает сам себя: сможет ли бывший советский монополист стать российским Netflix, Google и Amazon в одном лице? Ответ: может быть. Причём, в этом, по мнению авторов материала не помешает большая доля акций у правительства. Вот основное из материала: ✔️Греф применяет уникальную (не американскую, европейскую или восточную) модель управления с фокусом на цифровизацию. ✔️По оценкам The Economist, Сбер до 2023 года потратит 3-4 млрд долларов, это позволит выстроить экосистему с годовым объёмом продаж в размере 7 млрд долларов. ✔️У Яндекса и Mail.ru не хватает ресурсов для самостоятельной трансформации.

2021-01-25

Напоминаю, что вебинар сегодня вебинар по гиту: https://youtu.be/-CPiOe9rnh0

2021-01-25

Компания Amazon сделала публичный форк (отдельную ветвь разработки) продукта Elasticsearch [1] после того как компания Elastic сменила модель лицензирования и закрыла код продукта. В ответ Elastic, разработчики, Elasticsearch обвинили их в некорректном и неэтичном поведении [2]. Почему всё это важно? В современном мире огромное значение приобретают зависимости кода и продуктов друг от друга. Elasticsearch - это продукт от которого сейчас зависит огромное число сервисов по всему миру. Конфликт между Elastic и Amazon - это конфликт между бизнес моделями open source где большую выгоду получают крупные игроки обеспечивающие инфраструктурные сервисы за счет open source продуктов. Если Вы сделаете сейчас очень востребованный open source продукт то да, сколько бы Вы не заработали, но Amazon, Google и Microsoft заработают больше потому что они умеют лучше масштабировать, у них огромная пользовательская база и огромный штат инженеров сопровождения. Для некоторых качественных open source проектов это осознание является большим жизненным вызовом и они отказываются от модели существования как открытого кода. Но возможно что это чуть ли не единственная возможная для них модель существования. Эта ситуация ещё одно напоминание о важности целостной государственной/корпоративной политики управления зависимостями. Рисками того что важные компоненты ваших систем могут становиться недоступными, перестать поддерживаться или обретать иную стоимость. Ссылки: [1] https://aws.amazon.com/ru/blogs/opensource/stepping-up-for-a-truly-open-source-elasticsearch/ [2] https://www.elastic.co/blog/why-license-change-AWS #opensource #aws

2021-01-22

The Batch: Detecting Guns, Fighting Lead Poisoning, Adversarial Training for Language-and-Vision, Financial Reports for Robots https://blog.deeplearning.ai/blog/the-batch-detecting-guns-fighting-lead-poisoning-adversarial-training-for-language-and-vision-financial-reports-for-robots

2021-01-22

Annual Report, Robot Edition Corporations are tailoring their financial reports to be read by machines. What’s new: Automated systems download far more company financial reports than humans, according to a study by the U.S. nonprofit National Bureau of Economic Research. Consequently, companies are filling those reports with data that looks good to computers. What they did: The study analyzed 50 years of quarterly and annual financial reports submitted by public companies to the U.S. Securities and Exchange Commission. Drawing on SEC download logs, the authors examined the IP address associated with each download to determine whether a person or a machine initiated it. They found that automated downloads grew from 360,862, or 39 percent of the total, in 2003 to around 165 million, or 78 percent, in 2016. Companies that served large numbers of machines-initiated downloads were more likely to make their reports machine-readable by, say, adhering to ASCII standards, separating tables from text, and ensuring that documents contained all the information required to interpret them. Moreover, these companies use language more likely to produce positive scores from sentiment-analysis models. For instance, they tend to avoid words associated with negative emotions, lawsuits, or uncertainty. Behind the news: Computer systems increasingly drive the stock market. Last year, Deutsche Bank estimated that automated systems made buying and selling decisions for 80 percent of equity trading and 90 percent of equity futures trading. Corporate financials are following suit. Why it matters: The study found that the more easily a computer can digest a company’s financial reports, the faster its stock is traded after a report has been published. This suggests that the market’s pace, already lightning-fast, is bound to accelerate. We’re thinking: Companies have every incentive to tweak their reports to impress their audience, whether readers consist of wetware or software. But there’s a slippery slope between painting a rosy picture and exaggerating in ways that border on fraud. Regulators, analysts, and AI practitioners alike have a responsibility to guard against market manipulation.

2021-01-22

https://www.youtube.com/watch?v=L5LPxpM1srA

2021-01-21

https://youtu.be/NVfy8l6gyjw

2021-01-20

Регулярная подборка ссылок по работе с данными, открытости и приватности На инженеров по работе с данными (data engineers) больше чем на исследователей данных (data scientists), вывод Mihail Eric по итогам анализа вакансий компаний относящихся к данным в портфеле Y-Combinator, We Don't Need Data Scientists, We Need Data Engineers [1] Я соглашусь с этим и применительно к России тоже, сейчас много хайпа вокруг data science и ИИ, при том что есть дефицит квалифицированных специалистов и большое число джунов, но также и дефицит специалистов по инфраструктуре данных и инженерии данных. Best-of Machine Learning with Python [2] каталог из 830 инструментов с открытым кодом по работе с данными с помощью языка Python Открытый код мессенжера Signal для Android, iPhone, настольного приложения и сервера [3] для тех кто хочет построить собственную автономную инфраструктуру на его основе. Есть лишь сомнения в том что серверный код актуален [4] потому как новые функции в приложениях появляются, а серверный код не обновлялся несколько месяцев. GHunt [5] - инструмент для OSINT в отношении аккаунтов на Google, извлекает Google ID, данные календаря, отзывы, общедоступную информацию и ещё много чего. Работает не только с почтой на gmail.com, но и с аккаунтами привязанными к собственным доменам. Полезен для самопроверки тем кто думает о приватности и проверке других тем кто ведет расследования. Поддерживаемый мной список Awesome forensic tools [6] с перечнем инструментов OSINT. GitLab получили $195 миллионов финансирования при общей оценке в $6 миллиардов [7] Ссылки: [1] https://www.mihaileric.com/posts/we-need-data-engineers-not-data-scientists/ [2] https://github.com/ml-tooling/best-of-ml-python [3] https://github.com/signalapp [4] https://github.com/signalapp/Signal-Server [5] https://github.com/mxrch/GHunt [6] https://github.com/ivbeg/awesome-forensicstools [7] https://techcrunch.com/2021/01/15/gitlab-oversaw-a-195-million-secondary-sale-that-values-the-company-at-6-billion/ #data #dataengineering #datascience #privacy #opendata

2021-01-20

kōan: A Corrected CBOW Implementation Ozan İrsoy, Adrian Benton, Karl Stratos Статья: https://arxiv.org/abs/2012.15332 Код: https://github.com/bloomberg/koan Интересная история в мире NLP из серии “наше представление о мироздании было неверным”. Классический word2vec имеет два варианта обучения эмбеддингов: Continuous bag-of-words (CBOW, здесь по контексту предсказывается центральное слово) и Skip-gram (SG, здесь наоборот по центральному слову предсказываются слова контекста). Первый быстрее, потому что негативный сэмплинг требуется только для центрального слова, а не для каждого слова контекста. Но общее убеждение было, что SG даёт лучшее качество. И вот ребята из Блумберга заявляют, что это не обосновано какими-то теоретическими различиями, а дело в референсных имплементациях word2vec (родной от Томаса Миколова и также часто используемой из Gensim), где много лет была бага. И вроде как в генсимовских issues на гитхабе на это несколько раз указывали. Копание показало, что градиент для входных (source) эмбеддингов считается неверно, он не делится на размер окна контекста (то есть, считай, избыточно умножается на размер этого окна). Это было бы ничего, если бы среди обучаемых весов были только входные эмбеддинги, тогда максимум бы пришлось поправить learning rate. Но там же есть и выходные (target), которые масштабировать не надо, и получается что градиент для общего вектора весов в итоге указывает “не совсем туда”. Авторы собрали исправленный вариант CBOW и показали, что он даёт сопоставимое с SG качество. Заодно ещё сделали оптимизированный негативный сэмплинг и выложили реализацию на С++17. На генсимовской реализации есть просадка по качеству у CBOW по сравнению с SG, а на новой нету. Но правда есть пара противоречивых результатов, на SST-2 и QNLI из GLUE генсимовский CBOW таки почему-то прям существенно обогнал по качеству всё остальное. У меня нет объяснения такому результату, это какой-то странный подземный стук, который, мне кажется, говорит, что вопрос ещё не до конца закрыт. Надо копать дальше! В любом случае кейс интересный. Проверяйте надёжность основ и не доверяйте безоглядно тому, что “общепринято”.

2021-01-19

#книга Сергей Иванов (один из моих лучших аспирантов) написал очень симпатичный конспект по теме "Обучение с подкреплением". Вроде как на русском языке это самое полное и интересное издание на эту тему: https://github.com/FortsAndMills/RL-Theory-book/

2021-01-19

https://youtu.be/I5T8XBArcZ4 Мы хотим сделать эту встречу ежегодной — 19 января она проходит в Яндексе уже во второй раз. Мы вновь соберёмся после праздников, чтобы обсудить итоги конференции NeurIPS 2020 (бывшей NIPS). Это одна из самых престижных международных конференций по машинному обучению. Вас ждут обзоры работ по NLP, RL и CV по 15 минут каждый, затем ещё несколько быстрых докладов от авторов принятых на NeurIPS статей и воркшопов, а также большая дискуссия. Мы сконцентрируемся на методах оптимизации, краудсорсинге, прогнозах дорожной ситуации для беспилотника и других темах.

2021-01-14

Коллеги, Напоминаем, что завтра 14 января в 18-00 состоится вебинар научного директора Лаборатории ИИ Сбербанка Глеба Гусева "Minimal variance sampling in stochastic gradient boosting" (NeurIPS-19). Ссылка для подключения: https://jet.zoom.us/j/94113853892?pwd=eklSdzE0SkVZcFl0OUFLWEJFa2laQT09

2021-01-14

часть 1 https://habr.com/ru/post/506086/ часть 2 https://habr.com/ru/post/511004/ часть 3 https://habr.com/ru/post/515510/ часть 4 https://habr.com/ru/post/523126/

2021-01-14

https://controleng.ru/innovatsii/ontologija/ О цифровой экономике, также определяемой в мировой экономической науке как «постиндустриальное информационное общество», или «шестой технологический уклад», и искусственном интеллекте сейчас говорят и пишут очень многие. Однако, как правило, речь идет лишь об отдельных инструментах цифровизации и интеллектуализации производств, а вот проблема системного подхода к созданию автономного интеллектуального цифрового производственного окружения не обсуждается или обсуждается лишь в узком контексте. Но именно такое окружение необходимо для качественного перехода на новый технологический уклад, где значительная доля работы специалистов и менеджеров среднего звена будет полностью выполняться интеллектуальными агентами. Ключевым фактором, препятствующим появлению систем автономного интеллектуального производства уже сегодня, является отсутствие общего архитектурного подхода к созданию цифровых платформ управления производствами, с одной стороны, и «зоопарк» форматов и стандартов работы с данными — с другой. Примечательно, что на эти два вызова уже существуют технологические ответы, которые получили общее название «индустриальные графы знаний» и показывают преимущества онтологического подхода, обеспечивающего гибкое моделирование и интероперабельность данных, стек семантических технологий, позволяющий выполнять анализ неструктурированной информации и интеллектуальный поиск данных во множестве разнородных источников, а также машинное обучение, обеспечивающее анализ и классификацию данных, в том числе в условиях неполной информации. В статье дается системное описание элементов технологии «индустриальных графов знаний»

2021-01-13

#законы К вопросу о прозрачном скоринге - банки против: https://news.mail.ru/economics/44863857/

2021-01-11

​​Друзья, поздравляем вас с наступившим новым годом! Пусть в нём будет меньше багов, чем в 2020

2021-01-08

NeurIPS New Year AfterParty https://yandex.ru/promo/events/generated/neurips-afterparty2020/index?turbo=true

2021-01-07

А можно ниндзя-анонс курса на ОДС? Дорогое сообщество, мы таки собрались с силушками и зарелизили начальную версию курса по knowledge graphs на русском языке. Не счесть количества :harold: и :good-enough: отправленных по пути, но кое-что вот уже готово. Курс на платформе ODS : https://ods.ai/tracks/kgcourse2021 , сделали канал #kg_course в слаке одс и большой анонс в мейне будет в следующий понедельник. Безмерная благодарность @VadymSafronov и @ivanovserg990 за практическую и моральную поддержку. Вадим сделал большую прекрасную лекцию, и на одс платформе можно будет погонять домашки на лидерборде! Пока готово 3 лекции из 9, еще три скоро будут. Формат пока self-paced, тк наших орг ресурсов еще не достаточно для большого пайплайна с проверками и оцениванием домашек, но я думаю, что со временем допилим. Предложения, коммиты и пулл реквесты принимаются в репе https://github.com/migalkin/kgcourse2021 и еще в ЛС мне и Вадиму. Пасиба ☺️

2021-01-06

В данной работе рассматривается задача предсказания распространения эпидемии в графе, где вершине соответсвует человек, ребру — наличие социальной связи (например, отношение дружбы). В последние годы появилось большое количество социальных сетей, и оказались доступны с ними связанные массивы данных. Такие данные могут обладать несколькими слоями и размерностями: есть как пользователи, так и связи между ними (возможно направленные), пользователь обладает как статичными свойствами, так и изменяющимися во времени. Идеей было реализовать метод, который бы использовал весь спектр доступной информации (использование профиля пользователя ранее не применялось).

2021-01-06

DALL-E - красивая реализация старой идеи «а пусть нейронка по текстовому описанию нарисует нам картинку». Но теперь под капотом могучий GPT-3, да и процесс обучения сильно улучшен. Результаты очень красивы: надо смотреть картинки в статье по ссылке, тем более что они интерактивны: некоторые слова в описании можно менять. В итоге имеем великолепную демонстрашку двух вещей: 1. Вот это и есть трансформер, очень популярный нынче в работах по ML термин 2. Примерно так и работают творческие ИИ-помощники, когда от них требуется фантазия ;) https://openai.com/blog/dall-e/ Спасибо тезке @tiktol за ссылку, а то я что-то ленив на каникулах ;)

2020-12-30

https://youtu.be/Qq2faeVqbo0

2020-12-30

Доклад от руководителя поиска Яндекса: почему в технологических компаниях не работает нормальное распределение при раздаче премий и почему в Яндексе перешли на степенное распределение.

2020-12-30

#курс выложены материалы 2020 года https://dyakonov.org/2020/12/30/pzad/

2020-12-30

https://m.habr.com/ru/post/533880/

2020-12-28

Дорожка по классификации твитов на русском языке о лекарственных препаратах SMM4H 2021 Task 2: определяем, упомянуты ли побочные эффекты. Мы рады сообщить, что в 2020-2021 году будет проходить второе соревнование по автоматической классификации русских твитов для определения наличия упоминаний о побочных лекарственных эффектах в рамках воркшопа Social Media Mining for Health Application workshop (SMM4H) 2021. Воркшоп будет проходить в рамках международной конференции NAACL 2021. В этом году обучающая и тестовая выборки существенно расширены, в том числе добавлены твиты о лекарствах, применяющихся при лечении COVID-19. Дорожка даёт возможность протестировать как одноязычные методы, так и многоязычные модели (например, multilingual BERT, XLM-R). Мы призываем участников использовать не только русскоязычные твиты для обучения моделей, но и размеченные твиты на английском языке, которые можно получить в рамках дорожки SMM4H 2021 Task 1. Важные даты: Публикация тренировочных данных: 15 декабря 2020 Публикация тестовых данных: 26 февраля - 1 марта 2021 Последний день для отправки решений на тестовых данных: 4 марта 2021 Оценки на тестовых данных: 8 марта 2021 Подача статей с описанием решения: 15 марта 2021 Финальная версия статей: 12 апреля 2021 SMM4H воркшоп: 10 июня 2021 Для регистрации заполните форму: https://forms.gle/1qs3rdNLDxAph88n6 Подробная информация: https://healthlanguageprocessing.org/smm4h-2021/task-2/

2020-12-28

https://github.com/datastacktv/data-engineer-roadmap This roadmap aims to give a complete picture of the modern data engineering landscape and serve as a study guide for aspiring data engineers.

2020-12-27

#graphs Как инженер-ядерщик с русскими корнями придумала «умную» карту деловых связей и попала в список Forbes https://www.forbes.ru/karera-i-svoy-biznes/416565-kak-inzhener-yadershchik-s-russkimi-kornyami-pridumala-umnuyu-kartu Получив фидбэк, предприниматели взялись за разработку кода, который сможет самостоятельно проходиться по ключевым источникам (Wikipedia, сайты компаний, пресс-релизы, отчеты по грантам, блоги и пр.) и находить на них необходимую для построения связей информацию. Помимо самой карты связей, стали предлагать еще и услугу «умного мэтчинга» — рекомендовать, на кого из этой карты действительно стоит обратить внимание, и по возможности давать контакты нужного человека из открытых источников. «Например, если мы видим, что в стартап уже инвестировали похожие на нашего клиента игроки, то можем рекомендовать обратить на него внимание. И наоборот: если стартап ищет инвестора, и на карте связей мы видим несколько акселераторов, которые уже инвестировали в похожие проекты, то можем рекомендовать стартапу с ним пообщаться»

2020-12-25

Итоги 2020. Члены DS сообщества СВА в этом году: 1. Навечно вписались в мировой process mining, выставив 23 команды на международное соревнование BPIC. 2. Провели 3 доклада на международной конференции AIJ2020. 3. Провели первый открытое соревнование DSC 11 по process mining в итоге ставшее международным. В первый раз раздали мерч участникам. 6. Провели учебное соревнование по reinforcement learning. Может в следующем году кто-нибудь применит ее на практике, например для process mining. 7. Первый раз применили рекомендательные системы на практике. 8. Попробовали поучаствовать в спринтах в качестве менторов в рамках школы продукт овнеров. 9. В рамках ЦК по process mining запустили уникальную активность по разработке python библиотеки.

2020-12-25

https://youtu.be/D5mqZKe9yY4

2020-12-25

В этом году мы много рассказывали о технической разработке AI-проектов. Но как продать свой проект широкой аудитории? Как убедить руководителя в успешности идеи? По статистике успех любого проекта на 50% зависит от хорошей презентации. Как "зацепить" и представить визуальные аргументы того, почему именно ваш проект необходимо реализовать? ‼Предлагаем сэкономить время и воспользоваться интернет-ресурсами с готовыми шаблонами. Делимся подборкой сайтов, которые мы часто используем при продвижении своих идей и проектов:

2020-12-25

SberPM выложили на github https://github.com/SberProcessMining/Sber_Process_Mining

2020-12-25

​​2020: подборка лучших AI-моделей ?Блог Towards AI под авторством Louis Bouchard опубликовал наиболее заметные работы по AI в уходящем году ?Каждая модель содержит подробное описание, видео-ролик об основных принципах и ссылки на открытый код ?Большинство моделей серьезно улучшает уже существующие алгоритмы работы с потоковым видео, фото и текстом, но с гораздо меньшими ресурсами и небольшими объемами обучающей выборки, что делает AI более доступным и эффективным Лучшие AI-работы 2020 ?YOLO4 – более быстрое распознавание объектов в реалтайм-видео. Улучшит качество self-driving cars ?Deep Face Drawing – алгоритм создает фотографию на основе всего лишь рисованного скетча ?PULSE – создание качественного фото из размытого или пиксельного образца ♻️Transcoder – перевод с одного языка программирования на другой (например, из кода C++ в код Python) ?PIFuHD – создание 3D-модели человека из простой 2D-фотографии ?High-Resolution Face Swapping от Disney – высокоточное наложение лица персонажа на другого актера (пример: ролик Сбера с Жоржем Милославским) ?Swapping Autoencoder for Deep Image Manipulation – подмена любого фона и текстуры объекта на фотографии в высоком разрешении ?GPT-3 – создание человекоподобных текстов на сверхмалых обучающих выборках, событие года в AI ✂️Learning Joint Spatial-Temporal Transformations for Video Inpainting – реалистичное удаление объекта из видео с пиксельным заполнением пустого пространства ?Image GPT – заполнение отсутствующей части картинки по одному фрагменту, тоже полностью unsupervised ⛄️Cartoonize Using White-box – создание анимационных персонажей на основе обычных фото и видео людей ?‍♂️FreezeG: перенос фото человека в определенную стилистику анимационных персонажей ??Neural Re-Rendering of Humans – прорисовка человека в любом ракурсе на основе только одной фотографии ?Beyond the Nav-Graph – автоматическое создание сопровождаемой навигации внутри помещений ?RAFT: state-of-the-art модель из Принстона для перевода объектов на видео в оптические потоки, используется в computer vision ?Crowdsampling the Plenoptic Function – создание реалистичных моделей архитектурных объектов на основе тысяч туристических фотографий с разных ракурсов ?Deep Latent Space Translation – качественная реставрация фото с помощью deep learning ?Neural circuit policies – улучшенная версия алгоритма self-driving cars от MIT: на основе анализа нейронов нитевидных червей сократили в тысячи раз число контролируемых параметров при движении автомобиля ??Lifespan Age Transformation Synthesis – технология от Adobe, отрисовка человека в разных возрастах на основе одного фото ?COOT – создание точного текстового описания каждого фрагмента видео ?Stylized Neural Painting – более эффективная и менее ресурсоемкая модель перевода изображения в живописную картину ?‍?High-Quality Background Removal – более точное удаление заднего фона за человеком в режиме реалтайм ?ADA – модель от NVidia создает множество вариантов изображений объектов на малых обучающих объемах (до 10 фото) ⛈Weather Prediction Using Neural Networks on a Cubed Sphere – переход от прогноза погоды на основе линейных данных к AI-анализу погодных паттернов за последние 40 лет  

2020-12-24

Google опубликовал подробный технический разбор причин и самого хода развития инцидента, который на прошлой неделе затронул пользователей сервисов Гугла по всему миру. Упрощенный пересказ можно найти здесь: https://www.zdnet.com/article/google-heres-how-our-huge-gmail-and-youtube-outage-was-due-to-an-errant-zero/ Исходный отчёт Гугла: https://status.cloud.google.com/incident/zall/20013 Хотя мониторинг сообщил инженерам Гугла в течение минуты о возникновении нештатной ситуации, большинство сервисов оставались недоступны 47 минут, а некоторые и дольше. Это долго ;( И очень важно помимо технических решений помочь избежать паники среди пользователей; один из пунктов в описании мер, которые будут предприняты в дальнейшем, явно об этом и говорит: даже Гугл не может рассчитывать только на себя в аварийной ситуации. Improve reliability of tools and procedures for posting external communications during outages that affect internal tools

2020-12-22

Вышка и сбер запустили курс Estimating ML-Models Financial Impact https://www.coursera.org/learn/estimating-ml-models-financial-impact О проекте Преподаватели Программа курса Параметры регистрации Часто задаваемые вопросы Estimating ML-Models Financial Impact Национальный исследовательский университет "Высшая школа экономики" Участвовать бесплатно Начинается 21 дек. г. Об этом курсе Недавно просмотрено: 3 119 This course covers the basics of financial impact estimation for machine learning models deployed in business processes. We will discuss the general approaches to financial estimation, consider the applications to credit scoring and marketing response models, and focus on the relationship between statistical model quality metrics and financial results, as well as the concepts of A/B testing and potential biases as they apply to historical data. Multiple courses focus on building machine learning models and assessing their predictive power. However, much less attention is usually paid to explaining how the model quality translates into financial results. Even more so, decision strategies relying on model predictions are normally not covered in great detail. In this course, we will focus on the step when we already have a ML model and want to estimate the expected financial results, and verify the model by running either an A/B test or a backtest. In addition, we will learn how to tune threshold decision rules for model probabilities, thereby improving financial results, as well as account for model uncertainty or biases in historical data that may tamper with our financial estimates. We will analyze the binary classification case, which is the most common type of a ML task. After completing this course, you, as a data scientist, will be able to come up with better arguments when explaining the value of your machine learning models to your leadership. If your role in the company gravitates toward business processes, you will gain a better understanding of how machine learning models can have an impact on the financial results.

2020-12-22

Первая серия беспилотников Sber выехала на улицы Москвы для испытаний https://press.sber.ru/publications/pervaia-seriia-bespilotnikov-sber-vyekhala-na-ulitsy-moskvy-dlia-ispytanii?fbclid=IwAR2sLeQPZneH6f7AuhTCFkpcqAog9SOt35OxWw4DbAIIl4VFyP453u8KtUk

2020-12-20

Управление исследований и инноваций приглашает принять участие в технологической онлайн-конференции по Computer Vision в Сбере 21 - 23 декабря 16:00 -19:00 (zoom). В программе собрали всех (ну или почти всех), кто ведет исследования и разработки в области CV в экосистеме Сбера! Выступят SberDevices, Лаборатории ИИ, AR/VR, робототехники, SberEye (Сеть продаж), VisionLabs, CognitivePilot, ЦРТ, SberAutoTech. Программа и ссылка на регистрацию в https://sberchat.sberbank.ru/@iad_inform

2020-12-18

https://habr.com/ru/company/JetBrains/blog/533584/

2020-12-17

За квартал попробовали с коллегами пройти курсы специализации https://www.deeplearning.ai по NLP на Coursera. Так как курсы представлял Andrew Ng, то изначально были высокие ожидания к материалам. Ожидания не оправдались: классический подход онлайн курсов годится только для нулевого или начального уровня освоения компетенции. Для формирования экспертизы требуется участие в реальных проектах под присмотром опытных менторов. Но повторение NLP не пройдет зря - сейчас готовим новое открытое соревнование; базовая идея - построить граф знаний (Knowledge graph, KG) по открытым данным о закупках. KG в 2020 на гартнеровском пике AI хайпа, но мы сфокусируемся на практической части - посмотрим насколько продвинулись технологии NLP и инструментарий графовой аналитики для автоматического построения полезного KG из текста. Нам нужны тестеры площадки соревнования, готовые изучать материал, пробовать функционал и давать обратную связь. Если есть желание поучаствовать - пишите мне в личку.

2020-12-17

У Google вышел прекрасный ML-эксперимент (https://artsandculture.google.com/experiment/blob-opera/AAHWrq360NcGbw) — вы можете поиграться с цветными чудиками на экране и создать фрагмент оперы, управляя их голосами. Не надо разбираться в музыке, ML-алгоритмы под капотом подберут все гармонии. Вот что вышло у меня (https://g.co/arts/RpEjqbQ8xns8BQfv6), попробуйте и вы! И зацените другие интересные ИИ-эксперименты (https://experiments.withgoogle.com/collection/ai) от Google с демками в браузере.

2020-12-16

Лекция «Предсказание обращений» от эксперта по анализу данных компании МегаФон Покажем на примере, как бизнес-задачу превратить в математическую задачу и поделиться алгоритмом действий на примере кейса МегаФон! По программе лекции тебя ждут: - Рассказ эксперта про то, чем занимается МегаФон; - Формализация задачи и подготовка данных; - Разговор о Spark ML; - Показ применения бустинга в решении задачи и практические трюки; - А также результаты того, что в итоге получилось. Спикер: Тимур Джумакаев, эксперт по анализу данных МегаФона. Так же всем желающим доступен бесплатный 72-часовой углубленный курс (https://ii-s-nulya.ru/mo_dvfu) по машинному обучению. __________________________________ ? 17 декабря, начало в 11:30 мск, Четверг ? ОНЛАЙН ✅ Ссылка на прямую трансляцию (https://www.youtube.com/watch?v=5kbgpDw6WxQ)* * чтобы получить напоминание о начале трансляции нужно нажать на колокольчик и подписаться

2020-12-16

Дао Искусственного интеллекта: баланс простого и сложного Искусственный интеллект, не усложняй: эксперты ВТБ — о том, что не все решения требуют нейронных сетей и сложных моделей, а также о практических лайфхаках в Data Science. 1. Скажем «нет» сложным моделям: как отказаться от соблазна - Николай Попов, ВТБ 2. MLops: особенности работы в команде - Юрий Карев, ВТБ 3. N советов по применению ML из практики - Анна Ширшова, ВТБ 4. Не BERTом единым: интерпретируемые модели связи временных рядов и текстовой информации - Алексей Рябых, ВТБй __________________________________ ? 23 декабря, начало в 18:30 мск, Среда ? ОНЛАЙН ✅ Регистрация на мероприятие (https://clck.ru/SUUJY)

2020-12-15

Многие тезисы которые я пишу в этом канале и в текстах докладов которые готовлю или в которых участвую написаны ещё довольно давно. Чтобы не повторятся по многу раз, привожу тут ссылки на предыдущие публикации Например, за вот уже много лет у меня накопилось очень много колонок в СМИ в которых они изложены. Ведомости - Прозрачность госзакупок в России не означает достоверности публикуемой информации https://www.vedomosti.ru/politics/articles/2011/06/23/prozrachnost_goszakupok_v_rossii_ne_oznachaet_dostovernosti - Пространственные данные: Надо открываться https://www.vedomosti.ru/newspaper/articles/2013/09/13/nado-otkryvatsya - От общественного контроля к общественному аудиту https://www.vedomosti.ru/opinion/articles/2016/02/11/628492-ot-obschestvennogo-kontrolya-obschestvennomu-auditu - Генетическая дискриминация https://www.vedomosti.ru/opinion/articles/2016/08/08/652204-geneticheskaya-diskriminatsiya - Право знать о преступлениях https://www.vedomosti.ru/opinion/articles/2016/10/17/661144-pravo-znat - Несознательная информатизация https://www.vedomosti.ru/opinion/articles/2017/05/18/690333-nesoznatelnaya-informatizatsiya - Плохой ответ на мнимые угрозы https://www.vedomosti.ru/opinion/articles/2017/06/14/694228-otvet-ugrozi РБК - Открытые данные против коррупции: в чем Россия перегнала Запад https://www.rbc.ru/opinions/society/27/01/2016/56a869f19a7947c257896897 - Apple против ФБР: что важнее — безопасность или частная жизнь? https://www.rbc.ru/opinions/technology_and_media/25/02/2016/56cee4949a79476d29c67c10 - Темная сторона открытости: почему не все данные стоит раскрывать https://www.rbc.ru/opinions/technology_and_media/16/05/2016/5739b2639a79474f9a96e10f - Неприкосновенный реестр: почему не получится закрыть данные госорганов https://www.rbc.ru/opinions/politics/30/08/2016/57c542999a7947542d3df910 - Профилактика преступлений: какое будущее ждет правоохранительную систему https://www.rbc.ru/opinions/technology_and_media/08/06/2017/593911d19a7947bd6ab766ef - Блокировка смысла: о чем говорит решение суда по делу Telegram https://www.rbc.ru/opinions/politics/13/04/2018/5ad0782e9a79470a8e5fa03d - Поиск виновного: почему стала возможной утечка данных из Google Docs https://www.rbc.ru/opinions/technology_and_media/09/07/2018/5b3f505e9a794748ac73914f - Сокровища для Alibaba: почему Россия готова поделиться данными с Китаем https://www.rbc.ru/opinions/technology_and_media/12/09/2018/5b98b7ba9a7947152b7b4073 - Тихие омуты: как распределяются субсидии и субвенции российского бюджета https://www.rbc.ru/opinions/economics/18/01/2019/5c407c0f9a7947e05b486207 - Информационный барьер: как нацпроекты сделали бюджет менее прозрачным https://www.rbc.ru/opinions/economics/20/09/2019/5d81e9f99a7947a59b1f7cea - Потеря связи: чем плох законопроект о почтовых сервисах https://www.rbc.ru/opinions/politics/14/10/2019/5da033ea9a79478f25ca783c - Данные неверны: почему российские госсайты вводят граждан в заблуждение https://www.rbc.ru/opinions/society/20/12/2019/5dfb4e169a79470b46b4f98c - Некоммерческий бюджет: как чиновники стали использовать НКО в своих целях https://www.rbc.ru/opinions/politics/13/03/2020/5e69e70a9a7947737fc79cf3 - Незачет по НКО: чем плох реестр социально ориентированных организаций https://www.rbc.ru/opinions/society/17/06/2020/5ee8ce139a79479edce77585 Republic - Бизнес против гражданина. Как правильно торговать персональными данными? https://republic.ru/posts/91866 - Цифровой профиль и анфас. Будет ли в России свой Синьцзян? https://republic.ru/posts/92148 - Страшная экономика. Законопроект об изоляции рунета и административный рынок угроз https://republic.ru/posts/92720 - Надзорное государство. Как новые технологии и пандемия сняли ограничения для российского Большого брата https://republic.ru/posts/98869 + ещё было много текстов написанных для Полит.ру + какое-то количество текстов в моём блоге begtin.tech #writings

2020-12-15

https://leands.timepad.ru/event/1506718/ Счастливый момент: ML модель покидает ноутбук, чтобы начать приносить пользу бизнесу. Перед DS встает вопрос, как ее интегрировать: возможностей обычно немало, надо принять множество разнообразных решений, и часто непонятно, как к ним подойти. Архитектура ПО — дисциплина, которая за это отвечает. Что она включает в себя? Каких скиллов и качеств требует? Могут ли DS ею овладеть? Кого звать на помощь, если нужно прямо сейчас? Доклад меньше про технологии и больше про процессы, стратегии и людей.

2020-12-15

https://int8.io/are-you-ok-cyberpunk-transformers-diagnosis/

2020-12-14

Для тех кто ищет большие (особенно большие) открытые данные для экспериментов, анализа и тренировки навыков, не всегда связанных с практическими задачами, подборка крупнейших источников открытых данных. - Открытые данные CERN http://opendata.cern.ch/ - более 2 петабайт данных физики частиц. В виду их объёма доступ к ним открыт, но через специальные инструменты - Common Crawl https://commoncrawl.org/ - огромный поисковый индекс по всем веб-сайтам в Интернете. Аналог поисковых индексов Google, Bing или Яндекс, но без веб интерфейса и доступный в виде гигантских слепков в формате WARC. Особенно удобно тем кто работает с данными через облако Amazon, поскольку сейчас весь ресурс хостится именно там - Archive.org collections https://archive.org/ - коллекции медиа и данных на Archive.org, практически бесконечные объёмы данных на самые разные темы - многочисленные наборы данных по COVID-19 https://t.me/begtin/2066 - в облаках Amazon, Google BigQuery и Azure и других - Awesome Public Datasets https://github.com/awesomedata/awesome-public-datasets - один из наиболее популярных репозиториев на Github с каталогом общедоступных данных большого объёма - DataCatalogs http://datacatalogs.org/ - каталог порталов открытых данных, около 599 порталов всего (очень неполный, на самом деле) - Re3Data http://re3data.org - каталог научных репозиториев содержащих данные по результатам исследований, включает, в том числе, репозитории с большими данными Важно помнить что, как правило, только на общедоступных данных сложно сделать востребованный продукт. Как правило на них отрабатывают технологии, а продукты создают уже в другой среде и на других данных. #opendata #data #bigdata #datasource

2020-12-14

Самое сложно при построении аналитического решения, это не построить решение, а сделать так, чтобы его использовали. Можно наделать много дашбордов, моделей и витрин данных, но никто не будет их использовать. Когда мы, что-то строим, мы думаем - “какая полезная информация, как она будет полезна бизнесу”. Но это лишь у нас в голове. Это называется bias, мы рисуем оптимистичную картинку. Но я не про bias, сейчас, хотя считаю, что знание типо bias и вообще, что это такое, это очень важно. Про это хорошо написано в книге “Думай медленно, решай быстро (https://dmitrovsky.mskobr.ru/files/KANEMAN%20DumMed.pdf)”. Пост, про необходимость использовании метаданных о данных или по простому - Data /Bi/Analytics portal. То есть это место, куда может зайти бизнес пользователь, и ввести в поисковой строке название показателя или измерения и найти, нужный отчет или таблицу + логику трансформаций. А если в компании (крупной) используются многие решения, то нужно сделать универсальный портал, а это уже как отдельный проект. Самый главный критерий здесь - это избежать ручной работы - Copy Paste. Так как все очень быстро устаревает. В комментариях люди могут поделиться про свои успешные или неуспешные кейсы. А вот от взрослых компаний: Democratizing Data at Airbnb (https://medium.com/airbnb-engineering/democratizing-data-at-airbnb-852d76c51770) Metacat: Making Big Data Discoverable and Meaningful at Netflix (https://netflixtechblog.com/metacat-making-big-data-discoverable-and-meaningful-at-netflix-56fb36a53520) Databook: Turning Big Data into Knowledge with Metadata at Uber (https://eng.uber.com/databook/) Turning Metadata Into Insights with Databook (https://eng.uber.com/metadata-insights-databook/) DataHub: Popular metadata architectures explained (https://engineering.linkedin.com/blog/2020/datahub-popular-metadata-architectures-explained) The journey of metadata at PayPal (https://medium.com/paypal-engineering/the-journey-of-metadata-at-paypal-c374ac66e2e6) Nemo: Data discovery at Facebook (https://engineering.fb.com/2020/10/09/data-infrastructure/nemo/)

2020-12-13

? Онлайн семинар по ML/DS от "SBERLOGA" ⌚️ Понедельник 14 декабря 19.00 по Москве ?‍? Александр Рыжков, Дмитрий Симаков (Сбер): "АвтоМЛ LightAutoML (или коротко LAMA) " LightAutoML (или коротко LAMA) - новая библиотека для автоматизации построения ML моделей. Мы расскажем, для решения каких задач создавался наш LightAutoML, чем он выделяется на фоне конкурентов и какую пользу способен принести пользователям и бизнесу. Затем вкратце обсудим состояние automl направления, какие есть вызовы и чем примечательны конкуренты. Закончим рассказ практической частью, где можем в деталях показать, как использовать возможности библиотеки, и обсудить разные варианты того или иного элемента пайплайна (отбор и генерация признаков, тюн модели, построение ансамбля и подобное). Ссылка на зум будет позже ? Дополнительная информация в телеграм чате: https://t.me/sberlogadataclub

2020-12-13

Использование платформы ML Space для построения и вывода модели ИИ в эксплуатацию - вебинар от команды SberCloud https://sbercloud.ru/ru/warp/webinar?id=7515177

Something went wrong. The riddle you requested doesn't exist.