Шильников Сергей
Эксперт в области Data Science,
Machine Learning.
Руководитель отдела по
внедрению AI технологий
в компании.

2021-01-22

The Batch: Detecting Guns, Fighting Lead Poisoning, Adversarial Training for Language-and-Vision, Financial Reports for Robots https://blog.deeplearning.ai/blog/the-batch-detecting-guns-fighting-lead-poisoning-adversarial-training-for-language-and-vision-financial-reports-for-robots

2021-01-22

Annual Report, Robot Edition Corporations are tailoring their financial reports to be read by machines. What’s new: Automated systems download far more company financial reports than humans, according to a study by the U.S. nonprofit National Bureau of Economic Research. Consequently, companies are filling those reports with data that looks good to computers. What they did: The study analyzed 50 years of quarterly and annual financial reports submitted by public companies to the U.S. Securities and Exchange Commission. Drawing on SEC download logs, the authors examined the IP address associated with each download to determine whether a person or a machine initiated it. They found that automated downloads grew from 360,862, or 39 percent of the total, in 2003 to around 165 million, or 78 percent, in 2016. Companies that served large numbers of machines-initiated downloads were more likely to make their reports machine-readable by, say, adhering to ASCII standards, separating tables from text, and ensuring that documents contained all the information required to interpret them. Moreover, these companies use language more likely to produce positive scores from sentiment-analysis models. For instance, they tend to avoid words associated with negative emotions, lawsuits, or uncertainty. Behind the news: Computer systems increasingly drive the stock market. Last year, Deutsche Bank estimated that automated systems made buying and selling decisions for 80 percent of equity trading and 90 percent of equity futures trading. Corporate financials are following suit. Why it matters: The study found that the more easily a computer can digest a company’s financial reports, the faster its stock is traded after a report has been published. This suggests that the market’s pace, already lightning-fast, is bound to accelerate. We’re thinking: Companies have every incentive to tweak their reports to impress their audience, whether readers consist of wetware or software. But there’s a slippery slope between painting a rosy picture and exaggerating in ways that border on fraud. Regulators, analysts, and AI practitioners alike have a responsibility to guard against market manipulation.

2021-01-21

https://youtu.be/NVfy8l6gyjw

2021-01-20

Регулярная подборка ссылок по работе с данными, открытости и приватности На инженеров по работе с данными (data engineers) больше чем на исследователей данных (data scientists), вывод Mihail Eric по итогам анализа вакансий компаний относящихся к данным в портфеле Y-Combinator, We Don't Need Data Scientists, We Need Data Engineers [1] Я соглашусь с этим и применительно к России тоже, сейчас много хайпа вокруг data science и ИИ, при том что есть дефицит квалифицированных специалистов и большое число джунов, но также и дефицит специалистов по инфраструктуре данных и инженерии данных. Best-of Machine Learning with Python [2] каталог из 830 инструментов с открытым кодом по работе с данными с помощью языка Python Открытый код мессенжера Signal для Android, iPhone, настольного приложения и сервера [3] для тех кто хочет построить собственную автономную инфраструктуру на его основе. Есть лишь сомнения в том что серверный код актуален [4] потому как новые функции в приложениях появляются, а серверный код не обновлялся несколько месяцев. GHunt [5] - инструмент для OSINT в отношении аккаунтов на Google, извлекает Google ID, данные календаря, отзывы, общедоступную информацию и ещё много чего. Работает не только с почтой на gmail.com, но и с аккаунтами привязанными к собственным доменам. Полезен для самопроверки тем кто думает о приватности и проверке других тем кто ведет расследования. Поддерживаемый мной список Awesome forensic tools [6] с перечнем инструментов OSINT. GitLab получили $195 миллионов финансирования при общей оценке в $6 миллиардов [7] Ссылки: [1] https://www.mihaileric.com/posts/we-need-data-engineers-not-data-scientists/ [2] https://github.com/ml-tooling/best-of-ml-python [3] https://github.com/signalapp [4] https://github.com/signalapp/Signal-Server [5] https://github.com/mxrch/GHunt [6] https://github.com/ivbeg/awesome-forensicstools [7] https://techcrunch.com/2021/01/15/gitlab-oversaw-a-195-million-secondary-sale-that-values-the-company-at-6-billion/ #data #dataengineering #datascience #privacy #opendata

2021-01-20

kōan: A Corrected CBOW Implementation Ozan İrsoy, Adrian Benton, Karl Stratos Статья: https://arxiv.org/abs/2012.15332 Код: https://github.com/bloomberg/koan Интересная история в мире NLP из серии “наше представление о мироздании было неверным”. Классический word2vec имеет два варианта обучения эмбеддингов: Continuous bag-of-words (CBOW, здесь по контексту предсказывается центральное слово) и Skip-gram (SG, здесь наоборот по центральному слову предсказываются слова контекста). Первый быстрее, потому что негативный сэмплинг требуется только для центрального слова, а не для каждого слова контекста. Но общее убеждение было, что SG даёт лучшее качество. И вот ребята из Блумберга заявляют, что это не обосновано какими-то теоретическими различиями, а дело в референсных имплементациях word2vec (родной от Томаса Миколова и также часто используемой из Gensim), где много лет была бага. И вроде как в генсимовских issues на гитхабе на это несколько раз указывали. Копание показало, что градиент для входных (source) эмбеддингов считается неверно, он не делится на размер окна контекста (то есть, считай, избыточно умножается на размер этого окна). Это было бы ничего, если бы среди обучаемых весов были только входные эмбеддинги, тогда максимум бы пришлось поправить learning rate. Но там же есть и выходные (target), которые масштабировать не надо, и получается что градиент для общего вектора весов в итоге указывает “не совсем туда”. Авторы собрали исправленный вариант CBOW и показали, что он даёт сопоставимое с SG качество. Заодно ещё сделали оптимизированный негативный сэмплинг и выложили реализацию на С++17. На генсимовской реализации есть просадка по качеству у CBOW по сравнению с SG, а на новой нету. Но правда есть пара противоречивых результатов, на SST-2 и QNLI из GLUE генсимовский CBOW таки почему-то прям существенно обогнал по качеству всё остальное. У меня нет объяснения такому результату, это какой-то странный подземный стук, который, мне кажется, говорит, что вопрос ещё не до конца закрыт. Надо копать дальше! В любом случае кейс интересный. Проверяйте надёжность основ и не доверяйте безоглядно тому, что “общепринято”.

2021-01-20

2021-01-19

#книга Сергей Иванов (один из моих лучших аспирантов) написал очень симпатичный конспект по теме "Обучение с подкреплением". Вроде как на русском языке это самое полное и интересное издание на эту тему: https://github.com/FortsAndMills/RL-Theory-book/

2021-01-19

https://youtu.be/I5T8XBArcZ4 Мы хотим сделать эту встречу ежегодной — 19 января она проходит в Яндексе уже во второй раз. Мы вновь соберёмся после праздников, чтобы обсудить итоги конференции NeurIPS 2020 (бывшей NIPS). Это одна из самых престижных международных конференций по машинному обучению. Вас ждут обзоры работ по NLP, RL и CV по 15 минут каждый, затем ещё несколько быстрых докладов от авторов принятых на NeurIPS статей и воркшопов, а также большая дискуссия. Мы сконцентрируемся на методах оптимизации, краудсорсинге, прогнозах дорожной ситуации для беспилотника и других темах.

2021-01-14

Коллеги, Напоминаем, что завтра 14 января в 18-00 состоится вебинар научного директора Лаборатории ИИ Сбербанка Глеба Гусева "Minimal variance sampling in stochastic gradient boosting" (NeurIPS-19). Ссылка для подключения: https://jet.zoom.us/j/94113853892?pwd=eklSdzE0SkVZcFl0OUFLWEJFa2laQT09

2021-01-14

часть 1 https://habr.com/ru/post/506086/ часть 2 https://habr.com/ru/post/511004/ часть 3 https://habr.com/ru/post/515510/ часть 4 https://habr.com/ru/post/523126/

2021-01-14

https://controleng.ru/innovatsii/ontologija/ О цифровой экономике, также определяемой в мировой экономической науке как «постиндустриальное информационное общество», или «шестой технологический уклад», и искусственном интеллекте сейчас говорят и пишут очень многие. Однако, как правило, речь идет лишь об отдельных инструментах цифровизации и интеллектуализации производств, а вот проблема системного подхода к созданию автономного интеллектуального цифрового производственного окружения не обсуждается или обсуждается лишь в узком контексте. Но именно такое окружение необходимо для качественного перехода на новый технологический уклад, где значительная доля работы специалистов и менеджеров среднего звена будет полностью выполняться интеллектуальными агентами. Ключевым фактором, препятствующим появлению систем автономного интеллектуального производства уже сегодня, является отсутствие общего архитектурного подхода к созданию цифровых платформ управления производствами, с одной стороны, и «зоопарк» форматов и стандартов работы с данными — с другой. Примечательно, что на эти два вызова уже существуют технологические ответы, которые получили общее название «индустриальные графы знаний» и показывают преимущества онтологического подхода, обеспечивающего гибкое моделирование и интероперабельность данных, стек семантических технологий, позволяющий выполнять анализ неструктурированной информации и интеллектуальный поиск данных во множестве разнородных источников, а также машинное обучение, обеспечивающее анализ и классификацию данных, в том числе в условиях неполной информации. В статье дается системное описание элементов технологии «индустриальных графов знаний»

2021-01-13

#законы К вопросу о прозрачном скоринге - банки против: https://news.mail.ru/economics/44863857/

2021-01-13

Очередная встреча DS сообщества СВА состоится 20.01.2021 с 10 до 11 мск. В повестке обзор новинок в sberpm и обзор доклада с ICPM2020. ВКС 877043823.

2021-01-11

​​Друзья, поздравляем вас с наступившим новым годом! Пусть в нём будет меньше багов, чем в 2020

2021-01-08

NeurIPS New Year AfterParty https://yandex.ru/promo/events/generated/neurips-afterparty2020/index?turbo=true

2021-01-07

А можно ниндзя-анонс курса на ОДС? Дорогое сообщество, мы таки собрались с силушками и зарелизили начальную версию курса по knowledge graphs на русском языке. Не счесть количества :harold: и :good-enough: отправленных по пути, но кое-что вот уже готово. Курс на платформе ODS : https://ods.ai/tracks/kgcourse2021 , сделали канал #kg_course в слаке одс и большой анонс в мейне будет в следующий понедельник. Безмерная благодарность @VadymSafronov и @ivanovserg990 за практическую и моральную поддержку. Вадим сделал большую прекрасную лекцию, и на одс платформе можно будет погонять домашки на лидерборде! Пока готово 3 лекции из 9, еще три скоро будут. Формат пока self-paced, тк наших орг ресурсов еще не достаточно для большого пайплайна с проверками и оцениванием домашек, но я думаю, что со временем допилим. Предложения, коммиты и пулл реквесты принимаются в репе https://github.com/migalkin/kgcourse2021 и еще в ЛС мне и Вадиму. Пасиба ☺️

2021-01-06

В данной работе рассматривается задача предсказания распространения эпидемии в графе, где вершине соответсвует человек, ребру — наличие социальной связи (например, отношение дружбы). В последние годы появилось большое количество социальных сетей, и оказались доступны с ними связанные массивы данных. Такие данные могут обладать несколькими слоями и размерностями: есть как пользователи, так и связи между ними (возможно направленные), пользователь обладает как статичными свойствами, так и изменяющимися во времени. Идеей было реализовать метод, который бы использовал весь спектр доступной информации (использование профиля пользователя ранее не применялось).

2021-01-06

DALL-E - красивая реализация старой идеи «а пусть нейронка по текстовому описанию нарисует нам картинку». Но теперь под капотом могучий GPT-3, да и процесс обучения сильно улучшен. Результаты очень красивы: надо смотреть картинки в статье по ссылке, тем более что они интерактивны: некоторые слова в описании можно менять. В итоге имеем великолепную демонстрашку двух вещей: 1. Вот это и есть трансформер, очень популярный нынче в работах по ML термин 2. Примерно так и работают творческие ИИ-помощники, когда от них требуется фантазия ;) https://openai.com/blog/dall-e/ Спасибо тезке @tiktol за ссылку, а то я что-то ленив на каникулах ;)

2020-12-30

https://youtu.be/Qq2faeVqbo0

2020-12-30

Доклад от руководителя поиска Яндекса: почему в технологических компаниях не работает нормальное распределение при раздаче премий и почему в Яндексе перешли на степенное распределение.

2020-12-30

#курс выложены материалы 2020 года https://dyakonov.org/2020/12/30/pzad/

2020-12-30

https://m.habr.com/ru/post/533880/

2020-12-28

Дорожка по классификации твитов на русском языке о лекарственных препаратах SMM4H 2021 Task 2: определяем, упомянуты ли побочные эффекты. Мы рады сообщить, что в 2020-2021 году будет проходить второе соревнование по автоматической классификации русских твитов для определения наличия упоминаний о побочных лекарственных эффектах в рамках воркшопа Social Media Mining for Health Application workshop (SMM4H) 2021. Воркшоп будет проходить в рамках международной конференции NAACL 2021. В этом году обучающая и тестовая выборки существенно расширены, в том числе добавлены твиты о лекарствах, применяющихся при лечении COVID-19. Дорожка даёт возможность протестировать как одноязычные методы, так и многоязычные модели (например, multilingual BERT, XLM-R). Мы призываем участников использовать не только русскоязычные твиты для обучения моделей, но и размеченные твиты на английском языке, которые можно получить в рамках дорожки SMM4H 2021 Task 1. Важные даты: Публикация тренировочных данных: 15 декабря 2020 Публикация тестовых данных: 26 февраля - 1 марта 2021 Последний день для отправки решений на тестовых данных: 4 марта 2021 Оценки на тестовых данных: 8 марта 2021 Подача статей с описанием решения: 15 марта 2021 Финальная версия статей: 12 апреля 2021 SMM4H воркшоп: 10 июня 2021 Для регистрации заполните форму: https://forms.gle/1qs3rdNLDxAph88n6 Подробная информация: https://healthlanguageprocessing.org/smm4h-2021/task-2/

2020-12-28

https://github.com/datastacktv/data-engineer-roadmap This roadmap aims to give a complete picture of the modern data engineering landscape and serve as a study guide for aspiring data engineers.

2020-12-27

#graphs Как инженер-ядерщик с русскими корнями придумала «умную» карту деловых связей и попала в список Forbes https://www.forbes.ru/karera-i-svoy-biznes/416565-kak-inzhener-yadershchik-s-russkimi-kornyami-pridumala-umnuyu-kartu Получив фидбэк, предприниматели взялись за разработку кода, который сможет самостоятельно проходиться по ключевым источникам (Wikipedia, сайты компаний, пресс-релизы, отчеты по грантам, блоги и пр.) и находить на них необходимую для построения связей информацию. Помимо самой карты связей, стали предлагать еще и услугу «умного мэтчинга» — рекомендовать, на кого из этой карты действительно стоит обратить внимание, и по возможности давать контакты нужного человека из открытых источников. «Например, если мы видим, что в стартап уже инвестировали похожие на нашего клиента игроки, то можем рекомендовать обратить на него внимание. И наоборот: если стартап ищет инвестора, и на карте связей мы видим несколько акселераторов, которые уже инвестировали в похожие проекты, то можем рекомендовать стартапу с ним пообщаться»

2020-12-25

Итоги 2020. Члены DS сообщества СВА в этом году: 1. Навечно вписались в мировой process mining, выставив 23 команды на международное соревнование BPIC. 2. Провели 3 доклада на международной конференции AIJ2020. 3. Провели первый открытое соревнование DSC 11 по process mining в итоге ставшее международным. В первый раз раздали мерч участникам. 6. Провели учебное соревнование по reinforcement learning. Может в следующем году кто-нибудь применит ее на практике, например для process mining. 7. Первый раз применили рекомендательные системы на практике. 8. Попробовали поучаствовать в спринтах в качестве менторов в рамках школы продукт овнеров. 9. В рамках ЦК по process mining запустили уникальную активность по разработке python библиотеки.

2020-12-25

https://youtu.be/D5mqZKe9yY4

2020-12-25

В этом году мы много рассказывали о технической разработке AI-проектов. Но как продать свой проект широкой аудитории? Как убедить руководителя в успешности идеи? По статистике успех любого проекта на 50% зависит от хорошей презентации. Как "зацепить" и представить визуальные аргументы того, почему именно ваш проект необходимо реализовать? ‼Предлагаем сэкономить время и воспользоваться интернет-ресурсами с готовыми шаблонами. Делимся подборкой сайтов, которые мы часто используем при продвижении своих идей и проектов:

2020-12-25

SberPM выложили на github https://github.com/SberProcessMining/Sber_Process_Mining

2020-12-25

​​2020: подборка лучших AI-моделей ?Блог Towards AI под авторством Louis Bouchard опубликовал наиболее заметные работы по AI в уходящем году ?Каждая модель содержит подробное описание, видео-ролик об основных принципах и ссылки на открытый код ?Большинство моделей серьезно улучшает уже существующие алгоритмы работы с потоковым видео, фото и текстом, но с гораздо меньшими ресурсами и небольшими объемами обучающей выборки, что делает AI более доступным и эффективным Лучшие AI-работы 2020 ?YOLO4 – более быстрое распознавание объектов в реалтайм-видео. Улучшит качество self-driving cars ?Deep Face Drawing – алгоритм создает фотографию на основе всего лишь рисованного скетча ?PULSE – создание качественного фото из размытого или пиксельного образца ♻️Transcoder – перевод с одного языка программирования на другой (например, из кода C++ в код Python) ?PIFuHD – создание 3D-модели человека из простой 2D-фотографии ?High-Resolution Face Swapping от Disney – высокоточное наложение лица персонажа на другого актера (пример: ролик Сбера с Жоржем Милославским) ?Swapping Autoencoder for Deep Image Manipulation – подмена любого фона и текстуры объекта на фотографии в высоком разрешении ?GPT-3 – создание человекоподобных текстов на сверхмалых обучающих выборках, событие года в AI ✂️Learning Joint Spatial-Temporal Transformations for Video Inpainting – реалистичное удаление объекта из видео с пиксельным заполнением пустого пространства ?Image GPT – заполнение отсутствующей части картинки по одному фрагменту, тоже полностью unsupervised ⛄️Cartoonize Using White-box – создание анимационных персонажей на основе обычных фото и видео людей ?‍♂️FreezeG: перенос фото человека в определенную стилистику анимационных персонажей ??Neural Re-Rendering of Humans – прорисовка человека в любом ракурсе на основе только одной фотографии ?Beyond the Nav-Graph – автоматическое создание сопровождаемой навигации внутри помещений ?RAFT: state-of-the-art модель из Принстона для перевода объектов на видео в оптические потоки, используется в computer vision ?Crowdsampling the Plenoptic Function – создание реалистичных моделей архитектурных объектов на основе тысяч туристических фотографий с разных ракурсов ?Deep Latent Space Translation – качественная реставрация фото с помощью deep learning ?Neural circuit policies – улучшенная версия алгоритма self-driving cars от MIT: на основе анализа нейронов нитевидных червей сократили в тысячи раз число контролируемых параметров при движении автомобиля ??Lifespan Age Transformation Synthesis – технология от Adobe, отрисовка человека в разных возрастах на основе одного фото ?COOT – создание точного текстового описания каждого фрагмента видео ?Stylized Neural Painting – более эффективная и менее ресурсоемкая модель перевода изображения в живописную картину ?‍?High-Quality Background Removal – более точное удаление заднего фона за человеком в режиме реалтайм ?ADA – модель от NVidia создает множество вариантов изображений объектов на малых обучающих объемах (до 10 фото) ⛈Weather Prediction Using Neural Networks on a Cubed Sphere – переход от прогноза погоды на основе линейных данных к AI-анализу погодных паттернов за последние 40 лет  

2020-12-24

Google опубликовал подробный технический разбор причин и самого хода развития инцидента, который на прошлой неделе затронул пользователей сервисов Гугла по всему миру. Упрощенный пересказ можно найти здесь: https://www.zdnet.com/article/google-heres-how-our-huge-gmail-and-youtube-outage-was-due-to-an-errant-zero/ Исходный отчёт Гугла: https://status.cloud.google.com/incident/zall/20013 Хотя мониторинг сообщил инженерам Гугла в течение минуты о возникновении нештатной ситуации, большинство сервисов оставались недоступны 47 минут, а некоторые и дольше. Это долго ;( И очень важно помимо технических решений помочь избежать паники среди пользователей; один из пунктов в описании мер, которые будут предприняты в дальнейшем, явно об этом и говорит: даже Гугл не может рассчитывать только на себя в аварийной ситуации. Improve reliability of tools and procedures for posting external communications during outages that affect internal tools

2020-12-22

Вышка и сбер запустили курс Estimating ML-Models Financial Impact https://www.coursera.org/learn/estimating-ml-models-financial-impact О проекте Преподаватели Программа курса Параметры регистрации Часто задаваемые вопросы Estimating ML-Models Financial Impact Национальный исследовательский университет "Высшая школа экономики" Участвовать бесплатно Начинается 21 дек. г. Об этом курсе Недавно просмотрено: 3 119 This course covers the basics of financial impact estimation for machine learning models deployed in business processes. We will discuss the general approaches to financial estimation, consider the applications to credit scoring and marketing response models, and focus on the relationship between statistical model quality metrics and financial results, as well as the concepts of A/B testing and potential biases as they apply to historical data. Multiple courses focus on building machine learning models and assessing their predictive power. However, much less attention is usually paid to explaining how the model quality translates into financial results. Even more so, decision strategies relying on model predictions are normally not covered in great detail. In this course, we will focus on the step when we already have a ML model and want to estimate the expected financial results, and verify the model by running either an A/B test or a backtest. In addition, we will learn how to tune threshold decision rules for model probabilities, thereby improving financial results, as well as account for model uncertainty or biases in historical data that may tamper with our financial estimates. We will analyze the binary classification case, which is the most common type of a ML task. After completing this course, you, as a data scientist, will be able to come up with better arguments when explaining the value of your machine learning models to your leadership. If your role in the company gravitates toward business processes, you will gain a better understanding of how machine learning models can have an impact on the financial results.

2020-12-22

Первая серия беспилотников Sber выехала на улицы Москвы для испытаний https://press.sber.ru/publications/pervaia-seriia-bespilotnikov-sber-vyekhala-na-ulitsy-moskvy-dlia-ispytanii?fbclid=IwAR2sLeQPZneH6f7AuhTCFkpcqAog9SOt35OxWw4DbAIIl4VFyP453u8KtUk

2020-12-20

Управление исследований и инноваций приглашает принять участие в технологической онлайн-конференции по Computer Vision в Сбере 21 - 23 декабря 16:00 -19:00 (zoom). В программе собрали всех (ну или почти всех), кто ведет исследования и разработки в области CV в экосистеме Сбера! Выступят SberDevices, Лаборатории ИИ, AR/VR, робототехники, SberEye (Сеть продаж), VisionLabs, CognitivePilot, ЦРТ, SberAutoTech. Программа и ссылка на регистрацию в https://sberchat.sberbank.ru/@iad_inform

2020-12-18

https://habr.com/ru/company/JetBrains/blog/533584/

2020-12-17

За квартал попробовали с коллегами пройти курсы специализации https://www.deeplearning.ai по NLP на Coursera. Так как курсы представлял Andrew Ng, то изначально были высокие ожидания к материалам. Ожидания не оправдались: классический подход онлайн курсов годится только для нулевого или начального уровня освоения компетенции. Для формирования экспертизы требуется участие в реальных проектах под присмотром опытных менторов. Но повторение NLP не пройдет зря - сейчас готовим новое открытое соревнование; базовая идея - построить граф знаний (Knowledge graph, KG) по открытым данным о закупках. KG в 2020 на гартнеровском пике AI хайпа, но мы сфокусируемся на практической части - посмотрим насколько продвинулись технологии NLP и инструментарий графовой аналитики для автоматического построения полезного KG из текста. Нам нужны тестеры площадки соревнования, готовые изучать материал, пробовать функционал и давать обратную связь. Если есть желание поучаствовать - пишите мне в личку.

2020-12-17

У Google вышел прекрасный ML-эксперимент (https://artsandculture.google.com/experiment/blob-opera/AAHWrq360NcGbw) — вы можете поиграться с цветными чудиками на экране и создать фрагмент оперы, управляя их голосами. Не надо разбираться в музыке, ML-алгоритмы под капотом подберут все гармонии. Вот что вышло у меня (https://g.co/arts/RpEjqbQ8xns8BQfv6), попробуйте и вы! И зацените другие интересные ИИ-эксперименты (https://experiments.withgoogle.com/collection/ai) от Google с демками в браузере.

2020-12-16

Лекция «Предсказание обращений» от эксперта по анализу данных компании МегаФон Покажем на примере, как бизнес-задачу превратить в математическую задачу и поделиться алгоритмом действий на примере кейса МегаФон! По программе лекции тебя ждут: - Рассказ эксперта про то, чем занимается МегаФон; - Формализация задачи и подготовка данных; - Разговор о Spark ML; - Показ применения бустинга в решении задачи и практические трюки; - А также результаты того, что в итоге получилось. Спикер: Тимур Джумакаев, эксперт по анализу данных МегаФона. Так же всем желающим доступен бесплатный 72-часовой углубленный курс (https://ii-s-nulya.ru/mo_dvfu) по машинному обучению. __________________________________ ? 17 декабря, начало в 11:30 мск, Четверг ? ОНЛАЙН ✅ Ссылка на прямую трансляцию (https://www.youtube.com/watch?v=5kbgpDw6WxQ)* * чтобы получить напоминание о начале трансляции нужно нажать на колокольчик и подписаться

2020-12-16

Дао Искусственного интеллекта: баланс простого и сложного Искусственный интеллект, не усложняй: эксперты ВТБ — о том, что не все решения требуют нейронных сетей и сложных моделей, а также о практических лайфхаках в Data Science. 1. Скажем «нет» сложным моделям: как отказаться от соблазна - Николай Попов, ВТБ 2. MLops: особенности работы в команде - Юрий Карев, ВТБ 3. N советов по применению ML из практики - Анна Ширшова, ВТБ 4. Не BERTом единым: интерпретируемые модели связи временных рядов и текстовой информации - Алексей Рябых, ВТБй __________________________________ ? 23 декабря, начало в 18:30 мск, Среда ? ОНЛАЙН ✅ Регистрация на мероприятие (https://clck.ru/SUUJY)

2020-12-15

Многие тезисы которые я пишу в этом канале и в текстах докладов которые готовлю или в которых участвую написаны ещё довольно давно. Чтобы не повторятся по многу раз, привожу тут ссылки на предыдущие публикации Например, за вот уже много лет у меня накопилось очень много колонок в СМИ в которых они изложены. Ведомости - Прозрачность госзакупок в России не означает достоверности публикуемой информации https://www.vedomosti.ru/politics/articles/2011/06/23/prozrachnost_goszakupok_v_rossii_ne_oznachaet_dostovernosti - Пространственные данные: Надо открываться https://www.vedomosti.ru/newspaper/articles/2013/09/13/nado-otkryvatsya - От общественного контроля к общественному аудиту https://www.vedomosti.ru/opinion/articles/2016/02/11/628492-ot-obschestvennogo-kontrolya-obschestvennomu-auditu - Генетическая дискриминация https://www.vedomosti.ru/opinion/articles/2016/08/08/652204-geneticheskaya-diskriminatsiya - Право знать о преступлениях https://www.vedomosti.ru/opinion/articles/2016/10/17/661144-pravo-znat - Несознательная информатизация https://www.vedomosti.ru/opinion/articles/2017/05/18/690333-nesoznatelnaya-informatizatsiya - Плохой ответ на мнимые угрозы https://www.vedomosti.ru/opinion/articles/2017/06/14/694228-otvet-ugrozi РБК - Открытые данные против коррупции: в чем Россия перегнала Запад https://www.rbc.ru/opinions/society/27/01/2016/56a869f19a7947c257896897 - Apple против ФБР: что важнее — безопасность или частная жизнь? https://www.rbc.ru/opinions/technology_and_media/25/02/2016/56cee4949a79476d29c67c10 - Темная сторона открытости: почему не все данные стоит раскрывать https://www.rbc.ru/opinions/technology_and_media/16/05/2016/5739b2639a79474f9a96e10f - Неприкосновенный реестр: почему не получится закрыть данные госорганов https://www.rbc.ru/opinions/politics/30/08/2016/57c542999a7947542d3df910 - Профилактика преступлений: какое будущее ждет правоохранительную систему https://www.rbc.ru/opinions/technology_and_media/08/06/2017/593911d19a7947bd6ab766ef - Блокировка смысла: о чем говорит решение суда по делу Telegram https://www.rbc.ru/opinions/politics/13/04/2018/5ad0782e9a79470a8e5fa03d - Поиск виновного: почему стала возможной утечка данных из Google Docs https://www.rbc.ru/opinions/technology_and_media/09/07/2018/5b3f505e9a794748ac73914f - Сокровища для Alibaba: почему Россия готова поделиться данными с Китаем https://www.rbc.ru/opinions/technology_and_media/12/09/2018/5b98b7ba9a7947152b7b4073 - Тихие омуты: как распределяются субсидии и субвенции российского бюджета https://www.rbc.ru/opinions/economics/18/01/2019/5c407c0f9a7947e05b486207 - Информационный барьер: как нацпроекты сделали бюджет менее прозрачным https://www.rbc.ru/opinions/economics/20/09/2019/5d81e9f99a7947a59b1f7cea - Потеря связи: чем плох законопроект о почтовых сервисах https://www.rbc.ru/opinions/politics/14/10/2019/5da033ea9a79478f25ca783c - Данные неверны: почему российские госсайты вводят граждан в заблуждение https://www.rbc.ru/opinions/society/20/12/2019/5dfb4e169a79470b46b4f98c - Некоммерческий бюджет: как чиновники стали использовать НКО в своих целях https://www.rbc.ru/opinions/politics/13/03/2020/5e69e70a9a7947737fc79cf3 - Незачет по НКО: чем плох реестр социально ориентированных организаций https://www.rbc.ru/opinions/society/17/06/2020/5ee8ce139a79479edce77585 Republic - Бизнес против гражданина. Как правильно торговать персональными данными? https://republic.ru/posts/91866 - Цифровой профиль и анфас. Будет ли в России свой Синьцзян? https://republic.ru/posts/92148 - Страшная экономика. Законопроект об изоляции рунета и административный рынок угроз https://republic.ru/posts/92720 - Надзорное государство. Как новые технологии и пандемия сняли ограничения для российского Большого брата https://republic.ru/posts/98869 + ещё было много текстов написанных для Полит.ру + какое-то количество текстов в моём блоге begtin.tech #writings

2020-12-15

https://leands.timepad.ru/event/1506718/ Счастливый момент: ML модель покидает ноутбук, чтобы начать приносить пользу бизнесу. Перед DS встает вопрос, как ее интегрировать: возможностей обычно немало, надо принять множество разнообразных решений, и часто непонятно, как к ним подойти. Архитектура ПО — дисциплина, которая за это отвечает. Что она включает в себя? Каких скиллов и качеств требует? Могут ли DS ею овладеть? Кого звать на помощь, если нужно прямо сейчас? Доклад меньше про технологии и больше про процессы, стратегии и людей.

2020-12-15

https://int8.io/are-you-ok-cyberpunk-transformers-diagnosis/

2020-12-14

Для тех кто ищет большие (особенно большие) открытые данные для экспериментов, анализа и тренировки навыков, не всегда связанных с практическими задачами, подборка крупнейших источников открытых данных. - Открытые данные CERN http://opendata.cern.ch/ - более 2 петабайт данных физики частиц. В виду их объёма доступ к ним открыт, но через специальные инструменты - Common Crawl https://commoncrawl.org/ - огромный поисковый индекс по всем веб-сайтам в Интернете. Аналог поисковых индексов Google, Bing или Яндекс, но без веб интерфейса и доступный в виде гигантских слепков в формате WARC. Особенно удобно тем кто работает с данными через облако Amazon, поскольку сейчас весь ресурс хостится именно там - Archive.org collections https://archive.org/ - коллекции медиа и данных на Archive.org, практически бесконечные объёмы данных на самые разные темы - многочисленные наборы данных по COVID-19 https://t.me/begtin/2066 - в облаках Amazon, Google BigQuery и Azure и других - Awesome Public Datasets https://github.com/awesomedata/awesome-public-datasets - один из наиболее популярных репозиториев на Github с каталогом общедоступных данных большого объёма - DataCatalogs http://datacatalogs.org/ - каталог порталов открытых данных, около 599 порталов всего (очень неполный, на самом деле) - Re3Data http://re3data.org - каталог научных репозиториев содержащих данные по результатам исследований, включает, в том числе, репозитории с большими данными Важно помнить что, как правило, только на общедоступных данных сложно сделать востребованный продукт. Как правило на них отрабатывают технологии, а продукты создают уже в другой среде и на других данных. #opendata #data #bigdata #datasource

2020-12-14

Самое сложно при построении аналитического решения, это не построить решение, а сделать так, чтобы его использовали. Можно наделать много дашбордов, моделей и витрин данных, но никто не будет их использовать. Когда мы, что-то строим, мы думаем - “какая полезная информация, как она будет полезна бизнесу”. Но это лишь у нас в голове. Это называется bias, мы рисуем оптимистичную картинку. Но я не про bias, сейчас, хотя считаю, что знание типо bias и вообще, что это такое, это очень важно. Про это хорошо написано в книге “Думай медленно, решай быстро (https://dmitrovsky.mskobr.ru/files/KANEMAN%20DumMed.pdf)”. Пост, про необходимость использовании метаданных о данных или по простому - Data /Bi/Analytics portal. То есть это место, куда может зайти бизнес пользователь, и ввести в поисковой строке название показателя или измерения и найти, нужный отчет или таблицу + логику трансформаций. А если в компании (крупной) используются многие решения, то нужно сделать универсальный портал, а это уже как отдельный проект. Самый главный критерий здесь - это избежать ручной работы - Copy Paste. Так как все очень быстро устаревает. В комментариях люди могут поделиться про свои успешные или неуспешные кейсы. А вот от взрослых компаний: Democratizing Data at Airbnb (https://medium.com/airbnb-engineering/democratizing-data-at-airbnb-852d76c51770) Metacat: Making Big Data Discoverable and Meaningful at Netflix (https://netflixtechblog.com/metacat-making-big-data-discoverable-and-meaningful-at-netflix-56fb36a53520) Databook: Turning Big Data into Knowledge with Metadata at Uber (https://eng.uber.com/databook/) Turning Metadata Into Insights with Databook (https://eng.uber.com/metadata-insights-databook/) DataHub: Popular metadata architectures explained (https://engineering.linkedin.com/blog/2020/datahub-popular-metadata-architectures-explained) The journey of metadata at PayPal (https://medium.com/paypal-engineering/the-journey-of-metadata-at-paypal-c374ac66e2e6) Nemo: Data discovery at Facebook (https://engineering.fb.com/2020/10/09/data-infrastructure/nemo/)

2020-12-13

? Онлайн семинар по ML/DS от "SBERLOGA" ⌚️ Понедельник 14 декабря 19.00 по Москве ?‍? Александр Рыжков, Дмитрий Симаков (Сбер): "АвтоМЛ LightAutoML (или коротко LAMA) " LightAutoML (или коротко LAMA) - новая библиотека для автоматизации построения ML моделей. Мы расскажем, для решения каких задач создавался наш LightAutoML, чем он выделяется на фоне конкурентов и какую пользу способен принести пользователям и бизнесу. Затем вкратце обсудим состояние automl направления, какие есть вызовы и чем примечательны конкуренты. Закончим рассказ практической частью, где можем в деталях показать, как использовать возможности библиотеки, и обсудить разные варианты того или иного элемента пайплайна (отбор и генерация признаков, тюн модели, построение ансамбля и подобное). Ссылка на зум будет позже ? Дополнительная информация в телеграм чате: https://t.me/sberlogadataclub

2020-12-13

Использование платформы ML Space для построения и вывода модели ИИ в эксплуатацию - вебинар от команды SberCloud https://sbercloud.ru/ru/warp/webinar?id=7515177