Время прочтения: 3 мин.

  1. Почему была выбрана метрика DICE , а не F1?

Ответ: Метрика была выбрана организатором соревнования и этот выбор объясняется следующим. Если вы помните, формула F1 похожа на DICE, но  когда мы имеем дело именно с масками (т.е. рассматриваем некую площадь) , используется DICE, который является аналогом F1, т.к. когда нужно анализировать структуру , а не классификацию (1/0), когда есть такая площадь, тогда мы сравниваем площадь, которую модель предсказала с реальной площадью на ее пересечении. Поэтому использовался DICE –это стандартная метрика для задач сегментации.

2. Как осуществляется подбор порогов для лучшей метрики?

Ответ: Мы просто брали цикл, например,  порог от 0,3 до 0,8 и порог по количеству пикселей, к примеру,  от 800 до 1700 и когда получалась модель, она подходила к валидации. Мы, допустим,  на 0,5 считали валидацию, после чего,  в цикле мы прогоняли эту  же самую валидацию для 0,3,  для 0,4  и т д  , т.е. прогоняли все возможные сочетания этого порога с  этим порогом , т.е. если  к примеру у нас   5*5, то есть 25 различных сочетаний,  то валидация25 раз прогоняется и мы  искали лучший результат на валидации.

Это  в том числе очень усложняло и  увеличивало время обучения модели на валидации, т. к. она должна прогнаться 25 раз.

3. Насколько соревнования по анализу данных и машинному обучению похожи на реальные задачи?

Ответ: Похожи, но не сильно,потому что  организаторы очень хорошо подходят к  данным. Данные подобраны, почищены, нет откровенно кривых снимков. Если мы говорим о реальных задачах, то когда собираем реальные медицинские снимки, есть засвеченные, криво снятые и надо все готовить вручную. Плюс была хорошая разметка, которая дорогого стоит.

4. Насколько влияет выбор декодера на точность предсказания?

Ответ: Декодер влияет на предсказание сети однозначно. Т.е. многие выдали выше результат с использованием резнета34, просто мы его не очень хорошо научили. Как я говорил,  densenet169  выбран из за того, что он хорошо работает с медицинскими изображениями, рентгеновскими в частности, это его особенность. Лучше попробовать много разных, resnet34, resnet50 гораздо быстрее учатся, можно получить хороший результат за более короткий срок. Если  вам особенно важна скорость и точность, то декодер однозначно.

5. Сигнал конкатинируется в densenet или складывается?

Ответ: Он конкатинируется, потому что там вся суть в этом. Для следующего слоя используется результат всех предыдущих слоев, а данные нового слоя используются во всех следующих, т.е. он конкатинируется.

6. Dice (как loss) не дифференцируема? Использовалась логорифмическая формула?

Ответ: Мы просто берем, 1 минус делаем, получаем по сути loss. Плюс там используется комбо лосс (составной лосс).

7. Что хорошо заходит в iMet?

Ответ: Лично я в iMete сделал две модели, третья на подходе. Resnet50 неплох, он дал 0,699. Сейчас у меня второй метод, это se-ressnext101. Это не просто сама  сетка, там есть много ньюансов, как ее тренировать.

8. Почему использовалась комбинация из трех лоссов?

Ответ: На самом деле мы пробовали разные : 1,2. Решили попробовать, просто они уравновешивают друг-друга, почему нет.

9. Где можно будет узнать подробнее про систему распознавания голоса при помощи STFT?

Ответ: В данном проекте мы занимаемся не системой распознавания голоса, а системой генерации голоса. Если все получится, покажет крутые результаты, то в NTA будет статья. Мы еще несколько моделей в этой же области пробуем Voice clonning и другие, и будет статья, которая соберет все подходы, но пока по срокам не могу сказать, когда это будет.