Время прочтения: 3 мин.
- Почему была выбрана метрика DICE , а не F1?
Ответ: Метрика была выбрана организатором соревнования и этот выбор объясняется следующим. Если вы помните, формула F1 похожа на DICE, но когда мы имеем дело именно с масками (т.е. рассматриваем некую площадь) , используется DICE, который является аналогом F1, т.к. когда нужно анализировать структуру , а не классификацию (1/0), когда есть такая площадь, тогда мы сравниваем площадь, которую модель предсказала с реальной площадью на ее пересечении. Поэтому использовался DICE –это стандартная метрика для задач сегментации.
2. Как осуществляется подбор порогов для лучшей метрики?
Ответ: Мы просто брали цикл, например, порог от 0,3 до 0,8 и порог по количеству пикселей, к примеру, от 800 до 1700 и когда получалась модель, она подходила к валидации. Мы, допустим, на 0,5 считали валидацию, после чего, в цикле мы прогоняли эту же самую валидацию для 0,3, для 0,4 и т д , т.е. прогоняли все возможные сочетания этого порога с этим порогом , т.е. если к примеру у нас 5*5, то есть 25 различных сочетаний, то валидация25 раз прогоняется и мы искали лучший результат на валидации.
Это в том числе очень усложняло и увеличивало время обучения модели на валидации, т. к. она должна прогнаться 25 раз.
3. Насколько соревнования по анализу данных и машинному обучению похожи на реальные задачи?
Ответ: Похожи, но не сильно,потому что организаторы очень хорошо подходят к данным. Данные подобраны, почищены, нет откровенно кривых снимков. Если мы говорим о реальных задачах, то когда собираем реальные медицинские снимки, есть засвеченные, криво снятые и надо все готовить вручную. Плюс была хорошая разметка, которая дорогого стоит.
4. Насколько влияет выбор декодера на точность предсказания?
Ответ: Декодер влияет на предсказание сети однозначно. Т.е. многие выдали выше результат с использованием резнета34, просто мы его не очень хорошо научили. Как я говорил, densenet169 выбран из за того, что он хорошо работает с медицинскими изображениями, рентгеновскими в частности, это его особенность. Лучше попробовать много разных, resnet34, resnet50 гораздо быстрее учатся, можно получить хороший результат за более короткий срок. Если вам особенно важна скорость и точность, то декодер однозначно.
5. Сигнал конкатинируется в densenet или складывается?
Ответ: Он конкатинируется, потому что там вся суть в этом. Для следующего слоя используется результат всех предыдущих слоев, а данные нового слоя используются во всех следующих, т.е. он конкатинируется.
6. Dice (как loss) не дифференцируема? Использовалась логорифмическая формула?
Ответ: Мы просто берем, 1 минус делаем, получаем по сути loss. Плюс там используется комбо лосс (составной лосс).
7. Что хорошо заходит в iMet?
Ответ: Лично я в iMete сделал две модели, третья на подходе. Resnet50 неплох, он дал 0,699. Сейчас у меня второй метод, это se-ressnext101. Это не просто сама сетка, там есть много ньюансов, как ее тренировать.
8. Почему использовалась комбинация из трех лоссов?
Ответ: На самом деле мы пробовали разные : 1,2. Решили попробовать, просто они уравновешивают друг-друга, почему нет.
9. Где можно будет узнать подробнее про систему распознавания голоса при помощи STFT?
Ответ: В данном проекте мы занимаемся не системой распознавания голоса, а системой генерации голоса. Если все получится, покажет крутые результаты, то в NTA будет статья. Мы еще несколько моделей в этой же области пробуем Voice clonning и другие, и будет статья, которая соберет все подходы, но пока по срокам не могу сказать, когда это будет.