Время прочтения: 3 мин.
1. Сталкивались ли с ситуацией, когда в отзыве несколько слов подряд записаны без пробелов? Если да, как работали с данной ситуацией?
Ответ: Нет, с такой проблемой не сталкивался. Но есть следующая мысль. Посчитать среднюю длину строк или медиану и подсвечивать все слова, которые больше и уже по ним смотреть какие без пробелов. Также в некотором роде помогает стемминг и лематизация текста.
2. Подскажите, какая предобработка данных на Ваш взгляд существенно повысила точность?
Ответ: На мой взгляд нормализация и удаление стоп-слов повысили точность.
3. Какова погрешность на сегодня в выгрузках?
Ответ: Если я верно понял, это вопрос был к точности модели. На данный момент последнее, что получили это TF — IDF + SVM + SGD. F-score примерно 0.93 из формулы f-mera = 2*Precision*Recall/(Precision+Recall), где Precision(точность) и Recall(полнота).
4. А с сокращениями слов в предобработке что-то делали или они не сильно влияют на работу модели?
Ответ: Я в стоп-слова постарался добавить подобные слова, чтобы по возможности исключить эту вероятность. А вообще, обратите внимание на FastText. Это поможет исключить данную проблему из-за иного подхода к формированию н-грамм и векторизации.
5. Все выгрузки, которые получаем отрабатываются вручную, без ручной отработки невозможно прикладывать выгрузки, как доказательную базу.
Ответ: Смотря на каком уровне рассматривается автоматизация. Спарсить отзывы можно, а вот учесть всевозможные изменения и предугадать, располагая конкретными инструментами трудно.
6. Какая полнота и точность определения класса итоговой модели? Есть те отзывы, которые модель не смогла определить к какому-либо классу?
Ответ: Изначально планировалась только бинарная классификация, то есть 2 класса. Условно «да», «нет». А F-mera 0.9+, она включает в себя полноту и точность. F mera = 2*Precision*Recall/(Precision+Recall), где Precision(точность) и Recall(полнота). Все отзывы были отнесены к классам и их два. По кластерам тоже распределились.
7. Вы валидировали и тестировали на одних и тех же данных?
Ответ: Нет, в качестве валидационной были взяты отзывы с тех же источников с 2016 по 2018 годы.
8. Сколько времени заняло обучение модели?
Ответ: Уточните, пожалуйста, что подразумеваете под временем обучения модели. Весь процесс или же выполнение команды fit с уже подобранными параметрами. Это важно, так как большое время занимает именно подбор параметров.
9. Правильно ли понимаем, что Ваша модель переобучается? Или каждый раз обучение на новых данных?
Ответ: Нет, данные были собраны один раз, и один раз обучена модель, не в потоке постоянного поступления данных.
10. Имеется ещё ввиду, если появятся новые продукты, например?
Ответ: Класса всего два. Я думаю, сильно влиять на них не будет. Насчет кластеризации – да, при запуске переразбивки на кластеры, если часто употребляется новый продукт, то наверняка алгоритм сформирует новый кластерный центр внутри упоминаний об этом продукте.