Время прочтения: 3 мин.

1. Сталкивались ли с ситуацией, когда в отзыве несколько слов подряд записаны без пробелов? Если да, как работали с данной ситуацией?

Ответ: Нет, с такой проблемой не сталкивался. Но есть следующая мысль. Посчитать среднюю длину строк или медиану и подсвечивать все слова, которые больше и уже по ним смотреть какие без пробелов. Также в некотором роде помогает стемминг и лематизация текста.

2. Подскажите, какая предобработка данных на Ваш взгляд существенно повысила точность?

Ответ: На мой взгляд нормализация и удаление стоп-слов повысили точность.

3. Какова погрешность на сегодня в выгрузках?

Ответ: Если я верно понял, это вопрос был к точности модели. На данный момент последнее, что получили это TF — IDF + SVM + SGD.  F-score примерно 0.93 из формулы f-mera = 2*Precision*Recall/(Precision+Recall), где Precision(точность) и Recall(полнота).

4. А с сокращениями слов в предобработке что-то делали или они не сильно влияют на работу модели?

Ответ: Я в стоп-слова постарался добавить подобные слова, чтобы по возможности исключить эту вероятность. А вообще, обратите внимание на FastText. Это поможет исключить данную проблему из-за иного подхода к формированию н-грамм и векторизации.

5. Все выгрузки, которые получаем отрабатываются вручную, без ручной отработки невозможно прикладывать выгрузки, как доказательную базу.

Ответ: Смотря на каком уровне рассматривается автоматизация. Спарсить отзывы можно, а вот учесть всевозможные изменения и предугадать, располагая конкретными инструментами трудно.

6. Какая полнота и точность определения класса итоговой модели? Есть те отзывы, которые модель не смогла определить к какому-либо классу?

Ответ: Изначально планировалась только бинарная классификация, то есть 2 класса. Условно «да», «нет». А F-mera 0.9+, она включает в себя полноту и точность. F mera = 2*Precision*Recall/(Precision+Recall), где Precision(точность) и Recall(полнота). Все отзывы были отнесены к классам и их два. По кластерам тоже распределились.

7. Вы валидировали и тестировали на одних и тех же данных?

Ответ: Нет, в качестве валидационной были взяты отзывы с тех же источников с 2016 по 2018 годы.

8. Сколько времени заняло обучение модели?

Ответ: Уточните, пожалуйста, что подразумеваете под временем обучения модели. Весь процесс или же выполнение команды fit с уже подобранными параметрами. Это важно, так как большое время занимает именно подбор параметров.

9. Правильно ли понимаем, что Ваша модель переобучается? Или каждый раз обучение на новых данных?

Ответ: Нет, данные были собраны один раз, и один раз обучена модель, не в потоке постоянного поступления данных.

10. Имеется ещё ввиду, если появятся новые продукты, например?

Ответ: Класса всего два. Я думаю, сильно влиять на них не будет. Насчет кластеризации – да, при запуске переразбивки на кластеры, если часто употребляется новый продукт, то наверняка алгоритм сформирует новый кластерный центр внутри упоминаний об этом продукте.