Иерархическая система классификации веб-сайтов (по категориям)
- Категория: NLP
- Клиент: Segmento
- Project date: 2022
Система относит веб-сайт к одной или нескольким из более чем 500 категорий и используется для маркетинговых и рекламных кампаний.
Подходы
- Tf-Idf + NodesLocalClassifier
- ByteLevelBPE + HMCN
- Word-piece + RuBert
Специфические особенности данных
- Недоступные веб страницы
- Неправильные метки
- Дисбаланс классов
Оценка моделей
Метрики оценки качества моделей:
- h-fbeta (MSE)
- h-precision
- h-recall
Метрики
HMCN | NLC | RuBert | |
---|---|---|---|
H-fbeta | 0.53 | 0.39 | 0.2 |
H-precision | 0.87 | 0.48 | 0.93 |
H-recall | 0.38 | 0.33 | 0.11 |