Иерархическая система классификации веб-сайтов (по категориям)

  • Категория: NLP
  • Клиент: Segmento
  • Project date: 2022

Система относит веб-сайт к одной или нескольким из более чем 500 категорий и используется для маркетинговых и рекламных кампаний.

Подходы

  • Tf-Idf + NodesLocalClassifier
  • ByteLevelBPE + HMCN
  • Word-piece + RuBert

Специфические особенности данных

  • Недоступные веб страницы
  • Неправильные метки
  • Дисбаланс классов

Оценка моделей

Метрики оценки качества моделей:

  • h-fbeta (MSE)
  • h-precision
  • h-recall

Метрики


HMCN NLC RuBert
H-fbeta 0.53 0.39 0.2
H-precision 0.87 0.48 0.93
H-recall 0.38 0.33 0.11