Запрос относительно текстовых классификационных данных, по умолчанию находящихся в высокоразмерном пространстве по умолчанию

65
7

Я читал много книг по машинным машинам и техническим документам поддержки, предположение, что многие авторы делают выбор линейного ядра для большинства задач классификации текста.

Они говорят что-то вроде того, так как данные в задачах классификации текста уже находятся в высокоразмерном пространстве, достаточно выбрать линейное ядро для разделения данных при попытке классифицировать данные с помощью SVM.

Мое понимание этого предположения заключается в следующем:

В любой задаче классификации текста количество функций (во многих случаях некоторых важных слов, которые мы ищем в документах), которые будут выбраны для задачи классификации, будет в основном очень высоким, и это то, что подразумевается под данными, находящимися в высокоразмерное пространство.

Насколько я понимаю это предположение? Если нет, я бы хотел, чтобы кто-то попытался пролить свет на это предположение.

Любая помощь будет принята с благодарностью.

спросил(а) 2021-01-19T15:39:10+03:00 9 месяцев назад
1
Решение
92

Насколько я понимаю, вы правы.

    Каждая функция соответствует размеру. Высшее измерение => Более высокая вероятность разделения. Нелинейные ядра только преобразуют данные (нелинейно) в более высокую размерность, чтобы увеличить вероятность разделения и, следовательно, не нужны в случае со многими функциями.

Я могу порекомендовать прочитать лекции о SVM и аналогично: http://www.csc.kth.se/utbildning/kth/kurser/DD2427/bik12/Schedule.php Это лучший ресурс, который я знаю в теме. Короче и точно.

ответил(а) 2021-01-19T15:39:10+03:00 9 месяцев назад
Ваш ответ
Введите минимум 50 символов
Чтобы , пожалуйста,
Выберите тему жалобы:

Другая проблема