Как использовать CountVectorizer перед построением байесовского классификатора

112
4

После предварительной обработки необработанных данных, данные спама из Kaggle. Я уже удалил все стоп-слова и ненужные слова. Теперь требуется использовать CountVectorizer для количественной оценки очищенных слов. Но я не знаю, как это сделать и какова концепция этого.

Как я только что узнал функцию подсчета, чтобы вычислить частоту появления слов. Но я понятия не имею о CountVectorizer. Я проверил онлайн, но казалось, что ресурсы были ограничены.

spam['filtered'].head()

0 [Go, jurong, point, crazy.., avail, bugi, n, g...
1 [Ok, lar, ..., joke, wif, u, oni, ...]
2 [free, entri, 2, wkli, comp, win, FA, cup, fin...
3 [U, dun, say, earli, hor, ..., U, c, alreadi, ...
4 [nah, n't, think, goe, usf, live, around, though]
Name: filtered, dtype: object

from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer()

Так как же делать дальше? Также как провести наивный байесовский классификатор после этого?

спросил(а) 2019-04-16T21:44:00+03:00 1 год, 2 месяца назад
0
Ваш ответ
Введите минимум 50 символов
Чтобы , пожалуйста,
Выберите тему жалобы:

Другая проблема