Как tokenize строка в Python 3.5.2

91
6

Я хочу tokenize строку и использовал коды ниже:

print(raw)
tokens = nltk.word_tokenize(raw)
tokens

"raw" - это текст, извлеченный из файлов HTML. Я получил "сырой" текст, но последние две строки не работали. У меня есть nltk 3.2.1 и Python 3.5.2. Я помню, что создатели nltk сказали, что nltk все еще находится под обновлением для Python 3.

Итак, есть ли другой способ tokenize строки в среде Python 3.5.2? Делает ли BeautifulSoup или другие пакеты?

спросил(а) 2016-10-09T03:07:00+03:00 4 года, 1 месяц назад
1
Решение
94

Для последнего кода строки: токен я следовал примеру книги. Следуя предложению Юлиуса и изменив его просто

print(tokens)

Это сработало. Итак, ntlk 3.2 работает на python 3.5. отлично.

ответил(а) 2016-10-09T04:24:00+03:00 4 года, 1 месяц назад
Ваш ответ
Введите минимум 50 символов
Чтобы , пожалуйста,
Выберите тему жалобы:

Другая проблема