Python Snowball Stemmer + RAKE: генерирует 'u's

76
9

Я пытаюсь получить ключевые слова из текстового файла, содержащего текст, и сначала создаю текст. Код ниже работает, но по какой-то причине он генерирует букву "u" перед списком ключевых слов. Например, это то, что я получаю:

[(u'keyword1', 5), (u'keyword2', 4)]

И я не уверен, откуда "у". Вот код (после импорта пакетов):

stemmer = SnowballStemmer("english")
rake_object = rake.Rake("SmartStoplist.txt", 5, 3, 4)
s = open("test.txt", "r").read()
s = re.sub('[^a-zA-Z0-9-_*.]', ' ', s) # Remove special characters that might cause problems with stemming
words = s.split()
stemmed = [stemmer.stem(word) for word in words]
stemmed = ' '.join(stemmed)
keywords = rake_object.run(stemmed) # Perform RAKE on stemmed text
print(keywords)

спросил(а) 2021-01-28T01:37:19+03:00 2 месяца, 2 недели назад
1
Решение
106

Это означает, что это строка Unicode, stemmer возвращает этот тип строк. Он был синтаксисом с 2.0, в Pythons 2.x. Чтобы получить дополнительную информацию, прочитайте документацию. Не беспокойтесь об этом.

ответил(а) 2021-01-28T01:37:19+03:00 2 месяца, 2 недели назад
Ваш ответ
Введите минимум 50 символов
Чтобы , пожалуйста,
Выберите тему жалобы:

Другая проблема