Stemming – вопросы и ответы

76
голосов
1
ответ
Я пытаюсь получить ключевые слова из текстового файла, содержащего текст, и сначала создаю текст. Код ниже работает, но по какой-то причине он генерирует букву "u" перед списком ключевых слов. Напр...
2 месяца, 2 недели назад user4910881
96
голосов
1
ответ
Я использовал Lucene.Net для индексирования и использования StandardAnalyzer во время индексирования. Теперь я хочу найти "attach". В документе "прилагается" есть. Как я получаю удачный удар для сл...
2 месяца, 2 недели назад user4910881
75
голосов
2
ответа
Я использую стример портера следующим образом, чтобы получить основу моих слов. from nltk.stem.porter import PorterStemmer stemmer = PorterStemmer() def stem_tokens(tokens, stemmer): stemmed = [] f...
2 месяца, 2 недели назад user4910881
108
голосов
2
ответа
Итак, я анализировал текстовый корпус, и я использовал стэммер для всех выраженных слов. Но я также должен найти все существительные в корпусе, поэтому я снова сделал nltk.pos_tag(stemmed_sentence)...
2 месяца, 2 недели назад rzach
97
голосов
3
ответа
Мне нужно выполнить последовательность на португальских строках. Для этого я хочу, чтобы строка выполнялась с помощью функции nltk.word_tokenize(), а затем каждое слово в отдельности. После этого я...
2 месяца, 2 недели назад yuridamata
63
голоса
2
ответа
Я пытаюсь извлечь стержень слов taller и shorter из строки в python. Я сделал следующее: >>> from nltk.stem.porter import * >>> print(stemmer.stem('shorter')) shorter >>>...
2 месяца, 3 недели назад kolonel
75
голосов
1
ответ
Я пытаюсь выполнить две вещи в бэкэнд, когда я создаю текстовый запрос solr: добавление ложных негативов и удаление ложных срабатываний. В контексте истолкования компенсация ложного отрицательного ...
2 месяца, 3 недели назад user3238414
76
голосов
2
ответа
Я новичок в python, и я стараюсь работать над небольшим куском Yelp! набор данных, который был в JSON, но я преобразован в CSV, используя библиотеки pandas и NLTK . Выполняя предварительную обработ...
2 месяца, 3 недели назад Anshul Vyas
106
голосов
3
ответа
У меня есть txt файлы, которые выглядят так: word, 23 Words, 2 test, 1 tests, 4 И я хочу, чтобы они выглядели так: word, 23 word, 2 test, 1 test, 4 Я хочу иметь возможность взять txt файл в Python ...
2 месяца, 3 недели назад theintern
86
голосов
1
ответ
Является ли Drools подходящим для написания правил для Stemming и/или маркировки POS? Предложения по правильному языку правил приветствуются. Я прочитал много статей в этой области, которые использ...
2 месяца, 3 недели назад omarzd
123
голоса
1
ответ
Раньше я использовал SnowBallAnalyzer для комбинирования пользовательской фильтрации стоп-слов с базовым запуском, но он устарел. Например, в индексной конфигурации я мог бы легко указать: IndexWri...
2 месяца, 3 недели назад abhinavkulkarni
76
голосов
1
ответ
Я пытаюсь оценить фильтрацию фильтров переключения в Solr от Porter до KStem. Я вижу ссылку на возможность настройки KStem через файл direct_conflations.txt и другие файлы, но я не могу найти докум...
2 месяца, 3 недели назад Reggie Pharkle
87
голосов
1
ответ
Я использую несколько заменителей строк, имея в виду эти преобразования 'thou sittest' → 'you sit' 'thou walkest' → 'you walk' 'thou liest' → 'you lie' 'thou risest' → 'you rise' Если я держу его н...
2 месяца, 3 недели назад nehemiah
61
голос
2
ответа
Я хочу знать, какая фабрика фильтрующих фильтров может использоваться для получения всех возможных временного слова. Пример: если "run" - это поисковое слово ->, он должен получать результаты дл...
2 месяца, 3 недели назад aish_dev
-4
голоса
1
ответ
У меня есть код, который я использую для Spam Classification, и он отлично работает, но каждый раз, когда я пытаюсь остановить /lemmatize слово, я получаю эту ошибку: Файл "/Users/Ramit/Desktop/Bay...
2 месяца, 4 недели назад Ramit Sawhney
87
голосов
1
ответ
Я использую nltk.stem.porter.PorterStemmer в python для получения стеблей слов. Когда я получаю стебель "женщин" и "женщин", я получаю разные результаты соответственно: "женщины" и "женщины". Для м...
2 месяца, 4 недели назад Diego Aguado
87
голосов
1
ответ
У меня есть индекс Sphinx с одним полем, который устанавливается следующим образом: index main_sphinxalert { # Options: type = rt path = /var/lib/sphinxsearch/data/main_sphinxalert morphology = ste...
3 месяца назад awidgery
-4
голоса
1
ответ
Вот класс из библиотеки Lucene, который я хочу использовать (использовать). Но я не знаю, как использовать/реализовать эту библиотеку на Java. Пример: у меня есть строковый массив >> menjadik...
3 месяца назад Lita
148
голосов
4
ответа
Я пытаюсь сделать некоторые из них в R, но, похоже, это работает только на отдельных документах. Моя конечная цель - это матрица терминов документов, которая показывает частоту каждого термина в до...
3 месяца, 1 неделя назад screechOwl
61
голос
1
ответ
У меня есть база данных Sql Server 2016 с полными текстовыми индексами, определенными на 4 столбцах, каждая из которых настроена на другой язык: голландский, английский, немецкий и французский. Я и...
3 месяца, 1 неделя назад redrobot
88
голосов
2
ответа
Я попытался применить собственный анализатор английского языка, а также стандартный анализатор английского языка вasticsearch. Моя цель особенно использовать стемминг. Допустим, в моих документах е...
3 месяца, 1 неделя назад runner2018
115
голосов
1
ответ
Попытка совместить запросы, содержащие "россия" или "русский", с "Российской Федерацией" с использованием Solr (а также других демонимов страны, таких как "американский", "сирийский" и т.д.). Каков...
3 месяца, 1 неделя назад Neil McGuigan
75
голосов
2
ответа
Знаете ли вы об эффективном методе извлечения ключевых предложений из текста с их частотными параметрами и т.д., а также о том, что может быть "stemning" (поиск также для аналогичных предложений)? ...
3 месяца, 1 неделя назад flow
88
голосов
3
ответа
В приведенном ниже запросе я хотел бы найти записи, которые начинаются с инженера. например, я хотел бы, чтобы вытащить обратно записи с инженером описания ИНГ SELECT * FROM app.desc_test t WHERE l...
3 месяца, 1 неделя назад contactmatt
62
голоса
1
ответ
У меня много текстового сообщения, я бегу под строками кодов для них. //tokenize term TokenStream tokenStream = new ClassicTokenizer(LUCENE_VERSION, new StringReader(term)); //стеблей tokenStream =...
3 месяца, 2 недели назад user3582044
76
голосов
2
ответа
В файле synonyms.txt у меня есть запись marine => saltwater,marine но оба слова возникают из-за 'saltwat', 'marin' соответственно, из-за того, что они находятся в защищенном файле слов. Есть ли ...
3 месяца, 2 недели назад raj247
106
голосов
2
ответа
Я установил SOLR и добавил документ к примеру 'collection1'. <doc> <str name="id">3007WFP</str> <str name="name">Fishing</str> <str name="type">Ladies</str>...
3 месяца, 2 недели назад finoutlook
62
голоса
2
ответа
(Этот вопрос касается проверки строк вообще, а не естественного языка Procesisng как такового, но если вы рассматриваете его как проблему NLP, представьте, что это не langauge, который могут анализ...
3 месяца, 2 недели назад alvas
76
голосов
2
ответа
У меня есть вопрос, который тесно связан с приведенным ниже Solr - поиск слов с одним словом, чтобы избежать возникновения В моей схеме у меня есть поле <field name="text" type="textgen" indexed...
1 год назад Ruth
61
голос
1
ответ
Я уже читал этот и этот вопросы, но я все еще не понимал использование stemDocument в tm_map . Давайте следовать этому примеру: q17 <- VCorpus(VectorSource(x = c("p
1 год назад Guilherme Parreira
62
голоса
1
ответ
У меня есть проблема, чтобы увеличить частоту, в которой слово встречается в каждом файле, я тестировал 3 одинаковых файла и получал разные результаты в каждом. Пример: каждый файл слово "программа...
1 год назад Leandro Campos
87
голосов
2
ответа
У меня есть текстовый файл, который я пытаюсь stem после удаления stopwords , но кажется, что при его запуске ничего не меняется. Мой файл называется data0 . Вот мои коды: ## Removing stopwords and...
1 год назад Andres Azqueta
76
голосов
4
ответа
У меня возникли проблемы с попыткой написать поисковую систему, которая обрабатывает все перегибы слова как одно и то же базовое слово. Итак, для глаголов это все одно и то же корневое слово, be: ч...
1 год назад Jon
98
голосов
1
ответ
Мне нужно создать простую поисковую систему для моего приложения. Пусть это упростит следующее: у нас есть несколько текстов (много), и мне нужно искать и показывать соответствующие результаты. Я о...
1 год назад nrudnyk
63
голоса
1
ответ
В основном, я хочу, чтобы получить точное соответствие (hashtag включено) для запросов, как это: =#SELECT to_tsvector('english', '#adoption'); to_tsvector ------------- 'adopt':1 Вместо этого я хоч...
1 год назад Mark
-4
голоса
1
ответ
У меня есть набор данных отзывов amazon, который выглядит следующим образом с 3 переменными [user_id, product_id, review_text] сколько слов в отзывах имеет слово "rec" (скажем, рекомендовать, получ...
1 год назад guda
62
голоса
3
ответа
Я обнаруживаю простое решение для поиска по ключевым словам с множественным числом. Я слышал о происходящем, но я не хочу использовать все его функции, только множественное/сингулярное преобразован...
1 год назад Mark Vital
115
голосов
2
ответа
С учетом этого текста: "Друзья - дружелюбные товарищеские отношения, которые являются дружественными и классифицируют дружественный класс классификации. Цветочные цветы текут через цветковые потоки...
1 год назад Jon
62
голоса
1
ответ
Я новичок в этом материале NLP, но все примеры тегов POS и Chunking Chunking, которые я видел, похоже, не удалили стоп-слова. Итак, вопрос, который у меня есть, если я выполняю теги POS, а Chunking...
1 год назад user2064232
97
голосов
5
ответов
Я запускаю следующий код в IDLE (Python), и я хочу ввести арабскую строку и получить для нее начало, но на самом деле это не работает. " → > from nltk.stem.isri import ISRIStemmer " → > st = ...
1 год назад user2822966
Чтобы , пожалуйста,
Выберите тему жалобы:

Другая проблема