Countvectorizer – вопросы и ответы

114
голосов
2
ответа
В моей модели классификации мне нужно поддерживать заглавные буквы, но когда я использую sklearn countVectorizer для создания словаря, заглавные буквы преобразуются в строчные буквы! Чтобы исключит...
2 месяца, 2 недели назад Minion
75
голосов
1
ответ
Я пытаюсь прорисовать некоторый текст с помощью sklearn CountVectorizer. После этого я хочу посмотреть на функции, которые генерируют векторизатор. Но вместо этого я получил список кодов, а не слов...
2 месяца, 2 недели назад Dmitrij Burlaj
86
голосов
1
ответ
Я пытаюсь заставить мой MultinomialNB работать. Я использую CountVectorizer на своем тренировочном и тестовом наборе, и, конечно, в обоих наборах есть разные слова. Поэтому я вижу, почему ошибка Va...
2 месяца, 2 недели назад Holy Moly
97
голосов
1
ответ
Я должен работать с пред-токенизованными документами, которые я могу загрузить в list строк. Я хочу использовать scikit
2 месяца, 3 недели назад Arthur
61
голос
1
ответ
Задайте себе классификацию мужских и женских имен, используя ngrams. Итак, у вас есть dataframe like: name is_male Dorian 1 Jerzy 1 Deane 1 Doti 0 Betteann 0 Donella 0 Конкретная заявка заключается...
2 месяца, 3 недели назад Alex Nikitin
61
голос
1
ответ
У меня есть dataframe, содержащий 13 столбцов. Среди 13 трех столбцов - строка. Один столбец строки - простой мужской и женский, который я преобразовал в 1 и 0, используя pd.get_dummies() Второй ст...
2 месяца, 3 недели назад Ch HaXam
61
голос
1
ответ
У меня есть довольно грязный вложенный словарь, который я пытаюсь преобразовать во фрейм данных панд. Данные хранятся в словаре списков, содержащемся в более широком словаре, где следует каждая раз...
2 месяца, 3 недели назад quant_fin
96
голосов
1
ответ
Я подготовил оценку с этим: def train_estimator(feature_list, expected_values, k=5): pipeline = Pipeline([('vect', CountVectorizer(input='filename', stop_words='english')), ('clf', MultinomialNB())...
2 месяца, 3 недели назад Jay
62
голоса
1
ответ
Привет, я хочу группировать фильмы только на основе их названия. Моя функция работает очень хорошо для моих данных, но у меня большая проблема. Мой образец - это большие 150 000 фильмов, и его очен...
3 месяца назад Dimitris Gmk
97
голосов
3
ответа
У меня есть следующая строка: "hello, I'm going to eat to the fullest today hhhhhhhhhhhhhhhhhhhhh" Я собрал много таких твитов и назначил их на фрейм данных. Как я могу очистить эти строки в кадре ...
1 год назад John Sall
74
голоса
1
ответ
У меня есть список под названием dictionary1 . Я использую следующий код, чтобы получить разреженные матрицы матриц: cv1 = sklearn.feature_extraction.text.CountVectorizer(stop_words=None) cv1.fit_t...
1 год назад SAFEX
115
голосов
1
ответ
Я делаю текстовую классификацию для диалектов. После того, как я обучил его 3 типам диалектов, я проверил его на основании имеющихся у меня данных испытаний. Однако теперь предположим, что я собира...
1 год назад John Sall
-4
голоса
1
ответ
Я хочу создать пакет слов из текста фильмов, которые я сохранил в объекте pandas с именем top100. Мой объект pandas имеет 3 столбца: 'Name' = Название фильма "Текст" = текст примерно 500 слов, опис...
1 год назад Niels Gorsel
-4
голоса
2
ответа
Я не хочу, чтобы длина слов была меньше 3 или более, чем 7. Есть простой способ сделать это в R, но в Python я не уверен. Я пробовал это, но все равно не работает from sklearn.feature_extraction.te...
1 год назад Indi
75
голосов
2
ответа
прежде всего, я новичок в python и nlp/машинное обучение. сейчас у меня есть следующий код: vectorizer = CountVectorizer( input="content", decode_error="ignore", strip_accents=None, stop_words = st...
1 год, 1 месяц назад Micha
88
голосов
2
ответа
У меня есть набор слов, для которых я должен проверить, присутствуют ли они в документах. WordList = [w1, w2, ..., wn] У другого набора есть список документов, на которых я должен проверить, присут...
1 год, 1 месяц назад Sanjeev
87
голосов
1
ответ
Я хочу использовать CountVectorizer из Scikit для создания матрицы, которая будет использоваться моделью LDA . Но мой набор данных представляет собой последовательность закодированных терминов, нап...
1 год, 1 месяц назад Adham Enaya
86
голосов
1
ответ
У вас есть куча файлов.txt в папке. Вот две функции, которые используются для чтения этих файлов и сохранения их в переменной как одна строка: s=(glob.glob("/Users/user/documents/folder/*.txt")) de...
1 год, 1 месяц назад Keithx
97
голосов
1
ответ
Я делаю анализ LDA с Python. Есть ли в коробке способ получить, сколько текстов моего корпуса (который является списком текстовых строк), есть слово (Edit: термин из n слов)? Ответ здесь @titipata ...
1 год, 1 месяц назад aless80
61
голос
1
ответ
Я добавил lemmatization к моему countvectorizer, как объяснено на этой странице Sklearn . from nltk import word_tokenize from nltk.stem import WordNetLemmatizer class LemmaTokenizer(object): def __...
1 год, 1 месяц назад Rens
61
голос
1
ответ
У меня есть кадр данных, который выглядит следующим образом: description priority CDT JDT 0 Create Help Index Fails with seemingly incorre... P3 0 0 1 Internal compiler error when compiling switch ...
1 год, 1 месяц назад JohnWayne360
107
голосов
1
ответ
У меня есть набор данных из 129,013 файлов и вы хотите кодировать их linewise, т.е. Одна строка - это один токен. Я использовал countVectorizer из изучения scikit и пошел с vec = CountVectorizer(in...
1 год, 1 месяц назад AlexConfused
114
голосов
1
ответ
Этот вывод дает гистограмму со словом по оси х и ее частоту по оси y. Тем не менее, я хочу добавить два улучшения: 1) показывать только значения> 2 на частоте 2) включают в себя bigrams import p...
2 года, 6 месяцев назад forthewin
87
голосов
0
ответов
Я создал DataFrame, как показано ниже resultWithId = production_df.withColumn("id", monotonically_increasing_id()) resultWithId.show(5, truncate=False) resultWithId.printSchema() Результат: +------...
2 года, 10 месяцев назад lpt
106
голосов
0
ответов
Я пытаюсь добавить функции для классификации документа. Но мой вопрос заключается в том, как добавить функции, если размер моей матрицы не соответствует количеству выборок. Здесь моя оценка class A...
4 года, 4 месяца назад mathieu
123
голоса
1
ответ
Поэтому у меня есть следующий список списков, который символизируется: tokenized_list = [['ALL', 'MY', 'CATS', 'IN', 'A', 'ROW'], ['WHEN', 'MY', 'CAT', 'SITS', 'DOWN', ',', 'SHE', 'LOOKS', 'LIKE', ...
3 года назад explorer_x
-4
голоса
1
ответ
Я пытаюсь выполнить модель Spark countVectorizer. Как часть этого требования, я читаю csv файл и создаю Dataframe (inp_DF) из него. Он имеет 3 столбца, как показано ниже. +--------------+--------+-...
3 года, 7 месяцев назад JKC
75
голосов
1
ответ
Недавно я начал читать больше о НЛП и следовать учебным пособиям на Python, чтобы узнать больше об этом предмете. Следуя одному из руководств, я заметил, что они использовали разреженную матрицу по...
2 года, 1 месяц назад patri
63
голоса
1
ответ
Я читаю здесь учебник https://github.com/amueller/introduction_to_ml_with_python/blob/master/07-working-with-text-data.ipynb, чтобы узнать о механическом обучении и тексте. В моем случае я использу...
3 года, 10 месяцев назад Amanda_Panda
75
голосов
1
ответ
У меня есть задание, что-то вроде этого: import gensim from sklearn.feature_extraction.text import CountVectorizer newsgroup_data = ["Human machine interface for lab abc computer applications", "A ...
3 года, 4 месяца назад checker
123
голоса
1
ответ
Некоторые вещи меня смущают, когда дело доходит до векторизации фраз и помещает их в матричную форму. Когда вы импортируете либо CountVectorizer, либо TfidfVectorizer, в чем отличия функций.fit &am...
3 года, 1 месяц назад Keon Park
62
голоса
0
ответов
У меня есть корпус размером 300 МБ. У меня 32-битные окна с 32-разрядной версией python версии 3.6. Сколько памяти потребуется для этой операции? Мой код ниже. a = load_files('D:\Train') # have two...
3 года, 11 месяцев назад banu
86
голосов
2
ответа
Этот вопрос объясняет, как добавить свои собственные слова во встроенные английские слова остановки CountVectorizer . Мне интересно видеть эффекты на классификаторе, чтобы исключить любые числа в к...
4 года назад Charlie
86
голосов
1
ответ
Я использую классификацию текста для классификации диалектов. Тем не менее, я заметил, что я должен использовать countVectorizer следующим образом: from sklearn.feature_extraction.text import Count...
1 год, 11 месяцев назад John Sall
61
голос
1
ответ
Пытаясь преобразовать строку в числовой вектор, ### Clean the string def names_to_words(names): print('a') words = re.sub("[^a-zA-Z]"," ",names).lower().split() print('b') return words ### Vectoriz...
3 года, 11 месяцев назад 有些吃饱了没事干的外国人对我们的事情指手画脚
97
голосов
0
ответов
Я использую ниже код, чтобы построить матрицу терминов документа в python. # Importing the libraries import pandas as pd import nltk from nltk.corpus import stopwords from nltk.tokenize import word...
3 года, 6 месяцев назад Ranjana Girish
131
голос
0
ответов
У меня проблемы с несовместимостью Countvectorizer пакета функций ml. Когда я воспроизвожу результаты работы счетчика и приложенный словарь, я получаю разные результаты. Корень проблемы в том, что ...
2 года, 2 месяца назад raffaelo92
75
голосов
0
ответов
Я получаю те же результаты при использовании любого из 2 векторизатора: vect=CountVectorizer(min_df=1, token_pattern=r'[a-zA-Z0-9\-\ ]+') vX = vect.fit_transform(movies['genres']) df3=pd.DataFrame(...
2 года, 2 месяца назад shantanuo
98
голосов
0
ответов
Я использую классификацию текста для определения диалектов. Я использую sklearn и countVectorizer, я хочу обучить наивный байесовский классификатор как на основе символов, так и на словарях. Итак, ...
1 год, 11 месяцев назад John Sall
106
голосов
0
ответов
Отсутствует что-то в атрибуте для countVectorizer, когда применяется countVectorizer в столбце dataframe (Review), который уже обозначен и запущен, появляется ошибка: AttributeError: объект 'list' ...
3 года, 4 месяца назад Divakar J
Чтобы , пожалуйста,
Выберите тему жалобы:

Другая проблема