Scikit-Learn – вопросы и ответы

114
голосов
2
ответа
В моей модели классификации мне нужно поддерживать заглавные буквы, но когда я использую sklearn countVectorizer для создания словаря, заглавные буквы преобразуются в строчные буквы! Чтобы исключит...
2 месяца, 2 недели назад Minion
96
голосов
1
ответ
Поэтому, когда я пытаюсь запустить некоторый код с изображением строки ниже: X_train, X_test, Y_train, Y_test=train_test_split(X_features, Y_feature, test_size=0.2, random_state=42, stratify=None, ...
2 месяца, 2 недели назад dr2509
107
голосов
1
ответ
Я пытаюсь создать свой собственный тегированный корпус для набора данных демонизации, а набор данных имеет приблизительно 6250 твитов. код ниже, хотя он дает результаты для небольшого набора данных...
2 месяца, 2 недели назад Sadhana Singh
76
голосов
1
ответ
Я делаю что-то о выводах строк. Мой основной рабочий поток: df = pd.read_csv(some_path) vect = TfidfVectorizer(min_df=1) tfidf = vect.fit_transform(df.title.astype(unicode)) sml_matrix = (tfidf * t...
2 месяца, 2 недели назад Mithril
62
голоса
1
ответ
Я хочу найти 5 ближайших соседей для каждой точки синих точек (T-SNE1) из красных точек (T-SNE2). Поэтому я написал этот код, чтобы узнать, как правильно это сделать, но я не уверен, что это правил...
2 месяца, 2 недели назад user8523104
62
голоса
1
ответ
Ссылаясь на этот пост . Мне интересно, как мы предоставляем словарь слова с пространством для модели CountVectorizer например, distributed systems или machine learning ? Вот пример:
2 месяца, 2 недели назад titipata
107
голосов
2
ответа
Я пытался встроить генератор в модель, и я получил эту ошибку: AssertionError: Cannot find installation of real FFmpeg (which comes with ffprobe). Я просмотрел многие решения на GitHub и другие воп...
2 месяца, 2 недели назад Asm Goni
62
голоса
1
ответ
Я внедряю Gradient Decent с использованием алгоритма scikit-learn SGDRegressor в моем наборе данных аренды, чтобы прогнозировать арендную плату на основе площади, но получаю странные коэффициенты и...
2 месяца, 2 недели назад Born.To.Code
-4
голоса
1
ответ
У меня есть категориальная колонка с 4000 уникальными уровнями. При использовании sklearn.feature_extraction.FeatureHasher для кодирования, этот столбец Что должно быть значением n_features, чтобы ...
2 месяца, 2 недели назад maikeffi
96
голосов
1
ответ
Я запускаю алгоритм Decision Trees из SciKit Learn, и я хочу получить вектор Feature_importance вместе с именами функций, чтобы я мог определить, какие функции являются доминирующими в процессе мар...
2 месяца, 2 недели назад AlK
123
голоса
3
ответа
Я хочу использовать часть речи (POS), возвращенную из nltk.pos_tag для классификатора sklearn, как я могу преобразовать их в вектор и использовать? например. sent = "Это пример POS" Tok = nltk.toke...
2 месяца, 2 недели назад Suresh
-4
голоса
2
ответа
Я занимаюсь классификацией в Python, чтобы классифицировать аудиофайлы разных музыкальных инструментов в их классе, в моем случае есть 4 класса, которые являются Brass, String, Percussion и Woodwin...
2 месяца, 2 недели назад Akhmad Zaki
-6
голосов
2
ответа
В моем недавнем проекте кто-то пытался кластеризовать многомерный набор данных с помощью sklearn.dbscan. Но я очень сомневаюсь с этим подходом. Как мы можем узнать eps и min_samples? Я имею в виду,...
2 месяца, 2 недели назад J.R.
107
голосов
1
ответ
Я реализую пример из книги O'Reilly "Введение в машинное обучение с помощью Python", используя Python 2.7 и sklearn 0.16. Код, который я использую: pipe = make_pipeline(TfidfVectorizer(), LogisticR...
2 месяца, 2 недели назад sudo_coffee
62
голоса
2
ответа
Я загружаю csv, используя Numpy, в качестве набора данных для создания модели дерева решений в Python. используя приведенный ниже фрагмент, помещает столбцы 0-7 в X и последний столбец в качестве ц...
2 месяца, 2 недели назад user2249567
62
голоса
3
ответа
Вот пример, где есть пошаговая процедура, чтобы система узнавала и классифицировала входные данные. Он правильно классифицирует данные для 5 доменов данных. Кроме того, он также классифицирует стоп...
2 месяца, 2 недели назад user4910881
61
голос
2
ответа
Код модели смеси в scikit-learn работает для списка отдельных точек данных, но что, если у вас есть гистограмма? То есть, у меня значение плотности для каждого воксела, и я хочу, чтобы модель смеси...
2 месяца, 2 недели назад cgreen
62
голоса
1
ответ
Я тренирую Классификатор случайных лесов с 10 оценками. Затем я сохраняю все графы дерева с graphviz в виде файлов точек и PNG. Наконец, я делаю RandomForest.predict. Исходя из результатов прогноза...
2 месяца, 2 недели назад thestruggleisreal
75
голосов
1
ответ
Я новичок, работаю в Sklearn, используя SGDClassifier , чтобы классифицировать тексты с одним предложением с использованием меток. (Например, письма с Think Ham/Spam). Вот мой конвейер: clf = SGDCl...
2 месяца, 2 недели назад GreenGodot
105
голосов
1
ответ
Я хочу оценить лучшие параметры (упомянутые в самом конце: наклон и перехват) для сигмоидальной/логистической системы, используемой в логистической регрессии для медицинских данных. Вот что я сдела...
2 месяца, 2 недели назад NAMAN SHUKLA
106
голосов
2
ответа
Я хочу автоматически выбрать k (k-означает кластеризацию), используя калибровку calinski и harabasz из пакета scikit в python (metrics.calinski_harabaz_score). Я прохожу через весь диапазон кластер...
2 месяца, 2 недели назад Bethlee
97
голосов
1
ответ
У меня есть классификатор Keras, построенный с использованием обертки Keras в Scikit-Learn API. Нейронная сеть имеет 10 выходных узлов, и все данные обучения представлены с использованием горячего ...
2 месяца, 2 недели назад Emerson Hsieh
75
голосов
1
ответ
Можно оценить матрицу путаницы для каждого раскола в LOOCV ?. Я довольно флот в sklearn, и я читал документацию об LeaveOneOut в sklearn.model_selection и у меня есть хорошая идея, что это значит, ...
2 месяца, 2 недели назад Steve Jade
106
голосов
1
ответ
Из командной строки Windows, когда я пытаюсь запустить настройку, я получаю эту ошибку: Found executable C:\Program Files (x86)\Microsoft Visual Studio 11.0\VC\BIN\cl.e xe C:\Program Files (x86)\Mi...
2 месяца, 2 недели назад MilesMorales
168
голосов
1
ответ
После определения лучших параметров с помощью pipeline и GridSearchCV , как мне pickle / joblib этот процесс повторно использовать позже? Я вижу, как это сделать, когда это один классификатор... fr...
2 месяца, 2 недели назад Jarad
75
голосов
1
ответ
Я использую RF дважды подряд. Во-первых, я использую его, используя max_features='auto' и весь набор данных (функция 109), чтобы выполнить выбор функций. Ниже приведена RandomForestClassifier.featu...
2 месяца, 2 недели назад Enrico Rotundo
122
голоса
1
ответ
Поскольку k_means в sklearn использует только евклидово расстояние, которое не является хорошим измерением для "расстояний" или "подобия" среди текстов, существуют ли какие-либо альтернативы в pyth...
2 месяца, 2 недели назад user6396
105
голосов
1
ответ
Я застрял в использовании бинаризатора Multilabel и классификатора One-vs-all в scikit-learn. Моя задача - как только я получу предсказания, чтобы получить оригинальные ярлыки. (Я тренировал и мари...
2 месяца, 2 недели назад Santino
87
голосов
1
ответ
У меня вопрос о линейной регрессионной модели sklearn. Я хочу установить линейную регрессию с использованием нескольких функций. Прямо сейчас мой X является np.matrix, а Y - np.array. Мой X выгляди...
2 месяца, 2 недели назад Jesse Kramer
61
голос
1
ответ
Я работаю над реализацией скрипта Python для кластеризации текстовых данных NMF. В своей работе я использую реализацию Scikit NMF, однако, как я понимаю, в Scikit NMF больше похож на метод классифи...
2 месяца, 2 недели назад rafmat24
97
голосов
1
ответ
Я хочу получить значения MFCC моего wav файла. Вот мой код: > import numpy as np > import scipy.io.wavfile > from scikits.talkbox.features import mfcc > sr1,x1=scipy.io.wavfile.read("fi...
2 месяца, 2 недели назад ali
122
голоса
1
ответ
Я хотел бы использовать GridSearchCV для определения оптимального параметра регуляризации "C" в логистической регрессии с регуляцией L1. Я также хотел бы масштабировать/стандартизировать мои функци...
2 месяца, 2 недели назад mella
75
голосов
1
ответ
Я ищу рекомендации относительно наилучшего пути для моей текущей проблемы машинного обучения Контур проблемы и то, что я сделал, выглядит следующим образом: У меня есть 900+ испытания данных ЭЭГ, г...
2 месяца, 2 недели назад Simon
-4
голоса
1
ответ
Я хочу использовать TimeSeriesSplit из sklearn на следующем фрейме данных для прогнозирования суммы: Итак, чтобы подготовить X и y, я делаю следующее: X = df.dro
2 месяца, 2 недели назад Holden Caulfield
61
голос
2
ответа
В то время как практика простой модели линейной регрессии я получил эту ошибку, я думаю, что что-то не так с моим набором данных. Вот мой набор данных: Вот независимая переменная X:
2 месяца, 2 недели назад danyialKhan
97
голосов
2
ответа
Я просто хочу быть уверенным, что это не касается моего кода, но его нужно исправлять в соответствующем пакете Python. (Кстати, это похоже на то, что я могу заплатить вручную даже до того, как пост...
2 месяца, 2 недели назад László
75
голосов
1
ответ
Я пытаюсь прорисовать некоторый текст с помощью sklearn CountVectorizer. После этого я хочу посмотреть на функции, которые генерируют векторизатор. Но вместо этого я получил список кодов, а не слов...
2 месяца, 2 недели назад Dmitrij Burlaj
106
голосов
1
ответ
Я пытаюсь подготовить набор данных, чтобы предсказать, введен ли введенный текст из научно-фантастического романа или нет. Я относительно новичок в python, поэтому не знаю точно, что я делаю неправ...
2 месяца, 2 недели назад Trevor Waters
87
голосов
1
ответ
Я пытаюсь вычислить ошибку между списком d[] реального значения и списком p[] предсказанного, но он не работает. есть ли простой способ вычислить его через библиотеку, например scikit-learn? x=0 de...
2 месяца, 2 недели назад babr
106
голосов
3
ответа
Я попытался использовать классификатор Naive Bayes для классификации моего образца. Образец корпуса выглядит следующим образом (хранится в файле myfile.csv): "Text";"label" "There be no significant...
2 месяца, 2 недели назад Code Monkey
Чтобы , пожалуйста,
Выберите тему жалобы:

Другая проблема