K-Means – вопросы и ответы

115
голосов
1
ответ
Sci-Kit изучает уменьшение размерности Kmeans и PCA У меня есть набор данных, 2M строк по 7 столбцов, с различными измерениями потребления энергии на дому с датой для каждого измерения. Дата Global...
2 месяца, 2 недели назад flow
132
голоса
2
ответа
Привет. Я работаю над попыткой скопировать сетевые данные из набора данных darpa 1999 года. К сожалению, я не получаю кластерные данные, а не по сравнению с некоторыми из литературы, используя те ж...
2 месяца, 2 недели назад Garrith Graham
107
голосов
2
ответа
Я хочу автоматически выбрать k (k-означает кластеризацию), используя калибровку calinski и harabasz из пакета scikit в python (metrics.calinski_harabaz_score). Я прохожу через весь диапазон кластер...
2 месяца, 2 недели назад Bethlee
122
голоса
1
ответ
Поскольку k_means в sklearn использует только евклидово расстояние, которое не является хорошим измерением для "расстояний" или "подобия" среди текстов, существуют ли какие-либо альтернативы в pyth...
2 месяца, 2 недели назад user6396
122
голоса
1
ответ
В настоящее время у меня есть код ниже: Я также импортировал библиотеки numpy и matplotlib. def colorTheCluster(data,centroidCoordinates): index = AssignPointsToCluster(data,centroidCoordinates) #i...
2 месяца, 2 недели назад Joey
76
голосов
2
ответа
Может быть, я что-то пропустил, потому что это, кажется, простая проблема, но я посмотрел это онлайн и ничего не нашел в литературе. В основном мне нужно сделать кластеризацию множества городов наз...
2 месяца, 2 недели назад user2630362
75
голосов
1
ответ
У меня есть набор трехмерных точек в Matlab, но проблема в том, что мои данные найдены здесь . И, как вы видите, есть некоторые выбросы, которые влияют на результаты моей кластеризации. Поэтому, ес...
2 месяца, 2 недели назад Tak
62
голоса
1
ответ
Сколько времени потребуется, чтобы сгруппировать набор из 100 000 L2 нормализованных векторов 2048-мерных объектов с использованием k-средств с 200 кластерами? У меня есть все мои данные в огромном...
2 месяца, 2 недели назад Arturo
188
голосов
2
ответа
Возможный дубликат: Изменение алгоритма K-варианта с равным размером кластера EDIT: как casperOne указать мне, что этот вопрос является дубликатом. В любом случае здесь представлен более обобщенный...
2 месяца, 2 недели назад Pierre-David Belanger
62
голоса
1
ответ
Я использую регулярный алгоритм kmlans Matlab с 'Distance', 'cosine', 'EmptyAction', 'drop' на L2-нормированной матрице признаков, и у меня есть проблема. Вывод, который генерирует Matlab, просто п...
2 месяца, 2 недели назад Doa
61
голос
2
ответа
Я получаю одинаковые результаты при использовании opencv kmeans внутри boost :: threadGroup (для многопоточности), хотя я использую флаг KMEANS_RANDOM_CENTERS (случайность работает, когда не исполь...
2 месяца, 2 недели назад mcExchange
-4
голоса
1
ответ
В настоящее время у меня есть список с трехмерными координатами, которые я хочу кластер по плотности в неизвестное количество кластеров. В дополнение к этому я хочу оценить кластеры по населению и ...
2 месяца, 2 недели назад user1582583
123
голоса
1
ответ
Я пытаюсь идентифицировать высокий IP-адрес за время действия. Я выполнил кластеризацию по некоторым функциям, получил 12 результатов кластера, из которых 8 были ботами и 4 были людьми, в соответст...
2 месяца, 2 недели назад user2648569
62
голоса
1
ответ
У меня есть набор данных, на котором я хочу сделать кластеризацию с помощью k-средств. В качестве предыдущей задачи я запускаю PCA по этим данным и идентифицировал два компонента, которые представл...
2 месяца, 2 недели назад Michael
75
голосов
1
ответ
В моих данных у меня есть пользователи со списком симпатичных, я сбрасывал их в отдельные файлы для каждого пользователя и хотел бы сгруппировать их. Все работает, за исключением того, что вывод им...
2 месяца, 3 недели назад Ryan
75
голосов
1
ответ
У меня возникают проблемы не с пониманием алгоритма k-меток, а с тем, как применять его к обучению, проверке и тестированию данных. Это выглядит так: Фаза обучения: Примените k-средства на входные ...
2 месяца, 3 недели назад Jyothi Jain
122
голоса
2
ответа
Поэтому у меня есть странная проблема. У меня есть набор данных с 240 точками, и я пытаюсь использовать k-средства, чтобы сгруппировать его в 100 кластеров. Я использую Matlab, но у меня нет доступ...
2 месяца, 3 недели назад Rae_III
122
голоса
1
ответ
Я использую k-means в наборе данных, включающем более 150k Документов, но я не знаю, что такое хорошее значение k . Я попробовал метод локтя, чтобы найти его, но значение инерции не сильно меняется...
2 месяца, 3 недели назад mohammad RaoofNia
97
голосов
3
ответа
Я хочу сегментировать изображение, но кто-то сказал мне, что евклидово расстояние для RGB не так хорошо, как HSV, но для HSV, поскольку не все H, S, V имеют один и тот же диапазон, поэтому мне нужн...
2 месяца, 3 недели назад wudanao
108
голосов
1
ответ
Я пытаюсь понять кластеризацию K-средних на входном CSV файле, который состоит из 56376 строк и двух столбцов с первым столбцом, представляющим идентификатор и второй столбец, группой слов. Пример ...
2 месяца, 3 недели назад Ram
62
голоса
2
ответа
Я искал решение StackOverflow и других форумов, но пока не нашел решения, которое просто использует Base-R - что мне и нужно для этого использовать. Я пытаюсь максимизировать диагональ в матрице Nx...
2 месяца, 3 недели назад philcode101
108
голосов
1
ответ
Я реализую "Сумку слов" с использованием функций SURF и SIFT и SVM-классификатора. Я хочу тренироваться (80% из 2876 изображений) и тестировать (20% из 2876 изображений). Я сохранил параметр dictio...
2 месяца, 3 недели назад Alex
87
голосов
1
ответ
Я реализовал алгоритм k-средних в scikit. Поэтому я собрал исторические документы. Теперь для нового документа я хочу определить кластер. Как определить кластер для нового документа?
2 месяца, 3 недели назад amee
105
голосов
1
ответ
Я использую Matlab 2015a. У меня есть данные о потреблении электроэнергии, чтобы сгруппировать их. Первоначально я пытаюсь сгруппировать его против часов и дат. Я создал три разные переменные: один...
2 месяца, 3 недели назад zafar
97
голосов
1
ответ
Я рассматриваю тот же пример, что и в разделе "Как запускать примеры в mahout в книге действий" , но я хочу использовать Maven для его запуска. Он отлично работает с > mvn clean -DskipTests pack...
2 месяца, 3 недели назад Cyclicduck
-6
голосов
1
ответ
У меня есть таблица со столбцами разных типов данных (такие столбцы, как: ProductId, Name, size, color, class, dept и т.д.), Поскольку не все столбцы являются числовыми, как я могу сгруппировать по...
2 месяца, 3 недели назад Abhishek Gupta
97
голосов
2
ответа
Я пытаюсь запустить Spark (1.3.1) Mllib k - означает кластеризацию на кадре данных чисел с плавающей запятой. Я следую примеру кластеризации, предоставленному Spark https://spark.apache.org/docs/1....
2 месяца, 3 недели назад Michael Plazzer
-6
голосов
3
ответа
Вопрос Я реализовал алгоритм K-Means в Python. Сначала я применяю PCA и отбеливаю к входным данным. Затем я использую k-средство для успешного вычитания k центроидов из данных. Как я могу использов...
2 месяца, 3 недели назад Jamona
107
голосов
2
ответа
Я хотел бы сгруппировать матрицу с kmeans и иметь возможность нарисовать ее как тепловую карту. Это звучит довольно тривиально, и я видел много таких сюжетов. Я попытался объехать Google, но не мог...
2 месяца, 3 недели назад Benoit B.
105
голосов
1
ответ
У меня есть txt файл, который содержит данные Twitter (только 1 файл). Я загрузил его в R, используя streamR и функцию parseTweets. Я должен сделать кластер Kmeans по этим данным. Во-первых, мне ну...
2 месяца, 3 недели назад Nithin Nampoothiry
75
голосов
1
ответ
Я не уверен, что это правильный форум для этого вопроса, я сожалею иначе. Я новичок в модели Bag of Features, и я пытаюсь реализовать ее, чтобы представить изображение через вектор (для проекта CBI...
2 месяца, 3 недели назад justHelloWorld
62
голоса
3
ответа
Я реализовал K-Means в Java и немного поцарапал голову. Я выбираю свои начальные центроиды, выбирая случайное значение в каждом измерении в пределах диапазона значений точек данных. Я столкнулся с ...
2 месяца, 3 недели назад bab
106
голосов
1
ответ
Я использую функцию, kmeans, для кластеризации K-средств. У меня есть специальные данные, которые нуждаются в специальной функции измерения расстояния и специальной функции. Могу ли я поставить (1)...
2 месяца, 3 недели назад syko
106
голосов
1
ответ
Я пытаюсь использовать Weka для кластеризации K-Means на наборе данных, изучая, как разные веса влияют на разные атрибуты. Однако, когда я настраиваю вес каждого атрибута, я не вижу разницы в класт...
2 месяца, 3 недели назад MichaelPlante
62
голоса
2
ответа
Я использую алгоритм k-mean для кластеризации данных и использования большого набора данных. У меня почти 100000 научных работ, и я хочу сгруппировать их с помощью k-средств. Я использую традиционн...
2 месяца, 3 недели назад SoftRock
88
голосов
1
ответ
Я пытаюсь выполнить k-средства на фрейме данных с 69 столбцами и 1000 строк. Во-первых, мне нужно сначала определить оптимальное количество кластеров с использованием индекса Дэвиса-Боулдина. Этот ...
2 месяца, 3 недели назад cdvnmus
87
голосов
1
ответ
У меня есть эта программа, которая печатает алгоритм MSSE алгоритма Kmeans на apache-spark. Создано 20 кластеров. Я пытаюсь напечатать идентификатор clusterID и элементы, которые были присвоены соо...
2 месяца, 3 недели назад vkb
86
голосов
2
ответа
У меня есть файл с именем train.dat, который имеет три поля: userID , movieID и rating . Мне нужно предсказать rating в файле test.dat на основе этого. Я хочу знать, как я могу использовать scikit-...
2 месяца, 3 недели назад boltthrower
62
голоса
1
ответ
Запуск на Ubuntu 16.04, последний (1.1.0) tensorflow (установленный через pip3 install tensorflow-gpu ), CUDA8 + CUDNN5. Код выглядит примерно так: import tensorflow as tf from tensorflow.contrib.l...
2 месяца, 3 недели назад Mateusz Dymczyk
63
голоса
2
ответа
Я пытаюсь сгруппировать приблизительно 12000 элементов на основе примерно 1200 двоичных переменных, используя K-средство. Ни одна из обычных метрик расстояния (евклидова, манхаттана, хэмминга, леве...
2 месяца, 3 недели назад David
Чтобы , пожалуйста,
Выберите тему жалобы:

Другая проблема