Apache-Spark-Mllib – вопросы и ответы

79
голосов
1
ответ
Я не могу найти, как использовать Spark ML Pipeline для классификации нового набора экземпляров (с неизвестными метками). Все примеры, которые я нахожу, основаны на наборе тестов с уже известными м...
4 месяца назад Aitor García Pablos
56
голосов
1
ответ
Я применяю пример MLlib LDA для различных тел, загруженных из описания ссылки, здесь я отфильтровываю временные слова, а также исключа
4 месяца назад Rami
94
голоса
1
ответ
Я новичок в Spark (и для кластерной инфраструктуры вычислений), и мне интересно об общих принципах, за которыми следуют параллельные алгоритмы, используемые для машинного обучения (MLlib). Являются...
4 месяца назад Patrick
-4
голоса
1
ответ
Я буду использовать k-средства на Spark. Но мне нужна информация о кластере, хранящаяся в JSON. как это можно сделать? Примечание. Также будут выполняться Python или Scala. Заранее спасибо!
4 месяца назад insomniac
55
голосов
1
ответ
У меня есть данные в формате blah sentence one --> label1, label2 blah sentence two --> label2, label4 blah sentence three --> label3 Как я могу использовать OneVsRestClassifier с NaiveBay...
4 месяца назад xeonzion
58
голосов
1
ответ
Я работаю над оптимизацией производительности моего Spark-кластера (запускается на AWS EMR), который выполняет Collaborative Filtering с использованием алгоритма факторизации матрицы ALS. Мы исполь...
4 месяца назад Nathaniel Wendt
68
голосов
1
ответ
У меня есть Spark (1.5.2) DataFrame и обученная RandomForestClassificationModel . Я могу легко fit данные и получать прогноз, но я хочу сделать более глубокий анализ, по которым крайние значения яв...
4 месяца назад Peter
56
голосов
1
ответ
В документации Spark указано использование функции HashingTF , но я не уверен, что функция преобразования ожидает ввода. http://spark.apache.org/docs/latest/mllib-feature-extraction.html#tf-idf Я п...
4 месяца назад user2388191
-4
голоса
1
ответ
У меня есть CSV как текстовых, так и числовых данных. Мне нужно преобразовать его в векторные данные объекта в Spark (двойные значения). Есть ли способ сделать это? Я вижу, например, где каждое клю...
4 месяца назад Charls Joseph
55
голосов
2
ответа
Я собираюсь обучить наивный классификатор заливов на кучу учебного документа, используя Apache Spark (или Mahout in Hahoop). Я бы хотел использовать эту модель, когда получаю новые документы для кл...
4 месяца назад H.Z.
67
голосов
1
ответ
Ищете экспертные знания, которые помогут мне разобраться ниже. Задний план: Я пытаюсь перейти с базовым сценарием PySpark, вдохновленным этим примером В качестве инфраструктуры развертывания я испо...
4 месяца назад Bart V
55
голосов
1
ответ
У меня есть "doorDF" var DataFrame, как показано ниже (упрощенно): +-----+-----+-----+------+ | door| x| y| usage| +-----+-----+-----+------+ | a| 32| 14| 5| | b| 28| 53| 1| | c| 65| 94| 23| | d| 6...
4 месяца назад rtcode
56
голосов
1
ответ
Я пытаюсь внедрить систему рекомендаций, используя Spark для совместной фильтрации. Сначала я готовлю модель и сохраняю диск: MatrixFactorizationModel model = trainModel(inputDataRdd); model.save(j...
4 месяца назад Rahul Sharma
110
голосов
1
ответ
Используя ответ на Spark 1.5.1, "Вероятность случайного леса MLLib" , я смог обучить случайный лес с помощью ml.classification.RandomForestClassifier и обработать ml.classification.RandomForestClas...
4 месяца назад Benji Kok
77
голосов
1
ответ
У меня есть эта модель: from pyspark.mllib.recommendation import ALS model = ALS.trainImplicit(ratings, rank, seed=seed, iterations=iterations, lambda_=regularization_parameter, alpha=alpha) Я успе...
4 месяца назад Diogo Nicolau
56
голосов
2
ответа
Я хочу установить Spark 2.1.1 на Windows 10, я использовал пошаговое руководство, упомянутое в http://www.eaiesb.com/blogs/?p=334 Я сделал все шаги, но когда я прихожу к последней части, где должен...
4 месяца назад a_new_moody
67
голосов
1
ответ
Я использую ноутбук Jupyter в системе с 64 ГБ ОЗУ, 32 ядрами и 500 ГБ дискового пространства. Около 700 тыс. Документов должны быть смоделированы на 600 тем. Размер словарного запаса составляет 480...
4 месяца назад adihere
95
голосов
1
ответ
Я пытаюсь использовать StreamingLogisticRegressionwithSGD для создания модели прогнозирования CTR. Документ здесь что numFeatures должны быть постоянными. Проблема, с которой я столкнулся, заключае...
4 месяца назад Kundan Kumar
87
голосов
2
ответа
Я столкнулся с проблемой, связанной с concurrency в иске, которая мешает мне использовать ее в производстве, но я знаю, что есть выход из нее. Я пытаюсь запустить Spark ALS на 7 миллионов пользоват...
4 месяца назад Suraj
80
голосов
1
ответ
У меня есть кадр данных с двумя столбцами, +---+-------+ | id| fruit| +---+-------+ | 0| apple| | 1| banana| | 2|coconut| | 1| banana| | 2|coconut| +---+-------+ также у меня есть универсальный Спи...
4 месяца назад Masterbuilder
67
голосов
1
ответ
После кластеризации некоторых разреженных векторов мне нужно найти вектор пересечения в каждом кластере. Для этого я пытаюсь уменьшить векторы MLlib, как в следующем примере: import org.apache.spar...
4 месяца назад zork
111
голосов
1
ответ
Я использую искру 1.5.0 У меня есть фрейм данных, созданный, как показано ниже, и я пытаюсь прочитать столбец отсюда >>> words = tokenizer.transform(sentenceData) >>> words DataFr...
4 месяца, 1 неделя назад Hardik gupta
55
голосов
2
ответа
У меня есть второй вопрос о CosineSimilarity/ColumnSimilarities в Spark 2.1. Я новичок в scala и всей среде Spark, и мне это не совсем понятно: Как я могу вернуть ColumnSimilarities для каждой комб...
4 месяца, 1 неделя назад Duesentrieb
56
голосов
1
ответ
Я использую метод computeSVD из класса Spark IndexedRowMatrix (в Scala). Я заметил, что у него нет setSeed() . Я получаю немного разные результаты для нескольких прогонов на одной входной матрице, ...
4 месяца, 1 неделя назад Pablo
-4
голоса
1
ответ
У меня есть данные за 3 года о том, что международные импортеры закупают сырье из разных стран. Данные состоят из: Код товара, Страна покупателя, Имя покупателя, Порт назначения, Страна продавца, И...
4 месяца, 1 неделя назад ChrisOdney
68
голосов
1
ответ
У меня есть RDD [(Пользователь, Элемент, Счет/Рейтинг)], и я хотел бы преобразовать его в RDD [Vector (ItemRatings)], где каждый Вектор является рейтингом позиции в пользовательском пространстве. Е...
4 месяца, 1 неделя назад Ashish Shrowty
102
голоса
1
ответ
Я хочу создать метод, который будет возвращать один из этих двух типов: - org.apache.spark.ml.regression.DecisionTreeRegressor - org.apache.spark.ml.regression.RandomForestRegressor Каким будет тип...
4 месяца, 1 неделя назад Paul Reiners
114
голосов
1
ответ
Что такое функция .map() в python, которую я использую для создания набора меток-точек из блока данных искры? Что такое обозначение, если метка/результат не является первым столбцом, но я могу ссыл...
4 месяца, 1 неделя назад user1518003
71
голос
1
ответ
У меня проблема с ml.crossvalidator в искры scala при использовании одного горячего энкодера. это мой код val tokenizer = new Tokenizer(). setInputCol("subjects"). setOutputCol("subject") //CountVe...
4 месяца, 1 неделя назад Ali Helmut Baltschun
70
голосов
2
ответа
Я знаю, что могу создать Matrix следующим образом: val values = Array(0.0, 1.0, 2.0, 3.0, 4.0, 5.0) val mat = Matrices.dense(m, n, values).asInstanceOf[DenseMatrix] Но теперь у меня есть текстовый ...
4 месяца, 1 неделя назад 赵祥宇
78
голосов
1
ответ
Официальная документация : Регуляция L2 используется по умолчанию Как я могу использовать L1?
4 месяца, 1 неделя назад Dylan Wang
-4
голоса
1
ответ
У меня этот код, чтобы найти некоторые правила ассоциации: import org.apache.spark.mllib.fpm.AssociationRules import org.apache.spark.mllib.fpm.FPGrowth.FreqItemset val data = sc.textFile("FILE"); ...
4 месяца, 1 неделя назад João_testeSW
56
голосов
1
ответ
У меня есть таблица Cassandra, и я выбрал несколько столбцов, чтобы делать правила Ассоциации на них. Я создал класс case для каждого столбца, чтобы сохранить их в нем. У меня есть данные столбца т...
4 месяца, 1 неделя назад Eman
57
голосов
1
ответ
Я пробовал простой пример NGram в искре https://github.com/apache/spark/blob/master/examples/src/main/java/org/apache/spark/examples/ml/JavaNGramExample.java Это моя зависимость от pom <dependen...
4 месяца, 1 неделя назад lives
88
голосов
1
ответ
Привет, я новичок в MLlib, и я читаю документы на сайте Spark об этом. Мне трудно понять, почему в следующем коде нам нужно кэшировать "0" для обучения и "1" для тестирования: val splits = data.ran...
4 месяца, 1 неделя назад Rubbic
134
голоса
1
ответ
Следуя Spark MLlib Guide , мы можем прочитать, что Spark имеет две библиотеки для машинного обучения: spark.mllib , построенный поверх RDD. spark.ml , построенный поверх Dataframes. В соответствии с
4 месяца, 1 неделя назад Paladini
68
голосов
1
ответ
Я строю ML-трубопровод для логистической регрессии. val lr = new LogisticRegression() lr.setMaxIter(100).setRegParam(0.001) val pipeline = new Pipeline().setStages(Array(geoDimEncoder,clientTypeEnc...
4 месяца, 1 неделя назад Abhishek Anand
87
голосов
1
ответ
Как вы управляете различными регрессионными моделями поездов, основанными на вдовении определенного столбца в Spark Data Frame? Скажем, у меня есть 2 продукта с функциями и ярлыками, которые связан...
4 месяца, 1 неделя назад JPS BOOKS
55
голосов
1
ответ
Я использую RandomForest MLlib PySpark 2.3. Как установить MaxMemoryInMb ? Насколько я знаю, этот метод не реализован в PySpark 2.3. Я спрашиваю, потому что в своем эксперименте я получил следующее...
4 месяца, 1 неделя назад mojtaba amiri
103
голоса
1
ответ
Приносим извинения за отсутствие кода, поскольку это функциональный вопрос. Я посмотрел на SparkR. Он позволяет манипулировать данными, хранящимися в Spark, через R-код. Однако он не имеет доступа ...
4 месяца, 1 неделя назад myloginid
Чтобы , пожалуйста,
Выберите тему жалобы:

Другая проблема