Apache-Spark-Mllib – вопросы и ответы

77
голосов
2
ответа
Я запустил LDA на искру для набора документов и заметил, что значения topicMatrix, которые представляют распределение темы по терминам, составляют более 1, например 548.2201, 685.2436, 138.4013... ...
4 года, 2 месяца назад hari
67
голосов
1
ответ
Я запускаю искровое приложение в AWS EMR. Приложение включает в себя выполнение функции mllib (columnSimilarities) на 300000 столбцах и операцию перекрестного соединения. Я получил ошибку Out-Of-Me...
2 года, 11 месяцев назад Avinash A
48
голосов
1
ответ
У меня возникла проблема с новыми функциями pyspark.ml.image Spark 2.3. При использовании ImageSchema.toNDArray() в "локальном вычислении" это нормально. Но используя его в rdd.map() , он вызывает ...
1 год, 7 месяцев назад John Lin
98
голосов
1
ответ
Я сначала задаю свой вопрос на этой странице: Spark CountVectorizer возвращает udt вместо вектора Ответ был совершенно верным. У меня есть другой вопрос: если вы четко проверите выходные данные Cou...
1 год, 7 месяцев назад Vince Robatel
70
голосов
1
ответ
Как я могу преобразовать список DTO в формат ввода данных Spark ML ? У меня есть DTO: public class MachineLearningDTO implements Serializable { private double label; private double[] features; publ...
2 года, 7 месяцев назад Maksym
83
голоса
1
ответ
Попытка понять алгоритм нормализации искры. Мой небольшой набор тестов содержит 5 векторов: {0.95, 0.018, 0.0, 24.0, 24.0, 14.4, 70000.0}, {1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 70000.0}, {-1.0, -1.0, -1.0...
4 года, 1 месяц назад Alex B
67
голосов
1
ответ
Поиск метрик классификатора случайных лесов, таких как ROC, кривая точного возврата, точность, отзыв, оценка F1 на основе Dataframe с использованием pyspark. Я мог бы получить те же метрики на объе...
9 месяцев, 2 недели назад selva
58
голосов
1
ответ
У меня есть RDD, который я обозначаю как это, чтобы дать мне список токенов data = sqlContext.read.load('file.csv', format='com.databricks.spark.csv', header='true', inferSchema='true') data = data...
3 года, 1 месяц назад Hardik gupta
48
голосов
2
ответа
Я изучаю, как использовать spark mllib для вычисления произведения двух матчей. Теперь мой код выглядит так: val rdd1=sc.textFile("rdd1").map(line=>line.split("\t").map(_.toDouble)).zipWithIndex...
4 года, 8 месяцев назад 赵祥宇
67
голосов
1
ответ
Я пытаюсь сделать следующее: +-----+-------------------------+----------+-------------------------------------------+ |label|features |prediction|probability | +-----+-------------------------+----...
2 года, 7 месяцев назад ankursg8
81
голос
1
ответ
Я пытаюсь извлечь некоторые ассоциации из этого набора данных: 49 70 27,66 6 27 66,8,64 32 82 66 71 44 1 33 17 31,83 50,29 22 72 8 8,16 56 83,61 85,63,37 50,57 2 50 96,6 73 57 12 62 96 3 47,50,73 3...
3 года, 3 месяца назад Pedro Alves
49
голосов
1
ответ
Я пытаюсь применить UDF к столбцу в PySpark df, содержащем SparseVectors (созданный с помощью pyspark.ml.feature.IDF). Первоначально я пытался применить более сложную функцию, но получаю ту же ошиб...
3 года, 3 месяца назад abbbby
48
голосов
0
ответов
Выполнение: Binary классифицирует train.csv( https://www.kaggle.com/c/titanic/data ) с помощью LogisticRegression. "train.csv" - это титанический список csv пассажирских списков. Ярлык "Выжил" Спли...
2 года, 4 месяца назад user1101221
46
голосов
1
ответ
У меня есть две модели, обученные с использованием тех же данных, что и модель KMeans, как показано ниже: int numIterations = 20; int numClusters = 5; int runs = 10; double epsilon = 1.0e-6; KMeans...
3 года, 8 месяцев назад Subba Rao
-3
голоса
1
ответ
SparkConf sparkConf = new SparkConf().setAppName("SummaryStatistics"); JavaSparkContext spark = new JavaSparkContext(sparkConf); JavaRDD<String> textFile = spark.textFile(args[0]); JavaRDD<...
3 года, 10 месяцев назад Aman Kaushik
-4
голоса
1
ответ
Я тренировал свой набор данных в разных моделях, таких как nbModel, dtModel, rfModel, GbmModel. Все это модели машинного обучения теперь, когда я сохраняю его в переменную как val models = Seq(("NB...
1 год, 9 месяцев назад shane
67
голосов
1
ответ
Мне приходится иметь дело с большим количеством данных, и я использую искру. Теперь я пытаюсь использовать Vectors.sparse для генерации большого вектора признаков, но размер функции может превышать...
4 года, 1 месяц назад damn_c
74
голоса
2
ответа
Это может быть очень простой вопрос. Но есть ли простой способ измерить время выполнения искрового задания (представленное с помощью spark-submit )? Это поможет нам профилировать искровые задания н...
3 года, 8 месяцев назад pranav3688
48
голосов
1
ответ
//Я использую Spark 2.01// И мои данные выглядят так, (K1,Array(V1,V2,V3.....V30)) (K2,Array(V1,V2,V3.....V30)) (K3,Array(V1,V2,V3.....V30)) ... (K3704, Array(V1,V2,V3.....V30)) и я хочу создать де...
2 года, 10 месяцев назад Data diaboli
98
голосов
1
ответ
Я рассматриваю документацию дерева решений в Spark MLLib. Вот строка кода data = MLUtils.loadLibSVMFile(sc, 'data/mllib/sample_libsvm_data.txt') который загружает входные данные. Когда я открыл фай...
4 года, 1 месяц назад London guy
49
голосов
0
ответов
Я хотел бы получить похожие документы из коллекции. Пример текста приведен ниже car killed cat Train killed cat john plays cricket tom like mangoes Я ожидаю, что "автомобиль, убитый кошкой" и "поез...
2 года, 1 месяц назад lives
47
голосов
1
ответ
Есть ли способ позволить модели вернуть список меток прогнозирования с оценкой вероятности для каждой метки? Например, данная функция (f1, f2, f3), возвращает что-то вроде этого: label1: 0.50, labe...
2 года, 8 месяцев назад seiya
76
голосов
1
ответ
У меня есть набор данных: +-----+-------------------+---------------------+------------------+ |query|similar_queries |model_score |count | +-----+-------------------+---------------------+--------...
8 месяцев, 1 неделя назад user3407267
-7
голосов
1
ответ
Предположим, что у нас есть большой файл csv/excel, где есть большое количество записей против следующих полей. 1.Email 2.First Name 3.Last Name 4.Phone Number etc. Среди этих записей нам необходим...
2 года, 11 месяцев назад Soumen
48
голосов
1
ответ
Я готовлю данные, содержащие идентификаторы (метки) и ключевые слова (функции), чтобы передать их алгоритмам MLlib в Java. Мои ключевые слова - это строки, разделенные запятыми. Моя цель - использо...
3 года, 8 месяцев назад Sparkan
49
голосов
0
ответов
Мне нужно создать таблицу вывода подмножества данных рейтинга movielens. Я преобразовал свой dataframe в CoordinateMatrix: from pyspark.mllib.linalg.distributed import MatrixEntry, CoordinateMatrix...
2 года, 10 месяцев назад Chris Snow
82
голоса
1
ответ
У меня есть RandomForestClassifierModel в Spark. Использование.toDebugString() выводит следующие Tree 0 (weight 1.0): If (feature 0 in {1.0,2.0,3.0}) If (feature 3 in {2.0,3.0}) If (feature 8 <=...
3 года, 2 месяца назад rtcode
80
голосов
0
ответов
Я хочу использовать линейный SVM для классификации. Вот проблема, с которой я сталкиваюсь при использовании Mllib. Я использую CDH 5.4.4, а Spark 1.3 с зависимостью MLlib указывается в моем файле p...
4 года, 1 месяц назад user3803714
58
голосов
1
ответ
Я сравниваю потоки Apache Storm и Apache Spark для выбора распределенной системы вычислений в реальном времени. Уже есть много обсуждений, дающих сравнение между этими двумя технологиями, например ...
3 года, 6 месяцев назад Yassir S
75
голосов
1
ответ
Я хочу настроить мою модель с помощью поиска сетки и перекрестной проверки с помощью искры. В искровой установке он должен поставить базовую модель в конвейер, офисная демонстрация конвейера исполь...
4 года, 5 месяцев назад bourneli
48
голосов
1
ответ
Я пытаюсь сделать очень простой LinearRegression в PySpark, используя набор данных о жилье, который я нашел в Kaggle. Есть несколько столбцов, но для того, чтобы сделать это (практически) максималь...
3 года, 4 месяца назад Evan Zamir
94
голоса
0
ответов
Я установил pyspark и получил ошибку типа при попытке инициализировать контекст искры. Установка Pyspark: Код выглядит следующим образом:
1 год, 10 месяцев назад Hackerds
-5
голосов
1
ответ
Какая разница между ml.classification.DecisionTreeClassifier в ml и mllib.tree.DecisionTree trainClassifier в mllib?
2 года, 5 месяцев назад user1264933
50
голосов
1
ответ
У меня есть Rdd [String], и я хочу перетасовать все строки этого Rdd. Как мне это достичь? Например: RDD-объект с именем rdd и вы можете запустить: rdd.collect.foreach(t => println (t)) имеет вы...
3 года, 7 месяцев назад user3494047
66
голосов
1
ответ
Я новичок в Spark, пытающийся отредактировать и применить этот учебник по рекомендации этого фильма ( https://databricks-training.s3.amazonaws.com/movie-recommendation-with-mllib.html ) в моем набо...
3 года, 4 месяца назад Moona B
58
голосов
1
ответ
Я пытаюсь использовать длинный идентификатор пользователя/продукта в модели ALS в PySpark MLlib (1.3.1) и столкнулся с проблемой. Здесь приведена упрощенная версия кода: from pyspark import SparkCo...
4 года, 8 месяцев назад Jon
47
голосов
1
ответ
Используя искру из ноутбука zeppelin, я получил эту ошибку со вчерашнего дня. Вот мой код: from pyspark.ml.clustering import KMeans from pyspark.ml.feature import VectorAssembler df = sqlContext.ta...
2 года, 8 месяцев назад Romain
58
голосов
0
ответов
У меня есть RDD векторов. Скажем, значения векторов RDD следуют 1 1 1 2 2 2 3 3 3 Я хочу преобразовать его в следующий 1 2 3 1 2 3 1 2 3 Любой из двух следующих векторов в порядке со мной. org.apac...
4 года, 8 месяцев назад Rajiur Rahman
68
голосов
1
ответ
Размер моего набора данных - около 3G и имеет 380 миллионов данных. Всегда неправильно, если я добавляю шаги итерации. И увеличение памяти, увеличение блока или уменьшение блока, уменьшение контрол...
1 год, 5 месяцев назад gary yong
58
голосов
1
ответ
Я использую API Spark Scala ML, и я пытаюсь передать модель ALS конвейера на TrainValidationSplit. Код выполняется, но я не могу получить лучшие параметры... мысли? val alsPipeline = new Pipeline()...
2 года, 8 месяцев назад mgcdanny
Чтобы , пожалуйста,
Выберите тему жалобы:

Другая проблема