Apache-Spark – вопросы и ответы

61
голос
1
ответ
Я запрашиваю MongoDB с помощью Spark, используя Stratio (0.11.). Мне интересно использовать RDD (без DataFrame). То, что я сейчас делаю, это: val mongoRDD = new MongodbRDD(sqlContext, readConfig, n...
2 месяца, 2 недели назад Randomize
75
голосов
1
ответ
Я начал использовать sparklyr для обработки данных большого размера, поэтому мне нужно использовать только линии трубопроводов. Но в то время как manupulating кадр данных я попал в беду, и, кажется...
2 месяца, 2 недели назад Alice Shin
98
голосов
1
ответ
У меня есть dataframe: +---+---+----+ | id|key|name| +---+---+----+ | 10| 1| a| | 11| 1| b| | 12| 1| c| | 20| 2| d| | 21| 2| e| | 30| 3| f| | 31| 3| g| | 32| 3| h| | 33| 3| i| | 40| 4| j| | 41| 4| ...
2 месяца, 2 недели назад saurin shah
122
голоса
1
ответ
1 streaming и брокера Kafka версии 0.8.2.1, у меня есть отдельные серверы для искры и кафка на AWS. Использование val directKafkaStream = KafkaUtils.createDirectStream прямой подход val directKafka...
2 месяца, 2 недели назад shrikrishna utpat
88
голосов
3
ответа
Я пытаюсь распечатать сообщения, полученные от Kafka через потоки Spark. Тем не менее, я продолжаю сталкиваться со следующей ошибкой: 16/09/04 16:03:33 ERROR ApplicationMaster: класс пользователя б...
2 месяца, 2 недели назад user3357381
76
голосов
1
ответ
Привет, я пытаюсь интегрировать Kafka с потоком Spark. Я хочу найти количество сообщений foreachRDD в JavaDStream. Пожалуйста, найдите приведенный ниже код и дайте мне несколько советов. public cla...
2 месяца, 2 недели назад Jagadeesh
129
голосов
1
ответ
Я хочу создать накопитель для списков типа List [(String, String)]. Сначала я создал следующий объект: object ListAccumulator extends AccumulatorParam[List[(String, String)]] { def zero(initialValu...
2 месяца, 2 недели назад Gybelle
61
голос
1
ответ
Я запускаю задачу pyspark, которая создает фреймворк данных и сохраняет его на S3, как показано ниже: df.write.saveAsTable(table_name, format="orc", mode="overwrite", path=s3_path) Я могу прочитать...
2 месяца, 2 недели назад rongenre
123
голоса
1
ответ
Исходя из R, я привык к легкому выполнению операций над столбцами. Есть ли простой способ взять эту функцию, которую я написал в scala def round_tenths_place( un_rounded:Double ) : Double = { val r...
2 месяца, 2 недели назад Michael Discenza
76
голосов
1
ответ
У меня есть искровой драйвер, который подключен к моему хозяину Mesos. Драйвер прослушивает конкретный порт моему хозяину Mesos для получения ресурсов Полученный запрос SUBSCRIBE для фреймворка "Пр...
2 месяца, 2 недели назад Siddhant Srivastava
62
голоса
1
ответ
Когда я пытаюсь использовать сообщение из темы kafka с использованием искрового потока, получившего следующую ошибку scala> val kafkaStream = KafkaUtils.createStream(ssc, "<ipaddress>:2181...
2 месяца, 2 недели назад Pragya Raj
88
голосов
2
ответа
У меня есть фреймворк pyspark, где я сгруппировал данные для списка с помощью collect_list . from pyspark.sql.functions import udf, collect_list from itertools impor
2 месяца, 2 недели назад Michail N
77
голосов
1
ответ
У меня есть DataFrame оценок пользователей (от 1 до 5) относительно фильмов. Чтобы получить DataFrame где первый столбец является идентификатором фильма, а остальные столбцы - рейтинги для этого фи...
2 месяца, 2 недели назад Daniil Andreyevich Baunov
62
голоса
3
ответа
Скажем, у меня есть фрейм данных PySpark, например: +--+--+--+--+ |a |b |c |d | +--+--+--+--+ |1 |0 |1 |2 | |0 |2 |0 |1 | |1 |0 |1 |2 | |0 |4 |3 |1 | +--+--+--+--+ Как я могу создать столбец, обозн...
2 месяца, 2 недели назад Chris C
76
голосов
2
ответа
Я новичок в Scala и Spark. Я пытаюсь вернуть несколько пар ключ-значение во время преобразования карты. Мои входные данные - это простой CSV файл. 1, 2, 3 4, 5, 6 7, 8, 9 Сценарий Scala выглядит сл...
2 месяца, 2 недели назад Jane Wayne
-6
голосов
1
ответ
Я пробовал много вещей, но не смог найти правильное решение о том, как выбирать столбцы, которые могут быть записаны в Double или Numeric, когда у меня есть все столбцы типа String . И игнорируйте ...
2 месяца, 2 недели назад Shubham Kedia
87
голосов
3
ответа
Вот два RDD. Таблица1 пары (ключ, значение) val table1 = sc.parallelize(Seq(("1", "a"), ("2", "b"), ("3", "c"))) //RDD[(String, String)] table2-Массивы val table2 = sc.parallelize(Array(Array("1", ...
2 месяца, 2 недели назад S.Kang
75
голосов
1
ответ
Новое для Spark и попытка понять reduceByKey , который предназначен для приема RDD [(K, V)]. Мне не ясно, как применить эту функцию, когда значение представляет собой список/кортеж... После различн...
2 месяца, 2 недели назад nzn
61
голос
2
ответа
У меня есть требование, в котором я должен прочитать файл excel (с расширением.xlsx) в искро /scala. Мне нужно создать фрейм данных с данными, считываемыми из excel, и применять/писать sql-запросы,...
2 месяца, 2 недели назад Krishnan
75
голосов
1
ответ
Я новичок в scala. У меня два типа RDD ниже: RDD [(Long, List [Long])] Я хочу вычесть значение внутри List [Long] из двух RDD. Например: rddPair1 содержит: ((4,List(5)), (1,List(2)), (2,List(4, 3, ...
2 месяца, 2 недели назад Darshan Manek
76
голосов
1
ответ
Я использую Spark-streaming для получения данных из нулевой очереди MQ с определенным интервалом, обогащаю его и сохраняю в виде паркетных файлов. Я хочу сравнить данные из одного потокового окна с...
2 месяца, 2 недели назад Count
62
голоса
1
ответ
У меня есть следующий код, который запускает вычисления некоторых показателей путем перекрестной проверки для случайной классификации леса. def run(data:RDD[LabeledPoint], metric:String = "PR") = {...
2 месяца, 2 недели назад Pop
75
голосов
1
ответ
Я новичок в Spark и Scala, поэтому мне очень трудно пройти через это. То, что я намереваюсь сделать, - предварительно обработать мои данные с помощью Stanford CoreNLP, используя Spark. Я понимаю, ч...
2 месяца, 2 недели назад Stefan Falk
97
голосов
3
ответа
Как фильтровать столбцы с определенным значением? Это прекрасно работает > scala> dataframe.filter("postalCode > 900").count() но == не удается scala> dataframe.filter("postalCode == 90...
2 месяца, 2 недели назад WoodChopper
116
голосов
4
ответа
Я новичок в scala, и я пытаюсь создать пару Tuple из RDD типа Array (Array [String]), который выглядит так: (122abc,223cde,334vbn,445das),(221bca,321dsa),(231dsa,653asd,698poq,897qwa) Я пытаюсь соз...
2 месяца, 2 недели назад AntarianCoder
62
голоса
1
ответ
Я использую Spark + Standalone cluster manager. У меня 5 рабочих узлов, каждый рабочий узел имеет 2 ядра и 14 ГБ ОЗУ. Не могли бы вы помочь мне выяснить, сколько JVMs Spark начнется на рабочих узла...
2 месяца, 2 недели назад Volodymyr Bakhmatiuk
75
голосов
2
ответа
У меня есть кластер Spark, работающий в контейнере Docker (используя изображение, которое я сделал сам). Все работает нормально. Теперь я хочу использовать Apache Livy, и в соответствии с документа...
2 месяца, 2 недели назад userMod2
76
голосов
1
ответ
У меня есть одна пара ключей/значений RDD {(("a", "b"), 1), (("a", "c"), 3), (("c", "d"), 5)} как я могу получить разреженную матрицу: 0 1 3 0 1 0 0 0 3 0 0 5 0 0 5 0 т.е. from pyspark.mllib.linalg...
2 месяца, 2 недели назад mathsyouth
75
голосов
1
ответ
Я очень новичок в Spark, и я пытаюсь запустить SimpleApp.py в иске. Когда я использую искровую оболочку. /bin/pyspark, url http://192.168.0.11:4040/ остается неповрежденным до времени, оболочка акт...
2 месяца, 2 недели назад Abhishek Choudhary
-4
голоса
2
ответа
Я хочу проверить логику, используя 2 RDD. Я не могу понять, как я могу это сделать. RDD1 : Type: Array[(String, Long)]] Array(("EMP1",0),("EMP2",1),("EMP3",2),("EMP4",3),("EMP5",4),("EMP6",5),("EMP...
2 месяца, 2 недели назад Bharath K
76
голосов
1
ответ
Я пытаюсь подключиться к большому фреймворку данных к меньшей части данных, и я увидел, что широковещательное соединение является эффективным способом сделать это, согласно этому сообщению . Однако...
2 месяца, 2 недели назад tnbalankura
87
голосов
1
ответ
У меня есть два rdd, и я хотел бы объединиться, у меня есть следующий вопрос: Я пробовал использовать соединение, но соединение вообще не сортируется, но я не знаю, как использовать sortby здесь? L...
2 месяца, 2 недели назад Adam Lee
75
голосов
1
ответ
В моем rdd есть два строковых элемента: "53 45 61", "0 1 2". Я хотел бы сделать zip и сопоставить его вместе как пару значений ключа, добавив префикс "C" к каждому из ключей ожидаемый результат: C5...
2 месяца, 2 недели назад unchained
97
голосов
1
ответ
Есть ли способ присоединиться к двум таблицам, добавляющим условие для столбцов между двумя таблицами? Пример: case class TableA(pkA: Int, valueA: Int) case class TableB(pkB: Int, valueB: Int) val ...
2 месяца, 2 недели назад Gridou
87
голосов
1
ответ
У меня есть DataFrame "testData" со столбцами: "PRODUCT_LINE","PROFESSION","GENDER","MARITAL_STATUS" с тестовыми данными для выполнения некоторых прогнозов. Я должен предсказать "PRODUCT_LINE" из д...
2 месяца, 2 недели назад David Rivas
75
голосов
1
ответ
Я хочу использовать kafka connect и spark streaming для вставки в elasticsearch, а затем визуализировать с помощью kibana для использования BI-приложения, пожалуйста, вы можете помочь мне, я не зна...
2 месяца, 2 недели назад Drissi Yazami
114
голосов
1
ответ
У меня возникли проблемы с схемой для того, чтобы таблицы Hive не синхронизировались между Spark и Hive на кластере MapR с Spark 2.1.0 и Hive 2.1.1. Мне нужно попытаться решить эту проблему специал...
2 месяца, 2 недели назад hulin003
62
голоса
1
ответ
новичок здесь. Я пытаюсь найти способ хранить 2 столбца даты с ddmmyyyy и mmddyyyy формат даты в искру. Я прошел индивидуальный метод, но считаю, что он поддерживает только один формат для каждой т...
2 месяца, 2 недели назад bharath
87
голосов
1
ответ
Я пытаюсь реализовать конвейер для чтения данных из источника данных РСУБД, разбиения поля чтения на поле даты и времени и хранения хранения данных, разделенных данными в паркет. Конвейер предназна...
2 месяца, 2 недели назад mongolol
105
голосов
1
ответ
Я запускаю искру 2.0 и zeppelin-0.6.1-bin-all на сервере Linux. Исходный блок по умолчанию работает нормально, но когда я пытаюсь создать и запустить новый блокнот в pyspark с помощью sqlContext, я...
2 месяца, 2 недели назад Sisyphus
Чтобы , пожалуйста,
Выберите тему жалобы:

Другая проблема