Apache-Spark – вопросы и ответы

67
голосов
1
ответ
У меня мало вопросов об искровом потоке с Kafka и HBase. Ниже моя программа для искрообразования, здесь я использую конфигурации zookeeper для подключения к Kafka и Hbase. Нам действительно нужна э...
4 месяца назад nilesh1212
56
голосов
2
ответа
Я пытаюсь получить доступ к файлам s3 из локального контекста искры с помощью pySpark. Я продолжаю получать File "C:\Spark\python\lib\py4j-0.9-src.zip\py4j\protocol.py", line 308, in get_return_val...
4 месяца назад Hanan Shteingart
-4
голоса
1
ответ
Если масштаб данных огромен и постоянно растет, как мне записать данные в файл CSV из таблицы Cassandra с помощью Spark? Проблема масштабная, не связана с какими-либо проблемами, связанными с инфра...
4 месяца назад aviral sanjay
56
голосов
1
ответ
Предположим, что User является классом case, который содержит информацию о пользователе: case class User(name: String, age: Int) заданное имя поля (например, "name" или "age" ), я хочу вернуть функ...
4 месяца назад Amir
86
голосов
1
ответ
Я использую HiBench Bayes и приложения kmean, однако, я получаю предупреждение 17/09/05 09:54:54 WARN netlib.BLAS: Failed to load implementation from: com.github.fommil.netlib.NativeSystemBLAS 17/0...
4 месяца назад Maya
68
голосов
2
ответа
Я новичок в искры и улей. Мне нужно понять, что происходит, когда в Spark запрашивается таблица улей. Я использую PySpark Пример: warehouse_location = '\user\hive\warehouse' from pyspark.sql import...
4 месяца назад Harish
104
голоса
2
ответа
Я работаю над проблемой, когда я импортировал таблицу DB в Apache Spark. Я преобразовал его в DataFrame. Затем я выполнил RegisterTempTable, чтобы использовать Hive Queries на нем. Я могу выполнять...
4 месяца назад Sanju Thomas
67
голосов
2
ответа
Я экспортировал клиентскую базу данных в файл csv и попытался импортировать ее в Spark, используя: spark.sqlContext.read .format("csv") .option("header", "true") .option("inferSchema", "true") .loa...
4 месяца назад Marco Fedele
88
голосов
1
ответ
Я пытаюсь уменьшить RDD с 3 значениями, поэтому сначала сопоставьте rdd со следующим форматом: a = mytable.rdd.map(lambda w: (w.id,(w.v1,w.v2,w.v3))) а затем на следующем шаге я уменьшу его с помощ...
4 месяца назад Saeed Soltani
-6
голосов
1
ответ
Я загрузил Spark, и похоже, что он работает. Теперь я хотел бы попробовать работать с txt файлом, например hamlet.txt. Как я понимаю, для работы в Spark мне нужно открыть spark-1.6.1/bin/pyspark Я ...
4 месяца назад Ekaterina Tcareva
109
голосов
2
ответа
Я использую Spark 2.0 и пытаюсь передать файлы с помощью API allTextFiles. Моя программа Spark успешно считывает файлы с первой партией файлов в папке, но я не могу передать более позднюю версию фа...
4 месяца назад AKC
87
голосов
1
ответ
Как добавить заголовок в результаты Spark SQL Query перед сохранением результатов в текстовом файле? val topPriceResultsDF = sqlContext.sql("SELECT * FROM retail_db.yahoo_stock_orc WHERE open_price...
4 месяца назад Shalini Goel
56
голосов
1
ответ
Моя цель - прочитать несколько строк из большого каталога hdfs, я использую spark2.2. Этот каталог генерируется предыдущим искровым заданием, и каждая задача генерирует один маленький файл в катало...
4 месяца назад AI Joes
55
голосов
1
ответ
У меня есть работа Spark для пакетного режима (с использованием наборов данных), которая выполняет некоторые преобразования и использует данные в NOSQL. Я получаю данные из другого источника, котор...
4 месяца назад xstack2000
87
голосов
1
ответ
У меня проблема с работой моей искровой задачи. У меня есть две таблицы: geo fishnet с ячейками размером 200x200 метров. Размер около 2 миллионов строк. Схема: cell_id minlat minlon maxlat maxlon г...
4 месяца назад Danila Zharenkov
89
голосов
1
ответ
У меня есть таблица Hive объемом 14 миллиардов записей (около 1 Тбайт) и еще одна таблица Hive с 800 миллионами записей (2 ГБ). Я хочу присоединиться к ним, какова должна быть моя стратегия? У меня...
4 месяца назад Priyaranjan Swain
89
голосов
1
ответ
У меня есть простой кластер, состоящий из одного главного узла и двух подчиненных узлов. У меня установлена искра, и я пытаюсь запустить предложенную примерную работу из примеров искры: ./bin/run-e...
4 месяца назад Aesir
55
голосов
1
ответ
В моей базе данных MongoDB у меня есть сборник следующих документов: Как видно, каждый документ имеет несколько вложенных документов (Десятилетие, Название,
4 месяца назад Daniil Andreyevich Baunov
78
голосов
1
ответ
Искра дает мне ошибку времени компиляции Error:(49, 13) Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc) and Product types (case classes) are supported by imp...
4 месяца назад Carlos Bribiescas
110
голосов
2
ответа
Я пытаюсь экспериментировать с группами потребителей Вот мой фрагмент кода public final class App { private static final int INTERVAL = 5000; public static void main(String[] args) throws Exception...
4 месяца назад venkat sam
67
голосов
1
ответ
Я хочу создать набор фильтров цветка из моего RDD. То, как я это делаю, выглядит следующим образом: rdd.aggregateByKey(create(size))(add, combine).collect() Где rdd - это что-то вроде RDD[(Int, Lon...
4 месяца назад Alexey Grigorev
87
голосов
1
ответ
Вопрос Есть ли способ загрузить определенный столбец из таблицы базы данных (PostreSQL) в виде Spark DataFrame? Ниже я попытался. Ожидаемое поведение: В приведенном ниже коде должен указываться тол...
4 месяца назад pehr.ans
68
голосов
2
ответа
Я читаю данные json из очереди Kafka, используя искровую структурированную поточную передачу, но мне нужно записать данные json в Elasticsearch. Тем не менее, я не могу получить sparkContext внутри...
4 месяца назад Adetiloye Philip Kehinde
57
голосов
1
ответ
У меня есть один такт данных: val temp = sc.parallelize(Seq(Array(43,53,266),Array(69,160,166),Array(266))) .toDF("value") Я хочу выбрать строку, которая пересекается со следующим массивом: val goo...
4 месяца назад Potter Franklin
96
голосов
2
ответа
Я пытаюсь запустить приложение Spark, написанное в Scala в Intellij 14.1.3. Scala sdk - scala -sdk-2.11.6. При выполнении кода я получаю следующую ошибку: Exception in thread "main" java.lang.NoSuc...
4 месяца назад Bharath
87
голосов
1
ответ
У меня есть сценарий Python -based, который должен запускаться в кластере Apache Spark . У меня есть Hadoop MapReduce InputFormat в качестве источника данных для RDD . Здесь нет проблем. Проблема в...
4 месяца назад Roman Nikitchenko
105
голосов
2
ответа
Spark - Как получить выполнение логического/физического запроса с помощью следующих Via Thrift Через SparkInteractor
4 месяца назад San
136
голосов
3
ответа
Spark 2.2 представил структурированный потоковый источник Kafka. Насколько я понимаю, он полагается на контрольную точку HDFS для хранения смещений и гарантирует доставку сообщений "точно один раз"...
4 месяца назад dnaumenko
78
голосов
1
ответ
Чтобы иметь возможность работать с именами столбцов моего DataFrame не избегая . Мне нужна функция для "проверки" всех имен столбцов, но ни один из методов, которые я пробовал, не выполняет эту раб...
4 месяца назад Boern
55
голосов
2
ответа
Я создал искровой кластер (обучение так не создавало большой кластер памяти-cpu) с 1 основным узлом и 2 ядрами для запуска исполнителей, использующих приведенную ниже конфигурацию Мастер: Running1m...
4 месяца назад Mohan Rayapuvari
97
голосов
1
ответ
Я новичок в искры, я попытался создать графический фрейм и сделать какой-то запрос, это мой код import pyspark from pyspark.sql import SQLContext from graphframe import * sc = pyspark.SparkContext(...
4 месяца назад Alizoljodi
68
голосов
1
ответ
Я новичок в моделировании данных Cassandra, и у меня есть сценарий, в котором мне нужно приспособить многомерные данные в одной строке, если это возможно (да, я знал, что Cassandra - это хранилище ...
4 месяца назад Balaji Reddy
78
голосов
3
ответа
Здравствуйте, я просто хочу знать, как saveAsTextFile в Spark Python без скобок и табуляции. пример ('123', 2),('345', 3),('567', 9) to a file-> 123 2 345 3 567 9 Я знаю, что существует способ и...
4 месяца назад John R. Martinez
78
голосов
1
ответ
Просто хотелось понять время исполнения Spark, что он поддерживает три языка одновременно Scala, Python и Java.
4 месяца назад Shailesh
116
голосов
2
ответа
Я использую возможности Spark JDBC следующим образом: Чтение таблиц MySQL в DataFrame Преобразовать их Объединить их Напишите их в HDFS На протяжении всего срока службы DataFrame не выполняются ник...
4 месяца назад y2k-shubham
55
голосов
4
ответа
Как я могу использовать foreach в структурированном потоке Python Spark для запуска операций на выходе. query = wordCounts\ .writeStream\ .outputMode('update')\ .foreach(func)\ .start() def func():...
4 месяца назад xiao xing
68
голосов
3
ответа
У меня есть фильм, который имеет название. В этом названии показан год фильма "Фильм (Год)". Я хочу извлечь год, и для этого я использую регулярное выражение. case class MovieRaw(movieid:Long,genre...
4 месяца назад mniehoff
55
голосов
1
ответ
мое приложение потерпело неудачу, как показано ниже. Я хочу знать возможную причину. Не хватает ли памяти для этого? без проблем работать локально или работать на других меньших данных 2014-12-09 2...
4 месяца назад newjunwei
109
голосов
1
ответ
Я хотел бы проверить, имеет ли каталог hdfs доступ на запись или нет. Я вижу, что методы для файла существуют или нет, но я не вижу методов для доступа к записи или нет в классах файловой системы h...
4 месяца назад Shankar
56
голосов
1
ответ
Я применяю пример MLlib LDA для различных тел, загруженных из описания ссылки, здесь я отфильтровываю временные слова, а также исключа
4 месяца назад Rami
Чтобы , пожалуйста,
Выберите тему жалобы:

Другая проблема