Apache-Spark-Sql – вопросы и ответы

55
голосов
1
ответ
У меня есть работа Spark для пакетного режима (с использованием наборов данных), которая выполняет некоторые преобразования и использует данные в NOSQL. Я получаю данные из другого источника, котор...
4 месяца назад xstack2000
87
голосов
1
ответ
У меня проблема с работой моей искровой задачи. У меня есть две таблицы: geo fishnet с ячейками размером 200x200 метров. Размер около 2 миллионов строк. Схема: cell_id minlat minlon maxlat maxlon г...
4 месяца назад Danila Zharenkov
89
голосов
1
ответ
У меня есть таблица Hive объемом 14 миллиардов записей (около 1 Тбайт) и еще одна таблица Hive с 800 миллионами записей (2 ГБ). Я хочу присоединиться к ним, какова должна быть моя стратегия? У меня...
4 месяца назад Priyaranjan Swain
87
голосов
1
ответ
Вопрос Есть ли способ загрузить определенный столбец из таблицы базы данных (PostreSQL) в виде Spark DataFrame? Ниже я попытался. Ожидаемое поведение: В приведенном ниже коде должен указываться тол...
4 месяца назад pehr.ans
105
голосов
2
ответа
Spark - Как получить выполнение логического/физического запроса с помощью следующих Via Thrift Через SparkInteractor
4 месяца назад San
136
голосов
3
ответа
Spark 2.2 представил структурированный потоковый источник Kafka. Насколько я понимаю, он полагается на контрольную точку HDFS для хранения смещений и гарантирует доставку сообщений "точно один раз"...
4 месяца назад dnaumenko
56
голосов
1
ответ
В Spark-2.0 лучший способ создать сессию Spark. Поскольку в обоих версиях Spark-2.0 и Cassandra- API были переработаны, по существу, они не одобряют SqlContext (а также CassandraSqlContext). Поэтом...
4 месяца назад Sam-T
56
голосов
1
ответ
Cassandra & DataStax, у меня есть вопрос, что я надеюсь, что кто-то мудрый может мне помочь. Мы переносим наш код аналогии с Hadoop на Spark, работающий поверх Cassandra (через DataStax Enterpr...
4 месяца назад gerrymcdev
67
голосов
1
ответ
Я пытаюсь загрузить несколько файлов в одной загрузке. Все они разделены файлами. Когда я пробовал его с 1 файлом, он работает, но когда я перечислял 24 файла, это дало мне эту ошибку, и я не мог н...
4 месяца назад E B
102
голоса
4
ответа
У меня есть блок данных искры с пробелами в некоторых именах столбцов, которые нужно заменить символом подчеркивания. Я знаю, что один столб может быть переименован с помощью withColumnRenamed() в ...
4 месяца назад vdep
-4
голоса
2
ответа
у меня есть следующий сценарий на моем наборе данных. Мне нужно суммировать значения некоторых столбцов без вмешательства в другие столбцы. Например, Вот мой набор данных data_set,vol,channel Dak,1...
4 месяца назад BigD
69
голосов
2
ответа
У меня есть строка, может быть любой из следующих случаев: test1/test2/test3/test4/test5/ test1/test2/test3/test4// test1/test2/test3/// test1/test2//// test1///// Мои ожидаемые результаты test1/te...
4 месяца назад archerarjun
117
голосов
1
ответ
Что было бы лучшим эквивалентом с Spark dataframes для SQL update table1 set colx = "some value" where coly in (select coltab2 from table2 where [another condition)] У меня есть рабочее решение, но...
4 месяца назад OlivierD
116
голосов
2
ответа
Я пытаюсь запросить таблицу искры, чтобы найти все строки в столбце "ref", содержащие буквы, которые не являются A, T, G, C или N. Допустимый результат должен содержать только эти буквы и может сод...
4 месяца назад SummerEla
68
голосов
1
ответ
Я пытаюсь преобразовать Dataframe в RDD, чтобы взорвать карту (с парой ключ-значение) в другую строку. Info = sqlContext.read.format("csv"). \ option("delimiter","\t"). \ option("header", "True"). ...
4 месяца назад Sankalp Tomar
68
голосов
3
ответа
Это связано с этим вопросом [create table xxx as select * from yyy иногда получить ошибку ] 1 При использовании искробезопасного сервера выполните несколько операторов, например create table xxx as...
4 месяца назад pinkdawn
55
голосов
1
ответ
У меня есть сценарий с настройкой ниже. Я использую: 1) Spark dataframes для извлечения данных в 2) Преобразование в pandas dataframes после начального агрегатирования 3) Хотите преобразовать обрат...
4 месяца назад kikee1222
78
голосов
1
ответ
У меня есть два Dataframes A и B, например: A Dataframes is: +----+-----+ | k| v| +----+-----+ |key1|False| |key2|False| |key3|False| |key4|False| |key5|False| |key6|False| +----+-----+ B Dataframe...
4 месяца назад Ivan Lee
87
голосов
3
ответа
Я новичок в искру и несколько раз пробовал несколько команд в sparkSql, используя python, когда я натолкнулся на эти две команды: createOrReplaceTempView и registerTempTable. В чем разница между дв...
4 месяца назад Amogh Huilgol
78
голосов
1
ответ
Я не могу заставить UDF работать с spark-submit. У меня нет проблем при использовании искровой оболочки. См. ниже, сообщение об ошибке, пример кода, build.sbt и команду для запуска программы Поблаг...
4 месяца назад Venki Venkatesh
118
голосов
4
ответа
Я читаю данные из файла csv, но не имею индекса. Я хочу добавить столбец от 1 до номера строки. Что мне делать, спасибо (scala)
4 месяца назад Liangpi
55
голосов
1
ответ
У меня есть следующий скрипт для запуска SQL-запроса: val df_joined_sales_partyid = spark.sql(""" SELECT a.sales_transaction_id, b.customer_party_id, a.sales_tran_dt FROM df_sales_tran a JOIN df_sa...
4 месяца назад Maria Nazari
87
голосов
1
ответ
Я хочу вставить в мой tfIdfFr столбец с именем "ref" с константой, тип которой pyspark.ml.linalg.SparseVector . Когда я пытаюсь это ref = tfidfTest.select("features").collect()[0].features # the re...
4 месяца назад Kaharon
134
голоса
2
ответа
У меня есть кластер на AWS с двумя подчиненными и 1 ведущим. Все экземпляры имеют тип m1.large. Я использую искру версии 1.4. Я сравниваю производительность искры с данными размером 4 м, поступающи...
4 месяца назад Arpit
55
голосов
1
ответ
Я создаю DataFrame, который показан ниже, я хочу применить алгоритм сокращения карты для столбца 'title', но когда я использую функцию reduceByKey, я сталкиваюсь с некоторыми проблемами. +-------+-...
4 месяца назад FlyingBurger
55
голосов
3
ответа
Мне любопытно узнать, как удалить повторяющиеся слова в строках, которые содержатся в столбце dataframe. Я хотел бы сделать это с помощью scala. В качестве примера ниже вы можете найти файл данных,...
4 месяца назад fdrigo
117
голосов
3
ответа
Я - искровое приложение с несколькими пунктами, где я хотел бы сохранить текущее состояние. Обычно это происходит после большого шага или кэширования состояния, которое я хотел бы использовать неск...
4 месяца назад bjack3
56
голосов
1
ответ
У меня есть RDD, сделанный rowkey = client_id, campaign = массив Json {campaign_id: campaign_name} val clientsRDD = resultRDD.map(ClientRow.parseClientRow) // change RDD of ClientRow objects to a D...
4 месяца назад Mike
56
голосов
1
ответ
Сценарий: У меня создана таблица поиска (входной файл JSON размером около 50 Мб) и кэшируется в памяти, поэтому его можно искать при обработке каждой строки входного файла (около 10000 точек данных...
4 месяца назад Prajwol Sangat
122
голоса
2
ответа
Когда я выписываю dataframe, скажем, csv, для каждого раздела создается файл.csv. Предположим, я хочу ограничить максимальный размер каждого файла, скажем, 1 МБ. Я мог писать несколько раз и каждый...
4 месяца назад Paul Reiners
89
голосов
1
ответ
У меня есть файл JSON, и я хочу загрузить его в MongoDB, используя Spark SQL. У меня был способ загрузки отдельных элементов в коллекцию, как показано ниже val mongoClient = MongoClient(127.0.0.1, ...
4 месяца назад Sathyaraj
113
голосов
1
ответ
Я пытаюсь сохранить Dataframe в постоянной таблице Hive в Spark 1.3.0 (PySpark). Это мой код: sc = SparkContext(appName="HiveTest") hc = HiveContext(sc) peopleRDD = sc.parallelize(['{"name":"Yin","...
4 месяца назад Mirko
55
голосов
2
ответа
У меня большой размер данных с миллионами строк: A B C Eqn 12 3 4 A+B 32 8 9 B*C 56 12 2 A+B*C Как оценить выражения в столбце Eqn ?
4 месяца назад sammy
117
голосов
1
ответ
У меня есть список json файлов в Databricks, и я пытаюсь прочитать каждый json, извлечь нужные значения и затем добавить это в пустой фрейм данных pandas. Каждый json файл соответствует одной строк...
4 месяца назад oikonang
57
голосов
1
ответ
Я читаю данные из RDD элемента типа com.google.gson.JsonObject. Попытка конвертировать это в DataSet, но не знаю, как это сделать. import com.google.gson.{JsonParser} import org.apache.hadoop.io.Lo...
4 месяца назад xstack2000
140
голосов
5
ответов
Я имею дело с столбцом чисел в большом искровом DataFrame, и я хотел бы создать новый столбец, который хранит объединенный список уникальных чисел, которые появляются в этом столбце. В основном име...
4 месяца назад user1500142
67
голосов
1
ответ
Я установил среду кластера искровой пряжи и попробую искру-SQL с искровой оболочкой: spark-shell --master yarn --deploy-mode client --conf spark.yarn.archive=hdfs://hadoop_273_namenode_ip:namenode_...
4 месяца назад jshen-quest
67
голосов
1
ответ
Я хочу создать отсортированный, собранный набор в SparkSQL, например: spark.sql("SELECT id, col_2, sort_array(collect_set(value)) AS collected FROM my_table GROUP BY id, col_2").show() где value - ...
4 месяца назад salient
55
голосов
1
ответ
Схема приведена ниже: root |-- reviewText: string (nullable = true) Выбрал строку для выполнения операции val extracted_reviews = sql("select reviewText from book").collect загрузил AFINN здесь val...
4 месяца назад Parv bali
67
голосов
1
ответ
Я использую коннектор Mongo-Hadoop для работы с Spark и MongoDB. Я хочу удалить документы в RDD из MongoDB, так как есть MongoUpdateWritable для поддержки обновления документа. Есть ли способ сдела...
4 месяца назад Tom
Чтобы , пожалуйста,
Выберите тему жалобы:

Другая проблема