Sparklyr – вопросы и ответы

102
голоса
1
ответ
Я пытаюсь скопировать мои данные в спарк и получаю следующую ошибку Ошибка в as.data.frame.default(x, stringsAsFactors = FALSE, row.names = FALSE,: невозможно привести структуру класса "(" SparkDat...
4 месяца назад kcmox
109
голосов
2
ответа
Я могу легко остановить Spark, когда я использую SparkR с помощью sparkR.stop(), как в коде ниже: library(SparkR) sparkR.session(master = "local") sparkR.conf(SPARK_HOME) sparkR.stop() detach("pack...
4 месяца назад JColares
68
голосов
1
ответ
У меня есть Spark-кластер с двумя рабочими - все узлы имеют 16 ГБ оперативной памяти. Я читаю данные от S3 до Spark, используя sparklyr spark_read_csv (код ниже) с параметром MEMORY = TRUE, но, нес...
4 месяца назад mrjoseph
56
голосов
1
ответ
У меня есть прецедент, в котором я хотел бы вытащить много таблиц в искру (поскольку они являются отдельными разделами Cassandra) и объединить их вместе, чтобы я мог работать с полученной большой т...
4 месяца назад Akhil Nair
78
голосов
2
ответа
Рассмотрим следующий пример dataframe_test<- data_frame(mydate = c('2011-03-01T00:00:04.226Z', '2011-03-01T00:00:04.226Z')) # A tibble: 2 x 1 mydate <chr> 1 2011-03-01T00:00:04.226Z 2 2011...
4 месяца, 1 неделя назад ℕʘʘḆḽḘ
78
голосов
1
ответ
Я пытаюсь подключиться к искры, используя пакет sparklyr в R, и я получаю следующую ошибку: library(sparklyr) > library(dplyr) > config <- spark_config() > config[["sparklyr.shell.conf"...
4 месяца, 1 неделя назад Rami Krispin
77
голосов
1
ответ
Как я могу использовать gsub и regex в spark dataframe? Этот бегущий пример хорошо работает с классическим DF. ## function to replace empty cell by NA empty_as_na <- function(x){ if("factor" %in...
4 месяца, 1 неделя назад Karim Mezhoud
247
голосов
6
ответов
Есть ли у кого-нибудь обзор преимуществ/недостатков SparkR против sparklyr? Google не дает удовлетворительных результатов, и оба они кажутся довольно похожими. Попробуйте оба, SparkR выглядит намно...
4 месяца, 1 неделя назад koVex
55
голосов
1
ответ
Я загружаю один из 5-ядерных наборов данных из http://jmcauley.ucsd.edu/data/amazon/ с помощью library(sparklyr) library(dplyr) config <- spark_config() config$'sparklyr.shell.driver-memory' <...
4 месяца, 1 неделя назад AngryR11
55
голосов
1
ответ
Я пытаюсь найти способ получить оценки ПК, полученные после вращения компонентами PCA, найденными ml_pca(). Компоненты PCA легко доступны с использованием $ components, но результат матричного умно...
4 месяца, 1 неделя назад Vasilis Vasileiou
55
голосов
3
ответа
У меня есть spark_tbl, содержащий столбцы 160+. Я приведу пример, чтобы показать, как выглядит датафрейм: Key A B C D E F G .....Z s1 0 1 0 1 1 0 1 0 s2 1 0 0 0 0 0 0 0 s3 1 1 0 0 0 0 0 0 s4 0 1 0 ...
4 месяца, 1 неделя назад Supreeth M P
102
голоса
1
ответ
Вот мои данные игрушки: df <- tibble::tribble( ~var1, ~var2, ~var3, ~var4, ~var5, ~var6, ~var7, "A", "C", 1L, 5L, "AA", "AB", 1L, "A", "C", 2L, 5L, "BB", "AC", 2L, "A", "D", 1L, 7L, "AA", "BC", ...
4 месяца, 1 неделя назад Geet
55
голосов
1
ответ
В R оператор целых делений равен %/% ; однако это не работает корректно в кадре искровых данных, создаваемом sparklyr . Например, 20141025 превращается в 201410.2 каким - то образом. В виньетке spa...
4 месяца, 1 неделя назад Wendy
78
голосов
1
ответ
Я пытаюсь подключить R с локальным экземпляром Spark, используя Rstudio. Тем не менее, я получаю сообщение об ошибке. Что мне не хватает? Я использую окна 10. Я следую учебнику по rstudio . library...
4 месяца, 1 неделя назад Fisseha Berhane
103
голоса
1
ответ
Я знаю, что конвейеры Spark ML могут быть экспортированы в PMML с использованием библиотеки JPMML-SparkML. Я просто пытаюсь выяснить, как я могу это сделать из R, используя sparklyr . Я знаю о откр...
4 месяца, 2 недели назад mrjoseph
88
голосов
1
ответ
Насколько я понял, эти два пакета предоставляют аналогичные, но в основном различные функции-оболочки для Apache Spark. Sparklyr новее и все еще нуждается в расширении функциональности. Поэтому я с...
4 месяца, 2 недели назад CodingButStillAlive
55
голосов
3
ответа
Я попал в верхний предел GC, превысив ошибку в Spark, используя spark_apply . Вот мои спецификации: sparklyr v0.6.2 Spark v2.1.0 4 рабочих с 8 ядрами и 29 ГБ памяти Закрытие get_dates извлекает дан...
4 месяца, 2 недели назад Zafar
116
голосов
2
ответа
Я пишу фрейм исходных данных в локальную файловую систему в виде csv файла, используя функцию spark_write_csv. В выходной директории для каждого файла детали есть один.crc файл. Я ищу любые функции...
4 месяца, 2 недели назад Pal.s
55
голосов
1
ответ
Если бы я хотел приписать character типа сразу ко всем моим столбцам, используя любую функцию, например, spark_read_csv из sparklyr , я бы сделал что-то вроде flights <- spark_read_csv(sc, "flig...
4 месяца, 2 недели назад Igor
80
голосов
3
ответа
У меня есть несколько unix-моментов, которые я конвертирую в timestamps в sparklyr и по некоторым причинам мне также нужно преобразовать их в строки. К сожалению, кажется, что при преобразовании в ...
4 месяца, 3 недели назад ℕʘʘḆḽḘ
87
голосов
1
ответ
У меня есть огромный файл паркета, который не подходит в памяти или на диске при чтении, есть способ использовать spark_read_parquet только для чтения первых n строк?
4 месяца, 3 недели назад Jader Martins
78
голосов
1
ответ
В RI есть искровое соединение и DataFrame как ddf . library(sparklyr) library(tidyverse) sc <- spark_connect(master = "foo", version = "2.0.2") ddf <- spark_read_parquet(sc, name='test', path...
4 месяца, 3 недели назад Tim
105
голосов
1
ответ
Я пытаюсь создать пакет R, чтобы я мог использовать оболочку Stanford CoreNLP для Apache Spark (с помощью блоков данных) из R. Я использую пакет sparklyr для подключения к своему локальному экземпл...
4 месяца, 3 недели назад user2300301
95
голосов
1
ответ
Я использую Sparklyr со SparkR . Когда я пытаюсь вызвать функцию schema() с таблицей данных, созданной spark_read_csv() я получаю следующую ошибку (и аналогичную ошибку в lapply() select() и lapply...
4 месяца, 3 недели назад pww
55
голосов
1
ответ
Я хотел бы получить несколько объяснений относительно способа объединения следующих R-пакетов: - odbc : используется для подключения к существующему источнику данных Oracle - sparklyr : используетс...
4 месяца, 3 недели назад John
108
голосов
1
ответ
Я пытался посчитать сопоставление с образцом, используя Sparklyr. Я пытаюсь посчитать количество раз по шаблону ";" появляется в переменной room_number Вот моя таблица: room_number A12;A19 A13 A15;...
4 месяца, 3 недели назад Yann M
55
голосов
1
ответ
У меня есть два вопроса: Как преобразовать несколько категориальных переменных в большую матрицу фиктивных переменных в искровом режиме? Как я могу получить правильный вывод с помощью one_hot_encod...
4 месяца, 4 недели назад hamiq
67
голосов
1
ответ
Я использую sparklyr для взаимодействия с искрой. Я пытаюсь заменить значения NaN только в одном столбце. Можно ли использовать функцию replace.na() но применять ее только к одному столбцу? Я прове...
4 месяца, 4 недели назад Sergio Marrero Marrero
56
голосов
2
ответа
Можно подключить sparklyr с удаленным кластером hadoop или использовать его только локально? А если это возможно, то как? :) На мой взгляд, связь с R до хаоса через искру очень важна!
4 месяца, 4 недели назад user43348044
55
голосов
1
ответ
Я новичок в sparklyr, и я пытаюсь добавить случайные нормальные векторы, взвешенные другим вектором, на большое количество столбцов искры df. Это пример, который я пробовал с помощью mtcars. librar...
5 месяцев назад swany
86
голосов
1
ответ
Мне нужно сопоставить GLM с данными, которые не вписываются в память моего компьютера. Обычно, чтобы обойти эту проблему, я бы опробовал данные, подгонял модель, а затем тестировал другой образец, ...
5 месяцев назад Serban Dragne
88
голосов
1
ответ
У меня есть 100 миллионов строк, хранящихся во многих CSV файлах в распределенной файловой системе. Я использую spark_read_csv() для загрузки данных без проблем. Многие мои столбцы хранятся в виде ...
5 месяцев назад kputschko
77
голосов
1
ответ
> data2_tbl <- copy_to(sc, FB_tbl) #sc as spark connection > idx <- tk_index(data2_tbl) Warning message: In tk_index.default(data2_tbl) : 'tk_index' is not designed to work with objects...
5 месяцев назад E B
70
голосов
1
ответ
Скажем, я запустил следующий код, и я забыл назначить iris Spark dataframe переменной в R, и я не могу использовать .Last.value для назначения, потому что я запустил другой код сразу после копирова...
5 месяцев назад xiaodai
70
голосов
1
ответ
У меня 500 миллионов строк в искровом фрейме. Мне интересно использовать sample_n из dplyr потому что это позволит мне явно указать размер выборки, который я хочу. Если бы я использовал sparklyr::s...
5 месяцев назад kputschko
70
голосов
2
ответа
data.table предоставляет функцию rleid которую я нахожу бесценной, - она действует как тикер, когда наблюдаемая переменная (переменная) изменяется, упорядочивается некоторыми другими переменными. l...
5 месяцев назад Akhil Nair
78
голосов
1
ответ
Я пытаюсь загрузить набор данных с миллионом строк и 1000 столбцов с sparklyr. Я запускаю Spark на очень большом кластере на работе. Тем не менее размер данных кажется слишком большим. Я пробовал д...
5 месяцев назад Felix
67
голосов
2
ответа
Когда я пытаюсь получить доступ к таблице Hive, используя Rstudio и sparklyr, используя этот код: library(sparklyr) library(dplyr) Sys.setenv(SPARK_HOME="/usr/hdp/current/spark2-client") # got from...
5 месяцев назад schoon
87
голосов
1
ответ
Я пытаюсь преобразовать мой код R (показанный ниже) в код Sparklyr R для работы с набором данных искры, чтобы получить конечный результат, как показано в таблице 1: Использование справки из сообщен...
5 месяцев назад amitkb3
70
голосов
1
ответ
Я пытаюсь использовать spark_apply на искровом кластере для вычисления kmeans по данным, сгруппированным по двум столбцам. Данные запрашиваются у Hive и выглядят так: > samplog1 # Source: lazy q...
5 месяцев назад Chris Njuguna
Чтобы , пожалуйста,
Выберите тему жалобы:

Другая проблема