Data.Table – вопросы и ответы

53
голоса
2
ответа
Скажем, у меня есть таблица данных структуры foll. (Простой сценарий) dtf <- data.table (CUSTKEY=c("a","b","c","d"),num = rep(c(2,3)),Revenue=c(500,60,56,450)) dtf CUSTKEY num Revenue 1: a 2 500...
1 месяц, 4 недели назад DashingQuark
87
голосов
1
ответ
У меня есть основной вопрос о том, как оптимизировать следующий код. Это очень сокращенная версия моего кода. В принципе, у меня есть большая таблица данных ( > 50M строк), и я хотел бы очень ча...
1 месяц, 4 недели назад Puki Luki
65
голосов
4
ответа
У меня есть дубликат идентификатора пациента, для которого строки идентичны ожидают для одной переменной (возраст). Однако есть также переменная проверки возраста, которая показывает, какая строка ...
1 месяц, 4 недели назад LB_NL
75
голосов
1
ответ
У меня есть таблица данных с отсутствующими значениями, в которых некоторые строки содержат только NA. Таблица data.table - это, по сути, поднабор столбцов более крупной data.table поэтому я бы хот...
1 месяц, 4 недели назад user3605620
100
голосов
3
ответа
Пример: Ниже приведена таблица данных dt : > library(data.table) > dt <- data.table(colA=rep(letters[1:3],each=3), colB=0:8) > dt colA colB 1: a 0 2: a 1 3: a 2 4: b 3 5: b 4 6: b 5 7: ...
1 месяц, 4 недели назад user3724375
66
голосов
1
ответ
Я создаю таблицу основных данных, из которой я извлекаю меньшие таблицы, а затем объединяю их в новую таблицу. Процесс идет следующим образом Создайте основную таблицу из некоторых других данных. Н...
1 месяц, 4 недели назад JerryN
66
голосов
1
ответ
Давайте начнем с некоторых сгенерированных данных, которые довольно реалистичны: tmp <- data.table( label = sprintf( "X%03d", 1:500), start = sample( 50:950, 500, replace=TRUE ), length = round(...
1 месяц, 4 недели назад Beasterfield
101
голос
1
ответ
Мой код выглядит следующим образом: Form_CharSizePorts2 <- function(main, size, var, wght, ret) { main.cln <- main %>% select(date, permno, exchcd, eval(parse(text=size)), eval(parse(text=...
1 месяц, 4 недели назад BOBO
84
голоса
1
ответ
Я пытаюсь интерполировать вероятность превышения между 2 временными рядами, время здесь не важно. data1<-c(10,11,12,13,14,15) data2<-c(20,21,22,23,24,25) x<-c(1,2) elevation<-c(10,11,20...
1 месяц, 4 недели назад Jeff Tilton
74
голоса
2
ответа
У меня есть одна таблица данных с двумя идентификаторами столбцов и X, где X содержит категориальные значения (a, b, c) ID X 1 a 2 c 3 b 4 c Я хотел бы преобразовать X в 3 двоичных столбца, где име...
1 месяц, 4 недели назад qwertyl
65
голосов
2
ответа
DT <- data.table(num=c("20031111","1112003","23423","2222004"),y=c("2003","2003","2003","2004")) > DT num y 1: 20031111 2003 2: 1112003 2003 3: 23423 2003 4: 2222004 2004 Я хочу сравнить соде...
1 месяц, 4 недели назад Ozeuss
75
голосов
1
ответ
Извините за неспецифический заголовок. Здесь интересующая информация. dt <- data.table(K=c("A","A","A","B","B","B"),Y=c("2010","2010","2011","2011","2011","2010"),Q1=c(2,3,4,1,3,4),Q2=c(3,3,3,1,...
1 месяц, 4 недели назад beginneR
91
голос
2
ответа
скажем, у нас есть следующее: time=c(20060200,20060200,20060200,20060200,20060200,20060300,20060400,20060400,20060400) bucket=c(1,1,2,2,1,3,3,3,1) rate=c(0.05,0.04,0.04,0.05,0.06,0.01,0.07,0.08,0.0...
1 месяц, 4 недели назад user2298382
93
голоса
2
ответа
Я запускаю сеанс R на ssh-сервере, и у меня ограниченная емкость. Мне было интересно, есть ли реализация fwrite которая позволяет сжатие? Что-то вроде: z <- gzfile("file.csv.gz) fwrite(object, z)
1 месяц, 4 недели назад Mario GS
67
голосов
2
ответа
У меня вопрос о проверке, какой уровень больше всего. Вот мои данные: Year Area V1 V2 V3 2014 USA 100 25 50 2014 USA 200 50 60 2014 USA 200 50 50 2014 USA 200 50 50 2014 USA 300 75 40 2014 ASIA 100...
1 месяц, 4 недели назад Peter Chen
53
голоса
2
ответа
Я хотел бы использовать функцию rollapply над многостолбцовым datatable, а именно, я хотел бы иметь возможность использовать каждый столбец независимо, например, рассмотрим следующие данные: > D...
1 месяц, 4 недели назад Wicelo
66
голосов
2
ответа
Вот два примера фреймов данных: df1 <- data.frame(Time1v1 = c(55.25, 59.36, 40.26, 786.008, 980.569, 11.2, 10.11, 23.11), Time2v1 = c(81, 12, 13, 11.0112, 93.9, 14.8, 15.3, 78.91)) df2 <- dat...
1 месяц, 4 недели назад paropunam
76
голосов
1
ответ
Является ли это возможным? Например, версия data.table - 1.9.4, а текущая - 1.11.4. У старого нет очень необходимых функций.
1 месяц, 4 недели назад Alexey Burnakov
84
голоса
1
ответ
Я импортировал файлы Excel в R. Таким образом, я протестировал разные пакеты ( readxl , openxlsx ). В этих таблицах есть определенные поля с большими десятичными числами. Они импортируются как науч...
1 месяц, 4 недели назад veadeveloper
53
голоса
1
ответ
если я использую setkey на символьной колонке data.table возвращает всю строку, например DT <- data.table(V1=c(1L,2L), V2=LETTERS[1:3], V3=round(rnorm(4),4), V4=1:12) setkey(DT,V2) DT['A'] = V1 ...
1 месяц, 4 недели назад C.A
53
голоса
1
ответ
Предположим, что df - это datatable со многими столбцами. Я хочу группировать по variable1 и суммировать данные с функцией f для всех переменных в variables_f и суммировать с g для всех переменных ...
1 месяц, 4 недели назад Rodolphe LAMPE
98
голосов
2
ответа
Я читаю в чрезвычайно большом наборе данных как data.table для скорости. Соответствующими столбцами являются DATE (еженедельные данные в строках года-месяца-дня, например "2017-12-25"), V1 (целое ч...
1 месяц, 4 недели назад user4547611
65
голосов
1
ответ
У меня две индексированные таблицы данных, и я хочу добавить столбец из одной таблицы в другую по индексу. Мой нынешний подход выглядит следующим образом: A <- data.table(index = seq(6,10), a = ...
1 месяц, 4 недели назад user3294195
53
голоса
1
ответ
Должен быть простой и элегантный способ сделать это в R с пакетом data.table, но мне трудно понять его. Векторизованные операции предпочтительнее. library(data.table) d1 <- as.Date("01-13-2013",...
1 месяц, 4 недели назад mel
162
голоса
2
ответа
Мне трудно понять суть функции setDT() . Когда я читаю код на SO, я часто сталкиваюсь с использованием setDT() для создания data.table. Конечно, использование data.table() вездесущ. Я чувствую, что...
1 месяц, 4 недели назад W.Dodge
152
голоса
2
ответа
Я ищу прирост эффективности при вычислении (автоматической) ковариационной матрицы из отдельных измерений с течением времени t с помощью t, t-1 и т.д. В матрице данных каждая строка представляет от...
1 месяц, 4 недели назад snoram
53
голоса
3
ответа
Мне нужна помощь, чтобы ускорить немного кода. У меня есть data.frame "df" и вы хотите создать новые столбцы и заполнить их заданными значениями. Вот пример кода, как я это делаю. df <- as.data....
1 месяц, 4 недели назад MOMO
66
голосов
1
ответ
Я хочу получить список уникальных счетчиков для набора переменных в таблице данных. Следующий код работает. Мне просто интересно, можно ли обобщить это с помощью функции. Тогда он может иметь более...
1 месяц, 4 недели назад Vivek
-5
голосов
1
ответ
Я бы хотел сделать это: например, у меня есть одна таблица данных: dt <- data.table(a=1:3, b=5:7, c=10:8) # a b c #1: 1 5 10 #2: 2 6 9 #3: 3 7 8 и я хочу передать среду одной строки за время в ф...
1 месяц, 4 недели назад Rafael Toledo
85
голосов
1
ответ
Пусть: library(R6); library(data.table); library(xts) Portfolio <- R6Class("Portfolio", public = list(name="character", prices = NA, initialize = function(name, instruments) { if (!missing(name)...
2 месяца назад Daniel Krizian
76
голосов
2
ответа
dplyr::do не работает data.table : # this works data.frame(1) %>% do(data.frame(1)) ## X1 ## 1 1 # same for a data.table does not work data.table(1) %>% do(data.frame(1)) ## Error in do_.data...
2 месяца назад shadow
106
голосов
1
ответ
У меня есть следующий data.table library(data.table) testdt <- data.table(var1=rep(c("a", "b"), e=3), p1=1:6, p2=11:16) # var1 p1 p2 #1: a 1 11 #2: a 2 12 #3: a 3 13 #4: b 4 14 #5: b 5 15 #6: b ...
2 месяца назад Cath
66
голосов
1
ответ
воспроизводимый пример df=structure(list(group = c(1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L), year = c(1973L, 1974L, 1975L, 1976L, 1977L, 1978L, 1973L, 1974L, 1975L, 1976L, 1977L, 1978L), Jan...
2 месяца назад G-spot
160
голосов
1
ответ
все еще понимая этот отличный пакет... Может ли кто-нибудь объяснить мне причину этой ошибки? Спасибо! library(data.table) DT <- data.table(id = LETTERS, var1 = rnorm(26), var2 = rnorm(26)) >...
2 месяца назад Michele
74
голоса
1
ответ
В настоящее время я изучаю data.table в R. Несколько вопросов, которые меня смутили: Подписные столбцы всегда сохраняют порядок записей? (т.е. строка 1,2,3 останется как строка 1,2,3 вместо строки ...
2 месяца назад Crystal
54
голоса
1
ответ
У меня есть таблица данных, имена столбцов которой неизвестны заранее set.seed(1) titles <- rep(letters[sample.int(3,replace = T)],2) dt <- data.table( x = c(1, 1, 3, 1, 3, 1), y = c(1, 2, 1,...
2 месяца назад Amitai
53
голоса
4
ответа
events <- structure(list(ID = c(3049951, 3085397, 3204081, 3262134, 3467254), TVTProcedureStartDate = structure(c(16210, 16238, 16322, 16420, 16546), class = "Date"), DCDate = structure(c(16213,...
2 месяца назад user1828605
68
голосов
2
ответа
У меня есть набор данных 20000 * 5. В настоящее время он обрабатывается итеративно, и набор данных постоянно обновляется на каждой итерации. Ячейки в data.frame обновляются для каждой итерации и ищ...
2 месяца назад sak88
54
голоса
3
ответа
Это то, на что похож мой dataframe. dt <- read.table(text=' Name ActivityType GrpID John Sale 1 John Sale 2 John Webinar 3 Kyle Email
2 месяца назад gibbz00
65
голосов
2
ответа
У меня есть data.frame размером 75 миллионов x 36, {75 миллионов строк), где cols col1, col1_decile, col2, col2_decile........... col18, col18_decile Теперь я хочу получить сводную статистику (мини...
2 месяца назад ML_Passion
Чтобы , пожалуйста,
Выберите тему жалобы:

Другая проблема