Gpu-Programming – вопросы и ответы

80
голосов
2
ответа
Я реализовал тип данных Matrix в С++, используя 1D тип данных и обернув его в строки и столбцы. Теперь я хочу иметь эту возможность создавать квадратные/заблокированные субматрицы с этого времени, ...
6 дней, 1 час назад usman
81
голос
1
ответ
Я реализую подход разделения и покорения к выпуклой оболочке в CUDA. Это мой подход: Внизу: Создайте список списков для хранения выпуклых оболочек; curSize = размер ввода (все точки); для i: 1 для ...
6 дней, 5 часов назад alpha_cod
62
голоса
1
ответ
Кто-нибудь знает, как реализовать правильный эффект силуэтов в этом видео на YouTube ? Фактически, я понимаю (и успешно реализован) алгоритм сопоставления окклюзии параллакса, но у меня нет никаких...
6 дней, 5 часов назад Ming
63
голоса
1
ответ
Я хочу добавить код cuda в существующую базу кода C++, которая использует системы сборки cmake. Я нашел статью (ссылка ниже) от NVIDIA, которая точно показывает, как это можно сделать, за исключени...
1 неделя, 1 день назад Toothless
52
голоса
3
ответа
Я создаю ядро ​​для элементарного умножения двух матриц, но, по крайней мере, с моими конфигурациями мой ядро ​​OpenCL работает только быстрее, когда каждая матрица больше 2 ГБ. Поэтому мне было ин...
1 неделя, 1 день назад Framester
82
голоса
1
ответ
Я хочу знать, что произошло, когда все нити warp прочитали один и тот же 32-разрядный адрес глобальной памяти. Сколько запросов на память имеется? Есть ли сериализация. Графический процессор - это ...
1 неделя, 2 дня назад Fan Zhang
54
голоса
2
ответа
В настоящее время я тестирую тесты OpenCL на AMD Radeon HD 7870. Код, который я написал в JOCL (привязки Java для OpenCL), просто добавляет два 2D-массива (z = x + y), но он делает это много раз (z...
1 неделя, 2 дня назад jojennin
72
голоса
1
ответ
У меня есть алгоритм, который улучшает изображения, сделанные при слабом освещении, и использует графический процессор для вычислений. Мне нужно проверить алгоритм, чтобы узнать, сколько команд или...
1 неделя, 2 дня назад user512077
71
голос
2
ответа
Я использую графический процессор NVIDIA GeForce GTX 480 в операционной системе Wwindows 7 на своем ноутбуке ASUS. Я уже настроил Visual Studio 2010 для CUDA 4.2. Как настроить OpenCL для nvidia gp...
1 неделя, 3 дня назад sandeep.ganage
87
голосов
1
ответ
Как я могу изменить этот код, чтобы получить 100% нагрузку на мой GPU? #include <iostream> using namespace std; __global__ void saxpy_parallel(int n, float a, float *x, float *y) { // Get the...
1 неделя, 3 дня назад Aurelius
72
голоса
1
ответ
Недавно я пытался научиться использовать Tensorflow для параллельного обучения данным, и я нашел здесь игрушечный пример https://github.com/aymericdamien/TensorFlow-Examples/blob/master/examples/6_...
1 неделя, 3 дня назад Sean
94
голоса
1
ответ
Ожидается, что сокращение на основе варки на основе Shuffle приведет к более быстрому сокращению, чем сокращение с использованием общей памяти или глобальной памяти, как упомянуто в - https://devbl...
1 неделя, 3 дня назад Ameya Wadekar
62
голоса
4
ответа
Так как у меня не было ответа от форума CUDA, не пробуйте это здесь: После выполнения нескольких программ в CUDA ive теперь начали получать свою эффективную пропускную способность. Однако у меня ес...
1 неделя, 4 дня назад Bernardo
63
голоса
1
ответ
Я пишу металлический код cnn. Металл обеспечивает MPSCNNLocalContrastNormalization, так как концепция нормализации экземпляра немного отличается, я намереваюсь реализовать ее как функцию ядра. Одна...
1 неделя, 5 дней назад 이영수
50
голосов
1
ответ
В CUDA, как управлять последовательным кодом внутри ядра GPU? Если у меня есть ядро в цикле for, оно управляется в последовательном режиме или существует логический параллелизм?
1 неделя, 6 дней назад user2492799
51
голос
1
ответ
Существуют способы, с помощью которых можно использовать совместное использование графического процессора. Я столкнулся с занятием. Могу ли я использовать его для среза GPU среди процессов (наприме...
2 недели, 1 день назад skaushal
51
голос
2
ответа
Я работал над проектом NVTranscoder с Video_Codec_SDK_8.0.14, чтобы добавить некоторые обработки обработки сигналов в видеокадры. Однако я сталкиваюсь с некоторыми проблемами, когда превращаю GPUMa...
2 недели, 1 день назад md612
63
голоса
1
ответ
Следующая функция ядра - это компактная операция в cudpp, библиотеке cuda (http://gpgpu.org/developer/cudpp). Мой вопрос в том, почему разработчик 8 раз повторяет часть записи? И почему это может у...
2 недели, 2 дня назад Fan Zhang
64
голоса
1
ответ
Я хочу написать программу CUDA, которая возвращает местоположения большего массива, которые содержат определенные критерии. Тривиальный способ сделать это - написать ядро, которое возвращает массив...
2 недели, 2 дня назад evenro
62
голоса
1
ответ
Возможный дубликат: Два способа создания объекта-буфера в opencl: clCreateBuffer vs. clCreateBuffer + clEnqueueWriteBuffer В чем разница между ко
2 недели, 2 дня назад wallacer
86
голосов
1
ответ
Я хочу использовать библиотеку amp.h в моей программе c++, запрограммированной и запущенной на Linux; Поэтому я попытался включить amp.h lib в пустой.cpp файл и попытался скомпилировать его с помощ...
2 недели, 3 дня назад MoJoWi
132
голоса
3
ответа
У меня есть образец "Hello, World!" код из сети, и я хочу запустить его на GPU на моем университетском сервере. Когда я набираю "gcc main.c", он отвечает: CL/cl.h: нет такого файла или каталога Что...
2 недели, 3 дня назад sandra
51
голос
1
ответ
Я хочу сделать некоторые графические процессоры с картой NVIDIA, и я решаю, что у меня есть GTX 960 с 2 ГБ или 4 ГБ памяти. Который я должен взять? Какая разница в размерах партии, которую я могу и...
2 недели, 3 дня назад kwotsin
123
голоса
1
ответ
Чтобы понять, как убедиться, что требования к выравниванию выполнены, я читал следующий отрывок из книги "Неоднородные вычисления с OpenCL p.no: 157" несколько раз. Это показывает, как добавить доп...
2 недели, 3 дня назад gpuguy
99
голосов
1
ответ
Если у вас есть рабочие элементы, выполняемые в волновом фронте, и есть условие, например: if(x){ ... } else{ .... } Что выполняются рабочие элементы? в этом случае все рабочие элементы в волновом ...
2 недели, 5 дней назад Roger
98
голосов
1
ответ
В настоящее время я пытаюсь использовать Magma для работы матрицы на GPU, однако я нашел несколько документов об этом. Единственное, на что я могу ссылаться, это его программа тестирования и онлайн...
2 недели, 6 дней назад itsuper7
63
голоса
1
ответ
Из моего понимания архитектуры NVIDIA CUDA выполнение потоков происходит в группах ~ 32, называемых "warps". Одновременно планируются множественные перекосы, и инструкции выдаются из любого из пере...
2 недели, 6 дней назад aditya
86
голосов
2
ответа
когда я удаленно отлаживаю проект cuda на хосте, он игнорирует контрольные точки, но выполняет полностью. но когда я отлаживаю проект локально на целевом компьютере, он отлично работает. Я проверил...
3 недели назад Farzad Salimi Jazi
73
голоса
6
ответов
Несколько дней назад я начал работать над GPGPU и успешно реализовал cholesky-факторизацию с хорошей производительностью, и я присутствовал на конференции по высокопроизводительным вычислениям, где...
3 недели назад GG.
72
голоса
1
ответ
Мой GPU - GeForce MX150, паскальская архитектура, CC. 6.1, CUDA 9.1, windows 10. Хотя мой графический процессор паскаль, но кооперативные группы не работают. Я хочу использовать его для межблочной ...
3 недели, 1 день назад pedram64
53
голоса
4
ответа
Я начинаю CUDA, который успешно скомпилировал и выполнил несколько примеров кода, используя библиотеки CUDA, такие как CUFFT и CUBLAS. В последнее время, однако, я пытаюсь создать свои собственные ...
3 недели, 1 день назад nedblorf
73
голоса
1
ответ
Мне нужно часто обновлять текстуру 3D-объекта. (это обработанный процедурой шаблон, поэтому он не может быть кэширован, он должен быть динамически сгенерирован каждым кадром) Каков самый быстрый сп...
3 недели, 2 дня назад Martin K
85
голосов
2
ответа
Я работаю над распараллеливанием кода C с помощью CUDA. Я выяснил, что мы можем делать наши вычисления в следующем шаблоне: Поэтому на первом этапе мы можем вычисли
3 недели, 2 дня назад Guru Swaroop
88
голосов
1
ответ
Недавно я обнаружил, что AMD эквивалентна CUDA __byte_perm intrinsic; amdgcn_ds_swizzle (Или, по крайней мере, я думаю, что это эквивалент функции перестановки байтов). Моя проблема заключается в с...
3 недели, 2 дня назад ligosan
51
голос
1
ответ
Я хочу применить движение фильтра для определенного количества итераций на разных изображениях, каждое изображение будет разделено на разные размеры блока. Например, если размер изображения равен 1...
3 недели, 2 дня назад pyCuda
62
голоса
1
ответ
Я пытаюсь отслеживать объекты очень быстро, используя мой gpu. Я уже делал это по фон Вычитание контур Поиск Meanshift Но я не могу найти что-либо в OpenCV CUDA-Modul, равном алгоритму поиска. Back...
3 недели, 2 дня назад user4910881
74
голоса
1
ответ
Используя nvprof , я обнаружил, что следующее ядро является узким местом моего приложения CUDA __global__ void extractColumn_kernel(real_t *tgt, real_t *src, int *indices, int numRows, int len) { i...
3 недели, 3 дня назад Hieu Pham
112
голосов
1
ответ
Я новичок в параллельном программировании. Я пытаюсь использовать проблему PrefixSum в OpenCL. Но я получаю неправильный результат. Поэтому во время отладки я изменил свое ядро для выполнения прост...
3 недели, 3 дня назад Shubham Gupta
81
голос
1
ответ
Я только начинаю с CUDA и пытаюсь обернуть мозг вокруг алгоритма сокращения CUDA. В моем случае я пытаюсь получить точечный продукт двух матриц. Но я получаю правильный ответ только для матриц разм...
3 недели, 3 дня назад Bhrugesh Patel
50
голосов
1
ответ
Я нахожусь в стадии исследования моей следующей сборки компьютера. У меня есть идея в моей голове запускать гипервизор в качестве базы системы, но я хотел бы иметь возможность сделать снимок при пр...
3 недели, 4 дня назад dave k
Чтобы , пожалуйста,
Выберите тему жалобы:

Другая проблема