Эффективность вейвлет фильтрации сигнала на GPGPU

Автор работы: Пользователь скрыл имя, 04 Июля 2011 в 09:31, реферат

Описание работы

В численном и функциональном анализе дискретные вейвлет-преобразования (ДВП) относятся к вейвлет-преобразованиям, в которых вейвлеты представлены дискретными сигналами (выборками).

Содержание работы

Содержание
Введение 3
1 Вейвлет преобразование 4
1.1 Организация модуля 8
1.2 Фильтрация на CPU 10
1.3 Фильтрация на GPGPU 11
1.4 Проблемы распараллеливания 14
1.5 Методы оптимизации 14
Работа с памятью 15
Реорганизация вычислений 22
1.6 Исследование производительности 24
Заключение 28
Список использованных источников 29
Приложение А. Исходный код Вейвлет преобразования на GPGPU 30
dwt_kernel_float.cu — ядра GPGPU 30
dwt_float.cu — промежуточный слой между CPU и GPU слоями 32
dwt_float.h — заголовочный файл с описание ядер и их параметров 35
wavelet_denoise.cpp – общий ход Вейвлет преобразования 36
Приложение Б. Характеристики сопроцессора на основе GPGPU 38
Приложение В. Запуск теста вейвлет преобразования 39
Приложение Г. Калькулятор использования ресурсов устройства GPGPU 40

Файлы: 1 файл

Эффективность реализации вейвлет фильтрации сигнала на GPGPU.docx

— 577.45 Кб (Скачать файл)
  1. прямое дискретное вейвлет преобразование;
  2. пороговая обработка коэффициентов, связанная с оценкой средних значений вейвлет коэффициентов на каждом из уровней разложения и последующим пороговым обнулением коэффициентов отражающих слабые импульсные свойства сигнала;
  3. обратное вейвлет преобразование.

    • 1.1 Организация модуля
     

         На  рисунке ниже приведем предполагаемую схему организации работы программы.

    Рисунок 5 — Организация Вейвлет преобразования.

         На  рисунке 5 мы видим модуль основной программы, модуль библиотеки gsl, модуль, реализующий параллельное вейвлет преобразование.

         Основная  программа формирует сигнал, подготавливает материнский вейвлет с помощью  модуля GSL и выполняет параллельное Вейвлет-преобразование с помощью модуля cudaDwt.

    Рисунок 6 – Ход вейвлет преобразования.

         Исходя  из целей, необходимо разработать модуль, который можно будет использовать без перекомпиляции на платформах одного типа и обладающий переносимостью на уровне компиляции при переносе с платформы на платформу (например, linux/Windows).

         Опишем  характеристики каждого из модулей:

         Модуль  CudaDwt — исполняемая статическая/динамическая библиотека, переносимость на уровне исходных кодов между платформами ОС.

         Модуль  GSL — свободно распространяемая библиотека для научных вычислений, переносимость на уровне исходных кодов между платформами ОС.

         Требования:

         CPU: intel-совместимый универсальный процессор  не ниже i386.

         GPU: NVIDIA видеокарта с поддержкой CUDA начиная с 8000-ой серии.

         ОС: Windows XP и выше, Linux, Mac OS.

      • 1.2 Фильтрация на CPU
       

           Вейвлет преобразование выполняет свертку  сигнала с фильтрами. Что и  обуславливает длительную обработку  при последовательной реализации.

           Рассмотрим  подробнее каждый из этапов.

           Прямое  преобразование

           Выполняется сверка целевого сигнала с низкочастотным и высокочастотными фильтрами с  одновременным прореживанием, что  при последовательном выполнении дает трудоемкость кратную N/2.

           Но  так как данную операцию на исходной последовательности данных нужно проводить Log2(N) раз, каждый раз уменьшая размерность на 2, то получаем трудоемкость: 
       
       

           Трешолдинг

           При пороговой обработке необходимо дважды пройти полученную свертку с низкочастотным и высокочастотными фильтрами и произвести отсечение по уровням. Таким образом, имеем трудоемкость: 

           Обратное  преобразование.

           Обратное преобразование производится аналогично прямому и имеет ту же трудоемкость: 

           При использовании любых последовательных средств вычислений мы сталкиваемся с жесткой зависимостью от объема входных данных, выраженную в трудоемкости: 

        • 1.3 Фильтрация на  GPGPU
         

             GPGPU – сопроцессор к центральному процессору для массово параллельных вычислений.  Теоретически при использовании данного устройства для алгоритмов, допускающих мелкозернистый параллелизм, будет отсутствовать сильная связь с объемом входных данных. То есть при любом объеме мы будем получать результат за ограниченное время.

          Перечислим  возможности GPGPU как массивно параллельного  устройства вычисления:

          • множество процессоров виртуально может быть представлено в любой конфигурации с тремя с измерениями;
          • каждый процессор имеет уникальный идентификатор;
          • процессоры разделены на сильно связные компоненты – потоки в блоках, и слабосвязные – блоки в сетке;
          • для оптимизации работы реализована иерархия памяти, технологии группового чтения данных, кэшированного чтения данных;
          • одновременно можно запустить на выполнение множество тысяч потоков.
         

             Представим  каждую из трех частей в параллельном виде, доступном для запуска на массивно параллельном вычислителе.

        Прямое  вейвлет преобразование.

             При прямом вейвлет преобразовании выполняется  свертка и для каждого значения ряда сигнала вычисляется новое значение в соответствии с массивами коэффициентов.

             Так как значение свертки для отсчета  не зависит от вычисления других, то все вычисления можно распараллелить по номеру отсчета.

             Поэтому всё что нужно, это, используя необходимые CUDA расширения языка Си, переписать исходный код последовательной реализации, убрать конструкцию цикла, и сделать вычисление адреса текущего элемента во входной последовательности через уникальные идентификаторы процессора потока.

        Что и выполнено  ниже:

        __global__ void

         cudaDWTStepForward(float *a, const size_t n, const size_t nmod, const size_t stride, const float * const h1, const float* const g1, const size_t nc, float*scratch)

        {

           const size_t idx = blockDim.x * blockIdx.x + tidx; // индекс элемента данных в первой половине = РазмерБлока*номерБлока + индексПотокаВБлоке

         

            const size_t n1 = n - 1;

            const size_t nh = n >> 1; 

            if(idx < nh){

                float h = 0, g = 0;

                const size_t ni = 2*idx + nmod; 
         

                for (size_t k = 0; k < nc; k++)   // работа с коэффициентами

                  {

                    const size_t jf = n1 & (ni + k);

                    const float ani = a[stride * jf];

                    h += h1[k] * ani;

                    g += g1[k] * ani;

                  }

                 

                scratch[idx] += h;       // Преобразованные данные

                scratch[idx + nh] += g;

        }

             Также необходимо произвести расчет числа  процессоров под задачу прямого преобразования исходя из формулы:

             Число процессоров = числу входных элементов.

             Вызов функции на выполнение:

            // параметры конфигурации исполнения

             const size_t block_size = BL_SZ;

             dim3 threads( block_size, 1);

             const size_t grid_size = (n/2) / (block_size - nc) + (((n/2)%(block_size - nc))>0); // n/2 потому проходится лишь первая половина

             dim3 grid(grid_size, 1); 

             // запуск ядра на видео-карте

             cudaDWTStepForward<<< grid, threads >>>(d_a, n, nmod/*, stride*/, d_h1, d_g1, nc, d_scratch); 

             Теоретическая трудоемкость данного кода будет  приближаться к O(Log2(N)), так как необходимо последовательно выполнить данную функцию для прямого преобразования в соответствии с алгоритмом, описанном выше. 

        Пороговая обработка

             При пороговой обработке мы получаем аналогичную ситуацию и для каждого  элемента данных можно запустить  свой поток обработки, что продемонстрировано ниже: 

        __global__ void

        cudaDenoiseKernel(float *data, const size_t n,const float threshold)

        {

           const size_t idx = blockDim.x * blockIdx.x + threadIdx.x; // индекс элемента данных в первой половине = РазмерБлока*номерБлока + индексПотокаВБлоке

           if(idx < n){

          float d = data[idx];

          const float fd = fabsf(d);

              float t = fd - threshold;

               t = (t + fabsf(t)) / 2.f; 

               // Signum

               if (d != 0.f) d = d / fd * t;

                data[idx] = d;

              }

        }

             Для успешного выполнения обработки необходимо жестко контролировать нахождение алгоритма внутри допустимого множества вычисляемых данных. Контроль необходимо осуществлять как при проектировании ядра, так и во время вычисления количества и конфигурации потоков для запуска ядер:  

            // параметры конфигурации исполнения

             const size_t block_size = 16;

             dim3 threads( block_size, 1);

             const size_t grid_size = len / (block_size) + ((len%(block_size))>0); // n/2 потому проходится лишь первая половина

             dim3 grid(grid_size, 1); 

             // запуск ядра на видео-карте

              cudaDenoiseKernel<<< grid, threads >>>(d_a, len, threshold); 

        Обратное  вейвлет преобразование.

             Обратное  вейвлет преобразование мало отличается от прямого, разве что формулой вычисления.

             Также для каждого входного элемента можно  создать отдельный поток.

             Рассмотренные выше методы распараллеливания довольно тривиальны и очевидны, но, к сожалению, использование только лишь здравого смысла как показывает практика - не дает роста производительности по сравнению с реализацией на универсальном вычислительном устройстве. А дает лишь набор проблем при работе с модулем и неточности результатов.

          • 1.4 Проблемы распараллеливания

               При распараллеливании задачи в лоб, без использования дополнительных знаний архитектуры и методов  разработки под массивно параллельный вычислители сложно получить эффективную  программу.

               Приведем  проблемы, которые необходимо преодолеть для получения эффективной программы.

            • Проблема точности вычислений: GPGPU имеют короткую историю и фактически начали активно развиваться лишь с 2007-го года: в настоящее время поддержка плавающих чисел двойной точности всё еще является предметом обсуждения и встроена не во все имеющиеся GPGPU; также следует отметить потерю производительности при использовании плавающих чисел двойной точности.
            • Проблема балансировки загрузки памяти, процессоров, шин памяти для эффективного использования устройства – что в конечном итоге сказывается на производительности.
            • Необходимо детальное изучение аппаратных возможностей массивно параллельных устройств вычислений, для использования их технологий, без которых невозможно достижение искомой эффективности.
            • После проведенных работ по оптимизации поддержка кода становится невозможной.

            • 1.5 Методы оптимизации

            Работа  с памятью

             

                 Глобальная  память

                 Глобальная  память (GPU DRAM) не кэшируется и поэтому  одно обращение к ней может  занимать до 600 тактов. Именно оптимизация  работы с глобальной памятью может  дать огромный прирост производительности.

                 Обращение к глобальной памяти осуществляется через чтение/запись 32/64/128-битовых  слов.

            __device__ type  dev [32];                  // 32 items of type in global memory

            type             data = dev [threadIdx.x];  // reading one item from global memory 

                 Для того, чтобы обращение в глобальную память было скомпилировано в одну команду, важно, чтобы sizeof(type) был равен 4/8/16 байтам и расположение данных было выровнено по sizeof(type) в памяти.

            __device__ float data  [256];

            float3           v; 

            .  .  .  . 

            v = data [i]; 

                 Рассмотрим  пример выше - размер float3 равен 12 байтам и, поэтому, многие элементы массива data не будут надлежащим образом выровнены. Все это ведет к неэффективному обращению к глобальной памяти. Избежать этого можно несколькими способами.

                 Простейшим  является замена float3 на float4 - хотя мы при этом будем использовать немного больше памяти, но размер каждого элемента массива будет равен 16 байтам и каждый элемент будет выровнен в памяти по 16 байтам. Это позволит скомпилировать каждое обращение к элементу такого массива в одну команду.

                 Точно такая же ситуация возникает при  использовании структур. Если размер структуры превышает 16 байт, то будет  произведено несколько обращений  к памяти. Для наибольшей эффективности  желательно, чтобы размер структуры  был кратен 4/8/16 байтам и все экземпляры данной структуры были выровнены  в памяти. Так приводимый ниже пример использует опцию __align__ для обеспечения выравнивания в памяти по 16 байтам (что позволит минимизировать число операций чтения/записи).

            struct __align__(16)

            {

                float a;

                float b;

                float c;

            }; 

                 Вся память GPU, выделяемая при помощи различных запросов, всегда выровнена как минимум по 256 байтам.

                 Крайне  важной особенностью GPU является возможность  объединения (coalescing global memory accesses) нескольких запросов к глобальной памяти в одну операцию над блоком (транзакцию). Подобное объединение запросов в один запрос чтения/записи одного блока длиной 32/64/128 байт может происходить в пределах одного half-warp'а. Для того, чтобы такое объединение произошло, должны быть выполнены специальные требования на то, как отдельные нити half-warp'а обращаются к памяти.

                 Адрес блока должен быть выровнен в памяти. Также должны быть выполнены дополнительные требования, зависящие от Compute Capability GPU.

                 Для GPU с Compute Capability 1.0 и 1.1 объединения запросов в одну транзакцию будет происходит при выполнении следующих условий:

              • нити должны обращаться либо к 32-битовым словам, давая при этом в результате один 64-байтовый блок (транзакцию), либо к 64-битовым словам, давая при этом один 128-байтовый блок (транзакцию);
              • все 16 слов должны лежать в пределах данного блока (64 или 128 байт)
              • нити должны обращаться к словам последовательно, т.е. k-ая нить должна обращаться к k-му слову (при этом допускается, что какие-то нити вообще не производят обращения к соответствующим им словам).

                 Если  нити half-warp'а не удовлетворяют какому-либо из данных условий, то каждое обращение к памяти происходит как отдельная транзакция. На следующих рисунках приводятся типичные паттерны обращения, дающие объединения и не дающие объединения.

            Рисунок 7 - Паттерны обращения к памяти, дающие объединение для Compute Capability 1.0 и 1.1.

                 На  рисунке 7 приведены типичные паттерны обращения к памяти, приводящие к объединению запросов в одну транзакцию. Слева у нас выполнены все условия, справа - просто для части нитей пропущено обращение к соответствующим словам (что равно позволяет добавить фиктивные обращения и свести к случаю слева).

            Рисунок 8 - Паттерны обращения к памяти, не дающие объединение для Compute Capability 1.0 и 1.1.

                 На  рисунке 8 слева для нитей 4 и 5 нарушен порядок обращения к словам, а справа нарушено условие выравнивание - хотя слова, к которым идет обращения и образуют непрерывный блок из 64 байт, но начало этого блока (по адресу 132) не кратно его размеру.

                 Для GPU с Compute Capability 1.2 и выше объединения запросов в один будет происходить, если слова, к которым идет обращение нитей, лежат в одном сегменте размера 32 байта (если все нити обращаются к 8-битовым словам), 64 байта (если все нити обращаются к 16-битовым словам) и 128 байт (если все нити обращаются к 32-битовым или 64-битовым словам). Получающийся сегмент (блок) должен быть выровнен по 32/64/128 байтам.

                 Обратите  внимание, что в этом случае порядок, в котором нити обращаются к словам, не играет никакой роли и ситуация на рисунке 8 слева приведет к объединению всех запросов в одну транзакцию.

                 Если  идет обращения к n соответствующим сегментам, то происходит группировка запросов в n транзакций (только для GPU с Compute Capability 1.2 и выше).

                 Еще одним моментом работы с глобальной памятью является то, что гораздо  эффективнее с точки зрения объединения  запросов к памяти является использование  не массивов структур, а структуры  массивов (отдельных компонент исходной структуры).

            struct A __align__(16)

            {

                float a;

                float b;

                uint  c;

            }; 

            A array [1024]; 

            . . .

            A a = array [threadIdx.x]; 

                 В приведенном выше примере чтение структуры каждой нитью не даст объединения  обращений к памяти и на доступ к каждому элементу массива  A понадобится отдельная транзакция.

                 Вместо  одного массива A можно сделать три массива его компонент.

            float a [1024];

            float b [1024];

            uint  c [1024];

            . . .

            float fa = a [threadIdx.x];

            float fb = b [threadIdx.x];

            uint  uc = c [threadIdx.x]; 

                 В результате такого разбиения каждый из трех запросов к очередной компоненте исходной структуры приведет к объединению  и в результате нам понадобится  всего по три транзакции на half-warp (вместо 16 ранее).

                 Еще одним важным моментом при работе с глобальной памятью является то, что при большом числе нитей, выполняемых на мультипроцессоре (мультипроцессор  поддерживает до 768 нитей), время ожидания warp'ом доступа к памяти может быть использовано для выполнения других warp'ов. Чередование вычислений с обращениями к памяти позволяет более оптимально использовать ресурсы GPU.

                 Так первому warp'у нужен доступ к памяти. Управление передается другому warp'у, выполняется одна команда для него, далее управление опять передается следующему warp'у и т.д. Для того, чтобы избежать "простоя" мультипроцессора, достаточно обеспечить большое количество warp'ов, которые смогут выполняться в то время, когда первый warp ждет.

                 Для оптимального доступа к памяти и  регистрам желательно, чтобы количество нитей в блоке было кратным 64 и  было не менее 192.  

                 Работы  с shared-памятью

                 Для повышения пропускной способности  вся shared-память разбита на 16 банков. Каждый банк работает независимо и если идет обращение к набору слов, лежащих в разных банках, то все эти запросы будут обработаны одновременно.

                 Если  же сразу несколько нитей обращаются к одному и тому же банку памяти, то происходит конфликт банков (bank conflict) и эти запросы будут выполняться последовательно один за другим (т.е. в несколько раз медленнее).

                 Банки памяти организованы следующим образом - последовательно идущие 32-битовые  слова попадают в последовательно  идущие банки. GPU при обращении к  shared-памяти независимо обрабатывает запросы от нитей из первого и от второго half-warp'ов. Таким образом, нити, принадлежащие разным half-warp'ам не могут вызывать конфликт банков - конфликтовать могут только нити в пределах каждого half-warp'а между собой.

                 Рассмотрим  типичный пример, когда адрес для  обращения к памяти линейно зависит  от номера нити:

            __shared__ float buf [128];

            float            v = buf [baseIndex + threadIdx.x * s]; 

                 При такой схеме обращения к shared-памяти конфликтов не будет только тогда, когда s нечетно. Однако обратите внимание, что если идет доступ к элементам меньшего размера, то ситуация изменяется:

            __shared__ char buf [128];

            char            v = buf [baseIndex + threadIdx.x]; 

                 Как легко заметить buf[0], buf[1], buf[2] и buf[3] лежат в одном и том же банке. Поэтому в приведенном выше случае будет иметь место 4-кратный конфликт. Однако его легко можно избежать, поменяв схему обращения к памяти:

            __shared__ char buf [128];

            char            v = buf [baseIndex + threadIdx.x * 4]; 

                 На  следующем рисунке приведены  типичные способы обращения нитей  к shared-памяти, когда конфликтов банков не происходит - фактически это означает что существует взаимно-однозначное соответствие между нитями half-warp'а и банками памяти.

            Рисунок 9 - Паттерны безконфликтного доступа к банкам shared-памяти.

                 Возможен  на самом деле еще один случай, когда  конфликта банков не происходит - если все нити обращаются к одному и  тому же адресу в памяти - в этом случае происходит всего одно обращение  к памяти.

            Рисунок 10 - Паттерны доступа, приводящие к конфликтам.

                 На  рисунке 10 приведены два способа обращения к shared-памяти, приводящие к возникновению конфликтов.

                 Довольно  часто используемым приемом при  работе с shared-памятью является загрузка блока большой исходной матрицы в небольшую (обычно 16*16) матрицу в shared-памяти и проведение расчетов, используя загруженную матрицу.

                 При этом сама загрузка (когда каждая нить загружает по одному элементу) обычно приводит к объединению запросов в глобальную память. Однако при  обработке полученной небольшой  матрицы в shared-памяти следует иметь в виду, что если ее размер кратен 16, то каждый ее столбец размещается в одном банке. Поэтому если каждая нить по очереди перебирает элементы, сначала из первого столбца, затем из второго и т.д., то мы сразу получаем конфликт банков, причем порядка 16.

                 Самым простым способом избежать этого  является дополнение матрицы еще  одним столбцом (т.е. от матрицы из 16 столбцов мы переходим к матрице из 17 столбцов). За счет этого расположение столбцов в памяти сдвигается, и каждый столбец теперь равномерно распределяется по всем банкам памяти.

            Рисунок 11 - Дополнение матрицы.

                 Вообще  подобный прием - добавление к каждой строке матрицы нескольких дополнительных байт довольно распространен в CUDA - за счет него при доступе к глобальной памяти мы легко гарантируем выравнивание для начала строки, а при доступе к shared-памяти - равномерное распределение столбца по банкам памяти.

                 Локальная память

                 Когда нитям блока не хватает имеющихся  на мультипроцессоре регистров, то для  размещения локальных переменных используется локальная память GPU. Локальная память размещена в DRAM и не кэшируется, поэтому  доступ к ней такой же медленный как и к глобальной памяти. Однако компилятор выполняет запросы отдельных нитей к локальной памяти, объединяя в одну транзакцию (coalescing).

            Реорганизация вычислений

             

                 Как последнее и наиболее радикальное  средство повышения производительности рассматривают – изменение принципов  алгоритма и используемых функций  вычислений.

                 Так для получения быстрых и удовлетворяющих вашим требованиям программ на CUDA нужно знать специфические команды архитектуры и их стоимость (число тактов, clocks).

                 Рассмотрим  специфические команды архитектуры. Выполнение следующих действий требует 4 тактов мультипроцессора:

              • операции сложения, умножения и madd для типа float;
              • целочисленное сложение;
              • побитовые операции, сравнение, min, max;
              • операции преобразования типов.

                 Функции 1/x, 1/sqrt(x) и __logf(x) выполняются за 16 тактов.

                 Целочисленное умножение (32-битовое) также требует 16 тактов, однако во многих случаях  вместо него можно воспользоваться  функциями __mul24(x,y) и __umul24(x,y), которые занимают всего 4 такта, но осуществляют 24-битовое умножение (т.е. если числа не очень большие - старший байт равен нулю - то эти функции точно заменяют умножение).

                 Крайне  дорогостоящими операциями, которые  желательно избегать, оказывается целочисленное  деление (x/y) и целочисленный остаток от деления (x%y). В ряде случаев их можно заменять побитовыми операциями, в случае когда идет деление на константу (являющуюся степенью двух) или взятие остатка от деления на константу (вида 2n-1), то компилятор сам заменяет операцию на побитовую.

                 Квадратный  корень реализуется как суперпозиция двух операций 1/x и 1/sqrt(x) и поэтому занимает 32 такта.

                 Деление на значение типа float требует 36 тактов, однако есть функция __fdividef(x,y), осуществляющая деление за 20 тактов (но возвращающая ноль при очень больших значениях y).

                 Функции __sinf(x), __cosf(x) и __expf(x) требуют 32 тактов, функции sinf(x), cosf(x), sincos(x) и tanf(x) гораздо более дорогостоящи.

                 Кроме того компилятор может вставлять  команды для приведения типа в  следующих случаях:

              • на вход функции, принимающий int (или usnigned int) передается char или short;
              • использование констант типа double внутри выражения, использующего float;
              • передаче float-значения на вход функции, требующей double (например sin).

                 Поэтому рекомендуется явно указывать тип  float, например вместо 1.3 писать 1.3f и использовать float-аналоги функций (например __sinf или sinf вместо sin).

                 Обращение к памяти занимает 4 такта, при обращении  к глобальной памяти следует также  добавить еще от 400 до 600 тактов.

                 Вызов __syncthreads() требует 4 тактов, если не нужно ждать ни одной нити в warp'е.

                 Но  следует отметить, что данный этап обычно требует изменений алгоритма, введений новых ограничений на размеры  чисел и других особенностей, которые  в итоге приводят к громоздкому  и совершенно неадекватному при  модификациях коду.

                 Как альтернативу данному методу можно  пользоваться опцией компилятора nvcc --use_fast_math | -use_fast_math (использовать библиотеку быстрых, но не точных вычислений), которая автоматически при выполнении всех математических операций заменяет их на более быстрые аналоги, что дает прирост производительности, но и все связанные с этим недостатки. Мы предлагаем пользоваться данным методом при планировании ожидаемого выигрыша от реорганизации вычислений.

              • 1.6 Исследование производительности
               

                   Одной из целей данной работы является создание более производительного метода вейвлет преобразования сигнала, чтобы впоследствии рассмотреть возможность применения в интерактивных методах множества прикладных областей (от исследований сейсмических сигналов до сжатия изображений).

                   На  рисунке ниже приведен результат  преобразования на основе GPGPU, как можно  заметить мы достигли некоторого шумоподавления обусловленного применением вейвлета Добеши 8.

              Рисунок 12 – Вейвлет фильтрация сейсмического сигнала

                   Для исследования производительности немного  провести серию тестов на разных объемах  входных данных. Заметим, что трудоемкость работы метода не зависит от характера  входных данных, а только от их объема. Чтобы сориентироваться в достигнутом  на данный момент быстродействии  вейвлет  преобразования будем тестировать  одновременно и последовательный метод  вейвлет преобразования для CPU, взятый из промышленной свободно распространяемой библиотеки gsl. В таблицах 3 и 4 приведены конфигурации тестовой системы.

                   В приложении В отражен запуск теста вейвлет преобразования для разных объемов входных данных. В таблице ниже и на графике приведены времена преобразований для CPU и для GPU.

              Таблица 2 — Время на Вейвлет фильтрацию

              Количество  отсчетов CPU преобразование, мс CUDA преобразование, мс CUDA в сравнении с CPU, раз
              65536 12 67 0,18
              131072 26 67 0,39
              262144 81 61 1,33
              524288 159 73 2,18
              1048576 319 85 3,75
              2097152 677 97 6,98
              4194304 1401 133 10,53
              8388608 2855 209 13,66
              16777216 5964 355 16,80
              33554432 11979 638 18,78
              67108864 31802 1350 23,56
               

                   Как и ожидалось, время на процессоре растет линейно при росте объемов входных данных, а на GPGPU близка к константе.

              Рисунок 13 — Время вейвлет преобразования сигнала

              Таблица 3 - Аппаратная часть тестовой платформы

                  
              Центральный процессор: Intel Core 2 Duo E2200 2.2 ГГц 2 Мб Cache;

              частота шины 800 МГц;

              Оперативная память: 2048 Мб DDR3 800 МГц;
              Чипсет: Intel G33;
              Видеоадаптер: Дискретный  стоковый адаптер NVidia Corporation;

              NVIDIA GeForce 9800 GT 1024 Мб GDDR-3;

               

              Таблица 4 - Программная часть тестовой платформы

                  
              Операционная  система Ubuntu Linux 10.04 x86 32бит;
              Драйвер NVIDIA Driver for Linux  195.35.08 ;
              Версия CUDA SDK CUDA SDK 3.0 for Linux
              Версия CUDA toolkit CUDA Toolkit 3.0 for Linux

                Заключение

               

                   В результате выполнения данной работы были достигнуты поставленные цели.

                • Разработан модуль вейвлет преобразования на основе GPGPU.
                • Исследована производительность модуля, время выполнения на GPGPU NVIDIA 9800 GT в сравнении с CPU Intel Core 2 DUO E2200 в 23 раза меньше.
                • Модуль поддерживает вейвлет преобразование для всех распространенных материнских вейвлетов.
                • Модуль внедрен в действующий программный комплекс по анализу сейсмических сигналов Seismo Detector.
                • Исследована практическая эффективность Cuda технологии для решения многопроходных задач, допускающих мелкозернистый параллелизм.

                   Как развитие данной работы планируется  разработка гетерогенных вычислительных методов, которые будут использовать и универсальные процессоры и  специализированные параллельно массивные  вычислители GPGPU совместно для решения  задач, что в целом при работе в ограниченных условиях (полевых, или ограниченных бюджетных условиях) даст существенное преимущество в скорости работы.

                Список  использованных источников

               
              1. Хайретдинов М.С., Клименко С.М. Программная система автоматизированной локации и визуализации сейсмических источников. Труды III Межд. конф. "Мониторинг ядерных испытаний и их последствий", Боровое, 2004.–Вестник НЯЦ РК, С.70–76
              2. NVIDIA CUDA Programming Guide / NVIDIA Corporation, 2008 – 111 с.
              3. Luebke, D., GPGPU: General Purpose Computation On Graphics Hardware / Luebke D., Harris M., Kruger J., и др. – SIGGRAPH, 2005. – 277 c
              4. Tarditi, D.Accelerator: Using Data Parallelism to Program GPUs for General-Purpose Uses / Tarditi D., Puri S., Oglesby J – Microsoft Research, 2006 – 11 с.

                Приложение  А. Исходный код Вейвлет  преобразования на GPGPU

                • dwt_kernel_float.cu — ядра GPGPU
                 

                #ifndef _DWT_KERNEL_H_

                #define _DWT_KERNEL_H_ 

                #include <stdio.h>

                #include "dwt_float.h" 

                __global__ void

                cudaDWTStepForward(float *a, const size_t n, const size_t nmod/*, const size_t stride*/, const float * const h1, const float* const g1, const size_t nc, float*scratch)

                {

                    __shared__ float sh_h1[NC_SZ]; // h1 в общей памяти

                    __shared__ float sh_g1[NC_SZ]; // h2 в общей памяти 

                    const size_t tidx = threadIdx.x;

                    if(tidx < nc){ // загружаем коэффициенты в общую память их у нас nc

                          sh_h1[tidx] = h1[tidx]; // выполняя все потоки блока мы заполняем общую память для блока

                          sh_g1[tidx] = g1[tidx]; //

                    }   

                    const size_t idbx = (blockDim.x - nc) * blockIdx.x; // индекс данных соответствующих началу блока 

                    __shared__ float sh_ai[2*BL_SZ]; // включает nc/2 элементов перед + (blockDim.x - nc/2) нормальных элементов. 

                    const int a_idx = idbx + tidx; //индекс текущего элемента данных 

                    const size_t ni = 2*a_idx + nmod;

                    if( ni >= n) { // имитируем заполнение нулями несуществующих предыдущих элементов

                            sh_ai[2*tidx]  = 0.0f;

                            sh_ai[2*tidx + 1]  = 0.0f;

                      } else {  // заполняем нужными значениями

                            sh_ai[2*tidx]  = a[ni];

                            sh_ai[2*tidx + 1]  = a[ni + 1];

                      } 

                    __syncthreads(); // синхронизация потоков для нормальности общей регистровой памяти памяти 

                    const size_t nh = n>>1;

                    if(a_idx < nh && tidx < blockDim.x - nc){ //

                        float h = 0, g = 0; 

                        for (size_t k = 0; k < nc; k++)   // работа с коэффициентами

                          {

                //            const size_t jf = n1 & (ni + k);

                //            const float ani = a[stride * jf];

                            const float ani = sh_ai[2*tidx + k];

                            h += sh_h1[k] * ani;

                            g += sh_g1[k] * ani;

                          }

                         

                        scratch[a_idx] = h;       // Преобразованные данные

                        scratch[a_idx + n/2] = g;

                   }

                } 

                      // Сделать шаг обратной фильтрации - сейчас прямая

                __global__ void

                cudaDWTStepBack(float *a, const size_t n, const size_t nmod, const size_t stride, const float * const h2, const float* const g2, const size_t nc, float*scratch)

                // 128 сильно зависит от nc и количество обрабатываемых данных в одном блоке при слиянии 

                    __shared__ float sh_h2[NC_SZ]; // nc коэффициентов

                    __shared__ float sh_g2[NC_SZ]; // nc коэффициентов 

                    const size_t tidx = threadIdx.x; // индекс потока

                //    if(tidx < 2*nc){ // проверить вероятно лишнее 

                   

                    if(tidx < nc){ // загружаем коэффициенты в общую память их у нас nc

                    sh_h2[tidx] = h2[tidx];

                     sh_g2[tidx] = g2[tidx];

                    }

                    const size_t nc_div_2 = nc/2; 

                     

                    const size_t idbx = (blockDim.x - nc_div_2) * blockIdx.x; // индекс данных соответствующих началу блока 

                    const int a_idx = idbx + (tidx - nc_div_2); //индекс текущего элемента данных

                   

                    __shared__ float sh_ai[BL_SZ]; // включает nc/2 элементов перед + (blockDim.x - nc/2) нормальных элементов.

                    __shared__ float sh_ai1[BL_SZ]; // то же самое, но из второй половины 

                    const size_t nh = n>>1;

                    if(a_idx < nh){ // работаем только с нужным диапозоном

                      if( a_idx < 0) { // имитируем заполнение нулями несуществующих предыдущих элементов

                            sh_ai[tidx]  = 0.0f;

                            sh_ai1[tidx] = 0.0f;

                      } else {  // заполняем нужными значениями

                            sh_ai[tidx]  = a[a_idx];

                            sh_ai1[tidx] = a[a_idx + nh];

                      }

                    }

                   

                    __syncthreads(); // синхронизация потоков для нормальности общей регистровой памяти 

                      // Здесь выполняем работу по  слиянию

                    if(a_idx < nh && tidx >= nc_div_2){ // работаем с потоками больше nc/2, и в нужном диапозоне данных

                      float ai;

                      float ai1;

                        float s = 0.0f;

                      float s2 = 0.0f; 

                        for (size_t k = 0, k_div_2 = 0; k < nc; k+=2, k_div_2++) {  // вычисление четного и нечетного членов при слиянии

                            ai  = sh_ai[tidx - k_div_2];

                            ai1 = sh_ai1[tidx - k_div_2]; 

                              s  += ai*sh_h2[k] + ai1*sh_g2[k];    // для четных элементов

                      s2 += ai*sh_h2[k + 1] + ai1*sh_g2[k + 1];  // для нечетных элементов

                      }

                         

                     const size_t ni = (n - 1)&(2*a_idx + nmod);

                     scratch[ni] = s;

                     scratch[ni + 1] = s2;

                   }

                //  }

                }

                __global__ void

                cudaDenoiseKernel(float *data, const size_t n,const float threshold)

                {

                   const size_t idx = blockDim.x * blockIdx.x + threadIdx.x; // индекс элемента данных в первой половине = РазмерБлока*номерБлока + индексПотокаВБлоке

                   if(idx < n){

                  float d = data[idx];

                  const float fd = fabsf(d);

                      float t = fd - threshold;

                       t = (t + fabsf(t)) / 2.f; 

                       // Signum

                       if (d != 0.f) d = d / fd * t;

                       data[idx] = d;

                //  tmp[idx] = t;

                      }

                } 

                #endif

                  • dwt_float.cu — промежуточный слой между CPU и GPU слоями
                   

                  // Utilities and system includes

                  #include <shrUtils.h>

                  #include "cutil_inline.h" 

                  #include "dwt_float.h" // Загрузка объявлений функций ядер и их параметров 

                  void initGPUDevice()

                  {

                      cudaSetDevice(cutGetMaxGflopsDeviceId());

                  } 

                  void exitGPUDevice()

                  {

                      cudaThreadExit();

                  } 

                  // перед  запуском нужно еще инициализировать  адаптер где-то

                  void cudaDStepForward(float *a, float *d_a, const size_t n, const size_t nmod, const size_t stride, const float * const d_h1, const float* const d_g1, const size_t nc, float*d_scratch)

                  { 

                        // Выделение памяти на видео-карте  под данные и коэффициенты

                      cutilSafeCall(cudaMemcpy(d_a, a, sizeof(*a)*n,

                                                cudaMemcpyHostToDevice) ); 

                      // параметры конфигурации исполнения

                       const size_t block_size = BL_SZ;

                       dim3 threads( block_size, 1);

                       const size_t grid_size = (n/2) / (block_size - nc) + (((n/2)%(block_size - nc))>0); // n/2 потому проходится лишь первая половина

                       dim3 grid(grid_size, 1); 

                       // запуск ядра на видео-карте

                       cudaDWTStepForward<<< grid, threads >>>(d_a, n, nmod/*, stride*/, d_h1, d_g1, nc, d_scratch); 

                        // Сохранение обработанных данных  в память хоста

                      cutilSafeCall(cudaMemcpy( a, d_scratch, sizeof(*a)*n,

                                                cudaMemcpyDeviceToHost) ); 
                   

                        //  Выйти из всех потоков

                      cudaThreadExit();

                  } 

                  // перед  запуском нужно еще инициализировать  адаптер где-то

                  void cudaDStepInverse(float *a, float *d_a, const size_t n, const size_t nmod, const size_t stride, const float * const d_h2, const float* const d_g2, const size_t nc, float*d_scratch)

                  {

                        // Выделение памяти на видео-карте  под данные и коэффициенты 

                      cutilSafeCall(cudaMemcpy(d_a, a, sizeof(*a)*n,

                                                cudaMemcpyHostToDevice) ); 

                      // параметры конфигурации исполнения

                       const size_t block_size = 512;

                       dim3 threads( block_size, 1);

                       const size_t grid_size = (n/2) / (block_size - nc/2) + (((n/2)%(block_size - nc/2))>0); // n/2 потому проходится лишь первая половина

                       dim3 grid(grid_size, 1); 

                       // запуск ядра на видео-карте

                       cudaDWTStepBack<<< grid, threads >>>(d_a, n, nmod, stride, d_h2, d_g2, nc, d_scratch);

                       cudaThreadSynchronize(); // синхронизация потоков выполнения на видеокарте 

                        // Сохранение обработанных данных  в память хоста

                      cutilSafeCall(cudaMemcpy( a, d_scratch, sizeof(*a)*n, cudaMemcpyDeviceToHost) ); 

                        //  Выйти из всех потоков

                      cudaThreadExit();

                  } 

                  #define ELEMENT(a,stride,i) ((a)[(stride)*(i)])

                  void

                  cudaDwtStepDevice (const gsl_wavelet_float * w, float *a, float *d_a, size_t stride, size_t n,

                            gsl_wavelet_direction dir, gsl_wavelet_workspace_float * work, float * d_h, float* d_g, float* d_scratch)

                  {

                    size_t nmod;

                    nmod = w->nc * n ;

                    nmod -= w->offset;           // center support  

                    if (dir == gsl_wavelet_forward)

                      {   // прямое преобразование

                          cudaDStepForward(a, d_a, n, nmod, stride, d_h, d_g, w->nc, d_scratch);

                      }

                    else

                      {       // обратное преобразование

                          cudaDStepInverse(a, d_a, n, nmod, stride, d_h, d_g, w->nc, d_scratch);

                      } 

                  } 

                  void

                  cudaDwtTransform (const gsl_wavelet_float * w, float *data, size_t stride, size_t n,

                            gsl_wavelet_direction dir, gsl_wavelet_workspace_float * work){ 

                      float* d_a;

                      cutilSafeCall(cudaMalloc((void**) &d_a, sizeof(*data)*n));

                      cutilSafeCall(cudaMemcpy(d_a, data, sizeof(*data)*n,

                                                cudaMemcpyHostToDevice) );

                     

                      float* d_scratch;

                      cutilSafeCall(cudaMalloc((void**) &d_scratch, sizeof(*data)*n)); 

                    int i;

                    if (dir == gsl_wavelet_forward)

                      {

                     

                      float* d_h1;

                      cutilSafeCall(cudaMalloc((void**) &d_h1, sizeof(*w->h1)*w->nc));

                      cutilSafeCall(cudaMemcpy(d_h1, w->h1, sizeof(*w->h1)*w->nc,

                                                cudaMemcpyHostToDevice) );

                      float* d_g1;

                      cutilSafeCall(cudaMalloc((void**) &d_g1, sizeof(*w->g1)*w->nc));

                      cutilSafeCall(cudaMemcpy(d_g1, w->g1, sizeof(*w->g1)*w->nc,

                                                cudaMemcpyHostToDevice) ); 

                        for (i = n; i >= 2; i >>= 1)

                          {

                            cudaDwtStepDevice (w, data, d_a, stride, i, dir, work, d_h1, d_g1, d_scratch);

                          }

                         

                      cutilSafeCall(cudaFree(d_h1));

                      cutilSafeCall(cudaFree(d_g1)); 

                      }

                    else

                      {

                     

                      float* d_h2;

                      cutilSafeCall(cudaMalloc((void**) &d_h2, sizeof(*w->h2)*w->nc));

                      cutilSafeCall(cudaMemcpy(d_h2, w->h2, sizeof(*w->h2)*w->nc,

                                                cudaMemcpyHostToDevice) );

                      float* d_g2;

                      cutilSafeCall(cudaMalloc((void**) &d_g2, sizeof(*w->g2)*w->nc));

                      cutilSafeCall(cudaMemcpy(d_g2, w->g2, sizeof(*w->g2)*w->nc,

                                                cudaMemcpyHostToDevice) );

                        for (i = 2; i <= n; i <<= 1)

                          {

                            cudaDwtStepDevice (w, data, d_a, stride, i, dir, work, d_h2, d_g2, d_scratch);

                          }

                         

                      cutilSafeCall(cudaFree(d_h2));

                      cutilSafeCall(cudaFree(d_g2));

                      } 

                      cutilSafeCall(cudaMemcpy( work->scratch, d_scratch, sizeof(*d_scratch)*n,

                                                cudaMemcpyDeviceToHost) );

                      cutilSafeCall(cudaMemcpy( data, d_a, sizeof(*d_a)*n,

                                                cudaMemcpyDeviceToHost) );

                      cutilSafeCall(cudaFree(d_scratch));

                      cutilSafeCall(cudaFree(d_a)); 

                  } 
                   

                  void cudaDenoise(float* data, const int len, const float threshold) // Функция самой фильтрации

                  {

                      float* d_a;

                      cutilSafeCall(cudaMalloc((void**) &d_a, sizeof(*data)*len));

                      cutilSafeCall(cudaMemcpy(d_a, data, sizeof(*data)*len,

                                                cudaMemcpyHostToDevice) ); 

                      // параметры конфигурации исполнения

                       const size_t block_size = 16;

                       dim3 threads( block_size, 1);

                       const size_t grid_size = len / (block_size) + ((len%(block_size))>0); // n/2 потому проходится лишь первая половина

                       dim3 grid(grid_size, 1); 

                       // запуск ядра на видео-карте

                        cudaDenoiseKernel<<< grid, threads >>>(d_a, len, threshold);

                       cudaThreadSynchronize(); // синхронизация потоков выполнения на видеокарте 
                   

                      cutilSafeCall(cudaMemcpy( data, d_a, sizeof(*data)*len, cudaMemcpyDeviceToHost) ); 

                      cutilSafeCall(cudaFree(d_a));

                  }

                    • dwt_float.h — заголовочный файл с описание ядер и их параметров
                     

                    extern "C" void initGPUDevice();

                    extern "C" void exitGPUDevice(); 

                    __global__ void

                    cudaDWTStep(float *a, const size_t n, const size_t nmod/*, const size_t stride*/, const float * const h1, const float* const g1, const size_t nc, float*scratch); 

                    __global__ void

                    cudaDWTStepForward(float *a, const size_t n, const size_t nmod/*, const size_t stride*/, const float * const h1, const float* const g1, const size_t nc, float*scratch); 

                          // Сделать шаг обратной фильтрации - сейчас прямая

                     __global__ void

                    cudaDWTStepBack(float *a, const size_t n, const size_t nmod, const size_t stride, const float * const h1, const float* const g1, const size_t nc, float*scratch); 

                    #include "wavelet/gsl_wavelet.h" 

                    extern "C" void

                    cudaDwtTransform (const gsl_wavelet_float * w, float *a, size_t stride, size_t n,

                              gsl_wavelet_direction dir, gsl_wavelet_workspace_float * work); 

                    __global__ void

                    cudaDenoiseKernel(float *data, const size_t n,  float threshold); 

                    extern "C"  void cudaDenoise(float* data, int len, float threshold); 

                    #define NC_SZ 128

                    #define BL_SZ 256

                      • wavelet_denoise.cpp – общий ход Вейвлет преобразования
                       

                      int cuda_wavelet_denoise_auto(double* data, int len)    // must work on GPGPU

                      {

                          float* floatdata = (float*) malloc(len * sizeof(float)); 

                          /* Объявление переменных */

                          double* threshold_rescales;  /* Массив масштабов порогов для каждого из уровней разложения */

                          gsl_wavelet *wavelet;   /* Структура представления вейвлета */

                          gsl_wavelet_workspace *work;  /* Служебная структура для промежуточных данных */

                          gsl_wavelet_float waveletfloat;   /* Структура представления вейвлета */

                          gsl_wavelet_workspace_float workfloat;  /* Служебная структура для промежуточных данных */

                          int decomp_level;   /* Уровень дискретного вейвлет-разложения */

                          double threshold;   /* Порог для пороговой обработки коэффициентов */

                          double thresh_curr;   /* Значение порога, смасштабированное для конкретного уровня разложения */

                          double len_curr;   /* Длина отрезка массива коэеффициентов для конкретного уровня разложения */

                          int k;     /* Счётчик цикла */

                          int i; 

                          /* Инициализация переменных */ 

                          decomp_level = get_power_of_2(len); /* Вычисление уровня вейвлет-разложения */

                          if (decomp_level == -1) return -2; /* TODO: код ошибки: "массив данных имеет длину не равную степени 2-ки" */ 
                       

                          threshold_rescales = (double*) malloc(decomp_level * sizeof(double));

                          if (threshold_rescales == 0) return -1;  //TODO: код ошибки: "Не достаточно памяти"

                          wavelet = gsl_wavelet_alloc (gsl_wavelet_daubechies, 8);

                          work = gsl_wavelet_workspace_alloc (len); 

                          waveletfloat.nc = wavelet->nc;

                          waveletfloat.type = wavelet->type;

                          waveletfloat.offset = wavelet->offset;

                          waveletfloat.g1 = (float*)malloc(wavelet->nc*sizeof(float));

                          waveletfloat.g2 = (float*)malloc(wavelet->nc*sizeof(float));

                          waveletfloat.h1 = (float*)malloc(wavelet->nc*sizeof(float));

                          waveletfloat.h2 = (float*)malloc(wavelet->nc*sizeof(float)); 

                          doubleCopyToFloat(wavelet->g1, (float*)waveletfloat.g1, wavelet->nc);

                          doubleCopyToFloat(wavelet->g2, (float*)waveletfloat.g2, wavelet->nc);

                          doubleCopyToFloat(wavelet->h1, (float*)waveletfloat.h1, wavelet->nc);

                          doubleCopyToFloat(wavelet->h2, (float*)waveletfloat.h2, wavelet->nc); 

                          workfloat.n = work->n;

                          workfloat.scratch = (float*)malloc(sizeof(float)*work->n);

                          doubleCopyToFloat(work->scratch, workfloat.scratch, work->n); 

                          initGPUDevice(); 

                          QTime FullFilterTime;

                          FullFilterTime.start(); 

                          /* Прямое вейвлет-преобразование */

                          doubleCopyToFloat(data, floatdata, len);

                          cudaWaveletTransform_forward (&waveletfloat, floatdata, 1, len, &workfloat); 

                          /* ----------------------------------------- */

                          /* Начало фильтрации */

                           noise_estimation_float(floatdata, threshold_rescales, decomp_level); /* Вычисление масштабных коэфф-в для каждого уровня разложения */

                          threshold = select_threshold(len); /* Оценка значения базового порога */ 

                          i = len / 2;

                          len_curr = len / 2;

                          for (k = decomp_level - 1; k >= 0; k--)

                          {

                                  thresh_curr = threshold * threshold_rescales[decomp_level - 1 - k]; 

                                  cudaDenoise( &(floatdata[i]), len_curr, (float)thresh_curr); 

                                  len_curr /= 2;

                                  i -= len_curr;

                          } 

                          /* Конец фильтрации */

                          /* ----------------------------------------- */ 

                          /* Обратное вейвлет-преобразование (восстановление сигнала) */

                         cudaWaveletTransform_inverse (&waveletfloat, floatdata, 1, len, &workfloat);

                         floatCopyToDouble(floatdata, data, len); 

                         exitGPUDevice(); 

                         qDebug("Cuda FullFilterTime: %d ms", FullFilterTime.elapsed()); 

                          free((void*)waveletfloat.g1);

                          free((void*)waveletfloat.g2);

                          free((void*)waveletfloat.h1);

                          free((void*)waveletfloat.h2);

                          free((void*)workfloat.scratch); 

                          free (threshold_rescales);

                          gsl_wavelet_free (wavelet);

                          gsl_wavelet_workspace_free (work); 

                          return 0;

                      }

                        Приложение  Б. Характеристики сопроцессора на основе GPGPU

                       

                      evgeniy@evgeniy-desktop:~/NVIDIA_GPU_Computing_SDK/C/bin/linux/release$ sudo ./deviceQuery

                      ./deviceQuery Starting...

                      CUDA Device Query (Runtime API) version (CUDART static linking)

                      There is 1 device supporting CUDA

                      Device 0: "GeForce 9800 GT"

                        CUDA Driver Version:                           3.0

                        CUDA Runtime Version:                          3.0

                        CUDA Capability Major revision number:         1

                        CUDA Capability Minor revision number:         1

                        Total amount of global memory:                 1073020928 bytes

                        Number of multiprocessors:                     14

                        Number of cores:                               112

                        Total amount of constant memory:               65536 bytes

                        Total amount of shared memory per block:       16384 bytes

                        Total number of registers available per block: 8192

                        Warp size:                                     32

                        Maximum number of threads per block:           512

                        Maximum sizes of each dimension of a block:    512 x 512 x 64

                        Maximum sizes of each dimension of a grid:     65535 x 65535 x 1

                        Maximum memory pitch:                          2147483647 bytes

                        Texture alignment:                             256 bytes

                        Clock rate:                                    1.50 GHz

                        Concurrent copy and execution:                 Yes

                        Run time limit on kernels:                     Yes

                        Integrated:                                    No

                        Support host page-locked memory mapping:       No

                        Compute mode:                                  Default (multiple host threads can use this device simultaneously) 

                      deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 134564823, CUDA Runtime Version = 3.0, NumDevs = 1, Device = GeForce 9800 GT

                        Приложение  В. Запуск теста вейвлет преобразования

                       

                      evgeniy@evgeniy-desktop:~/work/dissertation/seismo_source/seismo_detector$ ./seismodetector

                      sample count: 65536

                      CPU FullFilterTime: 12 ms

                      Cuda FullFilterTime: 67 ms

                      sample count: 131072

                      CPU FullFilterTime: 26 ms

                      Cuda FullFilterTime: 67 ms

                      sample count: 262144

                      CPU FullFilterTime: 81 ms

                      Cuda FullFilterTime: 61 ms

                      sample count: 524288

                      CPU FullFilterTime: 159 ms

                      Cuda FullFilterTime: 73 ms

                      sample count: 1048576

                      CPU FullFilterTime: 319 ms

                      Cuda FullFilterTime: 85 ms

                      sample count: 2097152

                      CPU FullFilterTime: 677 ms

                      Cuda FullFilterTime: 97 ms

                      sample count: 4194304

                      CPU FullFilterTime: 1401 ms

                      Cuda FullFilterTime: 133 ms

                      sample count: 8388608

                      CPU FullFilterTime: 2855 ms

                      Cuda FullFilterTime: 209 ms

                      sample count: 16777216

                      CPU FullFilterTime: 5964 ms

                      Cuda FullFilterTime: 355 ms

                      sample count: 33554432

                      CPU FullFilterTime: 11979 ms

                      Cuda FullFilterTime: 638 ms

                      sample count: 67108864

                      CPU FullFilterTime: 31802 ms

                      Cuda FullFilterTime: 1350 ms 

                       

                       

                      Приложение  Г. Калькулятор использования ресурсов устройства GPGPU

                       

Информация о работе Эффективность вейвлет фильтрации сигнала на GPGPU