Современные информационные технологии/Вычислительная техника и программирование

Мясищев А.А.

Хмельницкий национальный университет, Украина

Решение систем линейных уравнений на двуядерных процессорах с использованием технологии OpenMP

При решении ряда прикладных задач, описываемых дифференциальными уравнениями в частных производных, возникает необходимость в решении систем линейных уравнений. В частности при решении задач теории упругости, пластичности которые сводятся к решению систем дифференциальных уравнений в напряжениях и скоростях, используется метод конечных элементов. В свою очередь данный метод сводится к построению матриц жесткости и решению систем линейных уравнений, содержащей тысячи и даже десятки тысяч неизвестных. При решении пластических задач решение системы уравнений приходится выполнять сотни и тысячи раз для выявления конечной конфигурации деформируемого материала. Решение этих задач требует вычислительных систем высокой производительности. В настоящее время широкое распространение получили компьютеры с многоядерными процессорами. Например, двуядерные и четырехядерные процессоры фирмы Intel и AMD. Причем прогрессирование технологии производства процессоров в настоящее время идет по пути увеличения числа ядер. И как отмечают производители, обычный персональный компьютер с одним из таких процессоров превращается в параллельную вычислительную систему с общей памятью (SMP-система). Проблема заключается в том, чтобы распараллелить, например задачу решения систем линейных уравнений так, чтобы получить максимальную загрузку многоядерного процессора и выигрыш в производительности примерно соответствующий числу ядер. В качестве примера рассмотрим решение системы линейных уравнений с использованием технологии OpenMP и компилятора Фортран под управлением операционной системы ASP Linx 11.2 на персональных компьютерах с двуядерными процессорами Pentium E2160 и Athlon 64x2 4000+ .

Идея технологии OpenMP состоит в следующем. За основу берется последовательная программа, а для создания ее параллельной версии предоставляется набор директив. Стандарт OpenMP разработан для языков Фортран, С и С++. Весь текст программы разбивается на последовательные и параллельные области. В начальный момент времени порождается нить-мастер или "основная" нить, которая начинает выполнение программы со стартовой точки. При входе в параллельную область порождаются дополнительные нити. После порождения каждая нить получает свой уникальный номер, причем нить-мастер всегда имеет номер 0. Все нити исполняют один и тот же код, соответствующий параллельной области. При выходе из параллельной области основная нить дожидается завершения остальных нитей, и дальнейшее выполнение программы продолжает только она. В параллельной области все переменные программы разделяются на два класса: общие (SHARED) и локальные (PRIVATE). Общая переменная всегда существует лишь в одном экземпляре для всей программы и доступна всем нитям под одним и тем же именем. Объявление локальной переменной вызывает порождение своего экземпляра данной переменной для каждой нити. Изменение нитью значения своей локальной переменной не влияет на изменение значения этой же локальной переменной в других нитях.

Все директивы OpenMP представлены в программе в виде комментариев и начинаются, согласно синтаксису Фортран, на один из трех символов: !, C или *.

Для определения параллельных областей программы используется пара директив
!$OMP PARALLEL
< параллельный код программы >
!$OMP END PARALLEL

Для выполнения кода, расположенного между данными директивами, дополнительно порождается OMP_NUM_THREADS()-1 нитей. Процесс, выполнивший данную директиву (нить-мастер), всегда получает номер 0. Все нити исполняют код, заключенный между данными директивами. После END PARALLEL автоматически происходит неявная синхронизация всех нитей, и как только все нити доходят до этой точки, нить-мастер продолжает выполнение последующей части программы, а остальные нити уничтожаются.

Все порожденные нити исполняют один и тот же код. Для распределения работы между ними часто используется директива DO. Иными словами если в последовательной программе встретился оператор цикла DO то, используя директивы

!$OMP DO
<do цикл>
!$OMP END DO

его можно распараллелить в параллельной части программы.

Рассмотрим далее последовательность решения системы линейных уравнений и программу на Фортране, которая позволит рассчитать задачу последовательно на одном ядре процессора и параллельно на двух ядрах.

Рассмотрим приведенную ниже систему 5-и линейных уравнений, которая записана в матричной форме:

(1)

Одним из наиболее эффективных методов решения системы уравнений является метод исключения Гаусса. Матрица SK системы уравнений преобразуется к треугольному виду (прямой ход) а затем решение получается последовательным определением неизвестных, начиная с самого последнего уравнения (обратный ход).

Рассмотрим прямой ход. В этом случае матрица SK последовательно преобразуется к треугольному виду за np-1 исключений. Здесь np – число уравнений. Во время 1-го исключения из первого уравнения определяется неизвестная . Затем она подставляется в оставшиеся 4-е уравнения и исключается оттуда. Во время 2-го исключения из 2-го уравнения определяется переменная и подставляется в уравнения 3, 4 и 5 исключаясь из них. Далее поступают аналогично, пока в последнем уравнении не останется только одна переменная . Во время таких исключений изменяются коэффициенты матриц SK и R1 кроме первой строки.

1-е исключение:

2-е исключение:

3-е исключение:

4-е исключение:

= (2)

Рассмотрим соотношения для определения коэффициентов матрицы.

1-е исключение:

Или в общем виде:

, i, j > 1

2-е исключение:

Или в общем виде:

, i, j > 2

3-е исключение:

Или в общем виде:

, i, j > 3

4-е исключение:

Или в общем виде:

, i, j > 5

После анализа представленных выше зависимостей для n-го исключения можно записать для членов матрицы SK общее соотношение вида:

, i, j > n

Аналогично получается для вектора-столбца R1.

1-е исключение:	2-е исключение:




Общий вид: , i>1	Общий вид: , i>2

3-е исключение:	4-е исключение:


Общий вид: , i>3	Общий вид: , i>4

После анализа представленных выше зависимостей для n-го исключения можно записать для членов вектора-столбца R1 общее соотношение вида:

, i>n

Рассмотрим обратный ход. Из последнего уравнения соотношения (2) можно записать:

Подставляя значение в 4-е уравнение (2) получим:

Аналогично можно получить и для , , :

;

Общее соотношение для неизвестной можно записать в виде

, 1 <= i < n

При i = n

Анализ соотношений показывает, что наибольшая вычислительная трудоемкость возникает при преобразовании прямоугольной матрицы к треугольному виду. Поэтому целесообразно вводить параллельные участки в этой части вычислений. Ниже представлена программа на Фортране, составленная на основе обобщенных зависимостей. В качестве компилятора использовался gfortran ver. 4.2.4 (gcc ver.4.2.4) под управлением ASP Linux 11.2, который поддерживает технологию OpenMP.

program sys_line

parameter (np=5000)

real*8 sk(np,np), r1(np),f(np),sum,time1,time2

integer tickstart, tickstop, tickrate

integer ne,jj,i,j,nl

c Задание величин коэффициентов матриц

do 1 ii=1,np

do 1 jj=1,np

sk(ii,jj)=(ii+jj)/0.89d0

if(ii.eq.jj-1) then

sk(ii,jj)=10.0d0

end if

if(ii.eq.jj+1) then

sk(ii,jj)=2.0d0

end if

1 continue

do 2 ii=1,np

2 r1(ii)=(ii*21.d0+101.d0)/1.3d0

do 3 ii=1,np

3 f(ii)=0.0d0

c Прямой ход (выполняется параллельно)

call system_clock (tickstart, tickrate)

do nl=1,np-1

c Исключение с номером nl

!$OMP PARALLEL shared(sk,r1),private(i,j)

!$OMP DO

do i=nl+1,np

do j=nl+1,np

sk(i,j)=sk(i,j)-sk(i,nl)*sk(nl,j)/sk(nl,nl)

end do

r1(i)=r1(i)-sk(i,nl)*r1(nl)/sk(nl,nl)

sk(i,nl)=0.d0

end do

!OMP END DO

!$OMP end parallel

c Конец исключения

end do

c Конец прямого хода

call system_clock (tickstop)

time1 = float (tickstop - tickstart) / float(tickrate)

c Обратный ход (выполняется последовательно)

call system_clock (tickstart, tickrate)

f(np)=r1(np)/sk(np,np)

do k=1, np-1

i=np-k

sum=0.d0

ne=np-k+1

do j=np,ne,-1

sum=sum+sk(i,j)*f(j)

end do

f(i)=(r1(i)-sum)/sk(i,i)

end do

c Конец обратного хода

call system_clock (tickstop)

time2 = float (tickstop - tickstart) / float(tickrate)

time=time1+time2

print *, 'Результат счета'

print 11, time1,time2

11 format('Time1=',f10.4,' Time2=',f10.4)

print *,'Общее время счета=',time

print 10 ,f(np-4),f(np-3),f(np-2),f(np-1),f(np)

10 format(1x,5f12.7)

end

Компиляция и запуск программы проводился последовательностью команд:

export LD_LIBRARY_PATH=/usr/local/lib

gfortran –O2 -fopenmp -o sys_line sys_line.f

./sys_line

при параллельном исполнении программы

gfortran –O2 -o sys_line sys_line.f

./sys_line

при последовательном. Параметр –O2 сообщает компилятору о необходимости оптимизации кода.

Расчет проводился на двух компьютерах с процессорами Pentium E2160 и Athlon 64x2 4000+ для разного числа линейных уравнений и для параллельного и последовательного исполнения программы. Результат экспериментального счета для компьютера с процессором Athlon 64x2 4000+ представлен в таблице 1, для компьютера с процессором Pentium E2160 – в таблице 2.

Таблица 1.

Число уравнений в системе	Время счета одним ядром, с.	Время счета двумя ядрами, с.	Ускорение
400	0.28	0.23	1.22
500	0.56	0.30	1.87
1000	9.56	5.52	1.73
2000	112.48	62.02	1.81
3000	452.26	245.51	1.84
4000	2049.03	1691.93	1.21
5000	6145.15	3779.92	1.63

Таблица 2.

Число уравнений в системе	Время счета одним ядром, с.	Время счета двумя ядрами, с.	Ускорение
400	0.72	0.37	1.95
500	1.38	0.76	1.82
1000	8.84	4.72	1.87
2000	72.98	42.19	1.73
3000	249.03	156.91	1.59
4000	1125.48	1054.40	1.07
5000	2275.32	1819.37	1.25

При работе программы выводилось время прямого хода (time1) и обратного (time2). Ни в одном случае расчета отношение времен прямого и обратного хода не было меньше значения 3000 для последовательного варианта расчета (на одном ядре). Поэтому в программе обратный ход не распараллеливался. Из таблиц видно, что для процессора Athlon 64x2 4000+ распараллеливание целесообразно, если число уравнений системы 500<np<3000 и np>5000. А для Pentium E2160 np< 2000. В этом случае эффект от распараллеливания будет наилучшим. Также видно, что при np<1000 уравнений Athlon выигрывает в производительности, но при большем числе начинает сильно проигрывать. Поэтому Athlon целесообразно использовать для решения малых систем уравнений, а E2160 для больших.

Литература.

1. Воеводин В.В., Воеводин Вл.В. Параллельные вычисления. –СПб: БХВ – Петербург, 2004.-608 с.: ил.

2. Гергель В.П. Теория и практика параллельных вычислений. http://www.intuit.ru/department/calculate/paralltp/ - 2007.