Будь умным!


У вас вопросы?
У нас ответы:) SamZan.net

Устройство современной видеокарты2

Работа добавлена на сайт samzan.net:


2 ВИДЕОКАРТЫ

2.1 Видеокарты
2.1.1 Устройство современной видеокарты
2.1.2 Технологии построения трехмерного изображения
2.2 Современные видеокарты
2.2.1 Современные видеокарты на графических процессорах NVIDIA
2.2.2 Современные видеокарты на графических процессорах AMD(ATI)
2.2.3 Технологии объединения видеокарт

2.1 Видеокарты

Современные видеокарты — это одна из самых сложных и дорогих составляющих ПК. Фактически видеокарта представляет собой своеобразный компьютер в компьютере. Плата видеокарты превосходит по сложности разводки и количеству слоев материнскую плату. На самой видеокарте имеется свой процессор и своя оперативная память. 

Прежде чем переходить к классификации и описанию современных видеокарт, необходимо познакомиться с рядом специфических терминов и понятий, которые традиционно приводятся в качестве характеристик видеокарт. Однако такие характеристики, как текселы, вершинные и пиксельные шейдеры, скорость заполнения и т. д., неразрывно связаны с пониманием принципов формирования трехмерных объектов и принципов работы современных графических ускорителей. Поэтому прежде мы постараемся в самом общем виде дать представление о том, как устроена видеокарта и как формируется трехмерное изображение.

2.1.1 Устройство современной видеокарты

Любая видеокарта включает в себя следующие обязательные компоненты:

  1. графический процессор;
  2. микросхему BIOS;
  3. видеопамять;
  4. цифроаналоговый преобразователь (RAMDAC);
  5. контроллер интерфейса.

Графический процессор

На заре развития персональных компьютеров видеокарты выполняли функцию кадрового буфера. Изображение формировалось центральным процессором компьютера и программным обеспечением, а карта отвечала лишь за хранение (в буфере памяти) и вывод с определенной частотой отдельных кадров на монитор. По мере возрастания требований к качеству и реалистичности формируемого изображения, а также к скорости рендеринга отдельных кадров, пришло понимание того факта, что центральный процессор ПК, то есть процессор общего назначения, не в состоянии эффективно решать специфические задачи формирования трехмерного изображения и для этих целей требуется специализированный графический процессор (GPU), который занимался бы исключительно расчетом трехмерного изображения. Собственно, современные графические процессоры по сложности не уступают центральным процессорам (процессорам общего назначения), и разница заключается лишь в их «специализации», благодаря чему они могут более эффективно справляться с задачей формирования изображения, выводимого на экран монитора.

Как и центральные процессоры, графические характеризуются такими параметрами, как микроархитектура, тактовая частота работы графического ядра и технологический процесс производства. Графические процессоры обладают и специфическими характеристиками. К примеру, одна из важнейших характеристик графического процессора — это число пиксельных конвейеров (Pixel Pipelines), которое определяет количество обрабатываемых пикселов за один такт. К примеру, количество пиксельных конвейеров может составлять 12 или даже 16.

Забегая вперед, отметим, что для построения трехмерного изображения необходимо выполнить целый ряд операций: принять решение, какие объекты вообще должны присутствовать в сцене (видимые и невидимые), определить местоположение вершины, которое задает каждый из этих объектов, построить по этим вершинам грани, заполнить получившиеся полигоны текстурами в соответствии с освещением, степенью детализации и с учетом перспективных искажений. Чем тщательнее делаются все эти расчеты, тем реалистичнее получится трехмерное изображение. Повысить производительность этих рутинных операций можно, разбив их по стадиям и распараллелив. Именно эти функции и решают пиксельные конвейеры. На каждой стадии каждый пиксельный конвейер занимается тем, что просчитывает очередной пиксел конечного изображения с учетом многих факторов, включая освещение сцены. А для ускорения процесса расчета используют сразу несколько конвейеров. К примеру, если используется 16 пиксельных конвейеров, то первый конвейер обрабатывает 1-й, затем 17-й, затем 33-й пиксел и т. д.; второй конвейер — 2-й, 18-й и 34-й соответственно.

Количество конвейеров позволяет определить пиковую скорость заполнения видеокарты, которая рассчитывается как произведение частоты ядра на количество конвейеров. Если, к примеру, частота ядра составляет 400 МГц, а количество пиксельных конвейеров равно 12, то скорость заполнения будет 4,8 Гпиксела/с.

Помимо пиксельных конвейеров, различают также количество текстурных блоков в каждом конвейере. Число текстурных блоков определяет количество накладываемых текстур за один проход. К примеру, два текстурных блока могут накладывать от двух до четырех текстур за проход. Количество текстурных блоков позволяет определить скорость заполнения в мегатекселах (пикселах текстур).

Также в графических процессорах присутствуют вершинные конвейеры (Vertex Pipelines), которые отвечают за расчет геометрии трехмерного изображения.

Для того чтобы лучше представить себе структуру современного графического процессора, рассмотрим более детально процесс конвейерного расчета трехмерного изображения.

На первом этапе данные о вершинах поступают в вершинные конвейеры, которые занимаются расчетом геометрии сцены. Здесь начинает свою работу так называемый блок T&L (Transform & Lighting), который отвечает за некоторые аспекты работы с геометрией и за освещение и работает в паре с конвейерами. Блок T&L имеет две определяющие характеристики: максимальное количество источников света и количество обрабатываемых полигонов.

Обработка данных в вершинном конвейере происходит под управлением специализированной программы, называемой вершинным шейдером (Vertex Shader).

На следующем этапе формирования изображения задействуется Z-буфер для отсечения невидимых полигонов и граней каркасной модели трехмерного объекта. Далее происходит текстурирование объектов с фильтрацией самих текстур, для чего задействуются пиксельные конвейеры, работающие под управлением специализированной программы, называемой пиксельным шейдером (Pixel Shader).

Необходимо вспомнить о таких программных интерфейсах (Application Programming Interface, API), как OpenGL и Direct3D. В них описаны стандарты для работы с трехмерными изображениями. Приложение вызывает определенную стандартную функцию OpenGL или Direct3D, а шейдеры эту функцию выполняют.

Вершинные и пиксельные шейдеры имеют свою версию. На сегодняшний день последней является версия 3.0. И для реализации всех возможностей программ по обработке пикселов и вершин необходимо, чтобы данную версию шейдера поддерживала и видеокарта, и само приложение.

На последнем этапе конвейерной обработки данные передаются в буфер кадров.

Рассмотренный нами алгоритм формирования изображения является весьма упрощенным. В реальных графических процессорах все обстоит несколько сложнее. К примеру, для повышения качества изображения используется технология сглаживания, фильтрации текстур и т. д. О некоторых из этих технологий будет рассказано далее.

Видеопамять

Для графического процессора требуется видеопамять, играющая роль кадрового буфера, в который центральный процессор направляет видеоданные, а затем графический процессор считывает оттуда полученную информацию. Кроме того, в видеопамяти располагается Z-буфер и хранятся текстуры. Естественно, для обеспечения эффективной передачи данных важна пропускная способность видеопамяти.

Видеопамять графической карты характеризуется теми же параметрами, что и оперативная память ПК, и в этом смысле наиболее важными характеристиками являются пропускная способность шины памяти, по которой данные из видеопамяти передаются к графическому процессору, а также латентность памяти. Пропускная способность шины памяти определяется разрядностью шины памяти и ее эффективной тактовой частотой. К примеру, разрядность шины памяти может составлять 256,128 или 64 бита, а эффективная тактовая частота может достигать 1 ГГц.

Ширина шины памяти определяет количество бит, передаваемых между GPU и памятью за один такт. Собственно, пропускную способность шины памяти можно найти, если умножить ширину шины на тактовую частоту. К примеру, если ширина шины составляет 128 бит (16 байт), а тактовая частота памяти равна 250 МГц, то пропускная способность шины будет 4 Гбайт/с.

Латентность видеопамяти, то есть время выборки данных из памяти, определяется используемыми чипами памяти, Латентность современных микросхем видеопамяти составляет порядка 2 не и менее.

Кроме технических характеристик используемой видеопамяти, не менее важен и ее объем. При недостаточном объеме видеопамяти графический процессор фактически будет простаивать, пока нужные данные подгружаются из оперативной памяти компьютера. Минимальный объем видеопамяти современных видеокарт составляет 128 Мбайт, а максимальный — 512 Мбайт.

RAMDАС

После обработки графическим процессором и формирования им изображения данные передаются в цифро-аналоговый преобразователь RAMDAC, который непосредственно отвечает за преобразование цифрового сигнала в аналоговый. Дело в том, что все мониторы способны понимать сигнал именно в аналоговом, а не в цифровом виде. Правда, большинство современных ЖК-мониторов, для которых цифровой сигнал является естественным, имеет цифровой видеовход DVI и способно работать именно с цифровым сигналом. Однако для совместимости со всеми типами мониторов видеокарты наделяются аналоговым выходом (нередко в паре с цифровым).

Главные характеристики RAMDAC — это тактовая частота и разрядность. Многие современные видеокарты поддерживают одновременную работу с двумя мониторами, поэтому в такие карты устанавливаются по два RAMDAC и, соответственно, по два разъема для подключения монитора.

Контроллер интерфейса

Контроллер интерфейса отвечает за сопряжение видеокарты с материнской платой компьютера. До недавнего времени в качестве интерфейса видеокарт использовался специализированный AGP (Accelerated Graphic Port). К примеру, видеокарты подключались по интерфейсу AGP 4х с пропускной способностью 1,06 Гбайт/с или по интерфейсу AGP 8х с пропускной способностью 2,1 Гбайт/с.

Однако на смену интерфейсу AGP пришел более перспективный PCI Express. Для подключения графических карт используется версия PCI Express xl6. Теоретическая пропускная способность такой шины составляет до 4000 Мбайт/с в обоих направлениях. Новая шина с большим запасом перекрывает возможности современных графических процессоров и в перспективе может послужить дополнительным стимулом к их совершенствованию. Отметим, что все новые видеокарты выпускаются именно с интерфейсом PCI Express xl6.

2.1.2 Технологии построения трехмерного изображения

Современные технологии формирования трехмерного изображения и придания ему реалистичности чрезвычайно сложны, и детальное их рассмотрение выходит за рамки данной книги. Поэтому мы лишь вкратце опишем базовые технологии, которые фигурируют в качестве характеристик современных видеокарт.

Основные понятия
Прежде всего, нам предстоит познакомиться с основными понятиями трехмерной графики. К ним относятся:

  1. вершина;
  2. полигон;
  3. текстура.

Любой трехмерный объект, каким бы сложным он ни был, можно представить в виде набора простейших полигонов, которыми являются треугольники.

Поскольку речь идет о трехмерной графике, то любой объект представляется в виде набора точек, называемых вершинами, в трехмерном пространстве. Каждая вершина в трехмерном пространстве характеризуется тремя координатами, а система координат определяется тремя осями: горизонтальной (X), вертикальной ( Y) и глубины (Z). Соединяя вершины между собой, можно любую трехмерную поверхность аппроксимировать набором полигонов (многоугольников), простейшими из которых являются треугольники. Положение этих полигонов и задается вершинами. Понятно, что для формирования изображения полигоны необходимо закрасить. Для этого часто прибегают к текстурам. Текстура — это двумерное изображение, которое может «натягиваться» на трехмерные объекты с учетом их формы и положения.

Текстурирование трехмерных поверхностей — это самый распространенный метод закрашивания. К примеру, если бы мы попробовали смоделировать кирпичную стену без технологии наложения текстур, нам потребовалось бы прорисовывать множество отдельных граней для моделирования множества кирпичей. Текстура дает больше реализма и требует меньше вычислительных ресурсов, позволяя оперировать со всей стеной как с единой поверхностью. Все текстуры хранятся в памяти, обычно установленной на видеокарте.

Для того чтобы придать реалистичность формируемому изображению, необходимо рассчитать, какие именно объекты должны выводиться на экран, а какие не должны попасть в поле зрения. К примеру, если один объект находится спереди, а второй позади, то часть второго объекта должна быть невидимой.

Для решения этой задачи применяется метод, называемый Z-буферизацией. В так называемом Z-буфере (буфере глубины) хранятся значения глубины всех пикселов (Z-координаты). Когда рассчитывается новый пиксел, его глубина сравнивается со значениями глубин уже рассчитанных пикселов с теми же координатами Xи Y. Если новый пиксел имеет значение глубины больше какого-либо значения в Z-буфере, то новый пиксел не записывается в буфер для отображения, если меньше — записывается.

Процесс обработки текстур и информации кадрового буфера называется рендерингом (или процессом закраски).

Аппаратная реализация Z-буферизации значительно увеличивает производительность графической подсистемы. Главная характеристика Z-буфера — это его разрешающая способность. Она критична для высококачественного отображения сцен с большой глубиной. Чем выше разрешающая способность, тем выше дискретность Z-координат и точнее выполняется рендеринг удаленных объектов. Если при рендеринге разрешающей способности не хватает, может случиться, что два перекрывающихся объекта получат одну и ту же координату Z, что вызовет искажение изображения. Как правило, видеокарты имеют 32-разрядный Z-буфер.

Кроме буфера глубины, позволяющего отсекать невидимые поверхности, для создания реалистичных трехмерных изображений необходимо учитывать, что объекты могут быть полупрозрачными. Эффект полупрозрачности создается путем объединения цвета исходного пиксела с пикселом, уже находящимся в буфере. В результате цвет точки является комбинацией цветов переднего и заднего плана. Для учета прозрачности объектов используется так называемый alpha-коэффициент прозрачности, который имеет значение от 0 до 1 для каждого цветового пиксела.

Очевидно, что для создания реалистичной картины происходящего на экране необходимо частое обновление его содержимого. При формировании каждого следующего кадра ЗD-акселератор проходит весь путь подсчета заново, поэтому он должен обладать немалым быстродействием. Но в ЗD-графике применяются и другие методы придания плавности движению. Наиболее распространенный — метод двойной буферизации (Double Buffering).

Для двойной буферизации требуется наличие двух областей, зарезервированных в буфере кадров. Метод Double Buffering использует два буфера кадров для получения изображения: один для отображения картинки, другой для рендеринга. В то время как отображается содержимое одного буфера, в другом происходит рендеринг. Когда очередной кадр обработан, буферы переключаются (меняются местами). Без применения двойной буферизации изображение не будет иметь требуемой плавности, то есть будет прерывистым.

Технологии повышения реалистичности трехмерного изображения

Для повышения реалистичности отображения наложенных на полигоны текстур используются самые различные технологии: сглаживания (Anti-Aliasing), MIP mapping, текстурной фильтрации и т. д.

Технология сглаживания (Anti-Aliasing)

Anti-Aliasing — это технология устранения эффекта ступенчатых краев (Aliasing).
Изображение на экране состоит из множества мелких точек — пикселов, которые, как маленькие кирпичики, формируют любое изображение. Однако из-за того, что пикселы имеют конечный размер, на краях трехмерных объектов можно различить так называемую лесницу, или ступенчатые края. Чтобы минимизировать эффект лесницы, проще всего увеличить разрешение экрана (уменьшив тем самым минимальный размер формируемых пикселов). Правда, такой способ минимизации паразитного эффекта подходит не всегда, поскольку это зависит от конкретного монитора, а если речь идет об игре — то и от возможности игры переключаться на более высокое разрешение. Если избавиться от ступенчатого эффекта за счет повышения разрешения монитора нельзя, можно использовать технологию Anti-Aliasing, которая позволяет визуально сгладить эффект лестницы. Наиболее часто используемая для этого техника — это создание плавного перехода от цвета линии или края к цвету фона. Цвет точки, лежащей на границе объектов, определяется как среднее значение цветов двух граничных точек.

Существует несколько базовых технологий Anti-Aliasing. Первоначально технологии сглаживания применялись лишь к отдельным объектам, однако с повышением производительности графических процессоров получила широкое распространение технология полноэкранного сглаживания, или FSAA (Full'Screen Anti-Aliasing).

Суть данной технологии заключается в том, что графический процессор рассчитывает изображение в гораздо большем разрешении, чем разрешение экрана, а затем сжимает его до установленного значения. Например, при разрешении экрана 800 х 600 и установке режима FSAA 2x2 изображение будет рассчитываться в разрешении 1600 х 1200, а затем сжиматься до 800 х 600 и выводиться на экран.

При сжатии полученное изображение уменьшается на строго установленное количество пикселов, при этом в соответствии с используемым алгоритмом окончательные цвета сглаженных пикселов рассчитываются по значениям нескольких соседних пикселов. В результате при сжатии изображения у всех линий появляются плавные цветовые границы переходов, что визуально устраняет эффект лестницы.

Технология МIР mapping

Одна из самых распространенных технологий, используемых для улучшения качества текстурирования трехмерных объектов, называется MIPmapping.

Дело в том, что для придания реалистичности трехмерному изображению необходимо учитывать глубину сцены. По мере удаления от точки наблюдения накладываемая текстура должна выглядеть все более размыто. Поэтому при текстурировании даже однородной поверхности чаще всего используется не одна и даже не две текстуры, что позволяет корректно учитывать перспективные искажения трехмерного объекта. Представим себе, что нам необходимо изобразить брусчатую мостовую, уходящую в глубь сцены. Если мы попытаемся использовать для этого всего одну текстуру по всей длине, то по мере удаления от точки наблюдения (на заднем плане) может проявиться рябь или просто один сплошной цвет. Дело в том, что в этой ситуации сразу несколько пикселов текстуры (текселов) попадает в один пиксел на мониторе. Возникает вопрос: в пользу какого одного текстела сделать выбор при отображении пиксела?

Для решения подобных проблем используется технология MIP mapping, которая подразумевает возможность применения набора текстур с различной степенью детализации. То есть на базе каждой текстуры создается целый набор текстур с меньшим уровнем детализации. Текстуры такого набора называются МIР-картами (MIP map).

В простейшем случае наложения текстуры для каждого пиксела изображения определяется соответствующая ему MIP-карта согласно таблице детализации (Level Of Detail, LOD). Далее из MIP-карты выбирается только один тексел (пиксел карты), который присваивается пикселу.

Технологии фильтрации

Как правило, технология MIP mapping используется в сочетании с технологиями фильтрации, призванными исправить артефакты MIP-текстурирования. Например, при удалении объекта все дальше от точки наблюдения происходит переход от низкого MIP map-уровня к высокому MIP map-уровню. В момент нахождения объекта в переходном состоянии от одного MIP map-уровня к другому появляется особый тип ошибок визуализации — явно различимые границы перехода от одного MIP map-уровня к другому.

Смысл фильтрации состоит в том, что цвет пикселов объекта рассчитывается по соседним точкам текстуры (текселам). Существует несколько типов фильтрации, поддерживаемых видеокартами.

  1. Билинейная. При медленном вращении или движении объекта могут быть заметны перескакивания пикселов с одного места на другое, что и вызывает мерцание. Для снижения этого эффекта при билинейной фильтрации для отображения точки поверхности берется взвешенное среднее значение четырехсмежных текстурных пикселов.
  2. Трилинейная. Также призвана удалять артефакты, возникающие при использовании MIP-текстурирования. При трилинейной фильтрации для определения цвета пиксела берется среднее значение цвета восьми текселов, по четыре из двух соседних текстур, и в результате семи операций смешивания определяется цвет пиксела. При использовании трилинейной фильтрации возможен вывод на экран текстурированного объекта с плавно выполненными переходами от одного MIP-уровня к следующему. Таким образом решается большинство проблем, связанных с MIP-текстурированием и ошибками из-за неправильного расчета глубины сцены (depth aliasing).
  3. Анизотропная. Самая прогрессивная на сегодняшний день технология фильтрации, при использовании которой один-единственный пиксел может рассчитываться по 8-32 текселам. Для сравнения, в простейшем варианте фильтрации, билинейной, для расчета цвета пиксела используется всего четыре ближайших тексела.

2.2 СОВРЕМЕННЫЕ ВИДЕОКАРТЫ
2.2.1 Современные видеокарты на графических процессорах NVIDIA

Несмотря на достаточно большое количество компаний, присутствующих на рынке дискретных видеоускорителей, их продукция совершенно незначительно отличается друг от друга по своей производительности и функциональности. Это объясняется тем, что видеокарты построены на одних и тех же графических процессорах. Более того, если речь заходит о старших (наиболее производительных) моделях, то зачастую они как две капли воды похожи друг на друга и в точности повторяют так называемый референсный (предложенный разработчиком графического процессора) дизайн.

Поэтому для того, чтобы получить представление о присутствующей на рынке продукции, нет смысла описывать видеокарты различных производителей. Вполне достаточно рассмотреть особенности графических процессоров и референсных видеокарт, построенных на них.

  1. G — экономичная серия;
  2. GT — средняя производительность, мейнстрим;
  3. GTS — геймерские видеоплаты с высокой производительностью;
  4. GTX — решения экстрим-класса для энтузиастов.

Семейство NVIDIA GeForce 8

Революционные изменения в восьмом поколении видеокарт по сравнению с предыдущим, седьмым, обусловлены выходом операционной системы Windows Vista ОТ Microsoft с принципиально новым интерфейсом WGF2.0 (Windows Graphics Foundation), известным также как DirectX 10 API.

В связи с этим архитектура нового графического процессора претерпела существенные изменения. Чтобы понять, насколько мощной спроектировали новую систему,  достаточно взглянуть на одну цифру — количество транзисторов. В G80 их 681 млн. Это больше, чем в самых современных процессорах Intel. К примеру, Intel Core 2 Е6850 состоит всего из 291 млн полупроводниковых элементов, а самый производительный Intel Core 2 Extreme QX6850 — из 582 млн.

Такая сложная структура G80 в совокупности с 90-нанометровым техпроцессом ведет к увеличению энергопотребления. В зависимости от модификации, топовые видеокарты восьмого поколения потребляют от 108 до 175 Вт энергии, что катастрофически много в свете борьбы AMD и Intel за повышение энергоэффективности центральных процессоров.

Производимые по 65-нанометровому техпроцессу, процессоры архитектуры G92 (также относятся к восьмой серии) выигрывают у G80 по энергоэффективности, однако в абсолютных цифрах TDP по-прежнему остается довольно высоким — около 130 Вт.

Семейство NVIDIA GeForce 8 (Унифицированные шейдерные процессоры)

Рисунок 1 – 80 графических ядер с унифицированными  шейдерными процессорами

Новое поколение графических процессоров имеет принципиально новую архитектуру, основанную на унифицированных потоковых процессорах (шейдерные процессоры). Если в графических процессорах предыдущего поколения отдельно выделяли пиксельные и вершинные процессоры, которые называли также конвейерами, то в новой архитектуре речь идет именно об унифицированных шейдерных процессорах. Такие процессоры способны выполнять не только вершинные и пиксельные шейдерм, но также геометрические и физические, что не было реализовано в графических чипах предыдущих поколений. Архитектура унифицированных блоков позволяет достичь сбалансированной нагрузки при выполнении различных шейдеров, чего в принципе нельзя было достичь при использовании классической архитектуры графического процессора.

Унифицированные потоковые процессоры (Unified Streaming Processors, USP) представляют собой скалярные процессоры общего назначения для обработки данных с плавающей запятой. При этом необходимо акцентировать внимание на том, что ранее как NVIDIA, так и ATI применяли в своих изделиях векторную архитектуру исполнительных блоков.

Переход к скалярным процессорам вызван тем, что традиционная векторная архитектура менее эффективно использует вычислительные ресурсы, чем скалярный дизайн процессорных модулей, особенно в случае обработки сложных смешанных шейдеров, сочетающих векторные и скалярные инструкции.

Рисунок 2 – Структура шейдерного процессора G80

SP = Streaming Processors
TF = Texture Filtering Units
ТА = Texture Address Units
L1/L2 = Caches

Потоковые процессоры обрабатывают сырые данные и передают их блокам текстурирования. На каждые четыре потоковых процессора приходится один модуль адресации текстур и два модуля фильтрации текстур. То есть на каждый функциональный блок в ядре, как видно на рисунке, приходится 16 потоковых процессоров, четыре модуля адресации текстур и восемь модулей фильтрации текстур. Примечательно, что каждому такому блоку выделен кэш первого уровня. При выполнении скалярным унифицированным потоковым процессором векторного программного кода преобразование в скалярные операции производится графическим процессором GeForce 8800.

Coverage Sampling Anti-Aliasing (CSAA)

Новая технология сглаживания основана на так называемых coverage samples и получила название Coverage Sampling Anti-Aliasing (CSAA). При этом поддерживаются четыре режима CSAA: 8х, 8xQ, 16х и 16xQ.

Технология CSAA обеспечивает более высокое качество сглаживания, чем технологии, реализованные в предыдущих версиях графических процессоров  NVIDIA. Этот метод  во многом похож на подход ATI и также имеет дело с псевдостохастическими паттернами и распространением отсчетов на соседние геометрические зоны (происходит размазывание пиксела, пикселы не имеют резкой границы, а как бы переходят один в другой с точки зрения АА, покрывая некую зону).

Геометрические шейдеры 4.0

Геометрические шейдеры — это программы, позволяющие обрабатывать данные на уровне не отдельных вершин, как в вершинных шейдерах, а примитивов, то есть набора вершин (линий, полосок, треугольников и т. д.). Они дают возможность существенно повысить эффективность преобразования сложных трехмерных объектов. Работа с геометрическими шейдерами позволит сократить количество тактов графического процессора для просчета сложных геометрических преобразований, таких как реалистичные волосы и струящиеся сложные ткани. Также геометрические шейдеры помогут увеличить реалистичность изображения воды за счет возможностей тесселяции (разбиения полигонов на более мелкие).

Физические эффекты

Технология расчета физических эффектов (NVIDIA Quantum Effects) позволяет имитировать и рендерить множество новых физических эффектов, таких как огонь, дым, взрывы, движущиеся волосы, вода и т. д. Разумеется, самые интересные игровые эффекты с эмуляцией физических явлений можно будет наблюдать после выхода игр для DirectX 10.

NVIDIA GeForce 8800 GTX

 

Рисунок 3 - NVIDIA GeForce 8800 GTX

Логически графический процессор содержит несколько вычислительных блоков: восемь блоков GeForce 8800 GTX. В каждом таком блоке сгруппированы четыре блока TMU (блок наложения текстур) и 16 блоков ALU. Таким образом, мы получаем 128 блоков ALU и 32 блока TMU (таблица).

Сама NVIDIA предпочитает говорить, что GeForce 8800 GTX имеет 128 унифицированных потоковых процессоров. По сути, это утверждение не совсем верно и носит в большей степени маркетинговый характер. Более правильно говорить о восьми унифицированных шейдерных процессорах (вычислительных блоках), поскольку именно вычислительный блок, а не отдельный блок ALU может обрабатывать часть пиксельного, вершинного или геометрического шейдера, а все ветвления, переходы, условия и т. д. обрабатываются именно на уровне всего вычислительного блока.

Рисунок 4 – Архитектура графического ядра G92

Таблица 1 – Параметры видеокарты NVIDIA GeForce 8800 GTX

Параметры

GeForce 8800 Ultra

GeForce 8800 GTX

GeForce 8800 GTS 320 (640)

Кодовое имя процессора

G80

680

G80

Частота работы процессора, МГц

612

575

513(500)

Технологический процесс изготовления, нм

90

90

90

Количество транзисторов, млн

681

681

681

Количество блоков исполнения универсальных шейдеров

8

8

6

Тактовая частота универсальных потоковых процессоров, МГц

1500

1350

1200

Количество потоковых процессоров

128

128

96

Количество текстурных модулей (TMU)

32

32

24

Количество блоков растеризации (R0P)

24

24

20

Тип поддерживаемой памяти

GDDR3

GDDR3

GDDR3

Разрядность (ширина) интерфейса памяти, бит

384

384

320

Объем видеопамяти, Мбайт

768

768

320 (640)

Эффективная частота памяти, ГГц

2Д6

1,8

1,6

Поддержка NVIDIA SLI

Есть

Есть

Есть

Поддерживаемый интерфейс

PCI Express xl6

PCI Express xl6

PCI Express xl6

Поддерживаемая версия универсальных шейдеров

4.0

4.0

4.0

Поддерживаемая версия DirectX

10.0

10.0

10.0

Поддерживаемая версия OpenGL

2.1

2.1

2.1

Степени анизотропной фильтрации (AF)

2,4,8,16

2,4, 8,16

2,4, 8,16

Степень мультисемплинга полноэкранного сглаживания

8х, 8xQ, 16х, 16xQ

8х, 8xQ, 16х, 16xQ

8x, 8xa 16x, 16xQ

Частота интегрированного RAMDAC, МГц

2x400

2x400

2 x 400

Интегрированная поддержка DVI/HDTV

Есть

Есть

Есть

 

NVIDIA GeForce 8800 GTX

Рисунок 5 – Видеокарта NVIDIA GeForce 8800 GTX

Референсная видеокарта на базе процессора GeForce 8800 GTX имеет 768 Мбайт видеопамяти GDDR3. При этом ширина шины памяти составляет 384 бит, а частота работы памяти — 1800 МГц. Соответственно пиковая пропускная способность шины памяти равна 86,4 Гбайт/с.

Блоки растровых операций поддерживает мультисемплированное, суперсемплироваиное и прозрачное адаптивное сглаживание. Отметим, что добавлены новые режимы сглаживания: 8х, 8xQ, 16х и 16xQ.

Ещё одной важной особенностью архитектуры графического процессора GeForce 8800 является потоковая циклическая обработка данных. Применение циклической потоковой обработки данных одновременно с унифицированными процессорами позволяет решить проблему их повторной обработки, довольно часто встречающуюся в современных играх.

Как уже отмечалось, рассматриваемый графический процессор поддерживает множество новых функций и технологий, в том числе следующие.

  1. Новые режимы сглаживания и анизотропной фильтрации.
  2. Геометрические шейдеры, реализованные в DirectX 10.
  3. Режим HDR. Графические процессоры серии GeForce 8800 поддерживают процесс HDR-ренлеринга (High Dynamic Range) с 128-битной точностью не только в режиме FP16 (64-битный цвет), но и FP32 (128-битный цвет), которые могут обрабатываться одновременно с процессом сглаживания.
  4. Технологию расчета физических эффектов NVIDIA Quantum Effects.
  5. Режим Extreme High Definition Gaming. Новые графические процессоры семейства GeForce 8800 и соответственно все видеокарты на их базе поддерживают игровые установки Extreme High Definition (XHD), при которых игры могут запускаться в широкоформатном режиме вплоть до 2560 х 1600, превышает качество картинки HD-телевизора формата 1080i и в два раза формата -  1080р.
  6. 2 х DVI Dual Link.
  7. Технологии PureVideo и PureVideo HD.

NVIDIA GeForce 8800 GTS

Рисунок 6 – Видеокарты NVIDIA GeForce 8800 GTS

Разница между видеокартами NVIDIA GeForce 8800 GTX и GeForce 8800 GTS заключается в количестве унифицированных потоковых процессоров (SP), тактовой частоте работы SP и графического ядра, а также в разрядности шины памяти, частоте работы и объеме поддерживаемой памяти. Графический процессор GeForce 8800 GTS имеет 96 унифицированных потоковых процессоров, работающих на частоте 1200 МГц. Тактовая частота остальных блоков (кэш, модули текстурирования и т. д.) составляет 500 МГц (513 МГц для 320-мегабайтной версии).
Референсная видеокарта на базе процессора GeForce 8800 GTS имеет, в зависимости от версии, 320 либо 640 Мбайт видеопамяти GDDR3. При этом ширина шины памяти составляет 320 бит, а частота работы памяти — 1600 МГц.

NVIDIA GeForce 8800 Ultra

Рисунок 7 – Видеокарта NVIDIA GeForce 8800 Ultra

Разработчик позиционирует эту карту как решение для премиум-сегмента. Она является не чем иным, как разогнанной версией NVIDIA GeForce 8800 GTX. Расчетная скорость текстурирования составляет 39,2 Гпиксел/с, а закраски — 14,7 Гпиксл/с. Это более чем в 1,6 раза превосходит по скорости текстурирования самую производительную двухпроцессорную модель предыдущего поколения NVIDIA GeForce 7950 GX2.
NVIDIA уже неоднократно практиковала такую политику, когда производительность наращивалась не за счет переработки архитектуры ядра (G80 и так отличается сложностью), а за счет увеличения частоты работы. С точки зрения маркетинга это оправданно.
NVIDIA GeForce 8800 Ultra, как и предшественница (GeForce 8800 GTX), использует память GDDR3 общим объемом 768 Мбайт, тактовая частота процессора составляет всего 612 МГц для основной подсистемы и 1,5 ГГц для подсистемы шейдерных процессоров, что соответственно на 6 и 11 % больше по сравнению с неразогнанной картой. Частота памяти возросла с номинальных 1800 до 2160 МГц. Но этому параметру прирост быстродействия составил целых 20 %. В любом случае эта видеокарта является одним из самых мощных 3D-ускорителей. Хотя некоторые партнеры NVIDIA в своих продуктах самостоятельно разгоняли GeForce 8800 GTX, приблизив их тем самым к возможностям GeForce 8800 Ultra, однако той же производительности им достигнуть не удалось.

NVIDIA GeForce 8600 GTS

Рисунок 8 – Видеокарта NVIDIA GeForce 8600 GTS

Ввиду того что архитектура G80 довольно гибкая, она позволяет малыми силами урезать производительность видеоадаптеров. Поэтому в данном случае без особых мудрствований NVIDIA и пошла по этому пути. Количество ALU в шейдерном блоке осталось прежним, однако они работают на более чем удвоенной частоте 1450 МГц, а их точность составляет FP32, с поддержкой целочисленных форматов.

Учитывая то, что универсальных шейдерных блоков всего два, легко подсчитать количество универсальных потоковых процессоров: 2 х 16 = 32. Странно, что в решениях среднего уровня всего два универсальных шейдера.

Разрыв с топовыми продуктами довольно существенный. По аналогии с G80 можно было бы предположить, что количество TMU при этом должно быть равно восьми, однако это не так. Несмотря на общую схожесть, в новые процессоры все-таки были внесены некоторые изменения. В частности, количество модулей адресации текстур увеличилось в два раза по сравнению с G80. Поэтому получается, что в GeForce 8600 GTS на каждый блок адресации приходится один блок билинейной фильтрации, что теоретически должно обеспечить прирост скорости при данной операции. Однако в то же время это означает падение производительности при трилинейной и анизотропной фильтрации, которые в топовых продуктах будут выполняться быстрее за счет двукратного превосходства модулей фильтрации над модулями адресации.

Таблица 2 - Технические характеристики графических ускорителей семейства G84


Параметры

GeForce 8600 GTS

GeForce 8600 GT

Кодовое имя процессора

G84

G84

Частота работы процессора, МГц

675

540

Технологический процесс изготовления, им

80

80

Количество транзисторов, млн

289

289

Количество блоков исполнения универсальных шейдеров

2

2

Тактовая частота универсальных потоковых процессоров, МГц

1450

1190

Количество потоковых процессоров

32

32

Количество текстурных модулей (TMU)

16

16

Количество блоков растеризации (R0P)

8

8

Тип поддерживаемой памяти

GDDR3

GDDR3

1'азрядность (ширина) интерфейса памяти, бит

128

128

Объем видеопамяти, Мбайт

512

256

Эффективная частота памяти, ГГц

2

1,4

Поддержка NVIDIA SLI

Есть

Есть

Поддерживаемый интерфейс

PCI Express х16

PCI Express х16

Поддерживаемая версия универсальных шейдеров

4.0

4.0

Поддерживаемая версия DirectX

10.0

10.0

Поддерживаемая версия OpenGI.

2.1

2.1

Степени анизотропной фильтрации (AF)

2,4, 8,16

2,4,8,16

Степень мультисемплинга полноэкранного сглаживания

8х, 8xQ, 16х, 16x0

8х, 8x0,16х, 16xQ

Частота интегрированного RAMDAC, МГц

2 х400

2 х400

Максимальное разрешение (DVI), частота кадровой развертки (Гц)

2560x 1600 x 60

2560 х 1600 х 60

 

Графические ускорители архитектуры G92

Рисунок 9 – Архитектура графического ядра G92

На приведенной ниже схеме видно, что процессор имеет семь конвейеров для параллельной обработки данных. Схема работы TMU изменилась относительно G80: она совпадает с той, которая была реализована в G84 и G86.

Архитектура G92 — нечто иное, как развитие предыдущей G80. Новые процессоры стали более сложными, количество транзисторов увеличилось почти на 150 тыс. Это обусловлено переработкой блоков TMU, а также переносом функциональности (NVIO), за которую раньше отвечал отдельный чип, на кристалл.

И первую очередь необходимо отметить поддержку шины PCI Express 2.0, а также повышенные частоты работы ядра и чуть улучшенные показатели энергоэффективности.

По сравнению с G80 уменьшилось количество блоков ROP с шести до четырех. Каждый из блоков обрабатывает по четыре пиксела (или 16 субпикселов), и всего получается 16 пикселов за такт для цвета и Z. В режиме только Z обрабатывается в два раза большее количество семплов за один такт. При MSAA (Multi Sample Anti-Aliasing) 16х чип может выдавать два пиксела за такт, при 4х - восемь и т. д. Как и в G80, полноценно поддерживаются форматы буфера кадров FP32 и FP16 совместно со сглаживанием.

Любители высококачественного видео оценят интегрированные в GPU функции декодирования медиаданных. У NVIDIA для этого есть специальный термин PureVideo HD. В этой реализации поддерживаются кодеки MPEG-2, WMV, H.264 и VC-1. Вес это позволяет выводить картинку с разрешением 1920 х 1080 (Full HD)) и битрейтом до 30-40 Мбит/с.

Тем, кто собирает компьютер с нуля, необходимо обратить внимание на поддерживаемые видеовыходы. Новомодного DisplayPort в этом поколении видеокарт нет! Будьте внимательны, выбирая монитор.

Таблица 3 - Технические характеристики графических ускорителей семейства G92

Параметры

GeForce 8800 GS

GeForce 8800 GT

GeForce 8800 GTS

Кодовое имя процессора

G86

G92

G92

Частота работы процессора, МГц

550

600

650

Технологический процесс изготовления, нм

65

65

65

Количество транзисгоров, млн

754

754

754

Тактовая частота универсальных потоковых процессоров, МГц

1375

1500

1625

Количество потоковых процессоров

7

7

7

Количество текстурных модулей (TMU)

48

56

64

Количество универсальных блоков (ALU)

128

128

128

Количество блоков растеризации (R0P)

16

16

16

Тип поддерживаемой памяти

G0DR3

GDDR3

GDDR3

Разрядность (ширина) интерфейса памяти, бит

192

256

256

Объем видеопамяти. Мбайт

768

1024

1024

Эффективная частота памяти, ГГц

1*6

1,8

1,94

Поддержка NVIDIA 5U

Есть

Есть

Есть

Поддерживаемый интерфейс

PCI Express 2.0 х16

PCI Express 2.0 xl6

PCI Express 2.0x16

Поддерживаемая версия универсальных шейдеров

4.0

4.0

4.0

Поддерживаемая версия DirectX

10

10

10

Поддерживаемая версия UpenGL

2.1

2.1

2.1

Степени анизотропной фильтрации (AF)

2. 4. 8, 16

2,4,8,16

2,4,8,16

Частота интегрированного RAMDAC, МГц

2x400

2x400

2x400

Частота интегрированного RAMDAC, МГц

2x400

2x400

2x400

 

Семейство NVIDIA GeForce 9

Видеокарты девятой серии стали для NVIDIA промежуточным вариантом на пути к следующему поколению. Старшие модели являются ближайшими родственниками рассмотренного выше ядра G92, а младшие по своей архитектуре ближе к G8x.

Если же абстрагироваться от деталей, то, по сути, видеокарты и восьмой, и девятой серии — одного поля ягоды. Младшие G9x отличаются более тонким 65-нанометровым техпроцессом и наличием новых модулей вроде интегрированной NVIDIA.

По сравнению с предыдущим поколением флагманы девятой серии обзавелись поддержкой интерфейса DisplayPort, а также повышенными рабочими частотами памяти и логических блоков.
Средний и бюджетный сегменты представлены восьмью видеокартами 9300 9300 GE, 9300 GS, 9400, 9400 GT, 9500 С.Т, 9600 GT, 9600 GSO.

Младшая серия отличается уменьшенным количеством рабочих модулей, пониженными частотами функционирования памяти и графического ядра.

Интерфейс DisplayPorl реализован только в модели 9600 GT, остальные его не имеют.

Выбирая между видеокартами девятой и восьмой серии, предпочтение стоит отдавать более новым моделям. В числе их преимуществ – повышенное быстродействие и расширенная функциональность.

Таблица 4 – Технические характеристики графических ускорителей серии 98хх


Параметры

GeForce 9800 GT

GeForce 9800 GTX

GeForce 9800 GTX+

Кодовое имя процессора

G92a, b

G92b

G92b

Частота работы процессора, МГц

600

675

738

Технологический процесс изготовления, нм

65, 55

65

65

Количество транзисторов, млн

754

754

754

Тактовая частота универсальных потоковых процессоров, МГц

1500

1688

1836

Количество потоковых процессоров

7

7

7

Количество текстурных модулей (TMU)

56

64

64

Количество универсальных блоков(ALU)

112

128

128

Количество блоков растеризации (R0P)

16

16

16

Тип поддерживаемой памяти

G0DR3

GDDR3

GDDR3

Разрядность (ширина) интерфейса памяти, биг

256

256

256

Обьем видеопамяти. Мбайт

1024

1024

1024

Эффективная частота памяти, ГГц

1,8

2,2

2,2

Поддержка NVIDIA SLI

2-way

3-way

3-way

Поддерживаемый интерфейс

PCI Express 2.0 х16

PCI Express 2.0x16

PCI Express 2.0x16

Поддерживаемая версия универсальных шейдеров

4.0

4.0

4.0

Поддерживаемая версия DirectX

10

10

10

Поддерживаемая версия OpenGL

2.1

2.1

2.1

Степени анизотропной фильтрации (AF)

2,4,8,16

2,4,8,16

2, 4, 8, 16

Частота интегрированного RAMDAC, МГц

2x400

2x400

2x400

Максимальное разрешение (VGA), частота кадровой развертки

2048 x 1536 x 85

2048 x 1536 x 85

2048 x 1536 x 85

Интегрированная поддержка TV-выхода

Есть

Есть

Есть

Интегрированная поддержка DVI

2 x Dual-Link

2 x Dual-Link

2 x Dual-Link

Интегрированная поддержка DisplayPort

Есть

Есть

Есть

 

Семейство NVIDIA GeForce 200

На эту серию NVIDIA возлагала большие надежды. При ее разработке за основу были взяты принципы, положенные в основу зарекомендовавших себя архитектур G8x и G9x. Необходимо было улучшить производительность при выполнении длинных шейдеров, а также увеличить количество параллельно выполняемых операций, с чем инженеры довольно успешно справились.
Кроме того, была изменена маркировка изделий. Компания отказалась от четырехзначных цифровых индексов в пользу трехзначных. Первоначально были представлены два адаптера — GTX 260 и GTX 280, после линейка расширилась за счет GTX 260 (216) и GTX 285. Последней на сегодняшний день моделью линейки стала двухчиповая плата GTX 295. представляющая собой фактически сдвоенную (1ТХ 285 с меньшей рабочей частотой процессора и памяти.

Таблица 5 – Технические характеристики графических ускорителей серии 94хх, 95хх, 96хх


Параметры

GeForce GTX 260

GeForce GTX 260 (216)

GeForce GTX 280

GeForce GTX 285

GeForce GTX 295

Кодовое имя процессора

GT200

GT200

GT200

GT200b

GT200b

Частота работы процессора, МГц

576

576

602

648

576

Технологический процесс изготовления, нм

65

65

65

55

55

Количество транзисторов, млн

1400

1400

1400

1400

2 x 1400

Тактовая частота универсальных потоковых процессоров, МГц

1242

1296

1296

1476

1242

Количество потоковых процессоров

8

9

10

10

2x10

Количество текстурных модулей (TMU)

64

72

80

80

2x80

Количество универсальных блокоп(A!U)

192

216

240

240

2 x 240

Количество блоков растеризации (R0P)

28

28

32

64

2x28

Тип поддерживаемой памяти

GDDR4

GDDR4

GDDR4

GDDR3

GDDR3

Разрядность (ширина) интерфейса памяти,

448

448

512

512

512

Объем видеопамяти, Мбайт

2048

2048

2048

2048

2048

Эффективная частота памяти, ГГц

1,998

1,998

2,214

2,484

2,484

Поддержка NVIDIA SLI

3-way

3-way

3-way

3-way

3-way

Поддерживаемый интерфейс

PCI Express 2.0x16

PCI Express 2.0x16

PCI Express 2.0x16

PCI Express 2.0x16

PCI Express 2.0x16

Поддерживаемая версия универсальных шейдеров

4.0

4.0

4.0

4.0

4.0

Поддержка универсальных вычислений CUDA/PhysX

Есть

Есть

Есть

Есть

Есть

Поддерживаемая версия DirectX

10

10

10

10

10

Поддерживаемая версия OpenGL

2.1

2.1

2.1

2.1

2.1

Степени анизотропной фильтрации (AF)

2,4,8,16

2,4,8,16

2,4,8,16

2,4,8,16

2,4,8,16

Степени мультисемплинга полноэкранного сглаживания

2х, 2xQ, 4х, 4xS, 6xS, 8х, 8xS, 16х

2x, 2x0, 4x, 4xS, 6xS, 8x, 8xS, 16x

2x, 2x0, 4x, 4xS, 6xS, 8x, 8xS, 16x

2x, 2x0, 4x, 4xS, 6xS, 8x, 8xS, 16x

2x, 2x0,4x, 4xS, 6xS, 8x, 8xS, 16x

Частота интегрированного RAMDAC, МГц

2x400

2x400

2x400

2x400

2x400

 

Особенности GTX 280

Рисунок 10 – Архитектура потокового процессора (ТРС)

Рассмотрим особенности серии GeForce 200 на примере топового чипа. При её разработке инженеры существенно переработали (по сравнению с G9x и G8x) структуру большинства исполнительных блоков, в частности ТРС (Texture Processin Clusters)

По сравнению с кластерами ТРС предыдущего поколения, здесь количество потоковых мультипроцессоров увеличено с двух до трех. Несмотря па то что в каждом из мультипроцессоров (SM) количество структурных блоков (SP) осталось прежним (восемь модулей), увеличилась их разрядность до FP64 в рамках стандарта IEEE 754(R). Не изменилось и количество сегментов текстурной фильтрации - их также осталось восемь.

В целом структура нового чипа стала более сложной. Даже количество самих универсальных кластеров увеличилось до 10, хотя для G92 максимальной была цифра 8. К тому же был существенно переработан блок управления параллельными операциями.

Если предыдущее поколение чипов позволяло одновременно работать 12288 потокам, то здесь их количество возросло до впечатляющих 30000. Это сделано не только в угоду любителям 3D-развлечений, но и в рамках направления CUDA/PhysX, где NVIDIA выступает в качестве поставщика высокопроизводительной платформы для сложных научных вычислений.

Рисунок 11 – Структурная схема процессорной архитектуры GT200

Вслед за улучшенной производительностью ТРС возросла и мощность ROP до 32 пикселов за такт. И если графические процессоры предыдущего поколения умели выводить 2 пиксела за такт и блендить 12 пикселов, то GeForce 200 выдает свои 32 пиксела уже с блеидингом.

Следует обратить внимание на технологию Dual Issue, которая позволяет выполнять две инструкции затакт в одном шейдере (MAD+MUL). В каждом блоке SM содержатся специальные исполнительные блоки (Special Function Unit, SFU), которые вычисляют сложные функции, интерполируют атрибуты, а также выполняют операции умножения (MUL). С их помощью каждый потоковый процессор чипа GT200 способен исполнять не только одну операцию умножения со сложением (Multiply-Add, MAD), по одновременно еще и MUL.

Впечатляет и 512-битная шина памяти. Ее дополняют переработанные блоки предвыборки и кэширования данных.

В совокупности с рядом других улучшений выход видеокарт этой серии был многообещающим. Компания предложила реальное улучшение по сравнению с предшественниками.
Следует отметить, что чип, содержащий рекордное количество транзисторов (1400 млн.), получился у NVIDIA очень сложным и, соответственно, дорогим в производстве.

Особенности GTX 260/GTX 260 (216)

Первоначально младшая модель топового сегмента GTX 260 имела восемь универсальных исполнительных блоков, но после того, как была разгромлена вышедшими позже видеокартами AMD серии 4000, NVIDIA задействовала резервный исполнительный блок. Так появилась модификация с девятью потоковыми процессорами, которая имеет метку 216, что указывает на количество универсальных блоком (ALU). В целом же частоты работы памяти и ядер у этих двух карт совпадают.

По сравнению с GTX 280, модели с индексом 260 имеют следующие отличия: до 448 бит уменьшена разрядность шины, частота ядра уменьшена до 576 М Гц, урезано количество вычислительных блоков.

Несмотря на отставание от флагманских видеокарт серии 4000, решения NVIDIA остаются интересными для тех, кто желает собрать высокопроизводительную рабочую станцию с мощной графической подсистемой либо использовать компьютер для научных или физических расчетов.

Семейство NVIDIA GeForce 100M/200M/300M

В это семейство входят графические процессоры NVIDIA последнего поколения, предназначенные для ноутбуков.

Буквенные индексы видеочипов остались прежними и полностью совпадают с индексами семейства десктопных плат. |

По сравнению с предыдущим семейством GeForce 100М, производительность чипов нового поколения выросла практически вдвое и ровно во столько же сократилось энергопотребление. Стоит отметить поддержку памяти GDDR5, DirectX 10.1 и шейдеров 4.1, а также в топовых видеочипах семейства GTS 250-280М — еще и PhysX. Как правило, эти чипы устанавливаются в игровые ноутбуки высшей ценовой категории.

Таблица 6 – Технические характеристики графических ускорителей семейства GeForce 100М/200М/300М


Категория

Продукт

Количество процессорных ядер

PhysX

Игровая производительность

Поддерживаемое разрешение

PureVideo HD

«Энтузиаст»

GeForce GTX 280М

128

Да

60х

1920 х1080

Да

GeForce GTX 260M

112

 

 

 

 

Высокопроизводительные

GeForce GTS 260M

96

Да

40х

1920 х1080

Да

GeForce GTS 250M

GeForce GTS 160M

64

Производительные

GeForce GT 240M

48

Да

20х

1680 х1050

Да

GeForce GT 230M

GeForce GT 130M

32

GeForce 9600M GT

Массовые

GeForce 210М

16

Да

10х

1280 x 720

Да

GeForce 110М

 

5x

GeForce 105M

8

4x

GeForce 9300M GS

Экономичные

GeForce 9100M G

8

Да

3x

1024 x 768

Да

2.2.2 Современные видеокарты на графических процессорах AMD/ATI

Середину 2008 года можно считать переломной на рынке графических ускорителей. Она ознаменована первым крупным успехом объединенного предприятия AMD/ATI. Впервые за многие годы решения от NVIDIA уступают (порой очень сильно) не только в среднем и бюджетном сегментах, но и в самом верхнем

Семейство RV700

Выход видеокарт этой серии наделал много шума. Инженеры AMD/ATI постарались на славу. Как свидетельствуют источники, перед инженерами компании была поставлена задача более чем в два раза превзойти теоретическую производительность чипа RV670. Кроме того, было необходимо дать достойный ответ продвигаемым NVIDIA на всех фронтах технологиям CUDA и PhysX.

В результате массовый сегмент получил видеокарту, которая впервые перешагнула теоретически барьер в 1 Тфлоп. Чтобы представить, что это значит, можно привести (со скидкой на архитектурные особенности) такой факт: 12 лет назад такую производительность демонстрировал суперкомпьютер, состоящий из 10000 процессоров типа Pentium.

Таблица  7 - Спецификация референсных карт семейства RV700


Параметры

Radeon HD4870

Radeon HD 4850

Radeon HD 4830

Radeon HD4670

Radeon HD4650

Radeon НD4550

Кодовое имя процессора

RV770XT

RV770PR0

RV770LE

RV730XT

RV730PR0

RV710

Частота работы процессора, КГц

750

625

575

750

600

600     

Технологический процесс
изготовления, нм

55

55

55

55

55

55      

Количество транзисторов, млн

956

956

956

514

514

242     

Количество универсальных шейдерных процессоров (SIMD)

10

10

8

4

4

1

Количество потоковых процессоров

40

40

32

32

32

8         

Количество текстурных модулей (TMU)

16

16

16

8

8

4         

Количество блоков растеризации (R0P)

16

16

16

8

8

4         

Тип поддерживаемой памяти

GDDR5

GDDR3

GDDR3

GDDR3

GDDR2 -

GDDR3  

Разрядность (ширина) интерфейса памяти, бит

256

256

256

128

128

64          

Объем видеопамяти, Мбайт

1024

1024

512

1024

512

512

Эффективная частота памяти, ГГц

3,6

2

2

2

1

1,6

Поддерживаемый интерфейс

PCI
Express 2.0x16

PCI
Express 2.0x16

PCI
Express 2.0x16

PCI
Express 2.0x16

PCI
Express 2.0x16

PCI
Express 2.0x16

Поддерживаемая версия пиксельных шейдеров

4.1

4.1

4.1

4.1

4.1

4.1

Поддерживаемая версия DirectX

10.1

10.1

10.1

10.1

10.1

10.1

Поддерживаемая версия OpenGL

2.1

2.1

2.1

2.1

2.1

2.1

Максимальная степень Anti-Aliasing

24

24

24

24

24

24

Максимальная степень анизотропной фильтрации (AF)

16

16

16

16

16

16

Частота интегрированного  RAMDAC, МГц

2x400

2x400

2x400

2x400

2x400

2x400

 

Видеокарта Radeon HD 5870

Рисунок 12 - Radeon HD 5870

Осенью 2009 года AMD официально анонсировала новое поколение графических чипов семейства Evergreen. На этот раз маркетологи компании AMD решили отказаться от численных обозначений своих графических чипов (ожидалось, что Новый чип будет иметь маркировку RV870) и перейти к кодовым обозначениям и виде осмысленных слов.

Представленный графический чип Radeon HD 5870 является первым представителем нового семейства графических процессоров под названием Cypress, что в переводе означает «кипарис». Отметим, что это семейство будет включать высокопроизводительные одночиповые решения.

HD 5870 первым из графических чипов в мире полностью поддерживает все инструкции набора API DirectX 11/Shader Model 5.0. Тут, конечно, стоит спросить нужна ли эта поддержка, да и сама технология конечным пользователям, ведь даже игр, поддерживающих DirectX 10, в мире не так уж много, а тут уже следующая версия. Стоит отметить, что новые графические чипы, поддерживающие версию 11 этого API, обратно совместимы со всеми предыдущими версиями. Про АР DirectX 11 версии написано уже немало.

Рисунок 13 – Пример работы технологии Eyefinity

Видеокарта Radeon HD 5870 предоставляет конечному пользователю максимальную производительность однопроцессорного решения на базе последних графических процессоров AMD. Примененная в данной модели система охлаждения, по сравнению с системой, установленной на референсных видеокартах серии Radeon HD 4870/HD 4890, существенно изменилась. Длина печатной платы, а вместе с ней и системы охлаждения увеличилась: новая видеокарта является лидером по длине!

В верхней части платы на привычном месте расположены два шестиконтактных разъема питания видеокарты. В этой же части платы, но ближе к интерфейсам размещены разъемы CrossFire для связки двух видеокарт. Задняя часть платы, на которой расположены интерфейсы, имеет два разъема DVI, HDMI и DisplayPort.

Архитектура топового чипсета RV770

Основную вычислительную нагрузку в этом чипсете выполняют 10 SIMD-ядер (можно провести аналогию с ТРС в процессорах NVIDIA). Каждое из ядер, и свою очередь, состоит из 16 суперскалярных потоковых процессоров, в состав которых входят но пять 32-разрядных логических модулей. Таким образом, общее количество вычислительных блоков, которые любят приводить в маркетинговых материалах, составляет ровно 800, что в 2,5 раза больше, чем в процессоре RV670.

Что примечательно, эти же блоки используются для 64-разрядиых вычислений. В этом проявилась изобретательность разработчиков AMD ATI. Они. в отличие от NVIDIA, сделали блоки универсальными, тем самым сохранив относительно простую структуру своего продукта, по при этом существенно нарастив функциональность.

Рисунок 14 – Архитектура ядра RV770

Рассмотрим более подробно структуру SIMD ядра.

На входе данные распределяются потоковым диспетчером и попадают в вычислительные блоки, которых водном модуле, как мы уже упоминали, 16. Каждый такой блок имеет 16 Кбайт собственной памяти.

Рисунок 15 - Структура SIMD ядра

Существенно переработаны блоки TMU. Во-первых, они привязаны к SIMD гак же, как у NVIDIA. Во-вторых, немного упрощена их структура и повышена частота их работы. В-третьих, по сравнению с RV670 удвоена полоса пропускания к текстурному кэшу с возможностью выборки до 160 текстур за такт.

Наряду с TMU подверглись существенной ревизии и блоки ROP. Их производительность удвоена по сравнению с предыдущим поколением чипов, хотя количество блоков осталось тем же.

Рисунок 16 – Структура блока TMU

Невероятно, но факт: разработчики отказались от применяемой ранее кольцевой структуры шины памяти в пользу более традиционной с центральным хабом. Как видно на схеме, контроллеры памяти расположены по краям чина. Задача хаба — распределять потоки данных между генерирующими график блоками. Кроме того, он служит связующим звеном с шиной PCI Express 2.0, CrossFireX, UVD2 и контроллерами вывода.

Новые чипы поддерживают память GDDR5, работающую на эффективной частоте 3,6-4 ГГц. И свою очередь, это позволяет добиться высоких скоростей передачи данных даже на 256-битной шине (до 120 Гбайт/с).

Подтвердив еще раз постулат, что самые эффективные решения должны быть простыми, AMD/ATI выпустила на рынок очень сильный продукт как по себестоимости, так и по производительности, который конкурируют с изделиями NVIDIA во всех сегментах.

Рисунок 17 – Структурная схема процесса управления памятью

Таблица 8 - Сравнение производительности видеоплат NVIDIA и AMD/ATI


GeForce (NVIDIA)

Radeon HD (ATI/AMD)

GTX 295

 

 

HO 5870

 

HO 4870 X2

 

HD 5850

GTX 285

 

GTX 280

 

GTX 275

 

9800 GX2

HD4890

GTX 260 (216)

 

 

HD4850 X2

GTX 260 (192)

HD4870

 

HD 5770

8800 Ultra

HD3870 X2

GTS 250

HD 5750

9800 GTX/GTX+

HD4850

8800 GTX

HD4770

8800 GTS(512 Мбайт)

 

GTS 240

HD4830

9800 GT

HD4730

8800 GT

 

9600 GTS

 

9600 GT

HD3870

9600 GSO (768 Мбайт)

 

8800 GS (768 Мбайт)

 

8800 GTS (640 Мбайт)

HD 3850 X2

9600 GSO (384 Мбайт)

HD4670

 

2.2.3 Технологии объединения видеокарт

Технология NVIDIA SLI

SLI (Scalable Link Interface) — это технология объединения двух видеокарт с целью увеличения графической производительности.

Назвать саму идею объединения видеокарт новой нельзя. Как известно, все новое — это хорошо забытое старое. Попытки объединения видеокарт (то есть создания многопроцессорной графической системы) предпринимались и раньше. И если говорить о решениях, которые имели коммерческий успех и завоевали популярность в среде заядлых геймеров, то уместно вспомнить технологию Scan Line Interleave (SLI), позволившую объединять в единое решение две графические карты на базе процессоров 3Dfx Voodoo 2.

Суть технологии Scan Line Interleave (чередование строк кадра) была отражена в ее названии: один графический процессор отвечал за обработку четных строк кадра, а другой — за обработку нечетных. Таким образом, нагрузка на графические процессоры делилась пополам, а общая производительность увеличивалась.

Предпринимались и другие попытки создания многопроцессорных графических решений, однако коммерческого успеха они не имели.

С выпуском графического интерфейса PCI Express совместное использование двух графических карт вновь стало возможным. Компания NVIDIA уже давно поняла потенциал новой шины и внедрила некоторое подобие функции 3Dfx SLI в новейший графический процессор NV40, также известный как GeForce 6800.

Итак, что же представляет собой новая технология NVIDIA SLI? Для реализации возможности объединения двух видеокарт информацию рендеринга следует разделить между двумя картами. Кроме того, нужен метод передачи информации об изображении второй карты на первую карту, к которой подключен монитор. Наконец, две части изображения должны быть объединены на экране монитора.

Поэтому одна из видеокарт, работающих в режиме NVIDIA SLI, является ведущей, а вторая — ведомой, при этом ведущая карта отвечает за сборку финального кадра и вывод его на экран.

Для объединения видеокарт в технологии NVIDIA SLI использует простое U-образное мостовое соединение двух карт, которое обеспечивает синхронизацию и передачу изображения. В результате этого соединения отпадает потребность в использовании внешнего кабеля.

Если вернуться в дни карт Voodoo 2, то технология SLI была довольно сложной, поскольку помимо двух карт Voodoo 2 требовалась «нормальная» 2Э-карта для 2О-приложений. Сигнал VGA этой 2Б-карты передавался на карты Voodoo 2 с помощью внешнего кабеля, в то время как синхронизация двух карт Voodoo 2 и обмен информацией между ними осуществлялись по ленточному шлейфу. Графическая информация разделялась таким образом, что одна карта выводила только четные строки кадра, а другая — нечетные. Затем результаты складывались или чередовались — отсюда и название Scan Line Interleave.

Технология NVIDIA SLI (Scalable Link Interface) имеет ряд принципиальных отличий от 3Dfx SLI. Главное из них заключается в самом принципе обработки кадров. Технология NVIDIA SLI предлагает два режима работы для увеличения производительности: Split Frame Rendering (SFR) и Alternate Frame Rendering (AFR). Режим AFR — это поочередный рендеринг кадров, то есть одна видеокарта отвечает за рендеринг одного кадра, а вторая — за рендеринг другого.

В режиме SFR одна видеокарта отвечает за обработку верхней половины сцены кадра, а вторая — за обработку нижней половины. Кроме того, разделение кадра на верхнюю и нижнюю половины не ограничено соотношением 50/50, а является гибким. Используя технику динамической балансировки нагрузки, нагрузка между видеокартами делится пополам, позволяя каждой из них работать в полную силу. Вполне очевидно, что технология балансировки нагрузки необходима и эффективна, поскольку в большинстве игр нижняя часть сцены обычно имеет высокую сложность с множеством деталей, а верхняя половина чаще всего отображает только статическое небо.

Для реализации технологии NVIDIA SLI на практике потребуются две видеокарты с интерфейсом PCI Express, поддерживающие данную технологию (например, на базе графического процессора GeForce 6800), мостовой соединитель и материнская плата, имеющая два слота PCI Express xl6.

Обе графические карты должны принадлежать к одному классу производительности, то есть можно объединять только две карты GeForce 6800 Ultra, две GeForce 6800 GT или две GeForce 6800 (стандарт). Смесь различных видеокарт работать не будет, хотя в теории должна бы — ведь здесь используется балансировка нагрузки.

Кроме того, до недавнего времени требовалось (сейчас такого жесткого условия нет), чтобы объединяемые по технологии SLI видеокарты имели одну и ту же версию BIOS.

Технология ATI CrossFire

Альтернативная технология, позволяющая объединять две видеокарты для увеличения производительности, получила название ATI CrossFire. По сравнению с технологией NVIDIA SLI у ATI CrossFire имеется ряд принципиальных отличий и преимуществ. Напомним, что технология NVIDIA SLI имеет несколько ограничений: обе карты должны быть абсолютно идентичны или, другими словами, обладать одним и тем же BIOS (правда, требование идентичных BIOS было только в первых реализациях технологии NVIDIA SLI). Кроме того, режим SLI работает далеко не со всеми играми, а если и работает, то в ряде случаев не дает желаемого прироста производительности. К тому же эффективность технологии NVIDIA SLI и список поддерживаемых ею игр в значительной мере зависят от используемого видеодрайвера.

Технология ATI CrossFire работает со всеми играми под DirectX и OpenGL. Объединяемые видеокарты не обязательно должны быть одинаковыми и могут быть произведены разными компаниями. Технология ATI CrossFire подразумевает больше режимов рендеринга, чем NVIDIA SLI, и поддерживает режим улучшения качества изображения.

На первый взгляд, CrossFire имеет немало общего с NVIDIA SLI: для работы CrossFire требуется материнская плата с двумя слотами PCI Express xl6 под графику. Хотя CrossFire теоретически не зависит от чипсета, ATI утверждает, что система будет работать только на материнских платах с чипсетом Radeon Xpress 200 CrossFire.

CrossFire-версия несколько отличается от обычных карт ATI. Для сборки системы CrossFire, кроме стандартной графической карты Radeon X800 или Х850 (ведомая/slave), потребуется специальная версия видеокарты Radeon X800 или Х850 CrossFire (ведущая/master). При этом видеокарты не соединяются между собой мостиком — только специальным внешним кабелем.

Специальный чип на ведущей CrossFire-карте смешивает картинки, сгенерированные обычной и CrossFire-картой, после чего выводит изображение на дисплей. Смешивание происходит попиксельно.

Разделение на простую и CrossFire-версию карт, на первый взгляд, можно расценить как недостаток по сравнению со SLI, так как в случае с решением NVIDIA вам не нужно думать, какую карту брать, — обе одинаковые. Но если вдуматься, концепция ATI дает определенные преимущества.

Владельцы Radeon X800 или Х850 могут без проблем докупить к своей системе любую модель CrossFire. Здесь не играют роли ни различия в тактовых частотах, ни в версиях BIOS, ни в конфигурации конвейера, ни в производителях. Единственное ограничение — модель CrossFire должна соответствовать другой графической карте. Другими словами, быть картой Х800 или Х850.
CrossFire-версия карты координирует тактовые частоты и адаптируется к обычной карте на основе пиксельных конвейеров. Скажем, если обычная карта использует 12 активных пиксельных конвейеров, то CrossFire-карта тоже перейдет на 12 конвейеров. Но за гибкость приходится платить. Владельцы младшей Х800 или Х850 заплатят достаточно приличную сумму за CrossFire-версию карты, по сравнению со своей, и не факт, что они получат большой выигрыш, ведь темп гонки будет задавать обычная карта.

Технология ATI CrossFire обеспечивает четыре режима работы:

  1. SuperTiling;
  2. Scissor;
  3. Alternate Frame Rendering (AFR);
  4. Super AA.

Режим Super Tiling — это стандартный режим для технологии CrossFire. Он работает для всех игр и приложений DirectSD. Следует отметить, что современные графические процессоры не обрабатывают одновременно все изображение — они разделяют его на небольшие квадраты (quads), которые раскладываются процессором по разным конвейерам. В режиме Super Tiling экран разбивается на отдельные квадраты размером 32 х 32 пиксела (рисунок 18) так, что каждая видеокарта получает изображение с выделенными в шахматном порядке фрагментами для обработки. Таким образом, нагрузка делится строго поровну между кадрами, независимо от конкретной сцены, а вот геометрическую нагрузку приходится дублировать — обе карты рассчитывают одни и те же геометрические данные.

Рисунок 18 – Реализация режима SuperTiling

К преимуществам данного режима относится возможность работы со всеми играми и приложениями, а также оптимальное распределение нагрузки (с точки зрения пикселов). В то же время в некоторых приложениях в режиме Super Tiling производительность возрастает незначительно. Обе карты должны просчитывать всю геометрию сцены, даже если затем они будут вычислять половину пикселов. В играх, которые усиленно используют пиксельные программы, можно ожидать более высокого прироста производительности. Кроме того, режим SuperTiling не работает с играми OpenGL.

Режим рендеринга Scissor разделяет экран на две части по горизонтали (рисунок 19). Одна карта вычисляет верхнюю часть экрана, а вторая — нижнюю. Динамическая балансировка нагрузки позволяет разделить экран на части таким образом, чтобы на карты ложилась равная вычислительная нагрузка. Такой режим является стандартным для приложений OpenGL. Кроме того, данный режим позволяет получить прирост производительности в большинстве игр. В то же время, как и в случае SuperTiling, в режиме Scissor обе видеокарты должны полностью просчитывать геометрию сцены.

Рисунок 19 – Реализация режима Scissor

Режим Alternate Frame Rendering (AFR) подразумевает поочередный рендеринг кадров каждым графическим процессором (рисунок 20). Одна карта просчитывает все нечетные кадры, а вторая — все четные. Принцип легко понять, если учесть, что меняющаяся сцена всегда состоит из последовательности отдельных кадров, которые быстро сменяют друг друга, создавая впечатление непрерывного движения.

Рисунок 20 – Реализация режима AFR

Преимущество такого решения состоит в том, что обе карты оптимально распределяют вычислительную нагрузку. Однако в ряде случаев использование режима AFR невозможно, например, когда обработка следующего кадра напрямую зависит от результатов обработки предыдущего.

Четвертый режим CrossFire называется Super AA (Anti-Aliasing). Точнее, речь идет даже не об одном, а о четырех режимах Super AA: 8х АА, 10х АА, 12х АА и 14х АА. В данных режимах карта не обеспечивает более высокой частоты кадров (производительности), но существенно улучшает качество картинки. Эти режимы позволят повысить качество изображения в играх, которые не получают выигрыша в производительности от использования двух видеокарт. Наличие данных альтернативных режимов рендеринга является ключевым отличием технологии ATI CrossFire от NVIDIA SLI.

Режимы Super АА можно использовать во всех приложениях, без каких бы то ни было ограничений, поскольку они не предполагают распределения рабочей нагрузки между двумя видеокартами — каждая карта выполняет рендеринг кадра на основе уникального набора точек-семплов, после чего результаты рендеринга объединяются и формируется единое изображение.

В режиме 8х АА обе карты генерируют одно и то же изображение, причем каждая из них работает в режиме сглаживания изображения 4х, но использует разные точки-семплы (шаблоны сглаживания). Затем чип смешивает обе картинки в одну. В результате пользователь получает сглаживание 8х по цене 4х FSAA. Аналогично в режиме 12х АА каждая карта работает в режиме сглаживания изображения 6х, но использует разные шаблоны. В результате смешивания картинок получается режим сглаживания 12х АА при производительности, соответствующей режиму 6х FSAA.

В режимах 10х АА и 14х АА используется принципиально новая концепция режима SSAA (SuperSampling АА). Фактически данные режимы сглаживания представляют собой комбинацию режимов 8х АА и 12х АА с новой технологией сглаживания 2х SuperSampling АА, при котором каждая карта осуществляет обработку всей сцены с необходимым разрешением и сдвигом на полпиксела по диагонали. В итоге рендеринг сцены фактически выполняется в режиме 10х АА (8х АА + 2х SSAA) или 14х АА (12х АА + 2х SSAA).




1. Лабораторная работа 1 Тема- Создание форм для ввода данных средствами текстового процессора Word 2007 Це
2. темахоста Многоле~тнее расте~ние растение живущее более двух лет
3. з курсу ldquo;Основи екологіїrdquo; для студентів нехімічних спеціальностей усіх форм навчання
4. радикали катіонрадикали і аніонрадикали
5. Свод небес висел над ним Будто черный полог
6. Роль информационного ресурса в развитии современного общества
7. Угорщина здійснювали політику національного гноблення усіляко прагнули перешкодити формуванню українсько
8. тема правових соціальноекономічних організаційнотехнічних санітарногігієнічних і лікувальнопрофілакт
9. ШКОЛА АКТИВА 2324 ноября 2013 Представительство ЯНАО в СПб Каменноостровский пр
10. О порядке принятия и вступления в силу поправок к Конституции РФ
11. Продажи предназначен для обобщения информации о доходах и расходах связанных с обычными видами деятельно
12. Многоуровневый сетевой маркетинг
13. жінкою живого блюзу
14. Серовский ’ п-п Участковый пункт полиции.html
15. На тему- ldquo;Біосфера та сучасні погляди на її проблемиrdquo; Виконав- студ
16. Реферат- Нормативно-правовые акты Российской Федерации
17. Эпилепсия
18. Учреждения
19. а Звичайно мультивібратор зображають у вигляді симетричної схеми рис
20. Це нервовопсихічний розлад викликане тривалими психотравмуючими факторами емоційним або розумовою перен