У вас вопросы?
У нас ответы:) SamZan.net

Устройство современной видеокарты2

Работа добавлена на сайт samzan.net: 2016-03-05

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Имя

Выберите тип работы:

Принимаю Политику конфиденциальности

Скидка 25% при заказе до 1.7.2025

2 ВИДЕОКАРТЫ

2.1 Видеокарты
2.1.1 Устройство современной видеокарты
2.1.2 Технологии построения трехмерного изображения
2.2 Современные видеокарты
2.2.1 Современные видеокарты на графических процессорах NVIDIA
2.2.2 Современные видеокарты на графических процессорах AMD(ATI)
2.2.3 Технологии объединения видеокарт

2.1 Видеокарты

Современные видеокарты — это одна из самых сложных и дорогих составляющих ПК. Фактически видеокарта представляет собой своеобразный компьютер в компьютере. Плата видеокарты превосходит по сложности разводки и количеству слоев материнскую плату. На самой видеокарте имеется свой процессор и своя оперативная память.

Прежде чем переходить к классификации и описанию современных видеокарт, необходимо познакомиться с рядом специфических терминов и понятий, которые традиционно приводятся в качестве характеристик видеокарт. Однако такие характеристики, как текселы, вершинные и пиксельные шейдеры, скорость заполнения и т. д., неразрывно связаны с пониманием принципов формирования трехмерных объектов и принципов работы современных графических ускорителей. Поэтому прежде мы постараемся в самом общем виде дать представление о том, как устроена видеокарта и как формируется трехмерное изображение.

2.1.1 Устройство современной видеокарты

Любая видеокарта включает в себя следующие обязательные компоненты:

графический процессор;
микросхему BIOS;
видеопамять;
цифроаналоговый преобразователь (RAMDAC);
контроллер интерфейса.

Графический процессор

На заре развития персональных компьютеров видеокарты выполняли функцию кадрового буфера. Изображение формировалось центральным процессором компьютера и программным обеспечением, а карта отвечала лишь за хранение (в буфере памяти) и вывод с определенной частотой отдельных кадров на монитор. По мере возрастания требований к качеству и реалистичности формируемого изображения, а также к скорости рендеринга отдельных кадров, пришло понимание того факта, что центральный процессор ПК, то есть процессор общего назначения, не в состоянии эффективно решать специфические задачи формирования трехмерного изображения и для этих целей требуется специализированный графический процессор (GPU), который занимался бы исключительно расчетом трехмерного изображения. Собственно, современные графические процессоры по сложности не уступают центральным процессорам (процессорам общего назначения), и разница заключается лишь в их «специализации», благодаря чему они могут более эффективно справляться с задачей формирования изображения, выводимого на экран монитора.

Как и центральные процессоры, графические характеризуются такими параметрами, как микроархитектура, тактовая частота работы графического ядра и технологический процесс производства. Графические процессоры обладают и специфическими характеристиками. К примеру, одна из важнейших характеристик графического процессора — это число пиксельных конвейеров (Pixel Pipelines), которое определяет количество обрабатываемых пикселов за один такт. К примеру, количество пиксельных конвейеров может составлять 12 или даже 16.

Забегая вперед, отметим, что для построения трехмерного изображения необходимо выполнить целый ряд операций: принять решение, какие объекты вообще должны присутствовать в сцене (видимые и невидимые), определить местоположение вершины, которое задает каждый из этих объектов, построить по этим вершинам грани, заполнить получившиеся полигоны текстурами в соответствии с освещением, степенью детализации и с учетом перспективных искажений. Чем тщательнее делаются все эти расчеты, тем реалистичнее получится трехмерное изображение. Повысить производительность этих рутинных операций можно, разбив их по стадиям и распараллелив. Именно эти функции и решают пиксельные конвейеры. На каждой стадии каждый пиксельный конвейер занимается тем, что просчитывает очередной пиксел конечного изображения с учетом многих факторов, включая освещение сцены. А для ускорения процесса расчета используют сразу несколько конвейеров. К примеру, если используется 16 пиксельных конвейеров, то первый конвейер обрабатывает 1-й, затем 17-й, затем 33-й пиксел и т. д.; второй конвейер — 2-й, 18-й и 34-й соответственно.

Количество конвейеров позволяет определить пиковую скорость заполнения видеокарты, которая рассчитывается как произведение частоты ядра на количество конвейеров. Если, к примеру, частота ядра составляет 400 МГц, а количество пиксельных конвейеров равно 12, то скорость заполнения будет 4,8 Гпиксела/с.

Помимо пиксельных конвейеров, различают также количество текстурных блоков в каждом конвейере. Число текстурных блоков определяет количество накладываемых текстур за один проход. К примеру, два текстурных блока могут накладывать от двух до четырех текстур за проход. Количество текстурных блоков позволяет определить скорость заполнения в мегатекселах (пикселах текстур).

Также в графических процессорах присутствуют вершинные конвейеры (Vertex Pipelines), которые отвечают за расчет геометрии трехмерного изображения.

Для того чтобы лучше представить себе структуру современного графического процессора, рассмотрим более детально процесс конвейерного расчета трехмерного изображения.

На первом этапе данные о вершинах поступают в вершинные конвейеры, которые занимаются расчетом геометрии сцены. Здесь начинает свою работу так называемый блок T&L (Transform & Lighting), который отвечает за некоторые аспекты работы с геометрией и за освещение и работает в паре с конвейерами. Блок T&L имеет две определяющие характеристики: максимальное количество источников света и количество обрабатываемых полигонов.

Обработка данных в вершинном конвейере происходит под управлением специализированной программы, называемой вершинным шейдером (Vertex Shader).

На следующем этапе формирования изображения задействуется Z-буфер для отсечения невидимых полигонов и граней каркасной модели трехмерного объекта. Далее происходит текстурирование объектов с фильтрацией самих текстур, для чего задействуются пиксельные конвейеры, работающие под управлением специализированной программы, называемой пиксельным шейдером (Pixel Shader).

Необходимо вспомнить о таких программных интерфейсах (Application Programming Interface, API), как OpenGL и Direct3D. В них описаны стандарты для работы с трехмерными изображениями. Приложение вызывает определенную стандартную функцию OpenGL или Direct3D, а шейдеры эту функцию выполняют.

Вершинные и пиксельные шейдеры имеют свою версию. На сегодняшний день последней является версия 3.0. И для реализации всех возможностей программ по обработке пикселов и вершин необходимо, чтобы данную версию шейдера поддерживала и видеокарта, и само приложение.

На последнем этапе конвейерной обработки данные передаются в буфер кадров.

Рассмотренный нами алгоритм формирования изображения является весьма упрощенным. В реальных графических процессорах все обстоит несколько сложнее. К примеру, для повышения качества изображения используется технология сглаживания, фильтрации текстур и т. д. О некоторых из этих технологий будет рассказано далее.

Видеопамять

Для графического процессора требуется видеопамять, играющая роль кадрового буфера, в который центральный процессор направляет видеоданные, а затем графический процессор считывает оттуда полученную информацию. Кроме того, в видеопамяти располагается Z-буфер и хранятся текстуры. Естественно, для обеспечения эффективной передачи данных важна пропускная способность видеопамяти.

Видеопамять графической карты характеризуется теми же параметрами, что и оперативная память ПК, и в этом смысле наиболее важными характеристиками являются пропускная способность шины памяти, по которой данные из видеопамяти передаются к графическому процессору, а также латентность памяти. Пропускная способность шины памяти определяется разрядностью шины памяти и ее эффективной тактовой частотой. К примеру, разрядность шины памяти может составлять 256,128 или 64 бита, а эффективная тактовая частота может достигать 1 ГГц.

Ширина шины памяти определяет количество бит, передаваемых между GPU и памятью за один такт. Собственно, пропускную способность шины памяти можно найти, если умножить ширину шины на тактовую частоту. К примеру, если ширина шины составляет 128 бит (16 байт), а тактовая частота памяти равна 250 МГц, то пропускная способность шины будет 4 Гбайт/с.

Латентность видеопамяти, то есть время выборки данных из памяти, определяется используемыми чипами памяти, Латентность современных микросхем видеопамяти составляет порядка 2 не и менее.

Кроме технических характеристик используемой видеопамяти, не менее важен и ее объем. При недостаточном объеме видеопамяти графический процессор фактически будет простаивать, пока нужные данные подгружаются из оперативной памяти компьютера. Минимальный объем видеопамяти современных видеокарт составляет 128 Мбайт, а максимальный — 512 Мбайт.

RAMDАС

После обработки графическим процессором и формирования им изображения данные передаются в цифро-аналоговый преобразователь RAMDAC, который непосредственно отвечает за преобразование цифрового сигнала в аналоговый. Дело в том, что все мониторы способны понимать сигнал именно в аналоговом, а не в цифровом виде. Правда, большинство современных ЖК-мониторов, для которых цифровой сигнал является естественным, имеет цифровой видеовход DVI и способно работать именно с цифровым сигналом. Однако для совместимости со всеми типами мониторов видеокарты наделяются аналоговым выходом (нередко в паре с цифровым).

Главные характеристики RAMDAC — это тактовая частота и разрядность. Многие современные видеокарты поддерживают одновременную работу с двумя мониторами, поэтому в такие карты устанавливаются по два RAMDAC и, соответственно, по два разъема для подключения монитора.

Контроллер интерфейса

Контроллер интерфейса отвечает за сопряжение видеокарты с материнской платой компьютера. До недавнего времени в качестве интерфейса видеокарт использовался специализированный AGP (Accelerated Graphic Port). К примеру, видеокарты подключались по интерфейсу AGP 4х с пропускной способностью 1,06 Гбайт/с или по интерфейсу AGP 8х с пропускной способностью 2,1 Гбайт/с.

Однако на смену интерфейсу AGP пришел более перспективный PCI Express. Для подключения графических карт используется версия PCI Express xl6. Теоретическая пропускная способность такой шины составляет до 4000 Мбайт/с в обоих направлениях. Новая шина с большим запасом перекрывает возможности современных графических процессоров и в перспективе может послужить дополнительным стимулом к их совершенствованию. Отметим, что все новые видеокарты выпускаются именно с интерфейсом PCI Express xl6.

2.1.2 Технологии построения трехмерного изображения

Современные технологии формирования трехмерного изображения и придания ему реалистичности чрезвычайно сложны, и детальное их рассмотрение выходит за рамки данной книги. Поэтому мы лишь вкратце опишем базовые технологии, которые фигурируют в качестве характеристик современных видеокарт.

Основные понятия
Прежде всего, нам предстоит познакомиться с основными понятиями трехмерной графики. К ним относятся:

вершина;
полигон;
текстура.

Любой трехмерный объект, каким бы сложным он ни был, можно представить в виде набора простейших полигонов, которыми являются треугольники.

Поскольку речь идет о трехмерной графике, то любой объект представляется в виде набора точек, называемых вершинами, в трехмерном пространстве. Каждая вершина в трехмерном пространстве характеризуется тремя координатами, а система координат определяется тремя осями: горизонтальной (X), вертикальной ( Y) и глубины (Z). Соединяя вершины между собой, можно любую трехмерную поверхность аппроксимировать набором полигонов (многоугольников), простейшими из которых являются треугольники. Положение этих полигонов и задается вершинами. Понятно, что для формирования изображения полигоны необходимо закрасить. Для этого часто прибегают к текстурам. Текстура — это двумерное изображение, которое может «натягиваться» на трехмерные объекты с учетом их формы и положения.

Текстурирование трехмерных поверхностей — это самый распространенный метод закрашивания. К примеру, если бы мы попробовали смоделировать кирпичную стену без технологии наложения текстур, нам потребовалось бы прорисовывать множество отдельных граней для моделирования множества кирпичей. Текстура дает больше реализма и требует меньше вычислительных ресурсов, позволяя оперировать со всей стеной как с единой поверхностью. Все текстуры хранятся в памяти, обычно установленной на видеокарте.

Для того чтобы придать реалистичность формируемому изображению, необходимо рассчитать, какие именно объекты должны выводиться на экран, а какие не должны попасть в поле зрения. К примеру, если один объект находится спереди, а второй позади, то часть второго объекта должна быть невидимой.

Для решения этой задачи применяется метод, называемый Z-буферизацией. В так называемом Z-буфере (буфере глубины) хранятся значения глубины всех пикселов (Z-координаты). Когда рассчитывается новый пиксел, его глубина сравнивается со значениями глубин уже рассчитанных пикселов с теми же координатами Xи Y. Если новый пиксел имеет значение глубины больше какого-либо значения в Z-буфере, то новый пиксел не записывается в буфер для отображения, если меньше — записывается.

Процесс обработки текстур и информации кадрового буфера называется рендерингом (или процессом закраски).

Аппаратная реализация Z-буферизации значительно увеличивает производительность графической подсистемы. Главная характеристика Z-буфера — это его разрешающая способность. Она критична для высококачественного отображения сцен с большой глубиной. Чем выше разрешающая способность, тем выше дискретность Z-координат и точнее выполняется рендеринг удаленных объектов. Если при рендеринге разрешающей способности не хватает, может случиться, что два перекрывающихся объекта получат одну и ту же координату Z, что вызовет искажение изображения. Как правило, видеокарты имеют 32-разрядный Z-буфер.

Кроме буфера глубины, позволяющего отсекать невидимые поверхности, для создания реалистичных трехмерных изображений необходимо учитывать, что объекты могут быть полупрозрачными. Эффект полупрозрачности создается путем объединения цвета исходного пиксела с пикселом, уже находящимся в буфере. В результате цвет точки является комбинацией цветов переднего и заднего плана. Для учета прозрачности объектов используется так называемый alpha-коэффициент прозрачности, который имеет значение от 0 до 1 для каждого цветового пиксела.

Очевидно, что для создания реалистичной картины происходящего на экране необходимо частое обновление его содержимого. При формировании каждого следующего кадра ЗD-акселератор проходит весь путь подсчета заново, поэтому он должен обладать немалым быстродействием. Но в ЗD-графике применяются и другие методы придания плавности движению. Наиболее распространенный — метод двойной буферизации (Double Buffering).

Для двойной буферизации требуется наличие двух областей, зарезервированных в буфере кадров. Метод Double Buffering использует два буфера кадров для получения изображения: один для отображения картинки, другой для рендеринга. В то время как отображается содержимое одного буфера, в другом происходит рендеринг. Когда очередной кадр обработан, буферы переключаются (меняются местами). Без применения двойной буферизации изображение не будет иметь требуемой плавности, то есть будет прерывистым.

Технологии повышения реалистичности трехмерного изображения

Для повышения реалистичности отображения наложенных на полигоны текстур используются самые различные технологии: сглаживания (Anti-Aliasing), MIP mapping, текстурной фильтрации и т. д.

Технология сглаживания (Anti-Aliasing)

Anti-Aliasing — это технология устранения эффекта ступенчатых краев (Aliasing).
Изображение на экране состоит из множества мелких точек — пикселов, которые, как маленькие кирпичики, формируют любое изображение. Однако из-за того, что пикселы имеют конечный размер, на краях трехмерных объектов можно различить так называемую лесницу, или ступенчатые края. Чтобы минимизировать эффект лесницы, проще всего увеличить разрешение экрана (уменьшив тем самым минимальный размер формируемых пикселов). Правда, такой способ минимизации паразитного эффекта подходит не всегда, поскольку это зависит от конкретного монитора, а если речь идет об игре — то и от возможности игры переключаться на более высокое разрешение. Если избавиться от ступенчатого эффекта за счет повышения разрешения монитора нельзя, можно использовать технологию Anti-Aliasing, которая позволяет визуально сгладить эффект лестницы. Наиболее часто используемая для этого техника — это создание плавного перехода от цвета линии или края к цвету фона. Цвет точки, лежащей на границе объектов, определяется как среднее значение цветов двух граничных точек.

Существует несколько базовых технологий Anti-Aliasing. Первоначально технологии сглаживания применялись лишь к отдельным объектам, однако с повышением производительности графических процессоров получила широкое распространение технология полноэкранного сглаживания, или FSAA (Full'Screen Anti-Aliasing).

Суть данной технологии заключается в том, что графический процессор рассчитывает изображение в гораздо большем разрешении, чем разрешение экрана, а затем сжимает его до установленного значения. Например, при разрешении экрана 800 х 600 и установке режима FSAA 2x2 изображение будет рассчитываться в разрешении 1600 х 1200, а затем сжиматься до 800 х 600 и выводиться на экран.

При сжатии полученное изображение уменьшается на строго установленное количество пикселов, при этом в соответствии с используемым алгоритмом окончательные цвета сглаженных пикселов рассчитываются по значениям нескольких соседних пикселов. В результате при сжатии изображения у всех линий появляются плавные цветовые границы переходов, что визуально устраняет эффект лестницы.

Технология МIР mapping

Одна из самых распространенных технологий, используемых для улучшения качества текстурирования трехмерных объектов, называется MIPmapping.

Дело в том, что для придания реалистичности трехмерному изображению необходимо учитывать глубину сцены. По мере удаления от точки наблюдения накладываемая текстура должна выглядеть все более размыто. Поэтому при текстурировании даже однородной поверхности чаще всего используется не одна и даже не две текстуры, что позволяет корректно учитывать перспективные искажения трехмерного объекта. Представим себе, что нам необходимо изобразить брусчатую мостовую, уходящую в глубь сцены. Если мы попытаемся использовать для этого всего одну текстуру по всей длине, то по мере удаления от точки наблюдения (на заднем плане) может проявиться рябь или просто один сплошной цвет. Дело в том, что в этой ситуации сразу несколько пикселов текстуры (текселов) попадает в один пиксел на мониторе. Возникает вопрос: в пользу какого одного текстела сделать выбор при отображении пиксела?

Для решения подобных проблем используется технология MIP mapping, которая подразумевает возможность применения набора текстур с различной степенью детализации. То есть на базе каждой текстуры создается целый набор текстур с меньшим уровнем детализации. Текстуры такого набора называются МIР-картами (MIP map).

В простейшем случае наложения текстуры для каждого пиксела изображения определяется соответствующая ему MIP-карта согласно таблице детализации (Level Of Detail, LOD). Далее из MIP-карты выбирается только один тексел (пиксел карты), который присваивается пикселу.

Технологии фильтрации

Как правило, технология MIP mapping используется в сочетании с технологиями фильтрации, призванными исправить артефакты MIP-текстурирования. Например, при удалении объекта все дальше от точки наблюдения происходит переход от низкого MIP map-уровня к высокому MIP map-уровню. В момент нахождения объекта в переходном состоянии от одного MIP map-уровня к другому появляется особый тип ошибок визуализации — явно различимые границы перехода от одного MIP map-уровня к другому.

Смысл фильтрации состоит в том, что цвет пикселов объекта рассчитывается по соседним точкам текстуры (текселам). Существует несколько типов фильтрации, поддерживаемых видеокартами.

Билинейная. При медленном вращении или движении объекта могут быть заметны перескакивания пикселов с одного места на другое, что и вызывает мерцание. Для снижения этого эффекта при билинейной фильтрации для отображения точки поверхности берется взвешенное среднее значение четырехсмежных текстурных пикселов.
Трилинейная. Также призвана удалять артефакты, возникающие при использовании MIP-текстурирования. При трилинейной фильтрации для определения цвета пиксела берется среднее значение цвета восьми текселов, по четыре из двух соседних текстур, и в результате семи операций смешивания определяется цвет пиксела. При использовании трилинейной фильтрации возможен вывод на экран текстурированного объекта с плавно выполненными переходами от одного MIP-уровня к следующему. Таким образом решается большинство проблем, связанных с MIP-текстурированием и ошибками из-за неправильного расчета глубины сцены (depth aliasing).
Анизотропная. Самая прогрессивная на сегодняшний день технология фильтрации, при использовании которой один-единственный пиксел может рассчитываться по 8-32 текселам. Для сравнения, в простейшем варианте фильтрации, билинейной, для расчета цвета пиксела используется всего четыре ближайших тексела.

2.2 СОВРЕМЕННЫЕ ВИДЕОКАРТЫ
2.2.1 Современные видеокарты на графических процессорах NVIDIA

Несмотря на достаточно большое количество компаний, присутствующих на рынке дискретных видеоускорителей, их продукция совершенно незначительно отличается друг от друга по своей производительности и функциональности. Это объясняется тем, что видеокарты построены на одних и тех же графических процессорах. Более того, если речь заходит о старших (наиболее производительных) моделях, то зачастую они как две капли воды похожи друг на друга и в точности повторяют так называемый референсный (предложенный разработчиком графического процессора) дизайн.

Поэтому для того, чтобы получить представление о присутствующей на рынке продукции, нет смысла описывать видеокарты различных производителей. Вполне достаточно рассмотреть особенности графических процессоров и референсных видеокарт, построенных на них.

G — экономичная серия;
GT — средняя производительность, мейнстрим;
GTS — геймерские видеоплаты с высокой производительностью;
GTX — решения экстрим-класса для энтузиастов.

Семейство NVIDIA GeForce 8

Революционные изменения в восьмом поколении видеокарт по сравнению с предыдущим, седьмым, обусловлены выходом операционной системы Windows Vista ОТ Microsoft с принципиально новым интерфейсом WGF2.0 (Windows Graphics Foundation), известным также как DirectX 10 API.

В связи с этим архитектура нового графического процессора претерпела существенные изменения. Чтобы понять, насколько мощной спроектировали новую систему, достаточно взглянуть на одну цифру — количество транзисторов. В G80 их 681 млн. Это больше, чем в самых современных процессорах Intel. К примеру, Intel Core 2 Е6850 состоит всего из 291 млн полупроводниковых элементов, а самый производительный Intel Core 2 Extreme QX6850 — из 582 млн.

Такая сложная структура G80 в совокупности с 90-нанометровым техпроцессом ведет к увеличению энергопотребления. В зависимости от модификации, топовые видеокарты восьмого поколения потребляют от 108 до 175 Вт энергии, что катастрофически много в свете борьбы AMD и Intel за повышение энергоэффективности центральных процессоров.

Производимые по 65-нанометровому техпроцессу, процессоры архитектуры G92 (также относятся к восьмой серии) выигрывают у G80 по энергоэффективности, однако в абсолютных цифрах TDP по-прежнему остается довольно высоким — около 130 Вт.

Семейство NVIDIA GeForce 8 (Унифицированные шейдерные процессоры)

Рисунок 1 – 80 графических ядер с унифицированными шейдерными процессорами

Новое поколение графических процессоров имеет принципиально новую архитектуру, основанную на унифицированных потоковых процессорах (шейдерные процессоры). Если в графических процессорах предыдущего поколения отдельно выделяли пиксельные и вершинные процессоры, которые называли также конвейерами, то в новой архитектуре речь идет именно об унифицированных шейдерных процессорах. Такие процессоры способны выполнять не только вершинные и пиксельные шейдерм, но также геометрические и физические, что не было реализовано в графических чипах предыдущих поколений. Архитектура унифицированных блоков позволяет достичь сбалансированной нагрузки при выполнении различных шейдеров, чего в принципе нельзя было достичь при использовании классической архитектуры графического процессора.

Унифицированные потоковые процессоры (Unified Streaming Processors, USP) представляют собой скалярные процессоры общего назначения для обработки данных с плавающей запятой. При этом необходимо акцентировать внимание на том, что ранее как NVIDIA, так и ATI применяли в своих изделиях векторную архитектуру исполнительных блоков.

Переход к скалярным процессорам вызван тем, что традиционная векторная архитектура менее эффективно использует вычислительные ресурсы, чем скалярный дизайн процессорных модулей, особенно в случае обработки сложных смешанных шейдеров, сочетающих векторные и скалярные инструкции.

Рисунок 2 – Структура шейдерного процессора G80

SP = Streaming Processors
TF = Texture Filtering Units
ТА = Texture Address Units
L1/L2 = Caches

Потоковые процессоры обрабатывают сырые данные и передают их блокам текстурирования. На каждые четыре потоковых процессора приходится один модуль адресации текстур и два модуля фильтрации текстур. То есть на каждый функциональный блок в ядре, как видно на рисунке, приходится 16 потоковых процессоров, четыре модуля адресации текстур и восемь модулей фильтрации текстур. Примечательно, что каждому такому блоку выделен кэш первого уровня. При выполнении скалярным унифицированным потоковым процессором векторного программного кода преобразование в скалярные операции производится графическим процессором GeForce 8800.

Coverage Sampling Anti-Aliasing (CSAA)

Новая технология сглаживания основана на так называемых coverage samples и получила название Coverage Sampling Anti-Aliasing (CSAA). При этом поддерживаются четыре режима CSAA: 8х, 8xQ, 16х и 16xQ.

Технология CSAA обеспечивает более высокое качество сглаживания, чем технологии, реализованные в предыдущих версиях графических процессоров NVIDIA. Этот метод во многом похож на подход ATI и также имеет дело с псевдостохастическими паттернами и распространением отсчетов на соседние геометрические зоны (происходит размазывание пиксела, пикселы не имеют резкой границы, а как бы переходят один в другой с точки зрения АА, покрывая некую зону).

Геометрические шейдеры 4.0

Геометрические шейдеры — это программы, позволяющие обрабатывать данные на уровне не отдельных вершин, как в вершинных шейдерах, а примитивов, то есть набора вершин (линий, полосок, треугольников и т. д.). Они дают возможность существенно повысить эффективность преобразования сложных трехмерных объектов. Работа с геометрическими шейдерами позволит сократить количество тактов графического процессора для просчета сложных геометрических преобразований, таких как реалистичные волосы и струящиеся сложные ткани. Также геометрические шейдеры помогут увеличить реалистичность изображения воды за счет возможностей тесселяции (разбиения полигонов на более мелкие).

Физические эффекты

Технология расчета физических эффектов (NVIDIA Quantum Effects) позволяет имитировать и рендерить множество новых физических эффектов, таких как огонь, дым, взрывы, движущиеся волосы, вода и т. д. Разумеется, самые интересные игровые эффекты с эмуляцией физических явлений можно будет наблюдать после выхода игр для DirectX 10.

NVIDIA GeForce 8800 GTX

Рисунок 3 - NVIDIA GeForce 8800 GTX

Логически графический процессор содержит несколько вычислительных блоков: восемь блоков GeForce 8800 GTX. В каждом таком блоке сгруппированы четыре блока TMU (блок наложения текстур) и 16 блоков ALU. Таким образом, мы получаем 128 блоков ALU и 32 блока TMU (таблица).

Сама NVIDIA предпочитает говорить, что GeForce 8800 GTX имеет 128 унифицированных потоковых процессоров. По сути, это утверждение не совсем верно и носит в большей степени маркетинговый характер. Более правильно говорить о восьми унифицированных шейдерных процессорах (вычислительных блоках), поскольку именно вычислительный блок, а не отдельный блок ALU может обрабатывать часть пиксельного, вершинного или геометрического шейдера, а все ветвления, переходы, условия и т. д. обрабатываются именно на уровне всего вычислительного блока.

Рисунок 4 – Архитектура графического ядра G92

Таблица 1 – Параметры видеокарты NVIDIA GeForce 8800 GTX

Параметры	GeForce 8800 Ultra	GeForce 8800 GTX	GeForce 8800 GTS 320 (640)
Кодовое имя процессора	G80	680	G80
Частота работы процессора, МГц	612	575	513(500)
Технологический процесс изготовления, нм	90	90	90
Количество транзисторов, млн	681	681	681
Количество блоков исполнения универсальных шейдеров	8	8	6
Тактовая частота универсальных потоковых процессоров, МГц	1500	1350	1200
Количество потоковых процессоров	128	128	96
Количество текстурных модулей (TMU)	32	32	24
Количество блоков растеризации (R0P)	24	24	20
Тип поддерживаемой памяти	GDDR3	GDDR3	GDDR3
Разрядность (ширина) интерфейса памяти, бит	384	384	320
Объем видеопамяти, Мбайт	768	768	320 (640)
Эффективная частота памяти, ГГц	2Д6	1,8	1,6
Поддержка NVIDIA SLI	Есть	Есть	Есть
Поддерживаемый интерфейс	PCI Express xl6	PCI Express xl6	PCI Express xl6
Поддерживаемая версия универсальных шейдеров	4.0	4.0	4.0
Поддерживаемая версия DirectX	10.0	10.0	10.0
Поддерживаемая версия OpenGL	2.1	2.1	2.1
Степени анизотропной фильтрации (AF)	2,4,8,16	2,4, 8,16	2,4, 8,16
Степень мультисемплинга полноэкранного сглаживания	8х, 8xQ, 16х, 16xQ	8х, 8xQ, 16х, 16xQ	8x, 8xa 16x, 16xQ
Частота интегрированного RAMDAC, МГц	2x400	2x400	2 x 400
Интегрированная поддержка DVI/HDTV	Есть	Есть	Есть

NVIDIA GeForce 8800 GTX

Рисунок 5 – Видеокарта NVIDIA GeForce 8800 GTX

Референсная видеокарта на базе процессора GeForce 8800 GTX имеет 768 Мбайт видеопамяти GDDR3. При этом ширина шины памяти составляет 384 бит, а частота работы памяти — 1800 МГц. Соответственно пиковая пропускная способность шины памяти равна 86,4 Гбайт/с.

Блоки растровых операций поддерживает мультисемплированное, суперсемплироваиное и прозрачное адаптивное сглаживание. Отметим, что добавлены новые режимы сглаживания: 8х, 8xQ, 16х и 16xQ.

Ещё одной важной особенностью архитектуры графического процессора GeForce 8800 является потоковая циклическая обработка данных. Применение циклической потоковой обработки данных одновременно с унифицированными процессорами позволяет решить проблему их повторной обработки, довольно часто встречающуюся в современных играх.

Как уже отмечалось, рассматриваемый графический процессор поддерживает множество новых функций и технологий, в том числе следующие.

Новые режимы сглаживания и анизотропной фильтрации.
Геометрические шейдеры, реализованные в DirectX 10.
Режим HDR. Графические процессоры серии GeForce 8800 поддерживают процесс HDR-ренлеринга (High Dynamic Range) с 128-битной точностью не только в режиме FP16 (64-битный цвет), но и FP32 (128-битный цвет), которые могут обрабатываться одновременно с процессом сглаживания.
Технологию расчета физических эффектов NVIDIA Quantum Effects.
Режим Extreme High Definition Gaming. Новые графические процессоры семейства GeForce 8800 и соответственно все видеокарты на их базе поддерживают игровые установки Extreme High Definition (XHD), при которых игры могут запускаться в широкоформатном режиме вплоть до 2560 х 1600, превышает качество картинки HD-телевизора формата 1080i и в два раза формата - 1080р.
2 х DVI Dual Link.
Технологии PureVideo и PureVideo HD.

NVIDIA GeForce 8800 GTS

Рисунок 6 – Видеокарты NVIDIA GeForce 8800 GTS

Разница между видеокартами NVIDIA GeForce 8800 GTX и GeForce 8800 GTS заключается в количестве унифицированных потоковых процессоров (SP), тактовой частоте работы SP и графического ядра, а также в разрядности шины памяти, частоте работы и объеме поддерживаемой памяти. Графический процессор GeForce 8800 GTS имеет 96 унифицированных потоковых процессоров, работающих на частоте 1200 МГц. Тактовая частота остальных блоков (кэш, модули текстурирования и т. д.) составляет 500 МГц (513 МГц для 320-мегабайтной версии).
Референсная видеокарта на базе процессора GeForce 8800 GTS имеет, в зависимости от версии, 320 либо 640 Мбайт видеопамяти GDDR3. При этом ширина шины памяти составляет 320 бит, а частота работы памяти — 1600 МГц.

NVIDIA GeForce 8800 Ultra

Рисунок 7 – Видеокарта NVIDIA GeForce 8800 Ultra

Разработчик позиционирует эту карту как решение для премиум-сегмента. Она является не чем иным, как разогнанной версией NVIDIA GeForce 8800 GTX. Расчетная скорость текстурирования составляет 39,2 Гпиксел/с, а закраски — 14,7 Гпиксл/с. Это более чем в 1,6 раза превосходит по скорости текстурирования самую производительную двухпроцессорную модель предыдущего поколения NVIDIA GeForce 7950 GX2.
NVIDIA уже неоднократно практиковала такую политику, когда производительность наращивалась не за счет переработки архитектуры ядра (G80 и так отличается сложностью), а за счет увеличения частоты работы. С точки зрения маркетинга это оправданно.
NVIDIA GeForce 8800 Ultra, как и предшественница (GeForce 8800 GTX), использует память GDDR3 общим объемом 768 Мбайт, тактовая частота процессора составляет всего 612 МГц для основной подсистемы и 1,5 ГГц для подсистемы шейдерных процессоров, что соответственно на 6 и 11 % больше по сравнению с неразогнанной картой. Частота памяти возросла с номинальных 1800 до 2160 МГц. Но этому параметру прирост быстродействия составил целых 20 %. В любом случае эта видеокарта является одним из самых мощных 3D-ускорителей. Хотя некоторые партнеры NVIDIA в своих продуктах самостоятельно разгоняли GeForce 8800 GTX, приблизив их тем самым к возможностям GeForce 8800 Ultra, однако той же производительности им достигнуть не удалось.

NVIDIA GeForce 8600 GTS

Рисунок 8 – Видеокарта NVIDIA GeForce 8600 GTS

Ввиду того что архитектура G80 довольно гибкая, она позволяет малыми силами урезать производительность видеоадаптеров. Поэтому в данном случае без особых мудрствований NVIDIA и пошла по этому пути. Количество ALU в шейдерном блоке осталось прежним, однако они работают на более чем удвоенной частоте 1450 МГц, а их точность составляет FP32, с поддержкой целочисленных форматов.

Учитывая то, что универсальных шейдерных блоков всего два, легко подсчитать количество универсальных потоковых процессоров: 2 х 16 = 32. Странно, что в решениях среднего уровня всего два универсальных шейдера.

Разрыв с топовыми продуктами довольно существенный. По аналогии с G80 можно было бы предположить, что количество TMU при этом должно быть равно восьми, однако это не так. Несмотря на общую схожесть, в новые процессоры все-таки были внесены некоторые изменения. В частности, количество модулей адресации текстур увеличилось в два раза по сравнению с G80. Поэтому получается, что в GeForce 8600 GTS на каждый блок адресации приходится один блок билинейной фильтрации, что теоретически должно обеспечить прирост скорости при данной операции. Однако в то же время это означает падение производительности при трилинейной и анизотропной фильтрации, которые в топовых продуктах будут выполняться быстрее за счет двукратного превосходства модулей фильтрации над модулями адресации.

Таблица 2 - Технические характеристики графических ускорителей семейства G84

Параметры	GeForce 8600 GTS	GeForce 8600 GT
Кодовое имя процессора	G84	G84
Частота работы процессора, МГц	675	540
Технологический процесс изготовления, им	80	80
Количество транзисторов, млн	289	289
Количество блоков исполнения универсальных шейдеров	2	2
Тактовая частота универсальных потоковых процессоров, МГц	1450	1190
Количество потоковых процессоров	32	32
Количество текстурных модулей (TMU)	16	16
Количество блоков растеризации (R0P)	8	8
Тип поддерживаемой памяти	GDDR3	GDDR3
1'азрядность (ширина) интерфейса памяти, бит	128	128
Объем видеопамяти, Мбайт	512	256
Эффективная частота памяти, ГГц	2	1,4
Поддержка NVIDIA SLI	Есть	Есть
Поддерживаемый интерфейс	PCI Express х16	PCI Express х16
Поддерживаемая версия универсальных шейдеров	4.0	4.0
Поддерживаемая версия DirectX	10.0	10.0
Поддерживаемая версия OpenGI.	2.1	2.1
Степени анизотропной фильтрации (AF)	2,4, 8,16	2,4,8,16
Степень мультисемплинга полноэкранного сглаживания	8х, 8xQ, 16х, 16x0	8х, 8x0,16х, 16xQ
Частота интегрированного RAMDAC, МГц	2 х400	2 х400
Максимальное разрешение (DVI), частота кадровой развертки (Гц)	2560x 1600 x 60	2560 х 1600 х 60

Графические ускорители архитектуры G92

Рисунок 9 – Архитектура графического ядра G92

На приведенной ниже схеме видно, что процессор имеет семь конвейеров для параллельной обработки данных. Схема работы TMU изменилась относительно G80: она совпадает с той, которая была реализована в G84 и G86.

Архитектура G92 — нечто иное, как развитие предыдущей G80. Новые процессоры стали более сложными, количество транзисторов увеличилось почти на 150 тыс. Это обусловлено переработкой блоков TMU, а также переносом функциональности (NVIO), за которую раньше отвечал отдельный чип, на кристалл.

И первую очередь необходимо отметить поддержку шины PCI Express 2.0, а также повышенные частоты работы ядра и чуть улучшенные показатели энергоэффективности.

По сравнению с G80 уменьшилось количество блоков ROP с шести до четырех. Каждый из блоков обрабатывает по четыре пиксела (или 16 субпикселов), и всего получается 16 пикселов за такт для цвета и Z. В режиме только Z обрабатывается в два раза большее количество семплов за один такт. При MSAA (Multi Sample Anti-Aliasing) 16х чип может выдавать два пиксела за такт, при 4х - восемь и т. д. Как и в G80, полноценно поддерживаются форматы буфера кадров FP32 и FP16 совместно со сглаживанием.

Любители высококачественного видео оценят интегрированные в GPU функции декодирования медиаданных. У NVIDIA для этого есть специальный термин PureVideo HD. В этой реализации поддерживаются кодеки MPEG-2, WMV, H.264 и VC-1. Вес это позволяет выводить картинку с разрешением 1920 х 1080 (Full HD)) и битрейтом до 30-40 Мбит/с.

Тем, кто собирает компьютер с нуля, необходимо обратить внимание на поддерживаемые видеовыходы. Новомодного DisplayPort в этом поколении видеокарт нет! Будьте внимательны, выбирая монитор.

Таблица 3 - Технические характеристики графических ускорителей семейства G92

Параметры	GeForce 8800 GS	GeForce 8800 GT	GeForce 8800 GTS
Кодовое имя процессора	G86	G92	G92
Частота работы процессора, МГц	550	600	650
Технологический процесс изготовления, нм	65	65	65
Количество транзисгоров, млн	754	754	754
Тактовая частота универсальных потоковых процессоров, МГц	1375	1500	1625
Количество потоковых процессоров	7	7	7
Количество текстурных модулей (TMU)	48	56	64
Количество универсальных блоков (ALU)	128	128	128
Количество блоков растеризации (R0P)	16	16	16
Тип поддерживаемой памяти	G0DR3	GDDR3	GDDR3
Разрядность (ширина) интерфейса памяти, бит	192	256	256
Объем видеопамяти. Мбайт	768	1024	1024
Эффективная частота памяти, ГГц	1*6	1,8	1,94
Поддержка NVIDIA 5U	Есть	Есть	Есть
Поддерживаемый интерфейс	PCI Express 2.0 х16	PCI Express 2.0 xl6	PCI Express 2.0x16
Поддерживаемая версия универсальных шейдеров	4.0	4.0	4.0
Поддерживаемая версия DirectX	10	10	10
Поддерживаемая версия UpenGL	2.1	2.1	2.1
Степени анизотропной фильтрации (AF)	2. 4. 8, 16	2,4,8,16	2,4,8,16
Частота интегрированного RAMDAC, МГц	2x400	2x400	2x400
Частота интегрированного RAMDAC, МГц	2x400	2x400	2x400

Семейство NVIDIA GeForce 9

Видеокарты девятой серии стали для NVIDIA промежуточным вариантом на пути к следующему поколению. Старшие модели являются ближайшими родственниками рассмотренного выше ядра G92, а младшие по своей архитектуре ближе к G8x.

Если же абстрагироваться от деталей, то, по сути, видеокарты и восьмой, и девятой серии — одного поля ягоды. Младшие G9x отличаются более тонким 65-нанометровым техпроцессом и наличием новых модулей вроде интегрированной NVIDIA.

По сравнению с предыдущим поколением флагманы девятой серии обзавелись поддержкой интерфейса DisplayPort, а также повышенными рабочими частотами памяти и логических блоков.
Средний и бюджетный сегменты представлены восьмью видеокартами 9300 9300 GE, 9300 GS, 9400, 9400 GT, 9500 С.Т, 9600 GT, 9600 GSO.

Младшая серия отличается уменьшенным количеством рабочих модулей, пониженными частотами функционирования памяти и графического ядра.

Интерфейс DisplayPorl реализован только в модели 9600 GT, остальные его не имеют.

Выбирая между видеокартами девятой и восьмой серии, предпочтение стоит отдавать более новым моделям. В числе их преимуществ – повышенное быстродействие и расширенная функциональность.

Таблица 4 – Технические характеристики графических ускорителей серии 98хх

Параметры	GeForce 9800 GT	GeForce 9800 GTX	GeForce 9800 GTX+
Кодовое имя процессора	G92a, b	G92b	G92b
Частота работы процессора, МГц	600	675	738
Технологический процесс изготовления, нм	65, 55	65	65
Количество транзисторов, млн	754	754	754
Тактовая частота универсальных потоковых процессоров, МГц	1500	1688	1836
Количество потоковых процессоров	7	7	7
Количество текстурных модулей (TMU)	56	64	64
Количество универсальных блоков(ALU)	112	128	128
Количество блоков растеризации (R0P)	16	16	16
Тип поддерживаемой памяти	G0DR3	GDDR3	GDDR3
Разрядность (ширина) интерфейса памяти, биг	256	256	256
Обьем видеопамяти. Мбайт	1024	1024	1024
Эффективная частота памяти, ГГц	1,8	2,2	2,2
Поддержка NVIDIA SLI	2-way	3-way	3-way
Поддерживаемый интерфейс	PCI Express 2.0 х16	PCI Express 2.0x16	PCI Express 2.0x16
Поддерживаемая версия универсальных шейдеров	4.0	4.0	4.0
Поддерживаемая версия DirectX	10	10	10
Поддерживаемая версия OpenGL	2.1	2.1	2.1
Степени анизотропной фильтрации (AF)	2,4,8,16	2,4,8,16	2, 4, 8, 16
Частота интегрированного RAMDAC, МГц	2x400	2x400	2x400
Максимальное разрешение (VGA), частота кадровой развертки	2048 x 1536 x 85	2048 x 1536 x 85	2048 x 1536 x 85
Интегрированная поддержка TV-выхода	Есть	Есть	Есть
Интегрированная поддержка DVI	2 x Dual-Link	2 x Dual-Link	2 x Dual-Link
Интегрированная поддержка DisplayPort	Есть	Есть	Есть

Семейство NVIDIA GeForce 200

На эту серию NVIDIA возлагала большие надежды. При ее разработке за основу были взяты принципы, положенные в основу зарекомендовавших себя архитектур G8x и G9x. Необходимо было улучшить производительность при выполнении длинных шейдеров, а также увеличить количество параллельно выполняемых операций, с чем инженеры довольно успешно справились.
Кроме того, была изменена маркировка изделий. Компания отказалась от четырехзначных цифровых индексов в пользу трехзначных. Первоначально были представлены два адаптера — GTX 260 и GTX 280, после линейка расширилась за счет GTX 260 (216) и GTX 285. Последней на сегодняшний день моделью линейки стала двухчиповая плата GTX 295. представляющая собой фактически сдвоенную (1ТХ 285 с меньшей рабочей частотой процессора и памяти.

Таблица 5 – Технические характеристики графических ускорителей серии 94хх, 95хх, 96хх

Параметры	GeForce GTX 260	GeForce GTX 260 (216)	GeForce GTX 280	GeForce GTX 285	GeForce GTX 295
Кодовое имя процессора	GT200	GT200	GT200	GT200b	GT200b
Частота работы процессора, МГц	576	576	602	648	576
Технологический процесс изготовления, нм	65	65	65	55	55
Количество транзисторов, млн	1400	1400	1400	1400	2 x 1400
Тактовая частота универсальных потоковых процессоров, МГц	1242	1296	1296	1476	1242
Количество потоковых процессоров	8	9	10	10	2x10
Количество текстурных модулей (TMU)	64	72	80	80	2x80
Количество универсальных блокоп(A!U)	192	216	240	240	2 x 240
Количество блоков растеризации (R0P)	28	28	32	64	2x28
Тип поддерживаемой памяти	GDDR4	GDDR4	GDDR4	GDDR3	GDDR3
Разрядность (ширина) интерфейса памяти,	448	448	512	512	512
Объем видеопамяти, Мбайт	2048	2048	2048	2048	2048
Эффективная частота памяти, ГГц	1,998	1,998	2,214	2,484	2,484
Поддержка NVIDIA SLI	3-way	3-way	3-way	3-way	3-way
Поддерживаемый интерфейс	PCI Express 2.0x16	PCI Express 2.0x16	PCI Express 2.0x16	PCI Express 2.0x16	PCI Express 2.0x16
Поддерживаемая версия универсальных шейдеров	4.0	4.0	4.0	4.0	4.0
Поддержка универсальных вычислений CUDA/PhysX	Есть	Есть	Есть	Есть	Есть
Поддерживаемая версия DirectX	10	10	10	10	10
Поддерживаемая версия OpenGL	2.1	2.1	2.1	2.1	2.1
Степени анизотропной фильтрации (AF)	2,4,8,16	2,4,8,16	2,4,8,16	2,4,8,16	2,4,8,16
Степени мультисемплинга полноэкранного сглаживания	2х, 2xQ, 4х, 4xS, 6xS, 8х, 8xS, 16х	2x, 2x0, 4x, 4xS, 6xS, 8x, 8xS, 16x	2x, 2x0, 4x, 4xS, 6xS, 8x, 8xS, 16x	2x, 2x0, 4x, 4xS, 6xS, 8x, 8xS, 16x	2x, 2x0,4x, 4xS, 6xS, 8x, 8xS, 16x
Частота интегрированного RAMDAC, МГц	2x400	2x400	2x400	2x400	2x400

Особенности GTX 280

Рисунок 10 – Архитектура потокового процессора (ТРС)

Рассмотрим особенности серии GeForce 200 на примере топового чипа. При её разработке инженеры существенно переработали (по сравнению с G9x и G8x) структуру большинства исполнительных блоков, в частности ТРС (Texture Processin Clusters)

По сравнению с кластерами ТРС предыдущего поколения, здесь количество потоковых мультипроцессоров увеличено с двух до трех. Несмотря па то что в каждом из мультипроцессоров (SM) количество структурных блоков (SP) осталось прежним (восемь модулей), увеличилась их разрядность до FP64 в рамках стандарта IEEE 754(R). Не изменилось и количество сегментов текстурной фильтрации - их также осталось восемь.

В целом структура нового чипа стала более сложной. Даже количество самих универсальных кластеров увеличилось до 10, хотя для G92 максимальной была цифра 8. К тому же был существенно переработан блок управления параллельными операциями.

Если предыдущее поколение чипов позволяло одновременно работать 12288 потокам, то здесь их количество возросло до впечатляющих 30000. Это сделано не только в угоду любителям 3D-развлечений, но и в рамках направления CUDA/PhysX, где NVIDIA выступает в качестве поставщика высокопроизводительной платформы для сложных научных вычислений.

Рисунок 11 – Структурная схема процессорной архитектуры GT200

Вслед за улучшенной производительностью ТРС возросла и мощность ROP до 32 пикселов за такт. И если графические процессоры предыдущего поколения умели выводить 2 пиксела за такт и блендить 12 пикселов, то GeForce 200 выдает свои 32 пиксела уже с блеидингом.

Следует обратить внимание на технологию Dual Issue, которая позволяет выполнять две инструкции затакт в одном шейдере (MAD+MUL). В каждом блоке SM содержатся специальные исполнительные блоки (Special Function Unit, SFU), которые вычисляют сложные функции, интерполируют атрибуты, а также выполняют операции умножения (MUL). С их помощью каждый потоковый процессор чипа GT200 способен исполнять не только одну операцию умножения со сложением (Multiply-Add, MAD), по одновременно еще и MUL.

Впечатляет и 512-битная шина памяти. Ее дополняют переработанные блоки предвыборки и кэширования данных.

В совокупности с рядом других улучшений выход видеокарт этой серии был многообещающим. Компания предложила реальное улучшение по сравнению с предшественниками.
Следует отметить, что чип, содержащий рекордное количество транзисторов (1400 млн.), получился у NVIDIA очень сложным и, соответственно, дорогим в производстве.

Особенности GTX 260/GTX 260 (216)

Первоначально младшая модель топового сегмента GTX 260 имела восемь универсальных исполнительных блоков, но после того, как была разгромлена вышедшими позже видеокартами AMD серии 4000, NVIDIA задействовала резервный исполнительный блок. Так появилась модификация с девятью потоковыми процессорами, которая имеет метку 216, что указывает на количество универсальных блоком (ALU). В целом же частоты работы памяти и ядер у этих двух карт совпадают.

По сравнению с GTX 280, модели с индексом 260 имеют следующие отличия: до 448 бит уменьшена разрядность шины, частота ядра уменьшена до 576 М Гц, урезано количество вычислительных блоков.

Несмотря на отставание от флагманских видеокарт серии 4000, решения NVIDIA остаются интересными для тех, кто желает собрать высокопроизводительную рабочую станцию с мощной графической подсистемой либо использовать компьютер для научных или физических расчетов.

Семейство NVIDIA GeForce 100M/200M/300M

В это семейство входят графические процессоры NVIDIA последнего поколения, предназначенные для ноутбуков.

Буквенные индексы видеочипов остались прежними и полностью совпадают с индексами семейства десктопных плат. |

По сравнению с предыдущим семейством GeForce 100М, производительность чипов нового поколения выросла практически вдвое и ровно во столько же сократилось энергопотребление. Стоит отметить поддержку памяти GDDR5, DirectX 10.1 и шейдеров 4.1, а также в топовых видеочипах семейства GTS 250-280М — еще и PhysX. Как правило, эти чипы устанавливаются в игровые ноутбуки высшей ценовой категории.

Таблица 6 – Технические характеристики графических ускорителей семейства GeForce 100М/200М/300М

Категория	Продукт	Количество процессорных ядер	PhysX	Игровая производительность	Поддерживаемое разрешение	PureVideo HD
«Энтузиаст»	GeForce GTX 280М	128	Да	60х	1920 х1080	Да
GeForce GTX 260M	112
Высокопроизводительные	GeForce GTS 260M	96	Да	40х	1920 х1080	Да
GeForce GTS 250M
GeForce GTS 160M	64
Производительные	GeForce GT 240M	48	Да	20х	1680 х1050	Да
GeForce GT 230M
GeForce GT 130M	32
GeForce 9600M GT
Массовые	GeForce 210М	16	Да	10х	1280 x 720	Да
GeForce 110М		5x
GeForce 105M	8	4x
GeForce 9300M GS
Экономичные	GeForce 9100M G	8	Да	3x	1024 x 768	Да

2.2.2 Современные видеокарты на графических процессорах AMD/ATI

Середину 2008 года можно считать переломной на рынке графических ускорителей. Она ознаменована первым крупным успехом объединенного предприятия AMD/ATI. Впервые за многие годы решения от NVIDIA уступают (порой очень сильно) не только в среднем и бюджетном сегментах, но и в самом верхнем

Семейство RV700

Выход видеокарт этой серии наделал много шума. Инженеры AMD/ATI постарались на славу. Как свидетельствуют источники, перед инженерами компании была поставлена задача более чем в два раза превзойти теоретическую производительность чипа RV670. Кроме того, было необходимо дать достойный ответ продвигаемым NVIDIA на всех фронтах технологиям CUDA и PhysX.

В результате массовый сегмент получил видеокарту, которая впервые перешагнула теоретически барьер в 1 Тфлоп. Чтобы представить, что это значит, можно привести (со скидкой на архитектурные особенности) такой факт: 12 лет назад такую производительность демонстрировал суперкомпьютер, состоящий из 10000 процессоров типа Pentium.

Таблица 7 - Спецификация референсных карт семейства RV700

Параметры	Radeon HD4870	Radeon HD 4850	Radeon HD 4830	Radeon HD4670	Radeon HD4650	Radeon НD4550
Кодовое имя процессора	RV770XT	RV770PR0	RV770LE	RV730XT	RV730PR0	RV710
Частота работы процессора, КГц	750	625	575	750	600	600
Технологический процесс изготовления, нм	55	55	55	55	55	55
Количество транзисторов, млн	956	956	956	514	514	242
Количество универсальных шейдерных процессоров (SIMD)	10	10	8	4	4	1
Количество потоковых процессоров	40	40	32	32	32	8
Количество текстурных модулей (TMU)	16	16	16	8	8	4
Количество блоков растеризации (R0P)	16	16	16	8	8	4
Тип поддерживаемой памяти	GDDR5	GDDR3	GDDR3	GDDR3	GDDR2 -	GDDR3
Разрядность (ширина) интерфейса памяти, бит	256	256	256	128	128	64
Объем видеопамяти, Мбайт	1024	1024	512	1024	512	512
Эффективная частота памяти, ГГц	3,6	2	2	2	1	1,6
Поддерживаемый интерфейс	PCI Express 2.0x16	PCI Express 2.0x16	PCI Express 2.0x16	PCI Express 2.0x16	PCI Express 2.0x16	PCI Express 2.0x16
Поддерживаемая версия пиксельных шейдеров	4.1	4.1	4.1	4.1	4.1	4.1
Поддерживаемая версия DirectX	10.1	10.1	10.1	10.1	10.1	10.1
Поддерживаемая версия OpenGL	2.1	2.1	2.1	2.1	2.1	2.1
Максимальная степень Anti-Aliasing	24	24	24	24	24	24
Максимальная степень анизотропной фильтрации (AF)	16	16	16	16	16	16
Частота интегрированного RAMDAC, МГц	2x400	2x400	2x400	2x400	2x400	2x400

Видеокарта Radeon HD 5870

Рисунок 12 - Radeon HD 5870

Осенью 2009 года AMD официально анонсировала новое поколение графических чипов семейства Evergreen. На этот раз маркетологи компании AMD решили отказаться от численных обозначений своих графических чипов (ожидалось, что Новый чип будет иметь маркировку RV870) и перейти к кодовым обозначениям и виде осмысленных слов.

Представленный графический чип Radeon HD 5870 является первым представителем нового семейства графических процессоров под названием Cypress, что в переводе означает «кипарис». Отметим, что это семейство будет включать высокопроизводительные одночиповые решения.

HD 5870 первым из графических чипов в мире полностью поддерживает все инструкции набора API DirectX 11/Shader Model 5.0. Тут, конечно, стоит спросить нужна ли эта поддержка, да и сама технология конечным пользователям, ведь даже игр, поддерживающих DirectX 10, в мире не так уж много, а тут уже следующая версия. Стоит отметить, что новые графические чипы, поддерживающие версию 11 этого API, обратно совместимы со всеми предыдущими версиями. Про АР DirectX 11 версии написано уже немало.

Рисунок 13 – Пример работы технологии Eyefinity

Видеокарта Radeon HD 5870 предоставляет конечному пользователю максимальную производительность однопроцессорного решения на базе последних графических процессоров AMD. Примененная в данной модели система охлаждения, по сравнению с системой, установленной на референсных видеокартах серии Radeon HD 4870/HD 4890, существенно изменилась. Длина печатной платы, а вместе с ней и системы охлаждения увеличилась: новая видеокарта является лидером по длине!

В верхней части платы на привычном месте расположены два шестиконтактных разъема питания видеокарты. В этой же части платы, но ближе к интерфейсам размещены разъемы CrossFire для связки двух видеокарт. Задняя часть платы, на которой расположены интерфейсы, имеет два разъема DVI, HDMI и DisplayPort.

Архитектура топового чипсета RV770

Основную вычислительную нагрузку в этом чипсете выполняют 10 SIMD-ядер (можно провести аналогию с ТРС в процессорах NVIDIA). Каждое из ядер, и свою очередь, состоит из 16 суперскалярных потоковых процессоров, в состав которых входят но пять 32-разрядных логических модулей. Таким образом, общее количество вычислительных блоков, которые любят приводить в маркетинговых материалах, составляет ровно 800, что в 2,5 раза больше, чем в процессоре RV670.

Что примечательно, эти же блоки используются для 64-разрядиых вычислений. В этом проявилась изобретательность разработчиков AMD ATI. Они. в отличие от NVIDIA, сделали блоки универсальными, тем самым сохранив относительно простую структуру своего продукта, по при этом существенно нарастив функциональность.

Рисунок 14 – Архитектура ядра RV770

Рассмотрим более подробно структуру SIMD ядра.

На входе данные распределяются потоковым диспетчером и попадают в вычислительные блоки, которых водном модуле, как мы уже упоминали, 16. Каждый такой блок имеет 16 Кбайт собственной памяти.

Рисунок 15 - Структура SIMD ядра

Существенно переработаны блоки TMU. Во-первых, они привязаны к SIMD гак же, как у NVIDIA. Во-вторых, немного упрощена их структура и повышена частота их работы. В-третьих, по сравнению с RV670 удвоена полоса пропускания к текстурному кэшу с возможностью выборки до 160 текстур за такт.

Наряду с TMU подверглись существенной ревизии и блоки ROP. Их производительность удвоена по сравнению с предыдущим поколением чипов, хотя количество блоков осталось тем же.

Рисунок 16 – Структура блока TMU

Невероятно, но факт: разработчики отказались от применяемой ранее кольцевой структуры шины памяти в пользу более традиционной с центральным хабом. Как видно на схеме, контроллеры памяти расположены по краям чина. Задача хаба — распределять потоки данных между генерирующими график блоками. Кроме того, он служит связующим звеном с шиной PCI Express 2.0, CrossFireX, UVD2 и контроллерами вывода.

Новые чипы поддерживают память GDDR5, работающую на эффективной частоте 3,6-4 ГГц. И свою очередь, это позволяет добиться высоких скоростей передачи данных даже на 256-битной шине (до 120 Гбайт/с).

Подтвердив еще раз постулат, что самые эффективные решения должны быть простыми, AMD/ATI выпустила на рынок очень сильный продукт как по себестоимости, так и по производительности, который конкурируют с изделиями NVIDIA во всех сегментах.

Рисунок 17 – Структурная схема процесса управления памятью

Таблица 8 - Сравнение производительности видеоплат NVIDIA и AMD/ATI

GeForce (NVIDIA)	Radeon HD (ATI/AMD)
GTX 295
	HO 5870
	HO 4870 X2
	HD 5850
GTX 285
GTX 280
GTX 275
9800 GX2	HD4890
GTX 260 (216)
	HD4850 X2
GTX 260 (192)	HD4870
	HD 5770
8800 Ultra	HD3870 X2
GTS 250	HD 5750
9800 GTX/GTX+	HD4850
8800 GTX	HD4770
8800 GTS(512 Мбайт)
GTS 240	HD4830
9800 GT	HD4730
8800 GT
9600 GTS
9600 GT	HD3870
9600 GSO (768 Мбайт)
8800 GS (768 Мбайт)
8800 GTS (640 Мбайт)	HD 3850 X2
9600 GSO (384 Мбайт)	HD4670

2.2.3 Технологии объединения видеокарт

Технология NVIDIA SLI

SLI (Scalable Link Interface) — это технология объединения двух видеокарт с целью увеличения графической производительности.

Назвать саму идею объединения видеокарт новой нельзя. Как известно, все новое — это хорошо забытое старое. Попытки объединения видеокарт (то есть создания многопроцессорной графической системы) предпринимались и раньше. И если говорить о решениях, которые имели коммерческий успех и завоевали популярность в среде заядлых геймеров, то уместно вспомнить технологию Scan Line Interleave (SLI), позволившую объединять в единое решение две графические карты на базе процессоров 3Dfx Voodoo 2.

Суть технологии Scan Line Interleave (чередование строк кадра) была отражена в ее названии: один графический процессор отвечал за обработку четных строк кадра, а другой — за обработку нечетных. Таким образом, нагрузка на графические процессоры делилась пополам, а общая производительность увеличивалась.

Предпринимались и другие попытки создания многопроцессорных графических решений, однако коммерческого успеха они не имели.

С выпуском графического интерфейса PCI Express совместное использование двух графических карт вновь стало возможным. Компания NVIDIA уже давно поняла потенциал новой шины и внедрила некоторое подобие функции 3Dfx SLI в новейший графический процессор NV40, также известный как GeForce 6800.

Итак, что же представляет собой новая технология NVIDIA SLI? Для реализации возможности объединения двух видеокарт информацию рендеринга следует разделить между двумя картами. Кроме того, нужен метод передачи информации об изображении второй карты на первую карту, к которой подключен монитор. Наконец, две части изображения должны быть объединены на экране монитора.

Поэтому одна из видеокарт, работающих в режиме NVIDIA SLI, является ведущей, а вторая — ведомой, при этом ведущая карта отвечает за сборку финального кадра и вывод его на экран.

Для объединения видеокарт в технологии NVIDIA SLI использует простое U-образное мостовое соединение двух карт, которое обеспечивает синхронизацию и передачу изображения. В результате этого соединения отпадает потребность в использовании внешнего кабеля.

Если вернуться в дни карт Voodoo 2, то технология SLI была довольно сложной, поскольку помимо двух карт Voodoo 2 требовалась «нормальная» 2Э-карта для 2О-приложений. Сигнал VGA этой 2Б-карты передавался на карты Voodoo 2 с помощью внешнего кабеля, в то время как синхронизация двух карт Voodoo 2 и обмен информацией между ними осуществлялись по ленточному шлейфу. Графическая информация разделялась таким образом, что одна карта выводила только четные строки кадра, а другая — нечетные. Затем результаты складывались или чередовались — отсюда и название Scan Line Interleave.

Технология NVIDIA SLI (Scalable Link Interface) имеет ряд принципиальных отличий от 3Dfx SLI. Главное из них заключается в самом принципе обработки кадров. Технология NVIDIA SLI предлагает два режима работы для увеличения производительности: Split Frame Rendering (SFR) и Alternate Frame Rendering (AFR). Режим AFR — это поочередный рендеринг кадров, то есть одна видеокарта отвечает за рендеринг одного кадра, а вторая — за рендеринг другого.

В режиме SFR одна видеокарта отвечает за обработку верхней половины сцены кадра, а вторая — за обработку нижней половины. Кроме того, разделение кадра на верхнюю и нижнюю половины не ограничено соотношением 50/50, а является гибким. Используя технику динамической балансировки нагрузки, нагрузка между видеокартами делится пополам, позволяя каждой из них работать в полную силу. Вполне очевидно, что технология балансировки нагрузки необходима и эффективна, поскольку в большинстве игр нижняя часть сцены обычно имеет высокую сложность с множеством деталей, а верхняя половина чаще всего отображает только статическое небо.

Для реализации технологии NVIDIA SLI на практике потребуются две видеокарты с интерфейсом PCI Express, поддерживающие данную технологию (например, на базе графического процессора GeForce 6800), мостовой соединитель и материнская плата, имеющая два слота PCI Express xl6.

Обе графические карты должны принадлежать к одному классу производительности, то есть можно объединять только две карты GeForce 6800 Ultra, две GeForce 6800 GT или две GeForce 6800 (стандарт). Смесь различных видеокарт работать не будет, хотя в теории должна бы — ведь здесь используется балансировка нагрузки.

Кроме того, до недавнего времени требовалось (сейчас такого жесткого условия нет), чтобы объединяемые по технологии SLI видеокарты имели одну и ту же версию BIOS.

Технология ATI CrossFire

Альтернативная технология, позволяющая объединять две видеокарты для увеличения производительности, получила название ATI CrossFire. По сравнению с технологией NVIDIA SLI у ATI CrossFire имеется ряд принципиальных отличий и преимуществ. Напомним, что технология NVIDIA SLI имеет несколько ограничений: обе карты должны быть абсолютно идентичны или, другими словами, обладать одним и тем же BIOS (правда, требование идентичных BIOS было только в первых реализациях технологии NVIDIA SLI). Кроме того, режим SLI работает далеко не со всеми играми, а если и работает, то в ряде случаев не дает желаемого прироста производительности. К тому же эффективность технологии NVIDIA SLI и список поддерживаемых ею игр в значительной мере зависят от используемого видеодрайвера.

Технология ATI CrossFire работает со всеми играми под DirectX и OpenGL. Объединяемые видеокарты не обязательно должны быть одинаковыми и могут быть произведены разными компаниями. Технология ATI CrossFire подразумевает больше режимов рендеринга, чем NVIDIA SLI, и поддерживает режим улучшения качества изображения.

На первый взгляд, CrossFire имеет немало общего с NVIDIA SLI: для работы CrossFire требуется материнская плата с двумя слотами PCI Express xl6 под графику. Хотя CrossFire теоретически не зависит от чипсета, ATI утверждает, что система будет работать только на материнских платах с чипсетом Radeon Xpress 200 CrossFire.

CrossFire-версия несколько отличается от обычных карт ATI. Для сборки системы CrossFire, кроме стандартной графической карты Radeon X800 или Х850 (ведомая/slave), потребуется специальная версия видеокарты Radeon X800 или Х850 CrossFire (ведущая/master). При этом видеокарты не соединяются между собой мостиком — только специальным внешним кабелем.

Специальный чип на ведущей CrossFire-карте смешивает картинки, сгенерированные обычной и CrossFire-картой, после чего выводит изображение на дисплей. Смешивание происходит попиксельно.

Разделение на простую и CrossFire-версию карт, на первый взгляд, можно расценить как недостаток по сравнению со SLI, так как в случае с решением NVIDIA вам не нужно думать, какую карту брать, — обе одинаковые. Но если вдуматься, концепция ATI дает определенные преимущества.

Владельцы Radeon X800 или Х850 могут без проблем докупить к своей системе любую модель CrossFire. Здесь не играют роли ни различия в тактовых частотах, ни в версиях BIOS, ни в конфигурации конвейера, ни в производителях. Единственное ограничение — модель CrossFire должна соответствовать другой графической карте. Другими словами, быть картой Х800 или Х850.
CrossFire-версия карты координирует тактовые частоты и адаптируется к обычной карте на основе пиксельных конвейеров. Скажем, если обычная карта использует 12 активных пиксельных конвейеров, то CrossFire-карта тоже перейдет на 12 конвейеров. Но за гибкость приходится платить. Владельцы младшей Х800 или Х850 заплатят достаточно приличную сумму за CrossFire-версию карты, по сравнению со своей, и не факт, что они получат большой выигрыш, ведь темп гонки будет задавать обычная карта.

Технология ATI CrossFire обеспечивает четыре режима работы:

SuperTiling;
Scissor;
Alternate Frame Rendering (AFR);
Super AA.

Режим Super Tiling — это стандартный режим для технологии CrossFire. Он работает для всех игр и приложений DirectSD. Следует отметить, что современные графические процессоры не обрабатывают одновременно все изображение — они разделяют его на небольшие квадраты (quads), которые раскладываются процессором по разным конвейерам. В режиме Super Tiling экран разбивается на отдельные квадраты размером 32 х 32 пиксела (рисунок 18) так, что каждая видеокарта получает изображение с выделенными в шахматном порядке фрагментами для обработки. Таким образом, нагрузка делится строго поровну между кадрами, независимо от конкретной сцены, а вот геометрическую нагрузку приходится дублировать — обе карты рассчитывают одни и те же геометрические данные.

Рисунок 18 – Реализация режима SuperTiling

К преимуществам данного режима относится возможность работы со всеми играми и приложениями, а также оптимальное распределение нагрузки (с точки зрения пикселов). В то же время в некоторых приложениях в режиме Super Tiling производительность возрастает незначительно. Обе карты должны просчитывать всю геометрию сцены, даже если затем они будут вычислять половину пикселов. В играх, которые усиленно используют пиксельные программы, можно ожидать более высокого прироста производительности. Кроме того, режим SuperTiling не работает с играми OpenGL.

Режим рендеринга Scissor разделяет экран на две части по горизонтали (рисунок 19). Одна карта вычисляет верхнюю часть экрана, а вторая — нижнюю. Динамическая балансировка нагрузки позволяет разделить экран на части таким образом, чтобы на карты ложилась равная вычислительная нагрузка. Такой режим является стандартным для приложений OpenGL. Кроме того, данный режим позволяет получить прирост производительности в большинстве игр. В то же время, как и в случае SuperTiling, в режиме Scissor обе видеокарты должны полностью просчитывать геометрию сцены.

Рисунок 19 – Реализация режима Scissor

Режим Alternate Frame Rendering (AFR) подразумевает поочередный рендеринг кадров каждым графическим процессором (рисунок 20). Одна карта просчитывает все нечетные кадры, а вторая — все четные. Принцип легко понять, если учесть, что меняющаяся сцена всегда состоит из последовательности отдельных кадров, которые быстро сменяют друг друга, создавая впечатление непрерывного движения.

Рисунок 20 – Реализация режима AFR

Преимущество такого решения состоит в том, что обе карты оптимально распределяют вычислительную нагрузку. Однако в ряде случаев использование режима AFR невозможно, например, когда обработка следующего кадра напрямую зависит от результатов обработки предыдущего.

Четвертый режим CrossFire называется Super AA (Anti-Aliasing). Точнее, речь идет даже не об одном, а о четырех режимах Super AA: 8х АА, 10х АА, 12х АА и 14х АА. В данных режимах карта не обеспечивает более высокой частоты кадров (производительности), но существенно улучшает качество картинки. Эти режимы позволят повысить качество изображения в играх, которые не получают выигрыша в производительности от использования двух видеокарт. Наличие данных альтернативных режимов рендеринга является ключевым отличием технологии ATI CrossFire от NVIDIA SLI.

Режимы Super АА можно использовать во всех приложениях, без каких бы то ни было ограничений, поскольку они не предполагают распределения рабочей нагрузки между двумя видеокартами — каждая карта выполняет рендеринг кадра на основе уникального набора точек-семплов, после чего результаты рендеринга объединяются и формируется единое изображение.

В режиме 8х АА обе карты генерируют одно и то же изображение, причем каждая из них работает в режиме сглаживания изображения 4х, но использует разные точки-семплы (шаблоны сглаживания). Затем чип смешивает обе картинки в одну. В результате пользователь получает сглаживание 8х по цене 4х FSAA. Аналогично в режиме 12х АА каждая карта работает в режиме сглаживания изображения 6х, но использует разные шаблоны. В результате смешивания картинок получается режим сглаживания 12х АА при производительности, соответствующей режиму 6х FSAA.

В режимах 10х АА и 14х АА используется принципиально новая концепция режима SSAA (SuperSampling АА). Фактически данные режимы сглаживания представляют собой комбинацию режимов 8х АА и 12х АА с новой технологией сглаживания 2х SuperSampling АА, при котором каждая карта осуществляет обработку всей сцены с необходимым разрешением и сдвигом на полпиксела по диагонали. В итоге рендеринг сцены фактически выполняется в режиме 10х АА (8х АА + 2х SSAA) или 14х АА (12х АА + 2х SSAA).

1. Очерки медицины
2. Великая октябрьская реформация
3. 1Детская игрушка во все времена оказывала важное влияние на формирование души ребенка
4. Осложнения анестезии и профессиональные вредности в анестезиологи
5. Методические рекомендации по классификации аварий и инцидентов на опасных производственных объектах го
6. і Вона змушена була змагатися з тяжкою хворобою що вразила її ще в дитинстві зробила недосяжною її блискучу
7. 1ка~параты~ аны~тама Ате2н ~~ метр
8. ПОЯСНИТЕЛЬНАЯ ЗАПИСКА Лит
9. Медицинская биотехнология и генная инженерия. Микробиологические основы антимикробной профилактики и терапии
10. Приборы- мегомметр Оборудование- контур заземления заземляющее устройство

Материалы собраны группой SamZan и находятся в свободном доступе