AMD Radeon HD 7970 на примере видеокарты от XFX: новый одночиповый флагман
По традиции, первыми AMD выпускает наиболее мощные модели новой линейки, а за ними с отрывом в месяц-другой следуют анонсы менее быстрых «массовых» продуктов.
Этот материал посвящен Radeon HD 7970, увидевшему свет 22 декабря 2011 года. Сперва рассматривается архитектура графического процессора, затем — его реализация «в железе» на примере видеокарты XFX Radeon R7970 Doble Dissipation.
Архитектура GPU
Графический процессор с кодовым именем Tahiti нельзя назвать прямым наследником Cayman (GPU, устанавливаемый на видеокарты Radeon HD 69xx). Это принципиальная новая архитектура, разработанная для универсального использования. Производители уже давно смекнули, что использование видеокарт для сложных специфических вычислений, «трудноперевариваемых» центральными процессорами, значительно расширяет круг потенциальных покупателей. А большой выбор моделей и возможность объединять несколько плат для повышения производительности и дает возможность конечному пользователю гибко изменять конфигурацию в зависимости от потребностей. Несколько лет практики показали корректность выбора направления развития — ускорители пятитысячной и шеститысячной серии широко используются при кодировании видео и аудио, в графических станциях и для распределенных вычислений.
Но всегда есть, что улучшить.
Архитектуру GPU видеокарт серии 6xxx относят к третьему поколению. VLIW расшифровывается как Very long instruction word (вольный перевод — очень длинная инструкция). Название этой архитектуры скрывает её недостаток: в ожидании результатов длинных и сложных вычислений отдельные блоки простаивают, и простаивают настолько долго, что это сказывается на производительности. А оптимизация кода для полной загрузки видеоядра, построенного по VLIW архитектуре, сложна, особенно если графический процессор используется не для рендеринга трехмерных сцен.
Новая GCN-архитектура (Graphic Core Next) более гибкая в использовании, чем VLIW.
Таково схематическое изображение архитектуры Tahiti. Отличия от Cayman значительные, особенно в средней части, где расположен массив универсальных процессоров.
Основу вычислительной подсистемы ядра составляют 32 блока, названные GGN Compute Unit (GCN CU, или просто CU).
Один такой блок состоит из четырех векторных блоков по 16 SIMD (single instruction multiple data, вычислительных модулей) и одного скалярного. В одном CU их 64, а во всем GPU — 2048. Такое деление позволяет одному CU выполнить по 4 инструкции за такт. Также на схеме видена область памяти объемом 64 Кбайт для хранения локальных данных, кэш L1 объемом 16 Кбайт, четыре блока текстурной фильтрации, 16 блоков выборки и загрузки текстур. Вытянутый оранжевый прямоугольник — планировщик, распределяющий и программирующий работу CU. Получается, что каждый из 32 GCN CU представляет собой почти самостоятельный (в плане распределения задач) блок. Отказ от центрального планировщика прибавляет архитектуре гибкости и позволяет эффективнее использовать вычислительные мощности каждого CU.
По сравнению с Cayman, объем КЭШа L1 в Tahiti вырос до 512 Кбайт, а L2 — до 768 Кбайт, оба КЭШа с возможностью чтения/записи. Скорость обмена данными впечатляет: по 64 байта чтения или записи за такт для каждого CU (Compute Unit), что в итоге дает скорость в 2 Тбайт/сек у L1 и 700Гбайт/сек у L2.
Серьезно доработаны блоки тесселяции — их производительность увеличилась в четыре раза по сравнению с оными в Cayman.
Конечно, четырехкратное увеличение — это максимальный показатель, многое зависит от параметра tesselation factor, показывающего, на сколько частей во время рендеринга была разделена сторона треугольника. Чем он больше, тем более ровным (или рельефным, в зависимости от задумки разработчика) выглядит объект, но тем более ресурсоемок процесс рендеринга объекта. В презентации приводится график зависимости производительности от tesselation factor (TF) для игры Crysis.
Видно, что наибольший прирост приходится на 14 и 15 TF. На диаграмме справа видно, что «средний по больничке» прирост составляет от полутора до двух раз. По моим соображениям, такой небольшой прирост в играх (относительно максимальных 4x) обусловлен стремлением разработчиков к оптимальному по соотношению качество/производительность значению TF, которое лежит в диапазоне от 2 до 6. Это соответствует положению кривой на графике от 2х до 2,5х с просадкой до 1,6х для значения 4.
Для более полного задействования вычислительных мощностей Tahiti в неграфических вычислениях были введены два блока ACE, Asynchronous Compute Engine (асинхронный вычислительный движок). Они вместе с Command Processor распределяют задачи между CU.
На схеме также видны два блока DMA Engine — это двунаправленные контроллеры прямого доступа к памяти, появившиеся в Cayman и мигрировавшие в Tahiti. Благодаря всем этим нововведениям скорость выполнения операций с двойной точностью составляет 947 Гфлопс. Звучит внушительно, а сколь велико преимущество HD 7970 над выпущенными ранее платами в неграфических вычислениях, покажет время. Но уже сейчас AMD гордится тем фактом, что Tahiti является первым GPU с аппаратной поддержкой современных API (OpenCL 1.2, C++ AMP, DirectCompute 11.1).
Ещё один шаг на пути к универсализации применения видеокарт семейства 7ххх — введение поддержки инструкций, используемых при обработке изображений. Так, введенная ещё два поколения назад поддержка SAD (Sum of Absolute Differences), используемая в детекторах движения и поиске изображения, была усовершенствована до QSAD (Quad SAD), а также введена поддержка инструкции Maskable MQSAD, позволяющей отбрасывать пиксели фонового изображения, тем самым повышая скорость выполнения.
Видеокарты семейства 7xxx могут работать с огромными текстурами (до 16384 х 16384 пикселей), что достигается благодаря применению технологии частично резидентных текстур (Partially Resident Textures, PRT). Суть её в том, что текстуры разбиваются на «участки» размером 64 Кбайт, и в видеопамять подгружаются только те из них, что задействованы в рендеринге текущего кадра. Для таких текстур сохраняется поддержка фильтрации, MIP-уровней, и на работоспособность PRT не влияет формат текстуры. Лучше всего работу этой технологии иллюстрирует слайд из официальной презентации.
Энергопотребление
Аппетиты современных игровых ПК доставляют неприятности многим пользователям. Правда, в силу разных условий для жителя России и других европейских государств они имеют разный характер: главная проблема россиянина — купить достаточно хороший блок питания, чтобы он «вытянул» мощный конфиг, а европейца — не разориться на счетах за электричество после покупки мощного системного блока. Но в контексте обсуждаемой темы (энергопотребления видеокарт семейства 7xxx) это уже детали.
Несколько лет назад производители центральных процессоров продвигали такой параметр, как «производительность на ватт». Его смысл и важность понятны без объяснения — чем он больше, тем большей производительностью обладает система при неизменном энергопотреблении. Но почувствовать его влияние на практике обычному пользователю можно разве что в счетах за электроэнергию, если запастись достаточно точным измерительным прибором и загружать ПК строго определенными задачами одинаковое количество часов. Гораздо больше этот параметр интересен крупным компаниям, в чьем ведении находятся множество ПК, потребляющие сотни киловатт.
На презентации HD 7970 упоминалась новая величина, куда более интересная — соотношение производительности и частоты работы GPU.
Дескать, при неизменном потреблении энергии частоты работы выросли на 30%, ну а вслед за ними — и производительность. Этакое резюме всех вышеописанных архитектурных особенностей вкупе с новым техпроцессом: получаете больше при тех же затратах.
Определяющим фактором в работе новой системы управления питанием PowerTune является энергопотребление видеокарты: если в силу каких-то обстоятельств (например, разгона, или стресс-теста приложениями вроде FurMark) энергопотребление GPU выходит за установленные нормы, тактовая частота снижается.
Есть и приятный момент — благодаря аппаратному контролю энергопотребления отдельных частей GPU PowerTune позволяет выставить для работы в обычных приложениях повышенные частоты, ведь при рендеринге трехмерных сцен в играх графический процессор потребляет значительно меньше энергии, чем при работе стресс-тестов.
Благодаря аппаратной реализации, PowerTune плавно управляет частотами, удерживая энергопотребление в заданных рамках. Однако любителям разгона, в том числе экстремального, не стоит печалиться — уже сейчас есть программные средства, позволяющие обойти установленные AMD ограничения. Правда, в открытый доступ по понятным причинам эти «средства» не выложены.
Вывод звука, изображения и мультимониторные технологии
Eyefinity получила цифру «2.0» справа. Во второй редакции технологии, обеспечивающей вывод изображения на многомониторные конфигурации, поддерживаются разрешения до 16384×16384. Примерно такое суммарное разрешение получится, если из стандартных Full HD мониторов (1920 х 1080) составить матрицу 8 х 15. Впечатляет?
Есть полезные нововведения и для менее состоятельных владельцев — теперь совершенно не обязательно искать одинаковые мониторы для работы с Eyefinity.
Поддержка независимых звуковых потоков (DDMA) для каждого из подключенных мониторов вкупе с Eyefinity позволяет создавать гибкие конфигурации. На одном из слайдов в презентации проиллюстрирован наглядный пример: пользователь одним глазом следит за раллийной машинкой на трассе, а другим — за ходом футбольного матча.
В отрыве от игр разделение звуковых потоков делает более удобным конфигурацию домашнего кинотеатра — при перетаскивании окна медиаплеера с одного экрана на другой звук тоже «переедет».
Наконец-то AMD догнала NVIDIA на ниве 3D, как в одномониторной конфигурации, так и в многомониторных. По заверениям AMD, на данный момент корректно работать в 3D на видеокартах серии 7ххх могут более 600 игр.
Резюмируя сказанное в теоретической части обзора, можно сказать, что AMD хорошо потрудилась, и, если все сказанное найдет поддержку на практике, то семитысячная серия может стать таким же прорывом, каким когда-то стала X800.
Видеокарта XFX Radeon R7970 Doble Dissipation
Отличия этого видеоадаптера от референсных сэмплов AMD — в системе охлаждения и разводке печатной платы. Но обо всем по порядку.
XFX Radeon R7970 Doble Dissipation поставляется в небольшой коробке с яркой чехлом-этикеткой.
На обратной стороне коробки производитель перечисляет фирменные технологии, примененные при изготовлении видеокарты. По сути же за громкими названиями, писанными большими позолоченными буквами, кроятся вполне обычные для такого уровня решения. Но, как говорится, сам себя не похвалишь — никто не похвалит.
Внутри — нехарактерно большое количество предметов: несколько инструкций (краткая и полная), оптический диск с программным обеспечением и драйверами, буклет по другим продуктам XFX, стильная табличка на ручку двери, CrossFire мостик и переходник HDMI-DVI.
Примечательно, что в переходнике два разъема соединены гибким шнуром; альтернативная его (переходника) реализация — жестко скрепленные на одной линии два разъема — создавала дополнительное механическое воздействие на встроенный в видеокарту разъем HDMI. Это при частом использовании расшатывало разъем, а неосторожным резким нажатием можно было и вовсе вырвать HDMI из платы (в силу конструктивных особенностей он гораздо «слабее» в механическом плане относительно DVI или D-Sub наплатных разъемов).
На лицевой стороне видеокарты хорошо заметны две круглые прорези в кожухе, под которыми закреплены вентиляторы с диаметром крыльчатки 85 мм.
Удивляет отсутствие выходных отверстий для «отработанного», горячего воздуха. Точнее, так — они есть, но их размеры слишком малы и совершенно не соответствуют диаметру входных отверстий.
На верхнем торце закреплена декоративная стальная планка красного цвета с логотипом производителя и моделью видеокарты. На нижнем торце, обращенном в сторону материнской платы, никаких декоративных элементов не установлено, поэтому с этой стороны горячий воздух выходит более-менее свободно.
Алюминиевый кожух с вентиляторами Г-образный, выступ на задней части закрывает торец радиатора, направляя воздушный поток в сторону материнской платы и вверх, к боковой крышке корпуса.
На обратной стороне HD 7970 никаких элементов системы охлаждения нет, но хорошо различимы места установки графического процессора и микросхем памяти по скоплениям керамических конденсаторов.
Также хорошо видны два разъема CrossFire на верхнем торце печатной платы и монтажные отверстия для двух восьмиштырьковых разъемов питания. То ли производители посчитали эти приготовления излишними, то ли разработчики печатной платы готовились к бОльшим нагрузкам, но на практике абсолютное большинство HD 7970 на печатных платах этого дизайна оснащаются одним шестиштырьковым и одним восьмиштырьковым разъемом питания. Учитывая относительно небольшое по современным меркам энергопотребление (225 ватт), этого — 1х 8pin & 1x 6pin — должно быть достаточно.
На крепежной планке шириной «в два слота» хорошо видны два разъема DisplayPort, один HDMI и один DVI. Над ними — прорези для вывода горячего воздуха (а точнее, некоторой его части) за пределы корпуса.
Система охлаждения конструкцией похожа на референсный кулер, которым AMD оснащает видеокарты собственного производства: алюминиевое основание сложной формы, отводящее тепло от микросхем памяти и силовых ключей питания, на котором закреплены радиатор GPU и кожух с двумя вентиляторами. Для распределения выделяемого графическим процессором тепла по сорока ребрам предусмотрена испарительная камера из меди, протянувшаяся на 2/3 длину основания. На неё посредством пайки закреплены ребра, высота которых варьируется от 7 до 23 мм.
Так выглядит Radeon HD 7970 с демонтированной системой охлаждения. Этот референс-дизайн в народе носит название «черный» (по цвету маски); также существует и «красный», но, по слухам, в серийном производстве использоваться не будет.
По центру печатной платы распаян графический процессор Tahiti, вокруг него — двенадцать микросхем памяти GDDR5 со временем доступа 0,7 нс; общим объем распаянной видеопамяти — три гигабайта.
Микросхема памяти, маркировка почти не видна
Некоторые обозреватели твердят, что такие объемы излишни, однако простейшие измерения доказывают обратное. Например, не самая современная игра STALKER: Call of Pripyat при максимальных настройках графики и разрешении 1920 х 1080 «отъедает» 2100…2200 Мбайт видеопамяти. Вряд ли выходящие в течении 2012 и последующих годов игры будут потреблять меньше ресурсов…
Графический процессор с остатками термопасты MX-2
Кристалл графического процессора окружен медной рамкой сложной формы, которая на 0,1…0,2 мм выше его поверхности. Этот факт нужно обязательно учитывать при установке альтернативных систем охлаждения, так как рамка может помешать хорошему тепловому контакту кристалла и основания СО. Соответственно, уровень нагрева GPU будет далек от ожидаемого, а в отдельных случаях (плохой термоинтерфейс) может и вовсе привести к выходу из строя.
Всю правую сторону печатной платы (а это где-то 2/5 общей площади) занимает преобразователь питания графического процессора и видеопамяти (пять и одна фаза соответственно), контроллер — Chil CHL8228G.
Микросхема Chil CHL8228G (выводы обрезаны в графическом редакторе)
Если присмотреться, можно заметить одну нераспаянную фазу (отсутствуют силовые элементы с обвязкой и дроссель). Это одна из фаз в цепи питания GPU, распаяна она только на «красном» референсе. Какие-либо выводы о влиянии её отсутствия на характеристики видеокарты (энергопотребление, разгонные возможности) без детальных измерений сделать не получится. Можно лишь предположить, что «красный» референс изначально планировалось использовать для постановки рекордов, а на «черный», предназначенный для продаже в розницу, разводка под недостающую фазу перекочевала из-за дороговизны перепланировки многослойной PCB. Как говорится, «карман не тянет — и ладно».
Тактовые частоты испытуемой видеокарты установлены на значения, рекомендуемые производителем — 925/1375 МГц для графического процессора и видеопамяти соответственно. В линейке продуктов XFX есть версия с точно таким же кулером и повышенными частотами (1000/1425 МГц), но она пока на территорию РФ не поступала.
Технические характеристики
Radeon HD 6970 | XFX HD 7970 DD | GeForce GTX 580 | |
Ядро | Cayman | Tahiti | GF110 |
Техпроцесс, нм | 40 | 28 | 40 |
Кол-во транзисторов | 3000 | 4310 | 2640 |
Число универсальных процессоров | 512 | 2048 | 1536 |
Число текстурных процессоров | 96 | 128 | 64 |
Число блоков растеризации | 32 | 32 | 48 |
Частота ядра, МГц | 880 | 925 | 772/1544 |
Частота памяти, МГц | 1375 (5500) | 1375 (5500) | 1000 (4000) |
Объем памяти, МБ | 2048 | 3072 | 1536 |
Шина памяти, бит | 256 | 384 | 384 |
Тестовый стенд
- Процессор: Intel Core i7-2600K @ 4.7 ГГц 1.33 В
- Материнская плата: ASUS Sabertooth P67 (BIOS 1305)
- Оперативная память: Geil DDR3-1333, 8-8-8-24, 1.5 В
- Блок питания: Antec Hicg Current Gamer 750 Вт
Разгон, температуры
При использовании штатной системы охлаждения графический процессор разогнался до 1190 МГц, его температура в загрузке составила 83 градуса (для сравнения — на штатных частотах GPU под нагрузкой прогревался до 80 градусов). Оперативная память «пошла» до 1610 МГц, её температура в работе по данным электронного термометра с термопарой К-типа составила более 70 градусов, а силовых ключей — 75 градусов. Считаю нужным предупредить, что долговременная работа видеокарты даже на штатных частотах при столь высоких температурах чревата её скорым (через 6-18 месяцев) выходом из строя, либо деградацией (снижению стабильной тактовой частоты) графического процессора и видеопамяти. Рекомендую владельцам данной модели установку альтернативных систем охлаждения, способных удержать рабочую температуру графического процессора в пределах 65-70 градусов, а видеопамяти и силовых элементов — до 60 градусов.
Результаты тестирования
Тестирование производительности XFX Radeon R7970 Double Dissipation производилось в двух режимах — на штатных частотах (925/1375, обозначение «HD 7970» на графиках) и в разгоне (частоты 1190/1610 МГц, обозначение «HD 7970 OV» на графиках). Для сравнения были приведены результаты Radeon HD 6970 и NVIDIA GeForce GTX 580, работающих на рекомендованных производителем частотах (обозначения соответственно «HD 6970» и «GTX 580» на графиках). Настройки качества в играх и игровых бенчмарках вручную выставлялись на максимально доступные, в 3D Mark 2011 использовался профиль Extreme.
HD 7970 одержал сокрушительную победу над конкурентами в лице одночиповых флагманов прошлого поколения. У поклонников AMD есть повод для радости — многое из обещанного ранее и рассказанного в теоретической части статьи воплотилось «в железе» и приводит к реальному приросту производительности в реальных играх, а не только в специально разработанных синтетических бенчмарках, измеряющих скорость «сферического коня в вакууме». Да и разгон приносит ощутимый в цифрах прирост производительности.
Выводы
Radeon HD 7970 — отличная по всем параметрам видеокарта: производительность существенно возросла по сравнению с предшественником (Cayman), при этом более тонкий техпроцесс позволил удержать энергопотребление четырех-с-лишком миллионов транзисторов в пределах 225 ватт. Система охлаждения работает совершенно бесшумно (на открытом тестовом стенде), но за это уже надо говорить «спасибо» инженерам XFX. Уровень нагрева HD 7970 значительный, но то же самое можно сказать о всех флагманах, вышедших за последние несколько лет.
Минус у Radeon HD 7970 во всех исполнениях только один — чрезмерно высокая цена. В зависимости от производителя и магазина она варьируется от 19600 до 26300 рублей на момент публикации материала.