Видеокарты будущего уже сегодня: от AMD Radeon R9 Fury до NVIDIA GeForce Pascal
Тестирование AMD Radeon R9 Fury X
Я неспроста заговорил о компании ATI/AMD, как о первопроходце. Достаточно вспомнить историю развития видеокарт вообще. В свое время именно «красные» первыми использовали интерфейс DisplayPort. Акселераторы Radeon первыми обзавелись поддержкой GDDR5-памяти, а также именно 3D-ускоритель от AMD получил первый в мире чип, функционирующий на частоте 1 ГГц. Теперь дошло дело до еще одной инновации: новая линейка видеокарт Radeon Fury оснащена памятью HBM (High Bandwidth Memory), позволяющей кардинально увеличить пропускную способность графических адаптеров. Обо всех особенностях флагманских решений «красных» и пойдет речь сегодня.
Линейка видеокарт AMD R9 Fury
Итак, на прошлой неделе AMD сняла запрет, касающийся разглашения информации относительно линеек Radeon R7 300 и Radeon R9 300. Оказалось не так интересно, как того, возможно, хотелось бы, ибо все пять представленных видеокарт, по сути своей, являются просто переименованными и слегка разогнанными версиями Radeon R7 200 и Radeon R9 200. У компании задача проста, как три копейки: дораспродать остатки чипов. А вот линейка Radeon R9 Fury основана на абсолютно новом чипе под названием Fiji. И потому она вызывает огромный интерес.
Вообще, на мой взгляд, AMD правильно делает, что презентует свои продукты на игровых выставках. На этот раз новинки были представлены общественности на мероприятии под названием E3. Во-первых, грамотно выбрана целевая аудитория. Во-вторых, уже который год AMD продвигается идея Radeon = Gaming. Это полезно для бренда.
Так вот, в рамках выставки было анонсировано сразу четыре графических адаптера, которые и войдут в линейку Fury. Но лишь по двум из них известны полные характеристики, включая рекомендованную стоимость. В сравнительную таблицу занесены лишь три видеокарты, разъяснения — чуть позже. Среди одночиповых видеокарт вожаком всех Radeon’ов стал графический адаптер Radeon Fury X, построенный на базе полного кристалла Fiji. Примечательно, что его рекомендованная стоимость равна 649 долларам США. Столько же просит NVIDIA за свою GeForce GTX 980 Ti. Калифорнийская компания презентовала ее первого июня, заведомо раньше анонса AMD. Совпадение? Не думаю!
AMD Radeon R9 390X | AMD Radeon R9 Fury | AMD Radeon R9 Fury X | AMD Radeon R9 Fury X2 | |
Название чипа | Grenada XT | Fiji PRO | Fiji XT | 2x Fiji XT |
Техпроцесс | 28 нм | 28 нм | 28 нм | 28 нм |
Потоковых процессоров | 2816 | 3584 | 4096 | 8192 |
Блоков Compute Unit | 44 | 56 | 64 | 128 |
Текстурных блоков | 176 | 224 | 256 | 512 |
Блоков растровых операций | 64 | 64 | 64 | 128 |
Тактовая частота | 1050 МГц | 1000 МГц | 1050 МГц | N/A |
Память | GDDR5, 8 Гбайт, 1500 (6000) МГц | HBM, 500 МГц, 4 Гбайт | HBM, 500 МГц, 4 Гбайт | HBM, 500 МГц, 2x 4 Гбайт |
Интерфейс памяти | 512 бит | 4096 бит | 4096 бит | 2x 4096 бит |
Пропускная способность памяти | 384 Гбайт/с | 512 Гбайт/с | 512 Гбайт/с | 2x 512 Гбайт/с |
Коннекторы питания | 6+8 пин | 8+8 пин | 8+8 пин | N/A |
Максимальное энергопотребление видеокарты | 275 Вт | 275 Вт | 275 Вт | N/A |
Поддержка API | DirectX 12 Mantle Vulkan | DirectX 12 Mantle Vulkan | DirectX 12 Mantle Vulkan | DirectX 12 Mantle Vulkan |
Охлаждение эталонной карты | Воздушное | Воздушное | Водяное | Водяное |
Цена | $429 | $549 | $649 | N/A |
Графический процессор Fiji опирается на хорошо знакомую архитектуру GCN. В основе полного чипа лежат сразу 64 модуля Compute Unit. В результате «камень» может похвастать наличием 4096 потоковых процессоров и 256 текстурных блоков. Частота — столь полюбившиеся в последнее время AMD 1050 МГц.
Модификация GPU, используемая в видеокарте AMD Radeon R9 Fury (без приставки X), ожидаемо получила меньшее число CU-модулей: 56 вместо 64. В итоге количество потоковых процессоров и текстурных блоков уменьшилось до 3584 и 224 единиц соответственно. Число ROP’ов осталось неизменным — 64 штуки. Плюс несколько снизилась и частота: всего на 50 МГц, правда. А вот стоимость упала на целых 100 долларов США.
Все видеокарты Radeon Fury оснащены 4 Гбайт памяти типа HBM, о которой мы поговорим максимально подробно далее.
На мероприятии показали только референсный образец Radeon R9 Fury X. Он оснащен необслуживаемой системой водяного охлаждения. Для «красных» использование такого кулера не является новинкой. Например, двухчиповая модель Radeon R9 295X2 тоже оснащена СЖО, разработанной совместно с компанией ASETEK. Предполагается, что 3D-ускоритель Radeon Fury получит уже воздушное охлаждение. Интересно, как выкрутятся сторонние производители видеокарт, ведь использование памяти HBM налагает определенные ограничения на конструкцию системы охлаждения. Еще более интересно, как будет выглядеть Radeon R9 Fury X2, в основе которой лежат два графических процессора Fiji XT.
Догадки в сторону. Референсная Radeon R9 Fury X обзавелась весьма миниатюрной печатной платой для столь производительного решения. Ее длина составляет 194 мм, высота — 102 мм. Это еще одна особенность подобного типа устройств и яркий пример того, что начиная с этого момента флагманские видеокарты перестанут быть монструозными и очень длинными. Для нормального питания к «фурии» необходимо подключить два 8-пиновых коннектора. Максимальное потребление энергии видеокартой не должно превышать 275 Вт.
Да, печатная плата у Radeon R9 Fury X получилась компактной. Однако инженеры AMD посчитали целесообразным оснастить устройство системой водяного охлаждения, в конструкции которой используется весьма габаритный односекционный радиатор. Длина шлангов, защищенных матерчатой оплеткой, составляет 400 мм. То есть радиатор можно будет установить практически на любую стенку компьютерного корпуса.
Доверимся информации AMD. СВО не позволяет прогреться графическому процессору выше 50 градусов Цельсия при максимальной нагрузке. При этом, если верить данным AMD, то максимальный уровень шума Radeon R9 Fury X меньше 32 дБ. Это практически бесшумно. Например, референсный GeForce GTX TITAN X работает заметно громче.
По пресс-релизам достаточно тяжело сформировать окончательное мнение относительно представленной новинки. Поэтому подожду того момента, когда Radeon Fury X доберется до нашей тестовой лаборатории. Однако, на мой взгляд, не будет лишним выложить предварительные результаты тестирования этой видеокарты. Естественно, учтем, что набор приложений, а также настройки подобраны так, чтобы решение «красных» выглядело предпочтительнее своих главных конкурентов. А главный конкурент Radeon Fury X, как вы уже поняли, — это GeForce GTX 980 Ti с 6 Гбайт памяти стандарта GDDR5.
В бенчмарке 3DMark Fire Strike (режим 4K) видеокарты продемонстрировали приблизительно схожий уровень производительности. Так, «фурия» набрала 3918 баллов, а «жираф» — 3873 очка. В тестовом стенде AMD использовался центральный процессор Intel Core i7-5960X.
В играх тоже наблюдается небольшое преимущество Radeon R9 Fury X над GeForce GTX 980 Ti. Где-то оно не достигает и одного процента, а где-то составляет ни много ни мало 22% (в игре Sleeping Dogs).
Почему этим результатам не стоит всецело доверять? Давайте рассмотрим Assassin’s Creed Unity. В AMD для обеих видеокарт установили качество графики на Medium — далеко не самый высокий пресет для этой игры. Плюс задействовалось сглаживание FXAA, затенении SSAO и отсутствовала анизотропная фильтрация (16-кратный режим которой сейчас воспринимается для любого приложения как стандарт де-факто). В итоге у Radeon R9 Fury X 39,31 кадров в секунду, а у GeForce GTX 980 Ti — 36,97 FPS. Разница 6,3% в пользу «красных». Однако очевидно, что настройки подогнаны таким образом, чтобы уложиться в 4 Гбайт памяти. Стоит выставить настройки «Очень высоко», активировать HBAO+ и 16-кратный фильтр AF (про антиалиазинг MSAA молчу), как картина сразу же изменится.
Была анонсирована и четвертая версия Radeon R9 Fury, получившая название Nano. Как видно из слайдов, это будет компактное решение с воздушным охлаждением. Производитель заявляет, что максимальный уровень энергопотребления Radeon Fury Nano составит всего 175 Вт. Официально все подробности об этой видеокарте представят в конце лета.
А уже этой осенью появится абсолютный флагман AMD — Radeon R9 Fury X2, построенный на двух графических процессорах Fiji XT. На мероприятии «красные» продемонстрировали игровую станцию Project Quantum — миниатюрный компьютер, оснащенный как раз этим 3D-ускорителем. Все компоненты этой системы охлаждаются при помощи «водянки».
Подробно про HBM-память
Естественно, самым главным новшеством в линейке видеокарт Radeon R9 Fury является наличие нового типа памяти HBM (High Bandwidth Memory), а также способа упаковки GPU. Именно так будут собираться все видеокарты будущего. Топовые представители так точно.
Здесь необходимо отметить, что у производителей чипов (не только графических) есть из чего выбрать. Технология DDR заметно устарела. И если для центральных процессоров она еще актуальна (примером тому служит повсеместный переход на DDR4 как решений Intel, так и AMD), то для 3D-ускорителей использование GDDR начинает наносить капитальный ущерб как производительности новых решений, так и энергоэффективности. Так вот, HBM — не единственная технология. Существуют еще стандарты памяти Wide I/O (разработка Samsung) и HMC (Hybrid Memory Cube, совместное детище Intel и Micron). HBM, как известно, продвигает компания Hynix. И раз ее услугами воспользовалась AMD (впоследствии и NVIDIA), то, скорее всего, именно ей удалось на сегодняшний день сделать самый дешевый чип.
Как я уже говорил, именно AMD в свое время первой использовала память GDDR5. Это случилось в 2008 году. С тех пор увеличивались только частоты, да и то маленькими шажочками. Именно отсутствие прогресса у технологии DDR заставило производителей графических чипов задуматься об использовании нового типа памяти.
Все новые технологии — HBM, Wide I/O и HMC — имеют общий принцип работы под названием stacked DRAM, когда память размещают слоями в вертикальной плоскости. Подобное новшество позволяет заметно увеличить шину, одновременно повышая пропускную способность и снижая задержки. Конечно, у каждой технологии существуют свои особенности, но принцип работы один и тот же.
Интересно, что про HBM говорили еще в 2011 году, но, видимо, только сейчас эта технология стала окупаться. В этом году Hynix представила первую версию стандарта, которая имеет единственное ограничение — максимальный объем стека не может превышать 1 Гбайт. Уже в следующем году будет представлена вторая версия HBM. И тогда видеокарты AMD обзаведутся полноценными 8 Гбайт памяти, а пропускная способность за счет этого увеличится вдвое. Именно второе поколение HBM консорциум JEDEC примет как стандарт stacked DRAM.
GDDR-память пережила уже четыре поколения. Сейчас используются чипы с эффективной частотой вплоть до 7 ГГц (реальная частота 1750 МГц). Факт: расти уже GDDR-памяти элементарно некуда. При этом производители графических адаптеров сталкиваются сразу с двумя проблемами: ростом энергопотребления современной памяти и невозможностью сколь-нибудь серьезно увеличить ПСП. Сказываются высокие частоты, на которых работает современная GDDR5, и сложные принципы тактования.
Конкретно AMD утверждает, что уже сейчас GDDR5-память потребляет от 15% до 20% энергии видеокарты. То есть у 250-ваттного адаптера приблизительно 50 ватт уходит на обеспечение работы «мозгов». Отчасти именно поэтому в решениях «красных» не используются 7 ГГц чипы. На диаграмме ниже продемонстрировано, что если и дальше продолжить использовать технологию DDR, то потребление энергии GPU сравнится с потреблением энергии памяти. И тогда производительность видеокарт снизится, так как придется удерживать определенный уровень энергоэффективности устройства.
Интеграция GDDR5 на печатную плату не такой легкий процесс, как изначально может показаться. Во-первых, усложняется само производство GPU, так как требуется встроить в чип многоканальный контроллер памяти. Особенно эта проблема актуальна для топовых решений с 384- и 512-битными интерфейсами. Во-вторых, GDDR5 занимает на PCB очень много места. Использование HBM позволяет собирать реально компактные, но мощные 3D-ускорители.
Встроить видеопамять сразу в чип можно. Но экономически это нецелесообразно.
История наглядно демонстрирует, когда какая-либо технология упирается в скоростные показатели, то в дальнейшем от последовательного режима работы отказываются в пользу параллельного. Так было и с центральными процессорами, которые «уперлись» в частотный потолок, но в итоге стали многоядерными. Так происходит и с памятью HBM. Вместо массива из быстрых чипов GDDR5 (7 ГГц и так далее) и относительно узких шин (от 128 бит до 512 бит) применяют блоки с медленными микросхемами (эффективные 1 ГГц), но с очень широкими шинами. Сейчас в решениях Radeon Fury применяется четыре стека чипов памяти. В каждую такую пачку входит по четыре микросхемы. В итоге каждый стек образует 1024-битную шину. Всего Radeon R9 Fury имеет 4096-битный интерфейс. В Radeon R9 390X используется шина на 512 бит, то есть в восемь раз уже, чем у HBM. А потому даже низкой тактовой частоты чипа памяти (500 МГц реальной частоты для первого поколения HBM) достаточно, чтобы показатель ПСП заметно увеличился. Так, у Radeon R9 Fury X он составляет 512 Гбайт/с, у Radeon R9 390X — 384 Гбайт/с. Разница не столь гигантская, но ведь и HBM делает только первые, робкие шаги. Уже второе поколение технологии позволит вдвое увеличить пропускную способность.
Ниже приведены другие сравнительные характеристики GDDR5 и HBM.
Чуть выше я говорил про то, что GDDR5-память не так легко интегрировать в современные видеокарты, как кажется. Однако и с внедрением HBM тоже возникают определенные сложности. А именно 4096-битная шина требует значительно большего количества параллельных соединений. Поэтому для GPU и чипов памяти используется единая кремниевая подложка — interposer. Она чем-то напоминает чип, но только вместо логики в ней расположено большое количество металлических слоев для передачи сигналов от HBM к GPU, а также питания. Так получается дешевле. Так получается проще. Подобная методика компоновки элементов получила название Package on Package (PoP).
Лирическое отступление. На протяжении всего развития интегральных схем мы видим, как «наполняется» кристалл. Сначала центральные процессоры обзавелись интегрированным кэшем и блоком FPU. Затем в кристалл переехали блоки мультимедиа и северный мост. Следом центральные процессоры превратились в гибридные процессоры, так как обзавелись встроенной графикой. Наконец, в кристалл современных чипов интегрированы элементы южного моста. Очевидно, что расположение памяти на одной подложке — это еще один шаг к созданию «всемогущего» процессора. Скорее всего, вскоре HBM поселится вместе с APU. Плюс она будет играть роль кэша четвертого уровня. Нечто подобное уже применяет Intel. Например, в настольных процессорах Broadwell.
Парадокс заключается в том, что использование интерпозера, с одной стороны, удешевляет конструкцию, так как не требуется использовать длинных соединений между стеками и GPU. Плюс смягчаются критерии к питанию. С другой стороны, если сравнивать упаковку HBM-памяти с классической распайкой BGA-чипов GDDR5, то у первого способа себестоимость явно выше, хоть для создания интерпозера AMD и использует весьма древний 65-нанометровый техпроцесс. Именно поэтому в данный момент времени использование HBM — прерогатива исключительно топовых (читай — дорогих) видеокарт.
Продолжая изучать PoP-методику, видно, что интерпозер является промежуточным слоем между чипами памяти и управляющей логикой. Для их связи используется специальные соединения microbump и TSV (through-silicon vias). То есть нет необходимости разводить на PCB дорожки для соединения чипов памяти. Это, в противовес, удешевляет процесс сборки готового продукта.
Сам интерпозер соединен с еще одной подложкой, необходимой, чтобы разместить как можно большее число шаров для BGA-пайки.
Сейчас HBM позволяет внедрить лишь четыре слоя на интерпозере. Для второго поколения предусмотрена возможность размещения уже восьми слоев. За счет этого увеличится объем стеков, а также их пропускная способность.
Производительность HBM — это тот параметр, ради которого все и было затеяно. Как мы уже выяснили, в видеокартах Radeon Fury используется четыре стека, функционирующие на реальной частоте 500 МГц. В каждом стеке по четыре чипа, связанных друг с другом при помощи соединения TSV. Следовательно, шина стека равна 1024 бит, а его пропускная способность — 128 Гбайт/с. Четыре стека образуют 4096-битный интерфейс и 512 Гбайт/с соответственно. У Radeon R9 390X ПСП равна 384 Гбайт/с, а у GeForce GTX TITAN X — 336 Гбайт/с. Плюс, по словам представителей AMD, у HBM приблизительно на 15-20% ниже задержки памяти.
В итоге в категории «производительность на ватт затраченной энергии» чипы HBM первого поколения оказываются далеко впереди GDDR5. Они приблизительно в четыре раза быстрее. Подобные результаты позволяют либо сделать устройство еще более энергоэффективным, либо вложиться в дополнительную производительность. Именно поэтому у Radeon R9 390X и Radeon Fury X одинаковый параметр максимального энергопотребления (275 Вт), но такой разный уровень быстродействия.
В заключение
Использование передовых технологий не всегда сразу же дает результат. И не всегда оно экономически целесообразно. Даже результаты тестирования, приведенные самой AMD, свидетельствуют о том, что на данный момент времени HBM-память не способна обеспечить серии видеокарт Radeon Fury серьезный отрыв от графических решений NVIDIA, по-прежнему использующих GDDR5. К тому же у флагманских 3D-ускорителей «красных» всего 4 Гбайт памяти — это суровая реальность первого поколения HBM.
Тем не менее, рано или поздно, но от устаревшей технологии DDR придется окончательно отказаться. Уже второе поколение памяти HBM обеспечит пропускную способность на уровне 1024 Гбайт/с. Это в три раза больше, чем у самой быстрой одночиповой игровой видеокарты сегодня. И первый опыт, полученный от производства Radeon Fury, наверняка поможет AMD в будущем. Да, производить HBM сейчас заметно дороже, чем GDDR5. Поэтому в ближайшее время только флагманские адаптеры будут работать с этим типом памяти.
Обратите внимание, что за все время я ни разу не заикнулся про передовые решения NVIDIA. Между тем «зеленые» в 2016 году планируют выпустить новую архитектуру Pascal, в которой также будет фигурировать HBM-память. Скорее всего, мистер Хуанг ждет второе поколение этой технологии, чтобы оснастить свои флагманские устройства 8 Гбайт. В остальном будут использоваться те же принципы — прототип платы с NVIDIA Pascal был продемонстрирован еще в прошлом году. Вот такими будут видеокарты ближайшего будущего.