Нет — экстриму, да — мейнстриму! Обзор APU Kaveri и тестирование AMD A8-7600
Тяжело не заметить, что AMD все свое внимание уделяет разработке и продвижению так называемых APU (Accelerated Processing Unit). О чем мы слышали весь прошлый год? Правильно, о новых APU, HSA и консолях (которые, по сути, основаны на все тех же APU). А вот анонс, например, FX-9000 прошел очень тихо, спокойно и практически незаметно. Эти центральные процессоры, предназначенные для геймеров и энтузиастов, отошли на второй план. И в Сети уже достаточно давно ходят слухи, что их дальнейшее существование находится под большим вопросом.
Получается, что «красные» нашли свою нишу (свою комфортную среду обитания) и пытаются развиваться в ней. Возможно, компания осознала, что на «арене» х86-вычислений им элементарно не по силам тягаться с Intel.
Наши слова подтверждает тот факт, что все самые передовые технологии получают именно APU. В AMD уже давно составили план по выходу модульных процессоров. С выходом Kaveri увидели свет решения на основе архитектуры Steamroller, главной целью которых считается улучшение параллелизма. На этом самом параллелизме держится (точнее, должна держаться) вся вычислительная мощь новых гибридных процессоров.
Архитектура Kaveri
Эволюция APU: от Llano до Kaveri
Мы согласны с AMD. Гибридные процессоры — это грамотные решения для PC и ноутбуков. Их успех неудивителен. Например, использование встроенного в CPU видеоядра позволяет значительно увеличить время автономной работы лэптопа. В общем, тенденция налицо.
Еще одна тенденция — размытие границ между вычислительными ядрами и графическим процессором. Если взглянуть на первый APU AMD, Llano, то встроенная графика этих «камней» так и воспринималась. Выход Kaveri буквально переворачивает все с ног на голову.
Теперь в гибридных процессорах используется такой термин, как Compute Core (CC). Все анонсированные Kaveri имеют четыре вычислительных ядра, а также шесть или восемь графических ядер (в зависимости от модели устройства). Поэтому в AMD не называют свои решения, например, четырехъядерными. Они называют их десятиядерными или двенадцатиядерными. Исходя из этого, по мнению AMD, неправильно называть Kaveri центральным процессором. Это именно APU — полноценная SoC. Да простит нас AMD, но мы и дальше продолжим использовать такие термины, как «гибридный процессор», CPU и тому подобное.
Кстати, графическая составляющая APU Kaveri занимает большую часть полезной площади кристалла. На ее долю приходится 47% всех транзисторов устройства. Рискнем предположить, что в следующем поколении гибридных процессоров встроенное видеоядро будет занимать больше половины площади чипа. Впрочем, мы еще подробно изучим «встройку» Kaveri.
Кристалл
Кристалл APU Kaveri — гигант в буквальном смысле этого слова! Полезная площадь чипа составляет 245 мм2, что всего на 1 мм2 меньше, чему у Richland. При производстве гибридных процессоров нового поколения AMD перешла на новый 28-нанометровый техпроцесс. Теперь «камни» для «красных» производит GlobalFoundries. Подобные технические решения позволили разместить на кристалле 2,41 млрд транзисторов, что на 1,11 млрд больше, чем у Richland, и на 1,01 млрд — чем у Haswell. Использование сверхтонких межсоединений дало возможность «втиснуть» 9,837 млн транзисторов на одном квадратном миллиметре. Очень высокая плотность!
Поэтому производство Kaveri — весьма сложный процесс. Официально продажи новых APU начались 14 января, однако на практике «камень» достать сейчас практически невозможно. Думаем, что дефицит на продукцию продержится как минимум до конца зимы.
Повторимся, вычислительная часть построена на базе архитектуры Steamroller. А вот графическая состоит из хорошо нам знакомой GCN (Graphics Core Next) версии 1.1. Точно такая же архитектура применяется в новейших видеокартах AMD серии Radeon R7 и Radeon R9. Неудивительно, что «встройка» получила название R7 (с кодовым названием Spectre).
Наконец-то встроенный контроллер PCI Express обзавелся поддержкой третьей версии стандарта. В наличии классические шестнадцать линий, которые могут делиться пополам, что позволит объединять дискретные видеокарты в массив CrossFire.
А теперь давайте более подробно поговорим об архитектурных особенностях каждой составляющей новых APU.
AMD Steamroller
На официальной презентации AMD, которая прошла в начале года в Лас-Вегасе, архитектуре Steamroller было уделено меньше всего времени и внимания. Однако, на наш взгляд, именно она представляет на данный момент наибольший интерес в силу того, что нам очень интересно, насколько х86-составляющая сможет приблизиться к Haswell.
Но в целом Steamroller тяжело назвать чем-то революционным. Фактически перед нами доработанный Piledriver. Так, каждый Kaveri несет в себе два двухъядерных модуля Steamroller. Не изменился объем кэша второго уровня, хотя была переработана его структура. Отныне общая на один модуль память поделена на четыре части. Каждая четвертинка имеет независимое питание, поэтому неиспользуемый кэш можно отключить на время. Технология «темного» кремния в действии. Так что модульность архитектуры никуда не делась.
Не заявлена поддержка новых инструкций.
Пожалуй, единственным существенным изменением в Steamroller можно считать интеграцию для каждого модуля собственного независимого декодера, который может обрабатывать до четырех инструкций за такт. Таким образом, в компании борются с самой главной проблемой процессоров AMD — низкой производительностью одного потока.
Был увеличен кэш инструкций первого уровня с 64 Кбайт до 96 Кбайт.
Graphics Core Next 1.1
С архитектурой Graphics Core Next мы уже хорошо знакомы по дискретным видеокартам Radeon R7 и Radeon R9, представленными осенью прошлого года. В основе лежит блок Compute Unite (CU), состоящий из 64 вычислительных процессоров, 16 текстурных и 4 векторных блоков. В зависимости от модели APU графическое ядро R7 может насчитывать либо 6 CU, либо 8 CU. Вот и получается, что Kaveri может похвастать 384/512 шейдерными процессорами. По уровню производительности R7 способна тягаться с дискретными адаптерами уровня Radeon HD 7730/7750. Правда, ахиллесовой пятой встроенной графики до сих пор является малая пропускная способность памяти. Тем не менее, даже без тестирования ясно, что видеоядро Kaveri получилось очень производительным. В AMD утверждают, что процессоры A10 вполне подходят для гейминга в разрешении 1080p. Что ж, мы это обязательно проверим.
Отметим, что Kaveri поддерживает такие технологии, как TrueAudio, а также API Mantle. В графический процессор встроен аппаратный модуль CrossFire. Процессоры Kaveri поддерживают технологию Dual Graphics и способны взаимодействовать с дискретными видеокартами Radeon R7.
Наконец, графика получила усовершенствованные движки VCE и UVD.
Heterogeneous System Architecture
APU Kaveri официально считаются первыми интегральными решениями, которые поддерживают гетерогенную архитектуру HSA (Heterogeneous System Architecture). HSA — это архитектура, которая объединяет скалярные вычисления на CPU и параллельные вычисления GPU.
Идея весьма интересная и имеет полное право на жизнь. Общая производительность APU складывается из производительности CPU и GPU. Вычислительная мощность двух модулей Steamroller составляет всего 118,4 ГФлопс. В то время, как быстродействие графической составляющей находится на отметке 737,3 ГФлопс. Архитектура HSA позволит по максимуму задействовать потенциал APU.
На сегодняшний день используются две технологии: hUMA (heterogeneous Uniform Memory Access) и hQ (heterogeneous Queuing). Первая представляет полный доступ всем ядрам Kaveri (и CPU, и GPU) к системной памяти. Вторая технология позволяет исключить взаимосвязь между CPU и GPU. В «обычных» системах обращение к графическому ядру все равно проходит через центральный процессор. Гетерогенная очередь позволяет GPU обратиться к приложению напрямую, без посредника в лице CPU. Таким образом, уменьшаются задержки, но увеличивается производительность.
На наш взгляд, именно поддержка hUMA и hQ дает AMD полное право говорить о том, что в их APU задействуются полноценные 10/12 ядер. Дело за малым: под HSA нужна оптимизация приложений.
Так, Kaveri полностью совместимы с OpenCL 2.0. Но реальных приложений на сегодняшний день нет. К тому же для корректной работы HSA нужна ее поддержка со стороны операционной системы (на момент написания статьи такой поддержкой обладали только Windows 7 и Windows 8.1) и специальный драйвер, который находится в стадии Beta-тестирования. Вместе с ним для APU Kaveri в AMD предоставили только две демо-утилиты: JPEG Decoder и Coral AfterShot. Остальные программы, которые умеют одновременно работать и с CPU, и с GPU, используют OpenCL версии 1.2.
Вот и получается, что HSA — это пока архитектура будущего. Однако AMD заявляет о поддержке большого числа приложений, которые в будущем будут поддерживать гетерогенную архитектуру.
Процессоры
AMD A10-6700 | AMD A10-6800K | AMD A8-7600 | AMD A10-7700K | AMD A10-7850K | |
Название ядра | Richland | Richland | Kaveri | Kaveri | Kaveri |
Архитектура | Piledriver/VLIW4 | Piledriver/VLIW4 | Steamroller/GCN 1.1 | Steamroller/GCN 1.1 | Steamroller/GCN 1.1 |
Техпроцесс | 32 нм | 32 нм | 28 нм | 28 нм | 28 нм |
Процессорный сокет | FM2 | FM2 | FM2+ | FM2+ | FM2+ |
Число ядер (потоков) | 4 (4) | 4 (4) | 4 (4) | 4 (4) | 4 (4) |
Базовая (Turbo Core) частота | 3700 (4300) МГц | 4100 (4400) МГц | 3100 (3700) МГц | 3500 (3800) МГц | 3700 (4000) МГц |
Кэш L1 | 128 Кбайт (инструкции) 64 Кбайт (данные) | 128 Кбайт (инструкции) 64 Кбайт (данные) | 192 Кбайт (инструкции) 64 Кбайт (данные) | 192 Кбайт (инструкции) 64 Кбайт (данные) | 192 Кбайт (инструкции) 64 Кбайт (данные) |
Кэш L2 | 2х 2 Мбайт | 2х 2 Мбайт | 2х 2 Мбайт | 2х 2 Мбайт | 2х 2 Мбайт |
Встроенная графика | HD 8670D | HD 8670D | R7 | R7 | R7 |
Количество потоковых процессоров | 384 | 384 | 384 | 384 | 512 |
Тактовая частота GPU | 844 МГц | 844 МГц | 720 МГц | 720 МГц | 720 МГц |
Контроллер памяти | DDR3, двухканальный, 1866 МГц | DDR3, двухканальный, 1866 МГц | DDR3, двухканальный, 2133 МГц | DDR3, двухканальный, 2133 МГц | DDR3, двухканальный, 2133 МГц |
Уровень TDP | 100 Вт | 100 Вт | 45/65 Вт | 95 Вт | 95 Вт |
Ориентировочная стоимость | 4700 руб. | 5000 руб. | ~4000 руб. | ~5000 руб. | ~5800 руб. |
На данный момент официально представлено три настольных гибридных процессора APU Kaveri. Хотя AMD уже успела заикнуться о решениях для ноутбуков, гаджетов и даже серверов.
Устройства тяжело назвать дешевыми, но их стоимость не сильно превышает решения прошлого поколения. Все же сказывается сложность производства APU.
Это доказывает и то, что по сравнению с Richland новые «камни» обзавелись заметно меньшими частотами. Если скорость вычислительной части процессоров A10 прошлого поколения переваливала за отметку 4000 МГц (в Turbo-режиме), то Kaveri этим похвастать не может. Правда, модели AMD A10-7700K и AMD A10-7850K оснастили разблокированным множителем. Снизилась и частота встроенной графики: HD 8670D функционирует со скоростью 844 МГц, R7 — со скоростью всего 720 МГц. Но опять же видеядро тоже можно разогнать.
И все же Kaveri опережает своего предшественника. Особенно это заметно в графических синтетических тестах.
К тому же у новых APU уменьшился TDP. Топовые процессоры с шильдиком A10 имеют 95 Вт типичного тепловыделения, что на 5 Вт ниже, чем у Richland. Разница, правда, невелика.
К нам в тестовую лабораторию прибыл самый младший образец APU Kaveri — A8-7600. Факт в том, что он поступит в продажу позже всех, в конце первого квартала. Почему компания не предоставила нам топовые A10, лично для нас является загадкой.
Дальше — больше. Нам дали не просто A8-7600, нам дали инженерный образец. Обычно подобные чипы высылают производителям материнских плат, чтобы они тестировали свои устройства, готовящиеся к выпуску, или Beta-тестировщикам. Полное имя процессора — ZD317095I4468_38/31/16/07_1313, и узнать в нем именно A8-7600 можно только по техническим характеристикам.
К сожалению, ни CPU-Z, ни GPU-Z пока не могут адекватно распознать Kaveri.
Самая младшая модель A8-7600 имеет еще меньший динамический TDP: либо 45 Вт, либо 65 Вт. По умолчанию процессор работает на максимуме своих возможностей. Но в BIOS’е материнской платы, в меню Target TDP, можно задать необходимый уровень энергопотребления. Отметим, что разница в производительности в таком случае будет весьма заметна. При TDP=45 Вт частота процессора во время многопоточной загрузки снижается с заявленных 3100 МГц до 2400 МГц. Происходит самый обычный даунклок.
Тестирование нашего инженерного образца мы проводили при TDP 65 Вт.
Системная логика AMD A88X и сокет FM2+
Пару слов скажем о процессорном гнезде и используемой системной логике. Материнские платы на базе чипсета A88X появились в свободной продаже еще в прошлом году. Например, наша тестовая лаборатория уже успела познакомиться с BIOSTAR Hi-Fi A88W 3D. К публикации готовится еще ряд обзоров. От своих предшественниц на основе A85X они ничем не отличаются. Главная особенность — наличие 906-контактного процессорного гнезда FM2+ и, как следствие, поддержка APU Kaveri. Ни FM2, ни, тем более, FM1 гибридные процессоры нового поколения поддерживать не будут (контактов на площадке не хватит). Поэтому вместе с покупкой Kaveri придется обзавестись и новой материнской платой.
Если честно, весьма странный ход AMD, процессоры которой всегда славились обратной совместимостью. Поговаривают, что использование нового сокета первоначально задумывалось в связи с тем, что Kaveri изначально должны были взаимодействовать с памятью стандарта DDR4. Но не срослось.
Результаты тестирования
Тестовый стенд
Процессор — AMD A8-7600 (ZD317095I4468_38/31/16/07_1313), AMD A10-6800K, Intel Core i3-4130
Материнская плата — ASRock A88X-ITX+, ASRock Z87 OC Formula
Оперативная память — AMD Radeon Memory AG38G2130U2S, 2x 8 Гбайт
Накопитель — OCZ Vertex 3, 360 Гбайт
Блок питания — LEPA G1600, 1600 Вт
Операционная система — Windows 7 Максимальная х64
Steamroller VS Piledriver
Для начала давайте сравним, насколько эффективной оказалась архитектура Steamroller в сравнении с Piledriver. Для этого мы взяли два процессора и установили у обоих одинаковую частоту 3000 МГц.
Как и предполагалось, Steamroller оказался быстрее Piledriver в среднем на 10-20%.
Cтоит помнить, что те же Richland работают на заведомо более высоких частотах. Следовательно, эта разница в зависимости от модели гибридного процессора может быть нивелирована.
Можно ли подобную прибавку производительности расценивать как успех? С одной стороны, любое поступательное движение — это здорово. С другой стороны, очевидно, что Steamroller не позволит Kaveri конкурировать с четырехъядерными Haswell.
Результаты тестирования вычислительной составляющей
AMD A8-7600 | Intel Core i3-4130 | |
Название ядра | Kaveri | Haswell |
Архитектура | Steamroller/GCN 1.1 | Haswell |
Техпроцесс | 28 нм | 22 нм |
Процессорный сокет | FM2+ | LGA1150 |
Число ядер (потоков) | 4 (4) | 2 (4) |
Базовая (Turbo Core) частота | 3100 (3700) МГц | 3400 МГц |
Кэш L1 | 192 Кбайт (инструкции) 64 Кбайт (данные) | 64 Кбайт (инструкции) 64 Кбайт (данные) |
Кэш L2 | 2х 2 Мбайт | 2х 256 Кбайт |
Кэш L3 | Нет | 3 Мбайт |
Встроенная графика | R7 | HD Graphics 4400 |
Количество потоковых процессоров | 384 | 20 |
Тактовая частота GPU | 720 МГц | 1150 МГц |
Контроллер памяти | DDR3, двухканальный, 2133 МГц | DDR3, двухканальный, 1600 МГц |
Уровень TDP | 45/65 Вт | 54 Вт |
Ориентировочная стоимость | ~4000 руб. | 4300 руб. |
Процессор A8-7600, судя по рекомендованной стоимости, должен конкурировать с Core i3-4130 — двухъядерным «камнем» Intel, функционирующим на частоте 3400 МГц и оснащенным встроенным графическим ядром HD Graphics 4400.
A8-7600 тестировался в режиме 65 Вт.
Как всегда, память с процессорами Intel работает быстрее. Что в очередной раз продемонстрировал наш тест.
В большинстве тестов Core i3-4130 оказывается быстрее A8-7600. Особенно разница заметна в 3ds Max и Adobe Photoshop. Однако в многопоточных тестах, таких как CINEBENCH, x264 Benchmark и Fritz побеждает гибридный процессор Kaveri. Так что можно сказать, что A8-7600 сумел навязать конкуренцию Core i3-4130.
Вовсе неудивительно, что топовый Richland — A10-6800K — практически во всех х86-тестах опережает A8-7600. Разница в производительности между Steamroller и Piledriver не столь существенна, однако процессор прошлого поколения работает на заведомо более высоких частотах.
Впрочем, A8-7600 не совсем корректно сравнивать с A10-6800K. У устройств разная цена и разное позиционирование. Когда к нам в тестовую лабораторию прибудет топовый A10-7850K, тогда и можно будет проводить Versus-тест флагманских решений.
Результаты тестирования графической составляющей
Теперь давайте перейдем к тестированию встроенного графического ядра Spectre. Как и предполагалось, здесь результаты оказались более радужными.
Представители AMD явно не тушуются и открыто заявляют, что процессоры A10 вполне подходят для комфортного гейминга в современные игры в Full HD разрешении.
Встроенное видео R7 самым настоящим образом деклассифицирует HD Graphics 4400. Отставание более чем в два раза — это очень серьезный результат!
Интегрированная в процессор графика A8-7600 уверено обгоняет и HD 8670D.
Тест OpenGL демонстрирует уверенную победу «встройки» APU Kaveri.
А теперь игры. Дабы сильно не «душить» встроенную графику, мы приняли решение не использовать антиалиазинг. Каждая игра запускалась как в разрешении Full HD, так и в 720p.
В реальных приложениях, то есть в играх ситуация полностью повторяется. Встроенное видео R7 с большим отрывом опережает и HD 8670D, и HD Graphics 4400. Последнее выглядит особенно печально.
Конечно, для полного анализа возможностей R7 необходимо провести более тщательное тестирование, но уже сейчас в лозунг Gaming at 1080p очень даже верится.
Процессорозависимость
А вот раскрыть потенциал мощной дискретной видеокарты AMD A8-7600 не удается. Здесь как нельзя лучше себя показывает Core i3-4130. С этим процессором и попугаев больше, и FPS в играх выше.
Результаты HSA и OpenCL
Познакомиться с HSA и, что называется, пощупать возможности архитектуры руками сейчас весьма проблематично. Однако мы смогли отыскать несколько демок, которые поддерживают новую инициативу AMD.
Luxmark не поддерживает HSA. Однако этот OpenCL-тест умеет одновременно обрабатывать данные и при помощи CPU, и при помощи GPU. Как говорится, разница видна невооруженным глазом.
Использование HSA в JPG Decoder позволило увеличить производительность гибридного процессора на 57%. Очень приличный результат!
На данный момент пока рано делать какие-либо выводы по HSA. Нет должного количества софта. У AMD не готовы драйверы. Поэтому HSA — это архитектура будущего (будущего ли?). Надеемся, что не такого далекого.
Разгон, энергоэффективность
Парочка топовых Kaveri с индексом A10 имеют разблокированный коэффициент умножения для модулей Steamroller. Поэтому в плане разгона они представляют наибольшую ценность. И когда эти процессоры прибудут в нашу тестовую лабораторию, то мы всенепременно проверим их оверклокерский потенциал.
A8-7600 не имеет разблокированного множителя. В настройках BIOS материнской платы ASRock A88X-ITX+ можно поднять коэффициент вплоть до значения х47, но это все самый настоящий фарс. Система при любом повышении множителя выше х31 просто отказывалась загружаться.
К сожалению, разогнать процессор по шине тоже не удалось. Максимальная стабильная частота BCLK для нашей материнской платы составила всего 105 МГц. Это несерьезно. Поэтому от идеи разогнать наш инженерный образец мы быстро отказались.
APU Kaveri официально поддерживают оперативную память с эффективной частотой 2133 МГц. Однако за счет использовать больших делителей можно использовать более производительные киты. Чем выше частота ОЗУ, тем больше FPS в играх. Это правило применимо и к Kaveri.
Официальный уровень TDP Core i3-4130 составляет 54 Вт. Вот и потребляет он заметно меньше A8-7600.
Выводы
После знакомства с инженерным (даже не серийным) образцом самого младшего на сегодняшний день APU Kaveri, который еще не поступил в продажу, достаточно тяжело сделать какие-либо выводы, приправленные хотя бы толикой категоричности и однозначности. Для этого необходимо проводить дополнительные тестирования и изучить потенциал более производительных гибридных процессоров. Тогда пазл под названием Kaveri сложится. А пока давайте еще раз поговорим о плюсах и минусах новейших решений AMD.
Два двухъядерных модуля Steamroller оказались прогнозируемо быстрее аналогичного х86-кластера Piledriver. Сделан пусть и небольшой, но шаг вперед. Новая архитектура в зависимости от приложения на 10-20% быстрее старой. Однако этого все равно недостаточно для того, чтобы успешно конкурировать с четырехъядерными решениями Intel Haswell в х86-вычислениях. К тому же последние более энергоэффективны.
Абсолютно обратная ситуация происходит со встроенным ядром. Графический кластер R7 оказался на 30-50% быстрее HD 8670D, который используется в APU Richland — спасибо прогрессивной архитектуре Graphics Core Next. Да, с Kaveri можно играть в современные игры при разрешении 1080p. Конечно, в большинстве 3D-хитов вряд ли удастся выставить максимальные значения качества графики, однако раньше встроенное видео не могло похвастать даже приблизительно схожим уровнем производительность. На этом поле боя уже HD Graphics 4400 смотрится в роли явного аутсайдера. Нужно ли такое решение? Пусть на этот вопрос каждый ответит сам. Нам кажется, что спрос на подобные «игровые» APU однозначно будет. Например, в качестве основы Steam Machine. Если мы окажемся правы, то Kaveri станет своеобразным Jaguar, который используется в приставках нового поколения Sony PlayStation 4 и Microsoft Xbox One. В качестве решения для системы, в которой будет использоваться производительная дискретная видеокарта, A8-7600 не подойдет из-за процессорозависимости. Не забываем про поддержку TrueAudio и Mantle, который, по словам представителей AMD, в том же Battlefield 4 даст порядка 45% прироста производительности.
Гетерогенная архитектура HSA на бумаге выглядит очень привлекательно. Отказ от классического разделения чипа на CPU и GPU, использование общей памяти (в том числе и виртуальной) и гетерогенная очередь — все это в теории позволяет колоссально увеличить производительность Kaveri, используя весь его вычислительный потенциал. К сожалению, на сегодняшний день практически нет софта, поддерживающего HSA. Поэтому более детально рассуждать об этой архитектуре элементарно нет смысла. Однако в консорциум HSA Foundation входят такие компании, как ARM, Imagination Technologies, MediaTek, Texas Instruments, Qualcomm и Samsung. Совместными усилиями гетерогенная архитектура, как говорится, может и выстрелить. Остается только узнать, когда?