Intel Pentium 4 660 и Extreme Edition 3.73 ГГц – Prescott2M в 32-битном свете. Часть 2
В первой части обзора мы познакомились с основными особенностями новых процессоров Intel Pentium 4 на ядре Prescott2M, выпущенными корпорацией 21 февраля 2005 года. И теперь самое время посмотреть на то, какую производительность обеспечивают те или иных нововведения по сравнению с предшественниками. В частности, нас будут интересовать две важные вещи:
1. Как ощутимо процессор вычислительном ядре Prescott (с длинным конвейером) прибавляет от двукратного увеличения кэш-памяти второго уровня, и...
2. ...Насколько велико преимущество этих процессоров на системной шине 1066 МГц против массовых на шине 800 МГц.
И поскольку, по заявлению самой Intel, «время внедрения технологии EM64T на платформах для настольных ПК связано с графиком выпуска операционной системы Microsoft Windows XP Professional x64», а таковая официальным образом пока не вышла, мы первым делом посмотрим, как ведут себя новые и старые процессоры в традиционном 32-битном окружении, в котором (под управлением различных версий Windows) этим процессорам и предстоит проработать бОльшую часть своей «моральной» жизни. Итак, в этой части обзора мы исследуем быстродействие новых процессоров под ОС Windows XP Professional SP2.
Сперва – участники наших испытаний:
Испытанные в данном обзоре процессоры:
• Pentium 4 EE 3.73 ГГц (FSB 1067 МГц)
• Pentium 4 EE 3.47 ГГц (FSB 1067 МГц)
• Pentium 4 EE 3.40 ГГц (FSB 800 МГц)
• Pentium 4 660 @ 3.74 ГГц (FSB 832 МГц)
• Pentium 4 660 (3,6 ГГц, FSB 800 МГц)
• Pentium 4 650 (3,4 ГГц, FSB 800 МГц)
• Pentium 4 640 (3,2 ГГц, FSB 800 МГц)
• Pentium 4 560 (3,6 ГГц, FSB 800 МГц)
• Pentium 4 550 (3,4 ГГц, FSB 800 МГц)
• Pentium 4 540 (3,2 ГГц, FSB 800 МГц)
Процессоры с номерами 650, 640 и 550, 540 получались из процессоров 660 и 560 соответственно путем понижения рабочей частоты (множителем при фиксированной шине 800 МГц) с 3,6 ГГц до 3,4 и 3,2 ГГц соответственно. Использованная материнская плата Intel (обладающая, кстати, весьма достойной среди аналогов производительностью) выставляет рабочие частоты строго по номиналу с погрешностью менее 0,01% (то есть 800,0 МГц и 1066,7 МГц для FSB).
Выяснению влияния возросшего вдвое объема кэш-памяти L2 служат линейки 6х0 и 5x0, процессоры которых отличаются друг от друга (в данных тестах) фактически только кэш-памятью L2.
Выяснению влияния системной шины 1067 МГц против 800 МГц служит линейка процессоров Extreme Edition (два младших процессора которой отличаются друг от друга в большей степени именно частотой FSB; разница между ними по частоте ядра – всего 2%), а также два процессора на новом ядре Prescott2M с частотой 3,73 ГГц – Pentium 4 EE 3,73 ГГц и Pentium 4 660, работающий на частоте 3,74 ГГц. В последнем случае его системная шина (832 МГц) не очень заметно отличается от «номинальной» (выше ее на 4%, тогда как 1067 МГц выше 800 МГц на 33,3%), а частота ядра у процессоров практически идентична. То есть мы почти в чистом виде (на одном и том же ядре с одинаковой частотой ядра) сможем выяснить влияние FSB 1067 МГц.
Попутно замечу, что ядро Prescott2M степпинга N0 разогналось без проблем с боксовым кулером лишь примерно до 3,8 ГГц, а выше уже наблюдались проблемы. Таким образом, для данного степпинга модель 670 является еще вполне реальной, а модель с частотой 4 ГГц, как и у самого Prescott, видимо, станет неосуществимой (по крайней мере, в массовых сериях, хотя Extreme Edition 4 ГГц, возможно, и удастся выпустить ограниченным тиражом).
Состав тестовой системы:
• Материнская плата Intel D925XECV2 на чипсете i925XE (BIOS версии 404).
• Системная память Kingston KHX5400D2K2/1G (два модуля по 512 Мбайт) работала в режиме DDR2-533 с таймингами 3-3-3-7 при номинальном напряжении питания.
• Видеокарта ATI Radeon X800 XT от Sapphire (драйверы Catalyst 5.2).
• Жесткий диск Maxtor 6Y080P0.
• Корпус Arbyte YY-W201BK-A с блоком питания HIPRO HP-W460GC31 (460 ватт).
• Кулер – боксовый кулер Intel для Pentium 4 LGA775 от Sanyo Denki.
Тесты подсистемы памяти
Экспресс-оценку скорости работы подсистемы процессор-память мы проведем при помощи теста Everest 1.51.
Очевидно, что эффективная скорость работы с памятью ядра Prescott2M немного возросла по сравнению с и без того хорошо оптимизированным для этого дела ядром Prescott – прибавка тут составляет почти 200 МГц или более 3%! Старые (нортвудовские) ядра Extreme Edition существенно проигрывают новым даже при использовании FSB 1067 МГц (!), но использование этой шины с ядром Prescott2M творит чудеса – скорость подсистемы памяти резко прыгает с 6 до 7,3 Гбайт/с, почти полностью реализуя, наконец, скоростной потенциал двухканальной DDR2-533.
По скорости записи в память ситуация для FSB-1067 заметно скромнее – она едва смогла опередить обычные Pentium 4 с FSB-800, причем, как ни странно, возросший кэш новых процессоров не добавляет, а наоборот – слегка убавляет скорость записи в память.
Наконец, по латентности подсистемы памяти мы наблюдаем несколько интересных моментов: задержки при работе с память явно меньше у старого нортвудовского ядра (впрочем, это может быть связано с влиянием дополнительного кэша L3, буферизующего обращения к системной памяти из вышестоящих кэшей), хотя положительного эффекта от увеличения кэш-памяти L2 у Prescott не наблюдается. Скорее даже наоборот – латентность у нового ядра чуть возросла, что может быть связано, например, с немного возросшей латентностью самого кэша второго уровня в Prescott2M. Интересно и то, что латентность Prescott2M с шиной FSB-1067 явно не лучше, чем у остальных Prescott, то есть для работы на более быстрой шине производитель специально увеличил тайминги шины (для повышения ее стабильности) и этим свел ее возможные преимущества по латентности к нулю.
Общесистемная производительность
Для оценки общесистемной производительности (то есть быстродействия в тех задачах, где не используются возможности трехмерного ускорителя) мы будем применять как тесты в отдельных и часто встречающихся приложениях, так и специальные тесты комплексной оценки систем. Среди последних – PCMark04 и MetaBench 0.98.
В обоих этих тестах ситуация очень похожа – процессоры расположились почти в полном соответствии со своей тактовой частотой (даже если сравнивать 90-нм и 130-нм ядра)! Выигрыш от увеличения кэш-памяти Prescott достаточно мал – лишь около двух процентов. Системная шина 1067 дает всего-то от 0,3% до 1,7% выигрыша в скорости для 130-нм ядра и практически бесполезна для ядра Prescott2M – тот же Pentium 4 660, работающий на 3,74 ГГц (с меньшими задержками на шине 832 МГц), идет вровень с Extreme Edition 3,73!
Комплексный тест несложных математических вычислений CPUmark99 показывает, что микроархитектура с длинным конвейером (Prescott) буксует на подобных неоптимизированных под нее задачах, и даже двухмегабайтный кэш Prescott2M не способен компенсировать этот недостаток. Да и более быстрая системная шина тут оказывается совершенно бесполезна (хотя на платформах 1-2-летней давности этот тест явно выигрывал и от увеличения кэш-памяти, и от более быстрой системной шины, и от более быстрых памяти и чипсета).
Более сложные (но все равно неоптимизированные для NetBurst) научные расчеты в тесте ScienceMark 2.0 вторят предыдущему тесту, только здесь влияние возросшей кэш-памяти уже немного чувствуется – на уровне +1%.
Относительно свежий и хорошо оптимизированный архиватор WinRAR уже явно расположен и к NetBurst, и к увеличению кэш-памяти: выигрыш Prescott2M по сравнению с предшественником составляет 5-6% (!), хотя увеличение частоты системной шины по-прежнему бесполезно.
Кодирование JPEG в программе ACDSee 5.0, наконец, уравнивает Prescott и Gallatin – при минимальном влиянии размера кэш-памяти второго уровня и почти бесполезной шине 1067 МГц (+0,6% нельзя назвать аргументом в ее пользу) «старенькие» Extreme Edition, наконец, отстают от старших моделей Pentium 4 6xx и 5xx.
Кодирование MP3 при помощи одной из последних версий кодека Lame 3.96.1 всегда зависело практически полностью только от ядра процессора (и не зависело от памяти, шины и даже кэша). И нынешний случай не стал исключением – процессоры расположились по своей тактовой частоте и лишь старенькие Extreme Edition за счет более короткого конвейера уверенно обгоняют всех Прескоттов.
Перекодирование видео в MPEG4 современным кодеком DivX 5.2.1 возвращает шансы на первенство более высокочастотным процессорам – при нулевом эффекте от возросшего кэша и увеличенной частоте FSB лидируют процессоры с частотой 3,73 ГГц.
Примерно та же картина и при кодировании видео в Windows Media Encoder 9 – правда, здесь увеличение кэш-памяти Prescott принесло около 1% дивидендов.
А вот рендеринг трехмерных сцен усилиями центрального процессора (методом трассировки лучей, тест RealStorm Benchmark 2004) неожиданно показал, что Prescott2M способен даже проигрывать своему предшественнику – и этот стабильный проигрыш составляет около 2,5%! Если вспомнить тесты скорости памяти в начале этой статьи, то становится понятной и причина этого эффекта – при более низкой скорости записи в память и чуть более высокой латентности новый процессор не успевает также быстро пересылать внушительные массивы данных для расчета сложных сцен.
К счастью, этот эффект, видимо, проявляется только в редких случаях (неоптимальных приложениях) и, например, при рендеринге центральным процессором сцен в профессиональном пакете Cinema 4D (тест CineBench 2003) положительный эффект от возросшей кэш-памяти Prescott2M колеблется от 0,3 до 1,5%, хотя влияние FSB-1067 снова отсутствует.
Производительность при работе с 3D-ускорителем
Эти тесты проводились при экранном разрешении 1024х768 при 32-битной глубине цвета. Начнем, как обычно, с комплексного теста 3Dmark05.
В силу заметного влияния возможностей собственно трехмерного ускорителя в этом тесте разница между процессорами невелика. Тем более интересно, что они расположились в строгом соответствии со своим «рейтингом» – номером модели. То есть новые Prescott2M явно быстрее прежних Prescott, а выигрыш от возросшей кэш-памяти тут достигает полутора-двух процентов (для этого теста – это много). Тем не менее, процессоры линейки Extreme Edition (то есть для экстремальных геймеров) ничем выдающимся тут от обычных Pentium 4 (старших моделей, особенно 6xx) не отличаются, да и FSB-1067 не демонстрирует никаких преимуществ.
Однако, в процессорном тесте этого пакета, где влияние ускорителя значительно меньше, разница между процессорами заметно увеличивается, причем они теперь ранжируются скорее по своей тактовой частоте, нежели по размеру кэш-памяти, хотя последняя обеспечивает прибавку Prescott2M скорости от 2,5 до 3,5%, которая, что важно, растет с ростом частоты ядра! То есть возросший кэш явно улучшил масштабируемость систем в этом тесте. Тем не менее, влияние FSB-1067 опять гомеопатично.
В популярных в недавнем прошлом DX-играх Unreal Tournament 2003 и 2004 ситуация похожа на процессорный тест 3Dmark05 (включаю ускоренную масштабируемость от 2 до 3%!) с той разницей, что Extreme Edition на старом ядре выглядят явно лучше своих последователей – даже с кэш-памятью 2 Мбайт. Ну а про бесполезность более быстрой системной шины я уже устал повторять.
Переходим к игровым тестам в OpenGL. Сперва несколько не очень новых, но показательных приложений.
В этой «нетленке» мы наблюдаем ту же картину, что и в Unreal Tournament 2003/2004: старые ядра явно быстрее, масштабируемость по частоте хорошая, увеличение кэш-памяти у Prescott приводит к росту производительности на 3-4% (больше, чем выше частота), применение FSB-1067 (в присутствующих здесь вариантах для двух разных ядер) практически не оправдано.
В более свежей и «тяжелой» игре WET на том же движке картина немного меняется – преимущество от использования L2=2 Мбайт теряется (более того, Prescott работает даже чуточку бsстрее, чем Prescott2M), а старое ядро явно в фаворе.
Наконец, еще один оригинальный OGL-движок от Vilpine демонстрирует удивительно высокий прирост от использования двухмегабайтной кэш-памяти вместо одномегабайтной: если для частоты 3,2 ГГц прирост «от кэша» составляет 3,2%, то для 3,4 ГГц он возрастает до 5% и на 3,6 ГГц достигает 7,2%! Что же тогда будет для частоты 3,8 ГГц? Этот тест, как и WinRAR – наглядные примеры того, что может давать увеличение кэш-памяти в современных процессорах, если задача (приложение) к этому предрасположена.
Переходим к более современным играм
Это ровно то, о чем я говорил в предыдущем абзаце – влияние возросшего кэша просто огромно (несмотря на очень «тяжелую» игру): 5% прироста «от кэша» хотя и не увеличивают масштабируемость, но все же вызывают уважение. Но даже тут гораздо более низкочастотный Northwood (Gallatin) спорит на равных с самым свежим Extreme Edition 3,73 ГГц!
Тут влияние увеличившегося кэша скромнее (1,5-2%), а старое 130-нм ядро в очередной раз не ударяет в грязь лицом перед более высокочастотными новичками.
Те же слова справедливы и для Far Cry, хотя выигрыш от использования удвоенной кэш-памяти более ощутим и снова доходит до 5%.
И напоследок – пара тестов в профессиональных пакетах трехмерного моделирования – 3dsmax и ProENGINEER. В обоих случаях переход от Prescott к Prescott2M оказывается бесполезным и даже немного негативным – замедление систем на 1-2%! Старые 130-нм ядра здесь «бегают» наравне с самыми высокочастотными новыми, а шина 1067 МГц расписывается в собственной беспомощности.
Заключение
Итак, комплексное тестирование новых процессоров Intel Pentium 4 на только что вышедшем ядре Prescott2M показало, что в традиционной 32-битной среде, используемой в настоящее время в подавляющем большинстве корпоративных и домашних ПК, ситуация с производительностью новых решений Intel противоречива. C одной стороны, существует немало приложений, в которых удвоение кэш-памяти L2 у Prescott приводит к заметному росту производительности (3-5%, а то и более). Однако, гораздо больше приложений, где этот прирост едва заметен (1-2%) и, на мой взгляд, совершенно не стоит тех денег, которые придется выложить за разницу моделей 5xx и 6xx с одинаковой тактовой частотой. Особенно если учесть, что 3,8-гигагерцовая модель Prescott, вышедшая ранее ограниченным пока тиражом, явно опередит новую 660-ю модель. Более того, существуют и такие задачи (хотя их и мало), где новое ядро работает даже чуть медленнее (на 1-2%), чем предшествующее! В среднем же «полезность» нового ядра по сравнению со старым в 32-битной среде оценивается скромной цифрой прироста от 1 до 2%, которая, к счастью, немного растет с ростом частоты ядра и кэш-памяти (см. итоговую диаграмму, представляющую результат усреднения всех тестов данного обзора, без тестов памяти).
Таким образом, полезность нового ядра Pentium 4 заключается не столько в росте его производительности, сколько в тех дополнительных технологиях, которыми оно наделено: улучшенная защита от вирусов и атак, большая экономичность (как от использования EIST, так и от самого менее прожорливого ядра, производимого по «вылизанному», наконец, техпроцессу) и, разумеется, бонус в виде EM64T (и в перспективе – Vanderpool).
Что же касается перспектив более высокочастотной системной шины 1067 МГц для использования в массовых моделях Pentium 4, то мне лично они представляются очень туманными – в существующих на данный момент реализациях этой шины почти никакого повышения быстродействия платформы не наблюдается. И эту ситуацию могут поправить либо новые чипсеты с поддержкой DDR2-667, либо существенное уменьшение латентности самой шины (что вряд ли возможно на данный момент), либо переход (как в будущих двуядерных процессорах) к использованию двух параллельных FSB с частотой 667 МГц.