Опубликовано 21 февраля 2005, 00:33

Intel Pentium 4 660 и Extreme Edition 3.73 ГГц – Prescott2M в 32-битном свете. Часть 2

В первой части обзора мы познакомились с основными особенностями новых процессоров Intel Pentium 4 на ядре Prescott2M, выпущенными корпорацией 21 февраля 2005 года. И теперь самое время посмотреть на то, какую производительность обеспечивают те или иных нововведения по сравнению с предшественниками.
Intel Pentium 4 660 и Extreme Edition 3.73 ГГц – Prescott2M в 32-битном свете. Часть 2

В первой части обзора мы познакомились с основными особенностями новых процессоров Intel Pentium 4 на ядре Prescott2M, выпущенными корпорацией 21 февраля 2005 года. И теперь самое время посмотреть на то, какую производительность обеспечивают те или иных нововведения по сравнению с предшественниками. В частности, нас будут интересовать две важные вещи:
1. Как ощутимо процессор вычислительном ядре Prescott (с длинным конвейером) прибавляет от двукратного увеличения кэш-памяти второго уровня, и...
2. ...Насколько велико преимущество этих процессоров на системной шине 1066 МГц против массовых на шине 800 МГц.

И поскольку, по заявлению самой Intel, «время внедрения технологии EM64T на платформах для настольных ПК связано с графиком выпуска операционной системы Microsoft Windows XP Professional x64», а таковая официальным образом пока не вышла, мы первым делом посмотрим, как ведут себя новые и старые процессоры в традиционном 32-битном окружении, в котором (под управлением различных версий Windows) этим процессорам и предстоит проработать бОльшую часть своей «моральной» жизни. Итак, в этой части обзора мы исследуем быстродействие новых процессоров под ОС Windows XP Professional SP2.

Сперва – участники наших испытаний:

Испытанные в данном обзоре процессоры:

• Pentium 4 EE 3.73 ГГц (FSB 1067 МГц)
• Pentium 4 EE 3.47 ГГц (FSB 1067 МГц)
• Pentium 4 EE 3.40 ГГц (FSB 800 МГц)
• Pentium 4 660 @ 3.74 ГГц (FSB 832 МГц)
• Pentium 4 660 (3,6 ГГц, FSB 800 МГц)
• Pentium 4 650 (3,4 ГГц, FSB 800 МГц)
• Pentium 4 640 (3,2 ГГц, FSB 800 МГц)
• Pentium 4 560 (3,6 ГГц, FSB 800 МГц)
• Pentium 4 550 (3,4 ГГц, FSB 800 МГц)
• Pentium 4 540 (3,2 ГГц, FSB 800 МГц)

Процессоры с номерами 650, 640 и 550, 540 получались из процессоров 660 и 560 соответственно путем понижения рабочей частоты (множителем при фиксированной шине 800 МГц) с 3,6 ГГц до 3,4 и 3,2 ГГц соответственно. Использованная материнская плата Intel (обладающая, кстати, весьма достойной среди аналогов производительностью) выставляет рабочие частоты строго по номиналу с погрешностью менее 0,01% (то есть 800,0 МГц и 1066,7 МГц для FSB).

Выяснению влияния возросшего вдвое объема кэш-памяти L2 служат линейки 6х0 и 5x0, процессоры которых отличаются друг от друга (в данных тестах) фактически только кэш-памятью L2.

Выяснению влияния системной шины 1067 МГц против 800 МГц служит линейка процессоров Extreme Edition (два младших процессора которой отличаются друг от друга в большей степени именно частотой FSB; разница между ними по частоте ядра – всего 2%), а также два процессора на новом ядре Prescott2M с частотой 3,73 ГГц – Pentium 4 EE 3,73 ГГц и Pentium 4 660, работающий на частоте 3,74 ГГц. В последнем случае его системная шина (832 МГц) не очень заметно отличается от «номинальной» (выше ее на 4%, тогда как 1067 МГц выше 800 МГц на 33,3%), а частота ядра у процессоров практически идентична. То есть мы почти в чистом виде (на одном и том же ядре с одинаковой частотой ядра) сможем выяснить влияние FSB 1067 МГц.

Попутно замечу, что ядро Prescott2M степпинга N0 разогналось без проблем с боксовым кулером лишь примерно до 3,8 ГГц, а выше уже наблюдались проблемы. Таким образом, для данного степпинга модель 670 является еще вполне реальной, а модель с частотой 4 ГГц, как и у самого Prescott, видимо, станет неосуществимой (по крайней мере, в массовых сериях, хотя Extreme Edition 4 ГГц, возможно, и удастся выпустить ограниченным тиражом).

Состав тестовой системы:

• Материнская плата Intel D925XECV2 на чипсете i925XE (BIOS версии 404).
• Системная память Kingston KHX5400D2K2/1G (два модуля по 512 Мбайт) работала в режиме DDR2-533 с таймингами 3-3-3-7 при номинальном напряжении питания.
• Видеокарта ATI Radeon X800 XT от Sapphire (драйверы Catalyst 5.2).
• Жесткий диск Maxtor 6Y080P0.
• Корпус Arbyte YY-W201BK-A с блоком питания HIPRO HP-W460GC31 (460 ватт).
• Кулер – боксовый кулер Intel для Pentium 4 LGA775 от Sanyo Denki.

Тесты подсистемы памяти

Экспресс-оценку скорости работы подсистемы процессор-память мы проведем при помощи теста Everest 1.51.

Экспресс-оценку скорости работы подсистемы процессор-память мы проведем при помощи теста Everest 1.51

Экспресс-оценку скорости работы подсистемы процессор-память мы проведем при помощи теста Everest 1.51

Очевидно, что эффективная скорость работы с памятью ядра Prescott2M немного возросла по сравнению с и без того хорошо оптимизированным для этого дела ядром Prescott – прибавка тут составляет почти 200 МГц или более 3%! Старые (нортвудовские) ядра Extreme Edition существенно проигрывают новым даже при использовании FSB 1067 МГц (!), но использование этой шины с ядром Prescott2M творит чудеса – скорость подсистемы памяти резко прыгает с 6 до 7,3 Гбайт/с, почти полностью реализуя, наконец, скоростной потенциал двухканальной DDR2-533.

По скорости записи в память ситуация для FSB-1067 заметно скромнее

По скорости записи в память ситуация для FSB-1067 заметно скромнее

По скорости записи в память ситуация для FSB-1067 заметно скромнее – она едва смогла опередить обычные Pentium 4 с FSB-800, причем, как ни странно, возросший кэш новых процессоров не добавляет, а наоборот – слегка убавляет скорость записи в память.

задержки при работе с память явно меньше у старого нортвудовского ядра

задержки при работе с память явно меньше у старого нортвудовского ядра

Наконец, по латентности подсистемы памяти мы наблюдаем несколько интересных моментов: задержки при работе с память явно меньше у старого нортвудовского ядра (впрочем, это может быть связано с влиянием дополнительного кэша L3, буферизующего обращения к системной памяти из вышестоящих кэшей), хотя положительного эффекта от увеличения кэш-памяти L2 у Prescott не наблюдается. Скорее даже наоборот – латентность у нового ядра чуть возросла, что может быть связано, например, с немного возросшей латентностью самого кэша второго уровня в Prescott2M. Интересно и то, что латентность Prescott2M с шиной FSB-1067 явно не лучше, чем у остальных Prescott, то есть для работы на более быстрой шине производитель специально увеличил тайминги шины (для повышения ее стабильности) и этим свел ее возможные  преимущества по латентности к нулю.

Общесистемная производительность

Для оценки общесистемной производительности (то есть быстродействия в тех задачах, где не используются возможности  трехмерного ускорителя) мы будем применять как тесты в отдельных и часто встречающихся приложениях, так и специальные тесты комплексной оценки систем. Среди последних – PCMark04 и MetaBench 0.98.

PCmark04

PCmark04

MetaBench 0.98

MetaBench 0.98

В обоих этих тестах ситуация очень похожа – процессоры расположились почти в полном соответствии со своей тактовой частотой (даже если сравнивать 90-нм и 130-нм ядра)! Выигрыш от увеличения кэш-памяти Prescott достаточно мал – лишь около двух процентов. Системная шина 1067 дает всего-то от 0,3% до 1,7% выигрыша в скорости для 130-нм ядра и практически бесполезна для ядра Prescott2M – тот же Pentium 4 660, работающий на 3,74 ГГц (с меньшими задержками на шине 832 МГц), идет вровень с Extreme Edition 3,73!

CPUmark 99

CPUmark 99

Комплексный тест несложных математических вычислений CPUmark99 показывает, что микроархитектура с длинным конвейером (Prescott) буксует на подобных неоптимизированных под нее задачах, и даже двухмегабайтный кэш Prescott2M не способен компенсировать этот недостаток. Да и более быстрая системная шина тут оказывается совершенно бесполезна (хотя на платформах 1-2-летней давности этот тест явно выигрывал и от увеличения кэш-памяти, и от более быстрой системной шины, и от более быстрых памяти и чипсета).

ScienceMark 2.0

ScienceMark 2.0

Более сложные (но все равно неоптимизированные для NetBurst) научные расчеты в тесте ScienceMark 2.0 вторят предыдущему тесту, только здесь влияние возросшей кэш-памяти уже немного чувствуется – на уровне +1%.

WinRAR

WinRAR

Относительно свежий и хорошо оптимизированный архиватор WinRAR уже явно расположен и к NetBurst, и к увеличению кэш-памяти: выигрыш Prescott2M по сравнению с предшественником составляет 5-6% (!), хотя увеличение частоты системной шины по-прежнему бесполезно.

Кодирование JPEG в программе ACDSee 5.0

Кодирование JPEG в программе ACDSee 5.0

Кодирование JPEG в программе ACDSee 5.0, наконец, уравнивает Prescott и Gallatin – при минимальном влиянии размера кэш-памяти второго уровня и почти бесполезной шине 1067 МГц (+0,6%  нельзя назвать аргументом в ее пользу) «старенькие» Extreme Edition, наконец, отстают от старших моделей Pentium 4 6xx и 5xx.

Кодирование MP3 в при помощи одной из последних версий кодека Lame 3.96.1

Кодирование MP3 в при помощи одной из последних версий кодека Lame 3.96.1

Кодирование MP3 при помощи одной из последних версий кодека Lame 3.96.1 всегда зависело практически полностью только от ядра процессора (и не зависело от памяти, шины и даже кэша). И нынешний случай не стал исключением – процессоры расположились по своей тактовой частоте и лишь старенькие Extreme Edition за счет более короткого конвейера уверенно обгоняют всех Прескоттов.

Перекодирование видео в MPEG4 современным кодеком DivX 5.2.1

Перекодирование видео в MPEG4 современным кодеком DivX 5.2.1

Перекодирование видео в MPEG4 современным кодеком DivX 5.2.1 возвращает шансы на первенство более высокочастотным процессорам – при нулевом эффекте от возросшего кэша и увеличенной частоте FSB лидируют процессоры с частотой 3,73 ГГц.

Windows Media Encoder 9

Windows Media Encoder 9

Примерно та же картина и при кодировании видео в Windows Media Encoder 9 – правда, здесь увеличение кэш-памяти Prescott принесло около 1% дивидендов.

RealStorm Benchmark 2004

RealStorm Benchmark 2004

А вот рендеринг трехмерных сцен усилиями центрального процессора (методом трассировки лучей, тест RealStorm Benchmark 2004) неожиданно показал, что Prescott2M способен даже проигрывать своему предшественнику – и этот стабильный проигрыш составляет около 2,5%! Если вспомнить тесты скорости памяти в начале этой статьи, то становится понятной и причина этого эффекта – при более низкой скорости записи в память и чуть более высокой латентности новый процессор не успевает также быстро пересылать внушительные массивы данных для расчета сложных сцен.

CineBench 2003

CineBench 2003

К счастью, этот эффект, видимо, проявляется только в редких случаях (неоптимальных приложениях) и, например, при рендеринге центральным процессором сцен в профессиональном пакете Cinema 4D (тест CineBench 2003) положительный эффект от возросшей кэш-памяти Prescott2M колеблется от 0,3 до 1,5%, хотя влияние FSB-1067 снова отсутствует.

Производительность при работе с 3D-ускорителем

Эти тесты проводились при экранном разрешении 1024х768 при 32-битной глубине цвета. Начнем, как обычно, с комплексного теста 3Dmark05.

3Dmark05

3Dmark05

В силу заметного влияния возможностей собственно трехмерного ускорителя в этом тесте разница между процессорами невелика. Тем более интересно, что они расположились в строгом соответствии со своим «рейтингом» – номером модели. То есть новые Prescott2M явно быстрее прежних Prescott, а выигрыш от возросшей кэш-памяти тут достигает полутора-двух процентов (для этого теста – это много). Тем не менее, процессоры линейки Extreme Edition (то есть для экстремальных геймеров) ничем выдающимся тут от обычных Pentium 4 (старших моделей, особенно 6xx) не отличаются, да и FSB-1067 не демонстрирует никаких преимуществ.

Cpu score

Cpu score

Однако, в процессорном тесте этого пакета, где влияние ускорителя значительно меньше, разница между процессорами заметно увеличивается, причем они теперь ранжируются скорее по своей тактовой частоте, нежели по размеру кэш-памяти, хотя последняя обеспечивает прибавку Prescott2M скорости от 2,5 до 3,5%, которая, что важно, растет с ростом частоты ядра! То есть возросший кэш явно улучшил масштабируемость систем в этом тесте. Тем не менее, влияние FSB-1067 опять гомеопатично.

В популярных в недавнем прошлом DX-играх Unreal Tournament 2003 и 2004 ситуация похожа на процессорный тест 3Dmark05

В популярных в недавнем прошлом DX-играх Unreal Tournament 2003 и 2004 ситуация похожа на процессорный тест 3Dmark05

В популярных в недавнем прошлом DX-играх Unreal Tournament 2003 и 2004 ситуация похожа на процессорный тест 3Dmark05 (включаю ускоренную масштабируемость от 2 до 3%!) с той разницей, что Extreme Edition на старом ядре выглядят явно лучше своих последователей – даже с кэш-памятью 2 Мбайт. Ну а про бесполезность более быстрой системной шины я уже устал повторять.

Переходим к игровым тестам в OpenGL. Сперва несколько не очень новых, но показательных приложений.

Quake 3 Arena Crusher

Quake 3 Arena Crusher

В этой «нетленке» мы наблюдаем ту же картину, что и в Unreal Tournament 2003/2004: старые ядра явно быстрее, масштабируемость по частоте хорошая, увеличение кэш-памяти у Prescott приводит к росту производительности на 3-4% (больше, чем выше частота), применение FSB-1067 (в присутствующих здесь вариантах для двух разных ядер) практически не оправдано.

Wolfenstein Enemy Territory

Wolfenstein Enemy Territory

В более свежей и «тяжелой» игре WET на том же движке картина немного меняется – преимущество от использования L2=2 Мбайт теряется (более того, Prescott работает даже чуточку бsстрее, чем Prescott2M), а старое ядро явно в фаворе.

Vulpine GLmark

Vulpine GLmark

Наконец, еще один оригинальный OGL-движок от Vilpine демонстрирует удивительно высокий прирост от использования двухмегабайтной кэш-памяти вместо одномегабайтной: если для частоты 3,2 ГГц прирост «от кэша» составляет 3,2%, то для 3,4 ГГц он возрастает до 5% и на 3,6 ГГц достигает 7,2%! Что же тогда будет для частоты 3,8 ГГц?  Этот тест, как и WinRAR – наглядные примеры того, что может давать увеличение кэш-памяти в современных процессорах, если задача (приложение) к этому предрасположена.

Переходим к более современным играм

Doom 3 demo

Doom 3 demo

Это ровно то, о чем я говорил в предыдущем абзаце – влияние возросшего кэша просто огромно (несмотря на очень «тяжелую» игру): 5% прироста «от кэша» хотя и не увеличивают масштабируемость, но все же вызывают уважение. Но даже тут гораздо более низкочастотный Northwood (Gallatin) спорит на равных с самым свежим Extreme Edition 3,73 ГГц!

Gun Metal Benchmark2

Gun Metal Benchmark2

Тут влияние увеличившегося кэша скромнее (1,5-2%), а старое 130-нм ядро в очередной раз не ударяет в грязь лицом перед более высокочастотными новичками.

Far Cry

Far Cry

Те же слова справедливы и для Far Cry, хотя выигрыш от использования удвоенной кэш-памяти более ощутим и снова доходит до 5%.

SPEC viewperf 3DSmax

SPEC viewperf 3DSmax

SPEC viewperf

SPEC viewperf

И напоследок – пара тестов в профессиональных пакетах трехмерного моделирования – 3dsmax и ProENGINEER. В обоих случаях переход от Prescott к Prescott2M оказывается бесполезным и даже немного негативным – замедление систем на 1-2%! Старые 130-нм ядра здесь «бегают» наравне с самыми высокочастотными новыми, а шина 1067 МГц расписывается в собственной беспомощности.

Заключение

Итак, комплексное тестирование новых процессоров Intel Pentium 4 на только что вышедшем ядре Prescott2M показало, что в традиционной 32-битной среде, используемой в настоящее время в подавляющем большинстве корпоративных и домашних ПК, ситуация с производительностью новых решений Intel противоречива. C одной стороны, существует немало приложений, в которых удвоение кэш-памяти L2 у Prescott приводит к заметному росту производительности (3-5%, а то и более). Однако, гораздо больше приложений, где этот прирост едва заметен (1-2%) и, на мой взгляд, совершенно не стоит тех денег, которые придется выложить за разницу моделей 5xx и 6xx с одинаковой тактовой частотой. Особенно если учесть, что 3,8-гигагерцовая модель Prescott, вышедшая ранее ограниченным пока тиражом, явно опередит новую 660-ю модель. Более того, существуют и такие задачи (хотя их и мало), где новое ядро работает даже чуть медленнее (на 1-2%), чем предшествующее! В среднем же «полезность» нового ядра по сравнению со старым в 32-битной среде оценивается скромной цифрой прироста от 1 до 2%, которая, к счастью, немного растет с ростом частоты ядра и кэш-памяти (см. итоговую диаграмму, представляющую результат усреднения всех тестов данного обзора, без тестов памяти).

Overall perfomance

Overall perfomance

Таким образом, полезность нового ядра Pentium 4 заключается не столько в росте его производительности, сколько в тех дополнительных технологиях, которыми оно наделено: улучшенная защита от вирусов и атак, большая экономичность (как от использования EIST, так и от самого менее прожорливого ядра, производимого по «вылизанному», наконец, техпроцессу) и, разумеется, бонус в виде EM64T (и в перспективе – Vanderpool).

Что же касается перспектив более высокочастотной системной шины 1067 МГц для использования в массовых моделях Pentium 4, то мне лично они представляются очень туманными – в существующих на данный момент реализациях этой шины почти никакого повышения быстродействия платформы не наблюдается. И эту ситуацию могут поправить либо новые чипсеты с поддержкой DDR2-667, либо существенное уменьшение латентности самой шины (что вряд ли возможно на данный момент), либо переход (как в будущих двуядерных процессорах) к использованию двух параллельных FSB с частотой 667 МГц.