Опубликовано 26 августа 2002, 00:33

Масштабируемость Pentium 4 на шине 533 МГц с памятью DDR266 и DDR333

Выход настольных процессоров Intel с частотой 2,8 и 2,67 МГц и ядром нового степпинга позволяет проанализировать лимитирующее влияние DDR-памяти на рост производительности таких систем.

26 августа, после небольшого летнего затишья корпорация Intel выпустила сразу четыре новые модели настольных процессоров Intel Pentium 4: с частотами 2,80 и 2,66 ГГц для системной шины (FSB) 533 МГц и с частотами 2,60 и 2,50 ГГц для системной шины 400 ГГц, установив тем самым очередной рекорд тактовой частоты для таких систем. Оптовые цены на эти модели в данный момент составляют 508 и 401 доллар на модели с FSB 533 МГц и 401 и 243 доллара на «400-мегагерцовые» модели соответственно. Модели с FSB 400 МГц являются фактически последними процессорами Pentium 4 для этой (теперь уже относительно медленной) шины (далее ее будут использовать только процессоры Celeron), тогда как более быстрая FSB 533 МГц, появившаяся совсем недавно (в мае этого года), получила свое дальнейшее развитие и теперь применяется уже в пяти процессорах Pentium 4 с частотой от 2,26 до 2,8 ГГц. Будущие же процессоры Intel Pentium 4 будут использовать шину только 533 МГц (по крайней мере, до выхода процессоров на ядре Prescott, изготавливаемом по технологии 90 нм, где возможно дальнейшее ускорение шины до 667 МГц).

Вышедшие процессоры на ядре Northwood не несут в себе никаких принципиальных нововведений по сравнению с предшественниками и станут, вероятно, последними процессорами линейки Pentium 4 без поддержки технологии Hyper-Threading (подробнее о ней см. в этом обзоре), а также последними процессорами, способными штатно работать на выпускаемых сейчас (и в недалеком прошлом) системных платах, поскольку более быстрые будущие Pentium 4 с частотой в районе 3 ГГц на ядре Northwood будут обладать повышенным энергопотреблением и потребуют изменения дизайна материнских плат (использования более мощных стабилизаторов питания на ток до 70 А согласно новой спецификации Intel FMV2), а также поддержки Hyper-Treading со стороны чипсетов и BIOS материнских плат.

Intel Pentium 4 с частотой 2,53 (слева) и 2,80 ГГц (справа)

Внешний вид процессоров Intel Pentium 4 2,53 ГГц (слева) и 2,8 ГГц (справа).

Intel Pentium 4 с частотой 2,53 (слева) и 2,80 ГГц (справа)

Внешний вид процессоров Intel Pentium 4 2,53 ГГц (слева) и 2,8 ГГц (справа).

Процессор 2,8 ГГц имеет максимальный потребляемый ток 55,9 ампер, предельную рабочую температуру 75 градусов и рассеивает типично около 68,4 ватт тепла (Thermal Design Power; напомню, что старшие модели Willamette выделяли более 70 ватт). Некоторые изменения в новых процессорах все же есть и они коснулись, во-первых, небольшого повышения напряжения питания для старших моделей 2,8 ГГц до 1,525 В, во-вторых - внешнего вида корпуса сзади (см. фото), а в третьих - редизайна кристалла, что позволило уменьшить площадь чипа примерно на 10%. Ранее этот редизайн был заявлен для процессоров с частотой от 2,4 ГГц, см. здесь, однако реально процессоры нового степпинга C1 (Stepping ID - 7, см. скриншот; напомню, что прежние процессоры имели Stepping ID - 4) вышли только сейчас.

WCPUid_2800

Процессор Intel Pentium 4 2,8 ГГц с ядром нового степпинга.

WCPUid_2800

Процессор Intel Pentium 4 2,8 ГГц с ядром нового степпинга.

В настоящее время корпорация располагает пятью заводами, работающими по 0,13-микронной технологии, причем часть из них использует 300-миллиметровые кремниевые пластины взамен 200-миллиметровых. Переход на использование пластин диаметром 300 мм как раз и сопровождался оптимизацией технологического процесса 0,13 микрон и перепроектированием чипа на меньшую площадь (теперь она стала 131 кв. мм вместо прежних 146), что дало не только дополнительную экономию, но и позволило несколько повысить максимальную тактовую частоту работы ядра: если прежние процессоры Pentium 4 разгонялись, как правило, до 2,7-2,9 ГГц, то новые уже могут спокойно работать на частотах выше 3 ГГц (см. скриншот), что подготавливает почву для будущих моделей 3,06 ГГц и выше.

WCPUid_3100

Процессор Intel Pentium 4 2,8 ГГц заработал на 3,1 ГГц с обычным кулером.

WCPUid_3100

Процессор Intel Pentium 4 2,8 ГГц заработал на 3,1 ГГц с обычным кулером.

Еще два малозаметных отличия ядра нового степпинга от старого показаны на скриншотах ниже. Во-первых, слегка улучшено быстродействие кэша инструкций первого уровня (L1) за счет удвоения числа «entries» (TLB-записей кэша): 128 против 64 у предшественников. Как мы увидим ниже, некоторые тесты производительности это почувствовали.

А во-вторых, появилась поддержка одного из прежде резервных флагов (пока более детальной информации об этом загадочном флаге у меня нет).

Напомню, что несколькими днями ранее компания AMD также объявила пару новых настольных процессоров AMD Athlon XP 2600+ и Athlon XP 2400+ с тактовыми частотами 2,13 и 2,0 ГГц соответственно. Однако, к большому сожалению поклонников продукции этой компании, новые процессоры появились пока лишь фиктивно, то есть их еще некоторое время нельзя будет купить в магазинах (в отличие от вышедших Pentium 4, которые уже продаются в Японии). Исходя их этого, нет особого практического смысла сравнивать сейчас «новообъявленные» процессоры между собой. Сравнение же производительности старших реально продающихся в данный момент процессоров Intel и AMD тоже лишено интриги, поскольку целый гигагерц превосходства первых по тактовой частоте не оставляет последним ни малейшего шанса.

С другой стороны, пять моделей Pentium 4 на шине 533 МГц дают нам отличную возможность проанализировать масштабируемость процессоров на новой шине по тактовой частоте ядра в системах с различной памятью. То есть сейчас нас будут интересовать долгосрочные перспективы роста быстродействия линейки процессоров Pentium 4 на ядре Northwood с повышением тактовой частоты - масштабируемость этих процессоров в различных приложениях. В частности, нам сегодня предстоит выяснить, каковы перспективы масштабируемости Northwood при FSB 533 МГц с памятью DDR SDRAM. Кроме того, важным является вопрос, до каких значений тактовой частоты процессора пропускная способность памяти того или иного типа не является существенным тормозом при пропорциональном росте производительности системы, то есть память способна поставлять в секунду столько данных, сколько запрашивает процессор. Напомню, что ранее мы уже исследовали масштабируемость процессоров для прежней FSB 400 МГц и памяти PC800 и DDR266 (www.ferra.ru/online/system/16382) и обнаружили, что если с памятью RDRAM такие процессоры не имели преград по крайней мере до 3 ГГц, то с памятью DDR266 ограничение роста быстродействия компьютера с ростом частоты ядра наступало примерно на уровне 2,8-3 ГГц. То есть медленная память стала бы препятствовать росту скорости выполнения ряда задач для систем с такими процессорами.

Тогда мы смогли предугадать, что использование системной шины 533 МГц взамен 400 МГц могло бы немного поправить ситуацию с масштабируемостью DDR-систем на Pentium 4 благодаря снижающейся при этом латентности при работе процессора с памятью (через чипсет). Как же обстоит дело на самом деле в реальных «штатных» системах с DDR266 на новых чипсетах Intel, мы и посмотрим сейчас. В дополнение мы также использовали «нештатную» систему с тем же самым чипсетом Intel 845G, но памятью DDR333, чтобы понять, какую выгоду может дать использование PC2700 в осенних чипсетах Intel. К пяти штатным процессорам для FSB 533 МГц (2,26, 2,40, 2,53 и 2,67 ГГц прежнего степпинга и 2,80 ГГц нового степпинга) мы прибавили разогнанный до 3,06 ГГц процессор 2,80 ГГц (FSB=584 МГц, DDR292), чтобы заглянуть немного за заветную тройку гигагерц. Такая «нестандартная» система не укладывается напрямую в две наши ветки (с DDR266 и с DDR333), но с определенной долей уверенности может быть приближена с системам с FSB 533 МГц и DDR333 (поскольку влияние FSB выше 533 МГц невелико, а DDR292 с таймигом 2-2-2-6 работает почти так же быстро, как DDR333 с таймингом 2-3-3-6).

WCPUid_3060

Процессор Intel Pentium 4 2,8 ГГц  на частоте 3,06 ГГц в наших тестах.

WCPUid_3060

Процессор Intel Pentium 4 2,8 ГГц  на частоте 3,06 ГГц в наших тестах.

Для тестов использовалась системная плата Jetway 845GDA на чипсете i845G с внешним графическим ускорителем ASUS V8200 Deluxe. В системы устанавливалось 512 Мбайт памяти двумя модулями Samsung DDR400 (CL3) (память была любезно предоставлена для тестов компанией «Никс»). Как DDR266 эти модули работали по таймингам 2-2-2-6, а как DDR333 - по 2(CL)-3-3-6. На жесткий диск Seagate Barracuda ATA IV объемом 80 Гбайт инсталлировалась операционная система Microsoft Windows XP Professional и наборы тестов, описанные в обзоре. Таким образом, в данных исследованиях масштабируемости процессора Pentium 4 на ядре Northwood приняли участие в общей сложности 11 конфигураций систем.

Прежде, чем перейти к результатам тестов, вспомним, какую выгоду дает использование системной шины 533 МГц даже с медленной DDR. Ведь не секрет, что такая шина обладает огромной пропускной способностью (около 4,2 Гбайт/с, см., например таблицу), и с ней не может тягаться в этом ни одна современная память: у RDRAM PC800 всего 3,2 Гбайт/с, у DDR226 и DDR333 и того меньше - 2,1 и 2,7 Гбайт/с соответственно, и лишь двухканальная DDR266, может иметь такую скорость. То есть по пиковой пропускной способности именно память будет тормозить всю систему, и выигрыша от применения FSB 533 МГц может пока и не быть. Однако, с другой стороны, все не так плохо. Мы уже смогли убедиться ранее, что при переходе на FSB 533 МГц существенно снижается латентность (задержки) при работе процессора с памятью (см. обзоры www.ferra.ru/online/system/15065 и www.ferra.ru/online/system/15197), а это не может не сказаться на производительности платформы в ряде приложений, даже для процессоров Northwood с большим размером кэш-памяти второго уровня, а также на лучше масштабируемости.

Переходим непосредственно к тестам масштабируемости в приложениях. Сначала - о наиболее комплексном тесте SYSmark 2002 (первые два графика). Тенденции масштабируемости удобнее рассматривать на графиках, где по горизонтальной оси отложена тактовая частота процессора, а по вертикальной - производительность. Напомню, что тест SYSmark 2002 измеряет на самом деле очень понятную пользователю величину - среднее время отклика системы на действие пользователя, и лишь затем пересчитывает это время в рейтинг по обратно пропорциональному закону. То есть фактически по вертикальной оси на этих графиках отложено то, с какой частотой компьютер отвечает пользователю, а значит, в случае идеальной масштабируемости мы должны увидеть на таком графике прямую (пропорциональность одной частоты другой). Отклонение от прямой «вниз» будет свидетельствовать о том, что масштабируемость системы в тесте не идеальна, то есть с ростом частоты производительность системы растет все медленнее, а само наращивание частоты не приносит ожидаемого выигрыша.

В SYSmark 2002 наблюдается несколько различное поведение масштабируемости между тестами Internet Content Creation (работа по созданию Интернет-сайта, включающая в себя обработку графики в Adobe Photoshop, работу с видео в Adobe Premiere и Windows Media Encoder, а также в популярных пакетах Macromedia Flash и Dreamweaver) и Office Productivity (работа в приложениях Microsoft Office, Интернет-браузере, архивирование и пр.). Общие черты здесь тоже есть: достаточно хорошая масштабируемость до 3 ГГц, хотя небольшое отклонение вниз от линейного хода уже заметен. Интересна почти одинаковая производительность в тесте ICC процессоров как с памятью DDR266, так и с DDR333. Таким образом, по сравнению с FSB 400 МГц масштабируемость в тесте ICC для FSB 533 улучшилась и почти приблизилась к отличной масштабируемости систем на RDRAM.

Теперь о простых и не очень математических вычислениях. Традиционно любимый мной, хотя и достаточно старенький тест CPUmark 99 оценивает скорость систем в незатейливых математических расчетах. Тем не менее, это не чисто процессорный тест (как некоторые даже более новые) и он неплохо чувствует резвость подсистемы чипсет/память (взгляните на разницу графиков с разной памятью). Убедиться в полезности оперативного (менее минуты) теста CPUmark 99 при оценке современных систем и платформ можно, например, заглянув на страницу www.ferra.ru/online/system/15900, где проводилось сравнение скорости одной и той же системы (один процессор, память и системная плата) при различных настройках таймингов работы чипсета/памяти в BIOS Setup. Для наших 11 систем на Pentium 4 с FSB 533 МГц в тесте CPUmark 99 наблюдается прекрасная (линейная) масштабируемость, однако система на процессоре с новым степпингом неожиданно вырвалась вперед (и вверх J). Видимо, тут как раз видны те небольшие изменения в структуре кэша L1, которые мы отметили ранее. И возможно, эти изменения наиболее ощутимы как раз при работе со старыми и достаточно простыми приложениями. Очевидно, что с простой математикой запас масштабируемости у систем на Northwood отличный. Это и не удивительно, учитывая вместительный полумегабайтный кэш L2.

Более сложные математические расчеты в пакете Science Mark V1.0 показывают не столь однозначный результат. Мы показали на графике только математический тест, зависящий от подсистемы памяти - численное решения уравнения Шредингера для атома прометия (Atomic RHF). По этому тесту наблюдается почти идеальная масштабируемость всех DDR-систем (прямая пропорциональность скорости расчета тактовой частоте CPU), хотя системы DDR333 на 2-3% быстрее систем с DDR266. Пока на основе этих математических тестов беспокоиться вроде бы не о чем. Однако не все так безоблачно.

Берем простейшую и популярнейшую математическую задачку - архивирование файлов. Если использовать не популярный WinZip, а чуть менее популярный, но более продвинутый WinRAR, положение с масштабируемостью изменится. Как мы могли неоднократно убедиться WinRAR версии 2.90 с максимальным размером словаря и степенью компрессии очень чувствителен и к скорости чипсета/памяти, и, особенно, к латентности всех шин между CPU и RAM. Вот тут уже в явном (и порой гипертрофированном) виде вылезают все недостатки систем. Для простоты анализа на графике представлена зависимость времени архивирования в WinRAR 2.90 (в обратно пропорциональном масштабе) от частоты CPU. Напомню, при идеальной масштабируемости мы должны были бы наблюдать на этом графике прямые, однако для «российского» суперархиватора это не совсем так. Хорошо масштабируется только система на DDR333, и то до 2,8 ГГц, а выше уже намечается тенденция к снижению скорости роста (система с FSB 584 МГц обладает лучшей латентностью, поэтому «выпадает» из хода верхнего графика). Но для систем с DDR266 явно видна посредственная масштабируемость выше 2,7-2,8 ГГц. И даже FSB 533 МГц тут помогает лишь частично.

Масштабируемость при MPEG4 Encoding (FlasK 0.6 DivX 4.11)

Масштабируемость Intel Pentium 4 при кодировании MPEG4.

Масштабируемость при MPEG4 Encoding (FlasK 0.6 DivX 4.11)

Масштабируемость Intel Pentium 4 при кодировании MPEG4.

При кодировании потокового видео в MPEG4 во FlasK 0.6 c DivX 4.11 масштабируемость опять хороша, причем с обоими типами памяти. Проблем на горизонте не видно. Таким образом, переход на FSB 533 МГц решил проблемы с масштабируемостью для таких задач, которые наблюдались при FSB 400 МГц.

Теперь о масштабируемости при работе с трехмерной графикой. В DirectX-тесте 3DMark 2001 SE ситуация с этим почти безоблачна. Конечно, системы на DDR266 заметно проигрывают в скорости системам на DDR333, однако все они отлично масштабируются в этом комплексном тесте. Очевидно, роль полосы пропускания памяти здесь выше, чем латентности.

Масштабируемость в 3DMark 2001 SE

Масштабируемость Intel Pentium 4 в тесте 3Dmark 2001 SE.

Масштабируемость в 3DMark 2001 SE

Масштабируемость Intel Pentium 4 в тесте 3Dmark 2001 SE.

При переходе на игровой OpenGL происходят небольшие изменения. Лучше всех (почти идеально) масштабируется старенький Quake III Arena, причем и тут (как для CPUmark 99) есть отрыв процессора с новым степпингом от старых. Видимо и вправду, неоднократно ругаемую производительность P4 в старых приложениях удалось немного улучшить, слегка модернизировав кэш L1. И опять, роль полосы пропускания памяти здесь выше, чем латентности. Однако в более современных и «тяжелых» игровых тестах OpenGL все не так шикарно. Ситуация в Serious Sam и Vulpine Glmark 1.1 похожа. В Serious Sam совершенно явно видно ухудшение масштабируемости для обоих типов памяти выше 2,7-2,8 ГГц, причем характер графиков говорит, что оно не связано с ограничением из-за скорости трехмерного ускорителя. Разница в скорости между системами с разной памятью тут мала (около 1%). Примерно то же самое (в менее выраженном виде) показывает и Vulpine Glmark, хотя для последнего меньшая латентность оказывается важнее полосы пропускания памяти (отсюда и лучшая масштабируемость).

Подведем итоги. Наше исследование масштабируемости платформ на Pentium 4 с системной шиной 533 МГц и памятью DDR266/333 показывает, что эффект ограничения быстродействия всей системы по скорости памяти в системах с FSB 533 МГц немного отодвинут за счет уменьшения латентности подсистемы процессор-память. По производительности систем в целом память PC2100 (на одноканальном чипсете) в ряде приложений (хотя и не во всех) уступает памяти PC2700. На данный момент в большинстве приложений наблюдается достаточно хорошая масштабируемость производительности вплоть до частот ядра 2,8-3 ГГц, причем даже с DDR266. Вместе с тем, некоторые современные приложения уже начинают показывать проблемы с масштабируемостью выше 2,7-2,8 ГГц. Для нынешних (одноканальных) систем на PC2100 разумный запас масштабируемости систем, видимо, ограничен частотой процессора в 2,8-3 ГГц, и выше применение DDR266 становится неэффективным, поскольку «гасит» скорость процессора во многих приложениях, тогда как DDR333 позволяет (одноканальным) системам неплохо масштабироваться в большинстве задач даже немного выше 3 ГГц. С приходом ядра Prescott (частоты выше 3,2 ГГц) встанет необходимость в применении более быстрых решений для памяти (например, двухканальных DDR-чипсетов), о чем производителям стоит задуматься заранее в виду перспектив апгрейда процессора.