Pentium 4 Northwood: масштабируемость. Часть 2
Продолжаем начатый ранее разговор о масштабируемости процессоров Intel Pentium 4 на ядре Northwood. В первой части (www.ferra.ru/online/system/16382) нашего обзора масштабируемости мы рассмотрели выход нового процессора Pentium 4 с частотой 2,4 ГГц, основные аспекты, связанные с необходимостью тестирования масштабируемости этих процессоров на различных платформах, особенности участвующих в наших испытаниях стандартных и нестандартных конфигураций, а также результаты их масштабируемости в комплексном тесте BAPCo SYSmark 2001. Если вы не еще читали первую часть, очень рекомендую сначала ознакомиться с ней, поскольку далее в этой (второй) части мы целиком сосредоточимся на рассмотрении результатов масштабируемости процессора и систем в других (многочисленных) тестах и реальных приложениях, не повторяя изложенные в первой части пояснения.
Сначала о простых и не очень математических вычислениях. Традиционно любимый мной, хотя и достаточно старенький тест CPUmark 99 оценивает скорость систем в незатейливых математических расчетах. Тем не менее, это не чисто процессорный тест (как некоторые даже более новые) и он неплохо чувствует резвость подсистемы чипсет/память. Убедиться в полезности оперативного (менее минуты) теста CPUmark 99 при оценке современных систем и платформ можно, например, заглянув на страницу www.ferra.ru/online/system/15900, где проводилось сравнение скорости одной и той же системы (один процессор, память и системная плата) при различных настройках таймингов работы чипсета/памяти в BIOS Setup. Итак, для наших 17 платформ на процессорах Pentium 4 Northwood (см. диаграмму) в тесте CPUmark 99 наблюдается очень хорошая масштабируемость: разница между PC800 и PC2100 практически отсутствует, влияние FSB 533 МГц ничтожно (прямо как в «офисной» части SYSmark 2001) и системы масштабируются строго по прямой (лишь PC133 немного отстает). То есть с простой математикой запас масштабируемости у систем на Northwood отличный. Это и не удивительно, учитывая вместительный полумегабайтный кэш второго уровня для этих процессоров.
Более сложные математические расчеты в пакете Science Mark V1.0 показывают не столь однозначный результат. В этом пакете - три основных математических теста, два из которых (судя по моим многочисленным испытаниям) практически не зависят от подсистемы чипсет/память и определяются лишь тактовой частотой и мыслительными способностями CPU. Видимо, основной код этих тестов целиком залезает в кэш-память второго уровня современных процессоров. На диаграмме показан один из этих двух тестов - симулирование методами молекулярной динамики жидкого аргона при температуре 140 градусов Кельвина. По этому тесту наблюдается идеальная масштабируемость всех систем (прямая пропорциональность скорости тактовой частоте CPU) и равенство одночастотных систем с разной памятью (в пределах погрешности). Однако третий тест - численное решения уравнения Шредингера для атома прометия (Atomic RHF) - всегда был весьма чувствителен и к чипсету, и к памяти. Тут уже мы видим и проигрыш PC133, и преимущество PC800 над PC2100, и дивиденды от применения FSB 533 МГц (2% по крайней мере), хотя масштабируемость систем с PC800 и PC2100 достаточно хорошая по меньшей мере до частот процессора 2,8 ГГц. Пока на основе этих математических тестов беспокоиться вроде бы не о чем. Однако не все так безоблачно.
Берем простейшую и популярнейшую математическую задачку - архивирование файлов. Ну, в широчайшей распространенности незатейливых «зипователей» сомневаться не приходится. И тут масштабируемость практически идеальная - как в первом из тестов Science Mark. Зато если копнуть чуть поглубже и применить более продвинутый архиватор, например, популярный среди русскодумающих пользователей WinRAR, положение кардинально изменится. Как мы могли неоднократно убедиться (см. наши тестовые обзоры на www.ferra.ru/online/system/) WinRAR версии 2.90 (последняя официальная небета) с максимальным размером словаря и степенью компрессии очень чувствителен и к скорости чипсета/памяти, и к латентности всех шин между CPU и RAM. Вот тут уже в явном (и порой гипертрофированном) виде вылезают все недостатки систем.
Для простоты анализа на графике под диаграммой архивирования представлена зависимость времени архивирования в WinRAR 2.90 (в обратно пропорциональном масштабе) от частоты CPU. Напомню, при идеальной масштабируемости мы должны были бы наблюдать на этом графике прямые (что мы и сможем увидеть, построив аналогичный график по результатам «зипования»). Однако для «российского» суперархиватора это не так. Во-первых, график для PC133 выходит в насыщение почти сразу и бесповоротно. Больше об этой памяти сказать нечего L. Во-вторых, масштабируемость стандартных систем с PC2100 и PC800 не слишком хорошая: экстраполяция графиков показывает, что проблемы с насыщением скорости из-за памяти могут начаться сразу за порогом 3 ГГц, хотя RDRAM выглядит все же заметно лучше DDR. Зато использование FSB 533 МГц тут способно решить множество проблем (вспомните об уменьшающейся латентности при переходе на более быструю системную шину): системы с PC800 (но FSB 533) начинают показывать идеальную масштабируемость, а системы с DDR резко прибавляют в скорости и догоняют стандартный i850. Можно сказать, что здесь FSB 533 МГц является почти панацеей от болезней прошлого, настоящего и недалекого будущего.
Тесты работы с видео (видеокодирование).
Переходим к скорости кодирования видео. Здесь мы использовали результаты двух кодеров - Windows Media Encoder 7.1 и FlasK 0.6 MPEG4 c DivX 4.11. Оба достаточно популярны. Из диаграммы можно заметить, что с PC800 поведение масштабируемости для обоих кодеров почти одинаково, тогда как со SDRAM (и PC2100, и PC133) FlasK заметно подтормаживает. На двух графиках ниже показана масштабируемость каждого кодера по отдельности. По вертикали отложено время кодирования в обратно пропорциональном масштабе. Для WME практически во всех случаях наблюдается идеальное масштабирование (прямые), разницы между RDRAM и DDR практически нет для всех современных процессоров (хотя для частот выше 2,8 ГГц небольшое отклонение для DDR возможно). Таким образом, WME можно с легкостью отнести к «простой математике», почти залезающей в кэш L2. Зато для FlasK ситуация совсем иная. Конечно, до страстей WinRAR 2.90 он немного не дотягивает, но все же явно видна тенденция к насыщению скорости систем DDR266/FSB=400 выше 3 ГГц, слабый эффект от применения FSB 533 МГц и значительно более сильный - от перехода на DDR333. А еще более быстрая PC800 вообще демонстрирует практически идеальную масштабируемость процессоров даже с FSB 400 МГц. Может все-таки рано Intel полностью отказываться от RDRAM в своих будущих чипсетах, отдавая эту память на откуп SiS и другим?
Тесты работы с трехмерной графикой в DirectX.
Теперь подробнее о масштабируемости при работе с трехмерной графикой. В частности, в играх. И в DirectX 8 (3DMark 2001), и в более старом DirectX 7 (3DMark 2000 при разной глубине цветности) ситуация с этим примерно одинакова. На графике под двумя диаграммами показан итоговый индекс теста 3DMark 2001. И хотя не совсем понятно, что этот индекс означает и можно ли его предполагать линейно зависимым от частоты CPU в идеальном случае (часть этого индекса, безусловно, можно было бы, поскольку это fsp в игровых фрагментах), и вообще здесь возможно ограничительное влияние трехмерного видеоускорителя, некоторые выводы мы все же попробуем сделать. Во-первых, отставание PC133 катастрофично (для DirectX 7, кстати, оно менее фатально). Во-вторых, небольшая разница в скорости систем на PC800 и PC2100 есть, хотя обе они идут в насыщение по этому индексу для частоты процессора выше 3 ГГц. Другими словами, для систем с процессорами Pentium 4 от 3 ГГц могут потребоваться значительно более мощные видеоускорители (даже в существующих играх), чтобы иметь возможность использовать весь скоростной потенциал CPU (не терять его попусту). Еще одним приятным выводом из этого графика можно считать полезность перехода на FSB 533 МГц: при этом скорость систем со SDRAM существенно возрастет, а системы с RDRAM смогут даже побороться за идеальную масштабируемость (на графике - почти прямая!). Значит, возможно, что дело было вовсе не в слабом графическом адаптере.
Тесты работы с трехмерной графикой в OpenGL: Serious Sam и Quake III Arena.
При переходе на игровой OpenGL происходят некоторые изменения в выводах. Ситуация в Serious Sam и Quake III Arena похожа (хотя есть и отличия, поскольку для Сэма разница между PC800 и PC2100 мала), поэтому на графике мы покажем только Quake в наинизшем разрешении. Здесь масштабируемость для PC800 и PC2100 неплохая, хотя и не идеальная (влияние 3D-ускорителя при таком разрешении ничтожно, поэтому все выводы почти целиком относятся «к делу»). Однако с ростом частоты отрыв PC800 от PC2100 усиливается, и у последней начнутся проблемы с масштабируемостью выше 3 ГГц, тогда как RDRAM «еще поживет». Переход на FSB 533 МГц здесь безусловно улучшает ситуацию, но не кардинально, и даже PC2700 не способна приблизиться к «старой-доброй» PC800. Наверное, я буду бит камнями, если в очередной раз скажу, что RDRAM рулит. Поздновато спохватываемся. Хотя с другой стороны можно было бы ускорить выход бытовых двухканальных чипсетов для DDR266 (по типу Plumas 533), чтобы положить конец подобным разговорам.
Еще один игровой OpenGL-тест, заточенный под фичи третьего ЖеФорса (на котором и гонялись здесь данные тесты), показан ниже. На графике проиллюстрирована масштабируемость системы при низком разрешении (640х480), хотя ограничивающее влияние 3D-GPU здесь вполне возможно, поскольку тест «тяжеловат» по фичам. Видно, что для всех систем есть выход на насыщение выше примерно 2,8 ГГц. Возможно, именно здесь мы можем ощутить потребность в более сильном графическом движке для более быстрых процессоров, хотя разница между PC800 и PC2100 тут достаточно велика и может быть устранена лишь переходом на FSB 533 МГц и DDR333, тогда как для PC800 более быстрая FSB тут практически бесполезна.
В заключение кинем взгляд на результаты тестов профессиональных 3D-расчетов в пакете SPEC viewperf v6.1.2. Как я уже отмечал (см. www.ferra.ru/online/system/15067), с приходом Northwood этот тест подустарел и перестал показывать полезные для нас результаты. В 4-х из 6-ти тестов пакета скорость системы ограничивает 3D-ускоритель, а в оставшихся двух (Light-04 и DX-06) показания не всегда адекватны, так что выводы о масштабируемости систем на их основе сделать нельзя. Пора этой компании задуматься о выпуске нового популярного теста профессиональной трехмерной графики.
Какие же краткие выводы можно сделать на основе нашего исследования масштабируемости платформ на Pentium 4 Northwood?
1. Эффект «бутылочного горлышка», то есть ограничения быстродействия всей системы по скорости памяти на данный момент наблюдается только для случая PC133 в некоторых задачах, однако в дальнейшем развитие таких систем крайне нецелесообразно.
2. По скорости систем память PC2100 (на одноканальном чипсете) в ряде приложений (хотя и не во всех) уступает памяти PC800. Эта разница будет становиться все ощутимее при росте частоты CPU (тоже в общем-то очевидный вывод).
3. Для нынешних систем на PC2100 разумный запас масштабируемости систем ограничен частотой процессора в 2,8-3 ГГц. Выше применение DDR266 становится неэффективным, поскольку «гасит» скорость процессора во многих приложениях.
4. В большинстве случаев ситуацию с масштабируемостью DDR-платформ может поправить применение DDR333 совместно с системной шиной 533 МГц (только на чипсетах с малой латентностью, как i845).
5. Для PC800 запас масштабируемости систем еще достаточно хороший. С памятью PC800 системы будут неплохо масштабироваться в большинстве задач по крайней мере до конца «жизни» ядра Northwood, то есть вплоть до частот 3,2-3,5 ГГц.
6. С приходом ядра Prescott (частоты выше 3,2 ГГц) встанет необходимость в применении более быстрых решений для памяти (например, двухканальных DDR-чипсетов типа Plumas 533 или 666), о чем производителям стоит задуматься заранее в виду перспектив апгрейда процессора.
7. Применение FSB 533 МГц совместно с памятью PC800 в большинстве современных случаев не даст ощутимого эффекта (исключение - WinRAR и некоторые трехмерные задачи). Для DDR-систем более быстрая процессорная шина будет более эффективна и способна дать прирост от 2 до 4% в общей производительности системы при неизменной скорости памяти. Это не плохо, хотя и не так много, как можно было бы ожидать при переходе на более быструю память. Будем ждать системы на RDRAM PC1066/1200 и двухканальные чипсеты на DDR - там преимущество от применения FSB 533 МГц должно быть значительно больше.