Компьютеры

Nehalem: рожденный побеждать

6 ноября 2008 года корпорация Intel официально представила Core i7 – первые процессоры архитектуры Nehalem. Новая линейка CPU принимает эстафету у суперуспешной разработки Intel Core. Оба поколения процессоров будут продаваться параллельно, вплоть до анонса двухъядерников Havendale, использующих микроархитектуру Intel Nehalem и разъем LGA1160.

Потомок королей

Со времен исторического релиза микроархитектуры Core 2 прошло более двух лет. За этот длительный, по меркам IT-индустрии, срок борьба Intel и AMD на рынке мощных настольных процессоров фактически свелась на «нет». Запоздалый выход продуктов AMD Barcelona, их посредственная производительность и высокое тепловыделение решили исход локального сражения в пользу конкурентов.

Логотип Intel Core i7

Логотип Intel Core i7

Выпуск четырехъядерников Core i7 должен закрепить подавляющее преимущество Intel в секторе наиболее производительных решений. Кроме того, с анонсом Core i7 возвращается основательно подзабытая технология Hyper-Threading, обеспечивающая многопоточную обработку данных в пределах одного физического ядра. Этот факт должен побудить разработчиков ПО к дальнейшей оптимизации софта для процессоров с числом ядер больше двух.

Выход Nehalem полностью согласуется с фирменной концепцией Intel: появление новой архитектуры один раз в два года. Так, эра Intel Core 2 началась в июле 2006-го с выпуском процессоров Conroe. Далее последовал переход на 45-нм технологическую норму (семейство Penryn). И вот, с сегодняшнего дня, мы имеем дело с Core i7 – представителями архитектуры Nehalem на ядре Bloomfield.

Эволюция процессоров Intel

Эволюция процессоров Intel

В течение последующих 2-2,5 лет Intel примет на вооружение 32-нанометровый техпроцесс, связанный с приходом Westmere и Sandy Bridge. Впрочем, не будем забегать далеко вперед, а рассмотрим в мельчайших подробностях самые, что ни на есть свежие новинки процессорного рынка.

Читайте ниже о прогрессивном строении процессоров Core i7, особенностях их функционирования и показателях производительности. Также мы непременно упомянем о компонентах новой платформы LGA1366. Так что присаживайтесь поудобнее, будет интересно!

Архитектура

Согласно официальным сведениям первые процессоры Nehalem обладают, по крайней мере, 731 млн. транзисторов, что на 10,7% меньше, чем у «квадов» Penryn Yorkfield. В то же время, площадь кристалла Core i7 увеличена с 214 до 263 мм2.

Архитектурное строение Core i7

Архитектурное строение Core i7

Процессоры Bloomfield имеют нативный четырехъядерный дизайн, тогда как структура их предшественников – Core 2 Quad – представляла собой мультичиповый модуль из пары Core 2 Duo. К числу основных элементов кристалла Core i7 принадлежат четыре физических ядра, разделяемый кэш третьего уровня, встроенный контроллер памяти DDR3 и шина QuickPath Interconnect (QPI).

Каждое из четырех ядер Bloomfield, в свою очередь, распределяется на меньшие блоки:

Устройство каждого ядра

Устройство каждого ядра

Ширина конвейера Core i7 сохранена на уровне 4-х инструкций за такт; при этом значительно расширены буферы резервирования, загрузки, хранения и внеочередного выполнения операций. Эти изменения помогают оптимизировать энергопотребление CPU и более эффективно распараллеливать вычисления.

В отличие от процессоров прошлых поколений, микроархитектура Nehalem предполагает трехуровневую организацию ячеек кэш-памяти. Кэши L1 и L2 выделены индивидуально для каждого ядра, а вот кэш третьего уровня является общим для всех ядер. Впервые подобная концепция была применена в процессорах AMD Phenom X4 Agena.

Организация кэш-памяти

Организация кэш-памяти

Кэш первого уровня, как и у Penryn, составляет 64 КБ: по 32 килобайта для инструкций и данных. Его латентность увеличена с 3 до 4 тактов, что позволяет Bloomfield достичь высоких результирующих частот, жертвуя при этом всего 2-3% производительности. Уровнем выше размещено небольшое (256 КБ) количество унифицированного L2 кэша, суммарный объем которого в 12 (!) раз меньше, чем у топовых представителей Core 2 Extreme. Это позволило разработчикам уменьшить время выполнения одной операции с 15 до 11 тактов и обеспечить должную масштабируемость вычислений.

Основная ставка в Core i7 сделана на кэш-память третьего уровня объемом 8 МБ, который является инклюзивным: он содержит все записи из L1 и L2, таким образом, снижая трафик запросов. Восьмимегабайтный буфер способен хранить большое число, часто используемых ядрами, инструкций. Чем выше загрузка кэша третьего уровня, тем эффективнее проявляет себя Core i7 в мультипоточных приложениях.

С приходом процессоров архитектуры Nehalem возвращается фирменная технология Intel Hyper-Threading (HT), также известная как Simultaneous Multithreading (SMT, технология «одновременной мультипоточности»). Принцип ее работы заключается в распределении операций с данными между двумя виртуальными потоками одного физического ядра. В частности, четырехъядерные модели Core i7 будут функционировать в 8 потоков.

Механизм работы технологии Hyper-Threading

Механизм работы технологии Hyper-Threading

Hyper-Threading позволяет эффективно обрабатывать разнотипные данные в пределах одного ядра. В то же время, интенсивные вычисления схожей природы увеличивают нагрузку на буфер изменения порядка команд (reorder buffer) вследствие соперничества операционных блоков за первоочередной доступ к кэшу. В подобных условиях активация HT приносит мало пользы, а в некоторых игровых приложениях даже приводит к снижению производительности.

Впрочем, основная масса программ положительно реагирует на многопотоковый алгоритм вычислений. Учитывая невысокую себестоимость внедрения Hyper-Threading и приобретенный инженерами Intel опыт, нет повода сомневаться в целесообразности нововведения.

С течением времени все большее количество разработчиков ПО будут адаптировать свою продукцию для процессоров с Simultaneous Multithreading. Уже сейчас список подобных приложений содержит, по крайней мере, полсотни наименований. Мы же приведем самые известные из них:

Категория ПОСписок приложений, оптимизированных под SMT
ИгрыTHQ Relic Company of Heroes, Sierra World in Conflict: Soviet Assault, EA Flagship Hellgate: London, Crytek Crysis (только в Windows XP), Ubisoft Assassin's Creed, Ubisoft Far Cry 2, Capcom Lost Planet Colonies, Kingsoft Mission Against Terror, Midway/Epic Unreal Tournament 3
Любительские обработчики медиаконтентаSonic Easy Media Creator 10, Cyberlink Power Director 6 Plus, ProShow Gold 3.2, TMPEGEnc XPress 4.4, Avid Pinnacle Studio 12, Corel DVD Movie Factory 7, Cyberlink Power Producer 5, Cyberlink Power Director 7, Corel Video Studio X2
Профессиональные обработчики медиаконтентаAdobe Photoshop CS3, Adobe After Effects CS4, DivX Codec v6.8, Autodesk 3d Studio Max, POV-Ray 3.7 Beta 23, Maxon Cinema v11, Main Concept Reference Encoder and Decoder v.1.5, 3ivx MPEG 4, Sobey Edit Max 7, Newtek Lightwave v9.5, Sony Vegas v8.0b, Cineform Prospect HD, Thompson Canopus EDIUS Pro 5
Офисные приложенияMicrosoft Office Excel 2007, ABBYY FineReader v9.0

В первых процессорах Nehalem нашел применение обновленный до версии 4.2 набор инструкций SSE. Он включает в себя весь перечень потоковых SIMD-расширений v.4.1 плюс семь новых инструкций:

Возможности SSE 4.2

Возможности SSE 4.2

Благодаря SSE 4.2, процессоры Core i7 быстрее обрабатывают XML-код и введенный, с целью распознавания, рукописный текст. Идеально подходят для сложных математических вычислений, как-то: генный анализ, расчет расстояния Хэмминга или моделирование динамики роста населения, а также обладают расширенными коммуникационными возможностями – ускоренной работой с NAS-хранилищами и механизмом экономии электропитания в условиях Software I-SCSI, RDMA и SCTP.

Плавно переходя к описанию платформы Intel LGA1366 в целом, выделим два архитектурных блока, связывающих кристалл процессора с другими компонентами системы, – это QuickPath Interconnect (QPI) и Integrated Memory Controller (IMC).

Появление шины QPI обусловлено недостаточной пропускной способностью прежнего «мостика» между процессором и чипсетом – Front Side Bus (FSB). QPI действует в двунаправленном режиме, позволяя более гибко распределять системные ресурсы. Похожий по назначению интерфейс HyperTransport уже на протяжении нескольких лет используется в платформах AMD.

Функциональная схема QuickPath Interconnect

Функциональная схема QuickPath Interconnect

Один модуль QPI поддерживает 20 линий передачи данных в обоих направлениях со скоростью 6,4 ГТ/с. Суммарная пропускная способность шины – 25,6 гигабайт информации в секунду. Напомним, что в случае с Front Side Bus фигурировала цифра 12,8 ГБ/с, однако такой объем одновременно передаваемых данных был доступен только для чтения или только для записи. Таким образом, интерфейс QPI в 2-3 раза «шире» предшественника и к тому же не обременен взаимодействием с оперативной памятью – для этого есть встроенный контроллер DDR3.

Ядро настольных Core i7 имеет одну шину QPI, а вот в серверных процессорах содержатся два одноименных интерфейса. Один из них, по-прежнему, отвечает за связь с чипсетом, а второй служит «мостиком» между процессорами. В любом случае, производительности QuickPath Interconnect вполне достаточно, чтобы обеспечить жизнедеятельность платформ с несколькими CPU.

Принцип работы QPI в настольных и серверных платформах

Принцип работы QPI в настольных и серверных платформах

Последний важный элемент процессорного кристалла Bloomfield – Integrated Memory Controller (IMC). Напомним, что это первый опыт Intel в переносе управляющих структур памяти из северного моста в тело CPU.

Integrated Memory Controller

Integrated Memory Controller

Дебютное воплощение IMC предлагает трехканальный (192-битный) режим работы оперативной памяти. Поэтому считается, что лучшими наборами модулей RAM для платформы Nehalem LGA1366 станут комплекты DDR3, состоящие из трех планок. Впрочем, предварительные тесты показывают лишь небольшой, 1-5-процентный, прирост производительности при переходе с двух- на трехканальную организацию подсистемы памяти.

В целом, сниженная латентность доступа к RAM, возникшая за счет переноса IMC в тело процессора, дает значительный прирост пропускной способности памяти. Интересно другое: в большинстве приложений DDR3-1066 CL7 ничуть не уступает DDR3-1600 CL8, следовательно, потребность мощных систем в высокочастотных модулях памяти отходит на второй план.

Платформа LGA1366

Жизнеспособность процессоров линейки Core i7 обеспечивают соответствующие материнские платы на базе чипсета Intel X58 Express (Tylersburg). Упомянутый набор логики, в свою очередь, состоит из северного моста X58 IOH и южного моста ICH10(R), знакомого по актуальным предложениям на 775-м сокете.

Структурная схема чипсета Intel X58

Структурная схема чипсета Intel X58

Официально Core i7 рекомендуется использовать с планками DDR3-1066 (8,5 Гбит/с), однако существуют достоверные сведения об успешной работе на платах Intel X58 модулей памяти номиналом 1600 МГц и выше. В расчете на трехканальные комплекты оперативной памяти предусматривается, как правило, 3 или 6 слотов RAM; максимальный объем устанавливаемой DDR3 – 4 ГБ на один слот. На всякий случай отметим, что материнские платы LGA1366 под DDR2 выпускаться не будут, т.к. поддержка второго поколения DDR не реализована на уровне контроллера.

Графическая подсистема включает в себя от 2 до 4 слотов PCI-Express 2.0 (всего 36 линий, с возможностью расширения), совместимых с конфигурацией ATI CrossFireX и опционально с NVIDIA SLI. Производители материнских плат могут выбирать между программным и аппаратным способом реализации SLI. Впрочем, оба пути сопряжены с существенными материальными затратами, поэтому тандем видеокарт GeForce мы, скорее всего, увидим только на флагманских изделиях.

В качестве наглядного примера приведем эталонную материнскую плату производства Intel Corporation:

Intel DX58SO

Intel DX58SO

Как вы уже успели заметить, Core i7 использует новый, 1366-контактный процессорный разъем, и, кроме того, индивидуальный socket backplate толщиной 2,5 мм. Разъем LGA1366 имеет выраженную прямоугольную форму и отличное от LGA775 расстояние между отверстиями крепления кулера. Площадь ядра первых процессоров Nehalem по сравнению с Penryn выросла незначительно, поэтому в охлаждении новых CPU могут использоваться прежние кулеры, установленные при помощи переходника (LGA1366 mounting kit).

Модельный ряд Core i7, энергопотребление и производительность

17 ноября 2008 года – официальный старт продаж процессоров Intel Core i7. В общей сложности, на прилавках магазинов появятся три модели Core i7 номиналом 3,20, 2,93 и 2,66 ГГц. Результирующая частота дебютных четырехъядерников Nehalem формируется путем произведения опорной частоты шины QPI (133 МГц) на процессорный множитель – полное соответствие современной платформе AMD.

Процессор Core i7 и сокет LGA1366

Процессор Core i7 и сокет LGA1366

Модель CPU / ПараметрыIntel Core i7-965 Extreme EditionIntel Core i7-940Intel Core i7-920
РазъемLGA1366LGA1366LGA1366
Техпроцесс45-нм, с применением high-k диэлектриков45-нм, с применением high-k диэлектриков45-нм, с применением high-k диэлектриков
Число ядер4 (8 потоков)4 (8 потоков)4 (8 потоков)
Номинальная частота3,20 ГГц2,93 ГГц2,66 ГГц
Объем L2 cache4 x 256 КБ4 x 256 КБ4 x 256 КБ
Объем L3 cache8 МБ8 МБ8 МБ
Множитель24х, свободный22х, заблокирован на повышение20х, заблокирован на повышение
Пропускная способность QPI6,4 ГТ/с4,8 ГТ/с4,8 ГТ/с
Номинальное напряжение1,20 В1,20 В1,20 В
TDP130 Вт130 Вт130 Вт

В состав коробочных версий Core i7, как и раньше, входит сам процессор, стоковый кулер и инструкция по эксплуатации CPU. Каких-либо радикальных новшеств в дизайне охладителя не предусмотрено – увеличены лишь его размеры и расстояние между креплениями к печатной плате.

Приятно отметить, что фактическое энергопотребление Core i7 в нагрузке не превышает TDP процессоров Core 2 Extreme с 12 MB кэша. В режиме простоя «аппетит» Bloomfield и того ниже, благодаря ряду нововведений, которым мы посвятим несколько последующих абзацев.

Относительная экономичность Core i7 обусловлена низким рабочим напряжением (1,20 В), обновленной иерархией структур кэш-памяти и размещением в теле процессора специального микроконтроллера Power Control Unit (PCU). В функциональные обязанности последнего входит мониторинг и регуляция показателей напряжения, силы тока и температуры ядер. Среди прочего, PCU способен полностью отключать одно или несколько ядер от энергоснабжения.

Power Control Unit

Power Control Unit

Другим интересным новшеством является технология Turbo Mode, сочетающая в себе функции энергосбережения и автоматического разгона процессора. Активация режима Turbo Mode связана с двумя обязательными условиями: уровень энергопотребления должен быть ниже порогового значения (точная цифра не сообщается), выполняющееся приложение должно быть слабо оптимизировано под многопотоковые вычисления. Приведем наглядный пример:

Пример работы технологии Turbo Mode

Пример работы технологии Turbo Mode

Слева изображена работа процессорных ядер без участия Turbo Mode: все 4 ядра работают с одинаковой нагрузкой. Справа Turbo Mode уже активирован: два ядра полностью отключены, а другая пара ядер функционирует в режиме небольшого разгона путем поднятия коэффициента умножения процессора на 1 или 2 пункта.

По аналогичной схеме осуществляется автоматический разгон процессора в случае его 100%-ной загрузки:

Пример работы технологии Turbo Mode

Пример работы технологии Turbo Mode

По последней информации, Turbo Mode не влияет на общую стабильность системы при разгоне CPU. В любом случае, данную технологию легко отключить через BIOS материнской платы.

В заключение перечислим основные категории приложений, в которых процессоры Core i7 демонстрируют особую эффективность по сравнению с поколением Penryn. Во-первых, это любое программное обеспечение, оптимизированное под многопоточную обработку данных (см. выше). Во-вторых, Core i7 благоволит к большинству других программ, как-то архиваторы, приложения для работы с графикой, аудио, видео, базами данных и т.п. Практически единственное и, в то же время, весьма неприятное исключение из правил – производительность в играх. Показатели эффективности Core i7 подробно рассмотрены в одном из следующих материалов.

Выводы

Выпуск Intel Core i7 (Bloomfield) – безусловно, менее яркое событие, чем сенсационное пришествие процессоров Core 2 в 2006-м году. Однако не стоит недооценивать новичка. В лице Core i7 на рынок выходит продукт высшего разряда, как в плане производительности, так и с точки зрения технологического исполнения. Компания Intel впервые применила встроенный контроллер памяти, причем, сразу же трехканальный, и отказалась от использования шины FSB. Внедрение новых энергосберегающих функций и технологий позволят, как снизит нагрев, так и повысить быстродействие при выполнении однопоточных приложений. Кроме того, была возвращена технология Hyper-Threading, которая использовалась в процессорах Pentium 4. Несмотря на серверную архитектуру, новые CPU имеют все шансы стать именно настольными после внедрения многопоточной обработки в обычные и игровые приложения, которые поднимут эффективность данных процессоров.

С другой стороны, молодую архитектуру Nehalem могут также преследовать различные «болезни роста», а это воистину подходящий момент для реванша со стороны AMD. Воспользуется ли Advanced Micro Devices шансом максимально приблизиться к вычислительному потенциалу Core i7, мы узнаем с январским анонсом Phenom X4 на ядре Deneb. Правда, во второй половине 2009 г. Intel всерьез рассчитывает закрепить доминирующее положение на рынке топовых CPU после релиза Westmere – 32-нм процессоров с высокими таковыми частотами, сниженным энергопотреблением, увеличенным объемом кэша и новой ревизией контроллера памяти. Ждем с нетерпением!