Что такое «Dual Core» и «Quad Core»?

Что такое «Dual Core» и «Quad Core»?

Раньше, наши компьютеры имели центральный процессор (CPU) с одним ядром. В наши дни, большинство процессоров являются двухъядерными, четырехъядерными или даже восьмиядерными. Мы постараемся вам объяснить, что такое ядро, чем отличаются двухъядерные от четырехядерных процессоров, и как это все влияет на ваше реальное использование компьютера.Ответы на эти вопросы помогут не только узнать больше о вашем компьютере, но и, возможно, пригодятся, когда вам придется выбирать между более дешевым процессором с меньшим числом ядер и более дорогим процессором с большим числом ядер, при покупке нового ноутбука, планшета или даже смартфона.

Зная разницу между двухъядерными и четырехядерными процессорами, вы сможете принять более взвешенное решение о приобретении нового компьютерного оборудования.

Краткие ответы и советы

Если вы подбираете процессор для компьютера, который будет выполнять обычную офисную работу, серфить в интернете и воспроизводить видео, хватит четырехъядерного чипа. Даже самые скромные Intel Core i3 и Ryzen 3 последних поколений — четырехъядерные. Конечно, можно выбрать совсем уж бюджетный Celeron или Athlon — в рамках этих линеек до сих выпускают сверхдешевые CPU, которые подойдут для ПК, исполняющего роль «печатной машинки». Но лучше все-таки обратить внимание на четырехъядерные варианты — с ними точно не будет никаких проблем.

Для домашнего ПК, который используется в том числе и для игр, оптимальный вариант в 2019 году — это шестиядерный процессор. Да, многие четырехъядерные CPU (особенно Core i5 и Core i7 с поддержкой Hyper Threading, о которой поговорим чуть дальше) вполне справятся с большинством современных игр благодаря достаточно высокой тактовой частоте, но лучше сделать хоть какой-то задел на будущее. Ну а восемь ядер — это и вовсе идеальный вариант, который позволит не беспокоиться о замене процессора (и материнской платы — это немаловажно!) еще несколько лет.

Рабочие станции, которые выполняют серьезные вычисления (3D-рендеринг, нейросети, кодирование видео, математика, профессиональная работа с фотографиями и так далее), обычно оснащаются так называемыми HEDT-процессорами (High-end Desktop). Каждое их ядро не так быстро, как ядра топовых процессоров для игровых ПК, но этих ядер обычно больше. Благодаря тому, что практически все профессиональные пакеты ПО отлично справляются с задачей распределения вычислений на процессоре с большим количеством ядер, итоговая производительность в этом случае выше.

В любом случае, при выборе конкретной модели нужно опираться не только на количество ее ядер, но и на результаты независимых тестов производительности — именно в тех задачах, в которых вы будете задействовать свой ПК.

Отдельно нужно рассказать о ноутбуках. Из-за ограничений, которые накладывают компактные корпусы, охладить компоненты которых далеко не так просто, как в полноценных корпусах настольных ПК, их процессоры заметно слабее и часто используют меньше ядер. Двухъядерные Core i3 в бюджетных рабочих лаптопах — это вполне нормально. Впрочем, в этом году в продаже начали появляться очень привлекательные модели с Ryzen, у которых довольно производительных ядер уже как минимум четыре.

Руководство: сколько ядер нужно процессору в вашем компьютере

Двухъядерные процессоры

Первые двухъядерные процессоры Intel были основаны на ядре Smithfield, которое является ничем иным, как двумя ядрами Prescott степпинга E0 объединенными на одном кристалле. Между собой ядра взаимодействуют через системную шину при помощи специального арбитра. Соответственно размер кристалла достиг 206 кв. мм., а количество транзисторов увеличилось до 230 миллионов.

Интересное рассмотреть как реализована технология HyperThreading в двухъядерных процессоров на ядре Smithfield. Так у процессоров Pentium D поддержка этой технологии полностью отсутствует.

Маркетологи Intel посчитали, что два «реальных» ядра вполне достаточно для большинства пользователей. А вот в процессоре Pentium Extreme Edition 840 она включена, и благодаря этому процессор может исполнять 4 потока команд одновременно.

Кстати, именно поддержка HyperThreading является единственным отличием процессора Pentium Extreme Edition от Pentium D. Все остальные функции и технологии полностью одинаковы.

Среди них можно выделить поддержку набора команд EM64T, технологии энергосбережения EIST, C1E и TM2, а также функцию защиты информации NX-bit. В результате разница между процессорами Pentium D и Pentium EE является полностью искусственной.

Перечислим модели процессоров на ядре Smithfield. Это Pentium D с индексами 820, 830 и 840 а также Pentium Extreme Edition 840. Все они работают на частоте системной шины 200 МГц (800QPB), выпущены по 90нм техпроцессу, имеют штатное напряжение питания (Vcore) 1,25-1,388 В, максимальное тепловыделение

130 Вт (хотя по некоторым оценкам тепловыделение EE 840 находится на уровне 180 Вт).

Честно говоря, каких-либо положительных сторон у процессоров на ядре Smithfield я не обнаружил.

Основная претензия заключается в уровне производительности, когда во многих приложениях (которые не оптимизированы под многопоточность) двухъядерные процессоры Smithfield проигрывают одноядерным Prescott, работающих на той же тактовой частоте.

При этом у процессоров AMD такой ситуации нет. Очевидно проблема кроется во взаимодействии ядер через процессорную шину (при разработке ядра Prescott не было предусмотрено масштабирование производительности путем увеличения количества ядер).

Возможно именно по этой причине, компания Intel решила скомпенсировать недостатки более низкой ценой. В частности ценник на младшую модель Pentium D 820 был установлен на уровне

260$ (самый дешевый Athlon X2 стоит 340 $).

Кстати, модель Pentium D 820 несовместима со всеми материнскими платами на чипсете nForce4 SLI Intel Edition (операционная система не видит второе ядро). Проблема кроется в самом чипсете и nVidia официально признала данный факт.

Кроме того, в интернете встречались сообщения о несовместимости более старших моделей (но это были единичные случае с отдельными конфигурациями). Тут же отметим, что новый чипсет nForce4 SLI Х16 Intel Edition избавлен от этой проблемы.

Потенциал разгона у процессора на ядре Smithfield оказался не очень высоким. Стабильная работа системы сохранялась только при тактовой частоте не превышающей 3,25 ГГц.

Справедливости ради отметим, что данный процессор запускался на частоте 3,8 Ггц, и при использовании более эффективной системы охлаждения можно было бы достичь стабильной работы.

Забегая вперед отметим, что это все «цветочки» по сравнению с разгонным потенциалом 65нм процессоров.

Что касается совместимости, то процессоры на ядре Smithfield потенциально могут быть установлены в любую LGA775 материнскую плату. Однако эти процессоры имеют повышенные требования к модулю питания платы.

Подводя итоги, можно сказать что процессоры на ядре Smithfield являются неудачным продуктом.

Однако, разговор о двухъядерных процессорах Intel мы не заканчиваем, ибо под конец 2005 года компания успешно перешла на новейший 65нм техпроцесс, а в начале 2006 года на прилавках магазинов (по традиции впервые это случилось в Японии) появились первые процессоры на ядре Presler и Cedar Mill.

Что же дает новый, более «тонкий» техпроцесс? Если кардинально не менять архитектуру ядра, но новый техпроцесс позволяет уменьшить площадь ядра (т.е.

увеличить количество процессоров на одной пластине, и тем самым снизить себестоимость), уменьшить энергопотребление (соответственно — тепловыделение) и повысить тактовые частоты.

Впрочем, два последних параметра взаимосвязаны: если мы не увеличиваем частоту, то получаем процессор с меньшим тепловыделением. Если же не изменяем энергопотребление, то получаем процессоры с более высокими частотами.

Инженеры компании Intel выбрали именно второй путь — официальное тепловыделение осталось на уровне 130 Вт, что позволило увеличить тактовые частоты до значения 3,4 ГГц и 3,46 ГГц.

Причем как показали наши опыты с разгоном, потенциал 65 нм техпроцессора очень велик, и по мере усовершенствования и оптимизации техпроцесса рост тактовых частот будет продолжен (вплоть до перехода на совершенно новую процессорную архитектуру).

Что касается процессорного ядра Presler, то подчеркнем те технические моменты, которые отличают их от ядра Smithfield.

Самый главный факт — на одном ядре Presler размещены два ядра Cedar Mill, которое является ничем иным как ядром Prescott 2M выпущенным по 65нм техпроцессу (у ядра Smithfield два «обычных» ядра Prescott).

Тем самым инженеры Intel воспользовались преимуществом 65 нм техпроцесса, который позволяет либо уменьшить площадь кристалла либо увеличить кол-во транзисторов.

Впрочем такое описание ядра Presler не совсем корректно. Дело в том, что под крышкой теплораспределителя можно обнаружить два отдельных процессорных ядра, тогда как Smithfield представлял собой единое ядро (хотя внутри существовало разделение между ядрами).

Таким образом значительно улучшается эффективность производства: появляется возможность для производства одного 2х-ядерного процессора использовать ядра с разных участков пластины (или даже с разных пластин).

Кроме того, из-за модульной архитектуры повышается уровень выхода годных кристаллов (причем условно «негодные» можно отмаркировать как процессоры Pentium D :).

Утилита CPU-Z предоставляет нам следующую информацию о процессоре:

Внешний вид процессора с лицевой стороны ничем не отличается от других LGA775 процессоров. А с обратной стороны есть различия в расположении элементов:

Чем двухъядерный процессор отличается от одноядерного

Слева-направо: Prescott 2M, Smithfield, Presler

Presler крупным планом:

Чем двухъядерный процессор отличается от одноядерного

Итак, новые двухъядерные процессоры на ядре Presler получили наименование Pentium D с индексами 920 — 950. Кроме того, был выпущен процессор Pentium Extreme Edition 955 с включенной технологией HyperThreading и работающий на частоте системной шины = 266 МГц (1066QPB). Для того, что бы читатель не запутался во всех представленных процессорах, мы сведем их характеристики в единую таблицу:

Наименование Степпинг ядра Тактовая частота Частота шины (FSB) Объем кеш-памяти L2 HyperThreading Поддержка виртуализации
Pentium D 820 Smithfield 2800Мгц 800Мгц 2 x 1Мб Нет Нет
Pentium D 830 Smithfield 3000Мгц 800Мгц 2 x 1Мб Нет Нет
Pentium D 840 Smithfield 3200Мгц 800Мгц 2 x 1Мб Нет Нет
Pentium Extreme Edition 840 Smithfield 3200Мгц 800Мгц 2 x 1Мб Да Нет
Pentium D 920 Presler 2800Мгц 800Мгц 2 x 2Мб Нет Да
Pentium D 930 Presler 3000Мгц 800Мгц 2 x 2Мб Нет Да
Pentium D 940 Presler 3200Мгц 800Мгц 2 x 2Мб Нет Да
Pentium D 950 Presler 3400Мгц 800Мгц 2 x 2Мб Нет Да
Pentium Extreme Edition 955 Presler 3466Мгц 1066Мгц 2 x 2Мб Да Да

Несколько слов про совместимость новых процессоров с материнскими платами. Официально новые процессоры на ядре Presler с частотой шины 1066 МГц совместимы только с материнскими платами на новейшем чипсете i975X.

Однако каких-либо принципиальных ограничений на работу с платами на других чипсетах с поддержкой такой шины (i945P, i955X и nForce4 SLI (x16) Intel Edition) нет. Главное, что бы модуль питания платы был рассчитан на соответствующие нагрузки, а версия биоса корректно распознавала новый процессор.

В частности, мы без проблем запустили процессор Pentium Extreme Edition 955 на материнской платы Asus P5WD2 Premium, которая основана на чипсете i955X.

Что касается процессоров с частотой шины 800Мгц (ядра Presler и CedarMill) то в большинстве случаев они заработают на всех материнских платах поддерживающих эту шину.

Теперь поговорим о разгоне. Также как и у процессоров AMD, у процессоров производства Intel множитель заблокирован в сторону увеличения.

Но на тестовом процессоре Pentium Extreme Edition 955 он оказался полностью разблокирован (от 12 до 60) что дало нам возможность оценить потенциал 65нм ядра без влияния остальных компонентов системы (прежде всего чипсета и памяти, которые работали в штатных режимах).

Итак, без повышения напряжения ядра процессор с легкостью взял частоту 4,0 ГГц, а с незначительным увеличением Vcore процессор работал совершенно стабильно на частоте 4,26 ГГц.

А при увеличении напряжения до 1.4125В, процессору покорилась частота 4.55Ггц.

Но в этом случае нельзя было говорить о полной стабильности: некоторые тесты проходили отлично (их результаты приведены на сл. странице), а другие выдавали совершенно неправильные результаты (из-за сбоя системного таймера).

При этом повышать напряжение на процессоре мы уже не могли (использовался воздушный кулер Gigabyte G-power), поскольку это приводило к троттлингу.

Так что, потенциал в области разгона мы оцениваем на отлично, и владельцы систем водяного охлаждения смогут достичь 4,5Ггц (по сообщениям в интернете, владельцы криогенных систем достигли уже 5.5Ггц!).

Итак, предварительный вывод по процессорам на ядре Presler.

Благодаря новому 65 нм техпроцессу, Intel смогла выпустить новое поколение двухъядерных процессоров, которые по всем техническим характеристиками (функциональность, скорость работы, тепловыделение) лучше процессоров на ядре Smithfield.

И именно процессоры на ядре Presler смогут дать достойный отпор конкурентам в лице линейки Athlon X2. Но насколько изменилось соотношение сил, мы увидим на следующей странице, которая посвящена производительности.

Если Вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.

Tom Clancy’s The Division 2

Игра достаточно хорошо оптимизирована под многоядерные процессоры. Активация технологии SMT у 4-ядерного процессора дает прибавку производительности почти на 20 %. Связано это с тем, что загрузка процессора на протяжения всего тестового отрезка находится в пределах 90-100 %, и это без активности каких-либо фоновых программ. Дальнейшее наращивание количества потоков свыше шести уже не так сильно отражается на производительности.

На что НИКОГДА не нужно обращать внимание

У каждого из двух производителей центральных процессоров есть полностью сформированные линейки продуктов, рассчитанных на разные сегменты рынка: от HEDT до встраиваемых систем. И вполне логично, что процессор для мощной рабочей станции и процессор для неттопа просто не могут обладать одними и теми же качествами.

Более того, разные модели процессоров даже в одном семействе могут заметно отличаться по характеристикам. А потому говорить, что условный Core i3 — это ровно то же самое, что условный Core i9, только чуть медленнее — значит просто-напросто манипулировать. Причем манипулировать даже не фактами, а эмоциями потенциального покупателя.

Поэтому, выбирая центральный процессор, четко усвойте: вы покупаете конкретное устройство, имеющее конкретные характеристики. А именно: производительность в важных для вас задачах, совокупная стоимость платформы, возможности дальнейшего апгрейда, энергопотребление, требования к системе охлаждения и т.д. Эти характеристики могут вам подойти или показаться несоответствующими стоимости процессора, но это будут реальные параметры, относящиеся именно к обсуждаемому продукту.

А вот такие мифические критерии, как «репутация бренда», «сырость архитектуры», «билет в клуб владельцев» и прочие «проценты раскрытия» — прямой и короткий путь к покупке наихудшего из возможных вариантов.

Почему так много похожих процессоров

Рационально использовать ресурсы можно только с помощью маркетинга. А это заставляет производителей идти на хитрость и делить процессоры на архитектуры, архитектуры на подархитектуры, и далее, пока одно устройство не превратится в дюжину с похожими характеристиками, но непохожих в стоимости. Классификацией таких множеств мы и займемся.

Для этого рассмотрим деление процессоров по семействам. И, если AMD выделяет их последовательно, по мощностным качествам, то Intel предпочитает в порядке более сложную иерархию. Хотя, с появлением Ryzen концепция начинает меняться.

Двухъядерные процессоры

Двухъядерные процессоры Intel

Первые двухъядерные процессоры Intel были основаны на ядре Smithfield, которое является ничем иным, как двумя ядрами Prescott степпинга E0 объединенными на одном кристалле. Между собой ядра взаимодействуют через системную шину при помощи специального арбитра. Соответственно размер кристалла достиг 206 кв. мм., а количество транзисторов увеличилось до 230 миллионов.

Интересное рассмотреть как реализована технология HyperThreading в двухъядерных процессоров на ядре Smithfield. Так у процессоров Pentium D поддержка этой технологии полностью отсутствует. Маркетологи Intel посчитали, что два «реальных» ядра вполне достаточно для большинства пользователей. А вот в процессоре Pentium Extreme Edition 840 она включена, и благодаря этому процессор может исполнять 4 потока команд одновременно. Кстати, именно поддержка HyperThreading является единственным отличием процессора Pentium Extreme Edition от Pentium D. Все остальные функции и технологии полностью одинаковы. Среди них можно выделить поддержку набора команд EM64T, технологии энергосбережения EIST, C1E и TM2, а также функцию защиты информации NX-bit. В результате разница между процессорами Pentium D и Pentium EE является полностью искусственной.

Перечислим модели процессоров на ядре Smithfield. Это Pentium D с индексами 820, 830 и 840 а также Pentium Extreme Edition 840. Все они работают на частоте системной шины 200 МГц (800QPB), выпущены по 90нм техпроцессу, имеют штатное напряжение питания (Vcore) 1,25-1,388 В, максимальное тепловыделение

130 Вт (хотя по некоторым оценкам тепловыделение EE 840 находится на уровне 180 Вт).

Честно говоря, каких-либо положительных сторон у процессоров на ядре Smithfield я не обнаружил. Основная претензия заключается в уровне производительности, когда во многих приложениях (которые не оптимизированы под многопоточность) двухъядерные процессоры Smithfield проигрывают одноядерным Prescott, работающих на той же тактовой частоте. При этом у процессоров AMD такой ситуации нет. Очевидно проблема кроется во взаимодействии ядер через процессорную шину (при разработке ядра Prescott не было предусмотрено масштабирование производительности путем увеличения количества ядер). Возможно именно по этой причине, компания Intel решила скомпенсировать недостатки более низкой ценой. В частности ценник на младшую модель Pentium D 820 был установлен на уровне

260$ (самый дешевый Athlon X2 стоит 340 $).

Кстати, модель Pentium D 820 несовместима со всеми материнскими платами на чипсете nForce4 SLI Intel Edition (операционная система не видит второе ядро). Проблема кроется в самом чипсете и nVidia официально признала данный факт. Кроме того, в интернете встречались сообщения о несовместимости более старших моделей (но это были единичные случае с отдельными конфигурациями). Тут же отметим, что новый чипсет nForce4 SLI Х16 Intel Edition избавлен от этой проблемы.

Читайте также: 

Потенциал разгона у процессора на ядре Smithfield оказался не очень высоким. Стабильная работа системы сохранялась только при тактовой частоте не превышающей 3,25 ГГц.

Справедливости ради отметим, что данный процессор запускался на частоте 3,8 Ггц, и при использовании более эффективной системы охлаждения можно было бы достичь стабильной работы.

Забегая вперед отметим, что это все «цветочки» по сравнению с разгонным потенциалом 65нм процессоров.

Что касается совместимости, то процессоры на ядре Smithfield потенциально могут быть установлены в любую LGA775 материнскую плату. Однако эти процессоры имеют повышенные требования к модулю питания платы. Подводя итоги, можно сказать что процессоры на ядре Smithfield являются неудачным продуктом. Однако, разговор о двухъядерных процессорах Intel мы не заканчиваем, ибо под конец 2005 года компания успешно перешла на новейший 65нм техпроцесс, а в начале 2006 года на прилавках магазинов (по традиции впервые это случилось в Японии) появились первые процессоры на ядре Presler и Cedar Mill.

Что же дает новый, более «тонкий» техпроцесс? Если кардинально не менять архитектуру ядра, но новый техпроцесс позволяет уменьшить площадь ядра (т.е. увеличить количество процессоров на одной пластине, и тем самым снизить себестоимость), уменьшить энергопотребление (соответственно — тепловыделение) и повысить тактовые частоты. Впрочем, два последних параметра взаимосвязаны: если мы не увеличиваем частоту, то получаем процессор с меньшим тепловыделением. Если же не изменяем энергопотребление, то получаем процессоры с более высокими частотами.

Инженеры компании Intel выбрали именно второй путь — официальное тепловыделение осталось на уровне 130 Вт, что позволило увеличить тактовые частоты до значения 3,4 ГГц и 3,46 ГГц. Причем как показали наши опыты с разгоном, потенциал 65 нм техпроцессора очень велик, и по мере усовершенствования и оптимизации техпроцесса рост тактовых частот будет продолжен (вплоть до перехода на совершенно новую процессорную архитектуру).

Что касается процессорного ядра Presler, то подчеркнем те технические моменты, которые отличают их от ядра Smithfield. Самый главный факт — на одном ядре Presler размещены два ядра Cedar Mill, которое является ничем иным как ядром Prescott 2M выпущенным по 65нм техпроцессу (у ядра Smithfield два «обычных» ядра Prescott). Тем самым инженеры Intel воспользовались преимуществом 65 нм техпроцесса, который позволяет либо уменьшить площадь кристалла либо увеличить кол-во транзисторов.

Впрочем такое описание ядра Presler не совсем корректно. Дело в том, что под крышкой теплораспределителя можно обнаружить два отдельных процессорных ядра, тогда как Smithfield представлял собой единое ядро (хотя внутри существовало разделение между ядрами). Таким образом значительно улучшается эффективность производства: появляется возможность для производства одного 2х-ядерного процессора использовать ядра с разных участков пластины (или даже с разных пластин). Кроме того, из-за модульной архитектуры повышается уровень выхода годных кристаллов (причем условно «негодные» можно отмаркировать как процессоры Pentium D :).

Утилита CPU-Z предоставляет нам следующую информацию о процессоре:

Внешний вид процессора с лицевой стороны ничем не отличается от других LGA775 процессоров. А с обратной стороны есть различия в расположении элементов:

Presler крупным планом:

Итак, новые двухъядерные процессоры на ядре Presler получили наименование Pentium D с индексами 920 — 950. Кроме того, был выпущен процессор Pentium Extreme Edition 955 с включенной технологией HyperThreading и работающий на частоте системной шины = 266 МГц (1066QPB). Для того, что бы читатель не запутался во всех представленных процессорах, мы сведем их характеристики в единую таблицу:

Hyper-threading

Ядра в многоядерных процессорах могут поддерживать технологию SMT, позволяющую исполнять несколько потоков вычислений и создавать на основе каждого ядра несколько логических процессоров. На процессорах, которые выпускает компания Intel, такая технология называется «Hyper-threading». Благодаря ей можно удваивать число логических процессоров по сравнению с числом физических чипов. В микропроцессорах, поддерживающих эту технологию, каждый физический процессор способен сохранять состояние двух потоков одновременно. Для операционной системы это будет выглядеть, как наличие двух логических процессоров. Если в работе одного из них возникает пауза (например, он ждет получения данных из памяти), другой логический процессор приступает к выполнению собственного потока.

Разница между 2 и 4-ядерным процессором

На аппаратном уровне основное отличие 2-ядерного процессора от 4-ядерного – количество функциональных блоков. Каждое ядро, по сути, представляет собой отдельный ЦП, оснащенный своими вычислительными узлами. 2 или 4 таких ЦП объединены между собой внутренней скоростной шиной и общим контроллером памяти для взаимодействия с ОЗУ. Другие функциональные узлы тоже могут быть общими: у большинства современных ЦП индивидуальной является кэш-память первого (L1) и второго (L2) уровня, блоки целочисленных вычислений и операций с плавающей запятой. Кэш L3, отличающийся относительно большим объемом, один и доступен всем ядрам. Отдельно можно отметить уже упомянутые AMD FX (а также ЦП Athlon и APU серии A): у них общими являются не только кэш-память и контроллер, но и блоки вычислений с плавающей запятой: каждый такой модуль одновременно принадлежит двум ядрам.

Схема четырехъядерного процессора AMD Athlon

С пользовательской точки зрения разница между 2 и 4-ядерным процессором заключается в количестве задач, которые ЦП может обработать за один такт. При одинаковой архитектуре, теоретическая разница будет составлять 2 раза для 2 и 4 ядер или 4 раза для 2 и 8 ядер, соответственно. Таким образом, при одновременной работе нескольких процессов, увеличение количества должно повлечь за собой рост быстродействия системы. Ведь вместо 2 операций четырехъядерный ЦП за один момент времени сможет выполнять сразу четыре.

Как включить отключенные ядра процессора?

Довольно часто на новых ноутбуках и нетбуках изначально активированы не все ядра процессора. Делается это для экономии электроэнергии и предполагается, что по необходимости пользователь активирует их самостоятельно. Однако проблема заключается в том, что неопытные пользователи не имеют никакого понятия о том, что их компьютер работает не на «полную катушку» и не имеют представления, как активировать отключенные ядра. Делается это следующим образом:

Шаг 1.

  • Раскройте меню «Пуск» и выберите в нем пункт «Выполнить».
  • В раскрывшемся небольшом окошке впишите в текстовую строку команду «msconfig» и нажмите «Enter».

Изображение 11. Запуск настроек конфигурации системы.

Изображение 11. Запуск настроек конфигурации системы.

Шаг 2.

  • В раскрывшемся окошке перейдите на вкладку «Загрузка» и на ней кликните по кнопке «Дополнительные параметры».

Изображение 12. Переход на вкладку для активации отключенных ядер.

Изображение 12. Переход на вкладку для активации отключенных ядер.

Шаг 3.

  • Откроется небольшое окно, где Вам потребуется отметить маркером строчку «Число процессоров» и в графе ниже выбрать максимально доступное число. В нашем примере это цифра 2, так как компьютер имеет двухъядерный процессор.
  • Далее нажмите «ОК», потом кнопку «Применить» и снова «ОК».
  • Закройте окно и перезагрузите компьютер. После перезагрузки Ваш компьютер будет работать со всеми активными ядрами и, вполне возможно, Вы сразу почувствуете улучшение его производительности.

Изображение 13. Активация отключенных ядер и сохранение изменений.

Изображение 13. Активация отключенных ядер и сохранение изменений.

ВАЖНО: Удостоверьтесь, что строчки «Балансировка PCI» и «Отладка» не помечены галочками. В противном случае, после перезагрузки компьютера ничего не изменится. Операционная система автоматически отключит второе ядро и Ваш процессор не будет работать на полную мощность.

Двухъядерные процессоры в 3D играх

Распространение двухъядерных процессоров в последние годы привело к тому, что возможности многопроцессорных систем начали использоваться в играх и других непрофессиональных приложениях. До недавнего времени двухъядерные процессоры в настольных компьютерах были весьма редки, их использовали профессионалы и редкие энтузиасты, работающие с такими приложениями, как программы 3D моделирования и анимации, а также программы обработки и кодирования медиаданных, которые изначально создавались с поддержкой нескольких CPU.

Слабая (а точнее даже никакая) поддержка двух- и более процессорных систем в играх была обусловлена малым распространением многопроцессорных систем у игроков из-за их высокой цены. Пару лет назад начали появляться массовые двухъядерники, но их цена какое-то время была слишком высокой для обычного пользователя, и приобретали их те же энтузиасты, просто более массово. С выходом процессоров Intel Pentium D, а также Core 2 Duo и AMD Athlon 64 X2, обе указанные компании, производящие настольные x86 CPU, значительно снизили цены на свои процессоры, что продолжают делать и сейчас. В результате, двухъядерные процессоры стали стоить немногим больше недавних одноядерных моделей, да и развитие x86 процессоров сместилось к многоядерности.

Соответственно, пользователи часто задаются вопросом — а есть ли польза от второго ядра CPU в 3D играх? Данный материал предназначен для того, чтобы показать прирост производительности в современных играх от второго ядра центрального процессора. Причем, не в синтетических условиях с низкими разрешениями и в старых играх, а в более-менее реалистичных, используемых игроками. Также мы постарались максимально снизить возможное влияние мощности видеоподсистемы.

Теоретически, увеличение скорости от второго ядра способно получить только само приложение. Уже существующее, умеющее использовать ресурсы только одного ядра, не заставить ускориться на двухъядерном процессоре. В любом случае, хватает ли ему возможностей одного ядра или нет. Но повышение производительности может быть отмечено даже в случае отсутствия явной поддержки многопроцессорности — при использовании многопоточности со стороны приложения, когда система распределяет их по разным ядрам CPU. Еще одним вариантом повышения производительности игры являются усовершенствования в коде видеодрайвера, который может использовать возможности второго ядра в своих целях. Но это всё теория, а что в современных (и не очень) трехмерных играх получается на однопроцессорных и двухпроцессорных системах, мы увидим ниже по тексту.

Конфигурация и настройки тестовой системы

  • Процессоры: AMD Athlon 64 3800+ и AMD Athlon 64 X2 4600+ Socket 939
  • Системная плата: Foxconn WinFast NF4SK8AA-8KRS (Nvidia nForce4 SLI)
  • Оперативная память: 2048 Мб DDR SDRAM PC3200
  • Видеокарта: Nvidia Geforce 8800 GTX 768MB
  • Жесткий диск: Seagate Barracuda 7200.7 120 Gb SATA
  • Операционная система: Microsoft Windows XP Professional SP2
  • Видеодрайвер: Nvidia ForceWare 97.92

В качестве двухъядерного процессора был выбран один из наиболее выгодных на сегодняшний день двухъядерных процессоров AMD — Athlon 64 X2 4600+, а аналогичным одноядерным для него является Athlon 64 3800+, работающий ровно на той же тактовой частоте 2.4 ГГц и обладающий тем же объемом кэш-памяти второго уровня — 512 Кб. Соответственно, два варианта тестовой системы отличаются только количеством процессорных ядер, все остальные параметры и условия равны.

Для двухъядерной системы была сделана модификация файла «boot.ini», добавлен ключ «/usepmtimer», были установлены последние драйверы и для процессоров AMD Athlon 64. Настройки видеодрайвера ForceWare использовались устанавливаемые по умолчанию, кроме качества текстурной фильтрации, оно было выставлено в значение «High quality». Параметр «Threaded optimization», отвечающий за включение многопроцессорных оптимизаций, имеющийся в настройках драйвера, был выставлен в значение «Auto». Использовались два режима видеонастроек: стандартный режим наиболее распространенного разрешения 1280×1024 (или ближайший к нему 1280×960 для игр без поддержки такового) без использования анизотропной фильтрации и антиалиасинга; и режим высокого качества — с разрешением экрана 1920×1200 пикселей (или 1600×1200 при отсутствии поддержки широкоэкранных режимов), с включенными мультисэмплингом 4x и анизотропной фильтрацией максимально возможного уровня — 16x.

Набор игр, использовавшихся в наших тестах, включает как стандартные бенчмарки, часто используемые в статьях, так и некоторые игры, не предоставляющие стандартных средств для измерения производительности. К сожалению, мы вынуждены в очередной раз попенять на то, что разработчики игр не стремятся дать пользователям удобные инструменты для тестов и не делают стандартных бенчмарков в своих играх. Поэтому для части игр использовался имеющий массу недостатков метод измерения производительности при помощи программы FRAPS. В тех играх, где есть возможности записи и просмотра демок, он почти столь же точен, что и встроенные тесты, но среди интересующих нас игр есть и те, в которых такой возможности нет, там погрешность была выше.

Результаты тестирования

Far Cry 1.4

Этой игре уже достаточно много времени, чтобы считать её современной, но из-за её технологического совершенства и модификаций в последующих патчах она остаётся одной из тех игр, которые часто используют в разнообразных сравнениях. В Far Cry производительность рендеринга в помещениях (так называемый indoor) обычно зависит, прежде всего, от видеокарты, а вот открытые пространства (outdoor) с достаточно большим количеством геометрии и алгоритмами изменения уровня детализации (LOD) даже на мощных видеокартах могут зависеть от мощности центрального процессора.

И хотя для сравнения скорости был взят один из outdoor уровней (Research), хорошо нагружающий, в том числе и CPU, мы видим, что существенной разницы в производительности Far Cry на системе с одноядерным процессором и двухъядерным не наблюдается. Разница легко входит в пределы погрешности измерения. Даже оптимизации драйвера не помогают игре показать лучшие результаты на системе с двумя процессорными ядрами. Видимо, сказывается время выхода игры Far Cry, в те времена над оптимизациями под многопроцессорные системы еще никто особо не задумывался.

Quake 4 1.3

А вот разработчики этой игры и её движка уже хвастаются поддержкой многопроцессорных конфигураций, для этого даже есть отдельный параметр в меню настроек. Эта поддержка появилась в Quake 4 не сразу, а в последующих патчах, так что играющим в игру на двухъядерных процессорах рекомендуется обновить её до последней версии. Quake 4 достаточно процессорозависим, так как использует центральный процессор системы в алгоритме расчета и наложения теней, которых в игре предостаточно. Кроме того, процессором в игре рассчитываются и физические взаимодействия. Вероятно, это те задачи, которые и были переложены в разные потоки для увеличения производительности. Проверим это на практике:

Результат просто потрясающий, в «легком» режиме 1280×1024 разница в скорости на системе с одноядерным и двухъядерным процессорами получилась более чем полуторакратная! Причем, это точно не ошибка, результаты были перепроверены три раза. Конечно, в режиме очень высокого разрешения с включенными анизотропной фильтрацией и антиалиасингом, нагружающим видеокарту, от разницы осталось менее 10%, но это и понятно — ограничивающим фактором в этом случае выступает уже видеокарта, даже такая мощная, как Geforce 8800 GTX.

Prey 1.3

Prey основан на том же игровом движке DOOM 3 Engine, что и Quake 4, но его версия, используемая в этой игре, другая. Поэтому и результат может быть иным. Кроме того, для теста Prey был выбран indoor уровень, в то время как для Quake 4 использовалась демка, записанная на открытом пространстве. Это также может вызвать разницу, так как рендеринг открытых пространств традиционно зависит больше от мощности процессора, чем видеокарты.

Итак, мы видим, что результаты здесь не такие впечатляющие, по сравнению с предыдущей игрой. Хотя 17% прибавки от второго ядра в «легком» режиме тоже весьма приятны. Удивительно, что частота кадров на одноядерном процессоре в более тяжелом режиме получилась чуть выше, чем в легком. Этот результат также был трижды перепроверен, так что ошибки тут нет. Видимо, сказываются некие оптимизации (или недооптимизации) видеодрайвера для Geforce 8800. В любом случае, в режиме высокого разрешения и качественных настроек разница получилась в пределах погрешности, так что прирост от второго ядра в Prey есть только в легких режимах.

F.E.A.R. также использует для наложения теней алгоритмы, схожие с теми, что есть в DOOM 3 Engine, но всё же с большими отличиями. Кроме того, эта игра использует CPU и для физических расчетов, поэтому при условии должной оптимизации можно было предполагать её ускорение на многопроцессорных системах. Однако, как мы определили в технологическом обзоре игры, больше всего скорость рендеринга зависит от мощности видеокарты, от филлрейта и пропускной способности памяти. Проверим, какая разница получится при тестировании встроенным бенчмарком на разных процессорах:

А разница в F.E.A.R. получилась… нулевая. Абсолютно одинаковые результаты, что на одноядерной системе, что на двухъядерной. Даже удивительно, оптимизации драйвера ForceWare не добавили к результатам ровно ничего, ни одного лишнего кадра в секунду. Видимо, приложение однопоточное и на такой мощной видеокарте, как наша тестовая, полностью ограничена филлрейтом. Других объяснений найти просто не получилось.

Serious Sam 2

Еще одна игра позапрошлого года, производительность которой больше всего зависит от видеокарты, но на открытых уровнях с большим количеством врагов на неё может повлиять и мощность центрального процессора, который используется для расчетов физики, AI, LOD и др. Никаких данных о том, поддерживаются ли многопроцессорные системы игрой, мы не нашли, поэтому вместо предположений сразу обратимся к практике:

Забегая вперед — это один из наиболее распространенных результатов, после неожиданного с F.E.A.R. Результаты были перепроверены не один раз, были взяты средние значения из полученных. В этой игре получилось так, что двухъядерник совсем чуть-чуть обогнал одноядерный процессор, в «легком» режиме — на 6%, в «тяжелом» — в пределах погрешности (нагрузка увеличилась и основным ограничителем скорости стал CPU). Производительность в двух режимах не слишком сильно отличается, игра явно ограничена производительностью процессора, прежде всего, но… производительностью единственного ядра.

Читайте также:  Необходимо войти в аккаунт Google что делать

Call of Juarez

Относительно новая игра, отличающаяся весьма технологичным игровым движком. В основном, производительность в Call of Juarez ограничена видеокартой, именно на неё ложится большая нагрузка, в игре много геометрии, пиксельной обработки и отличные shadow map тени. На процессоре «лежат» разве что физические расчеты, несложные и в небольших количествах. Процессор может ограничивать производительность только из-за большого количества вызовов отрисовки, ведь в используемом для тестов уровне количество объектов и соответствующих вызовов особенно велико.

Но видимой разницы опять не получилось. Мизерное преимущество двухъядерника можно объяснить разве что снижением нагрузки на процессор со стороны системных и фоновых процессов. В остальном, игра в очередной раз подтверждает то, что скорость рендеринга в ней почти полностью зависит от мощности видеокарты.

Company of Heroes

Наконец-то шутеры от первого лица закончились (временно). Возможно, в играх других жанров от двухъядерного процессора мы увидим большее преимущество? Хотя встроенный бенчмарк в Company of Heroes не отражает игровой производительности, так как показывает скриптовый ролик, мало похожий на саму игру, будет интересно посмотреть на разницу в производительности между двумя тестовыми процессорами.

Уже лучше, небольшой прирост от второго ядра явно присутствует, хотя и не такой большой, как хотелось бы и какой есть в Quake 4. 5-6% — это подозрительно близко к погрешности измерения, хотя и больше её. Поэтому можно сделать такой вывод: производительность игры Company of Heroes, точнее, её скриптовых роликов, незначительно ускоряется на двухпроцессорных системах за счет оптимизаций драйвера и, возможно, за счет более эффективного распределения нагрузки от фоновых и системных процессов.

Need for Speed: Carbon

NFS: Carbon — это первая игра в нашем тестировании с отсутствующими возможностями измерения производительности. У неё нет даже возможности записи и проигрывания проведенных гонок, поэтому приходится действовать описанными в статье по FRAPS методами, привносящими большую погрешность. Однако, игра весьма интересна с точки зрения темы статьи, так как она мультиплатформенна и современна, поэтому может получать преимущество на многопроцессорных системах.

Так и есть, в простом режиме 1280×1024 преимущество у двухъядерного процессора перед одноядерным получилось вполне приличным — 18%, что уже явно не спишешь на одни лишь оптимизации драйвера. Вероятно, приложение использует несколько потоков, которые эффективно распределяются системой между ядрами процессора. Конечно, в тяжелом режиме от значительного преимущества остались лишь следы, но почти 10% выигрыша в таких условиях также не позволяют усомниться в специальных оптимизациях под двухъядерники. Рассмотрим графики частоты кадров, чтобы понять, где и как получилось это преимущество:

Хорошо видно, что двухъядерный процессор всегда обеспечивал большую производительность, чем одноядерный. И минимальная частота кадров на двухъядернике была выше и просадки FPS не такие сильные, как у одноядерника. Весьма вероятно, что часть работы универсального процессора в игре выделена в отдельный поток, из-за этого и получается прирост производительности.

GTR 2

Еще одна игра в жанре автогонок, но весьма сильно отличающаяся от серии Need for Speed. GTR 2 — это уже полноценный автосимулятор, со сложными физическими расчётами и др. Игра не отличается сверхсовременной графикой, хотя сложность геометрии моделей автомобилей велика и при наличии в кадре сразу нескольких десятков машин, получается очень большая нагрузка и на видеокарту и на центральный процессор. Особенно на CPU, так как видеокарта в нашем случае использовалась максимально производительная.

В этот раз преимущество от двухъядерности не такое большое, но оно есть. Вероятно, игра сама по себе не оптимизирована под многопроцессорные системы, но видеодрайвер Nvidia и меньшая нагрузка от фоновых процессоров таки делают небольшое преимущество реальным. Вряд ли разница 5-7% может кого-то сподвигнуть на приобретение двухъядерного процессора вместо одноядерного прямо сейчас, но при условии скорого вытеснения одноядерников даже с таким преимуществом нужно считаться. Посмотрим на график FPS:

Отлично видно, как скачет частота кадров. При тестировании использовался FRAPS и просмотр заранее записанной гонки с большим количеством автомобилей в кадре. Поэтому, в моменты, когда в кадре мало гоночных болидов, частота кадров растёт, а когда видеокамера снимает общий план, и в него входят десяток и более автомобилей, тогда FPS падает до очень низкого значения. К сожалению, двухъядерник тут не спасает, прирост частоты кадров от него достигается за счет высоких значений, когда не так важно, 100 там FPS или 110.

Gothic 3

Один из самых неоднозначных релизов прошлого года с точки зрения отлаженности кода и его оптимизации. Игра очень требовательна к системе, ко всем её частям, и к процессору и к видеокарте. Так как тестовая видеокарта довольно мощна, можно предположить, что основным ограничителем производительности у нас будет как раз CPU. Gothic 3 — игра медлительная и новая, именно поэтому интересно узнать, получает ли она преимущество от второго процессора в системе или нет.

Да уж, частота кадров не радует совсем. Конечно, это максимальные настройки, ну так и тестовая система ведь достаточно мощная! Прирост от второго ядра есть, хотя и не такой большой — 13% в «легком» режиме и 7% — в «тяжелом». Производительность игры явно не упирается в видеокарту. Посмотрим на график, может быть он покажет что-то интересное:

И точно — весьма интересная ситуация. Посмотрите, двухъядерник хотя и немного проваливался почти в тех же местах, что и процессор с одним ядром, но эти провалы далеко не такие, как в последнем случае. И минимальная частота кадров сильно отличается, сравните 5 и 20 FPS. Вероятно, в игре используется отдельный поток для подгрузки данных по мере прохождения в игре. И, так как на одноядерном процессоре эти потоки выполняются совместно, один из них не получает нужного времени и игра тормозит. В случае с двухъядерным процессором проще — потоки выполняются параллельно на разных процессорах и не мешают друг другу.

Отдельно нужно отметить то, что в игре, к сожалению, нет ни встроенных средств по измерению производительности, ни средств для записи демок, поэтому погрешность проведенных тестов весьма велика, так что к полученным нами результатам в Gothic 3 нужно относиться с определенной долей скептицизма.

Armed Assault

В этой игре также нет средств по измерению производительности, погрешность проведенных тестов также могла быть весьма и весьма велика. Кроме того, Armed Assault легко может поспорить с предыдущей игрой по количеству разнообразных ошибок и нестабильности частоты кадров. Но с исследовательской точки зрения игра интересна и технологична. Она сильно нагружает как CPU, так и видеокарту, и частота кадров на максимальных настройках просто непристойно низка для столь мощной тестовой системы.

Явного упора в производительность видеокарты и процессора не видно, разница между разными режимами качества невелика, хотя и есть. Прироста от двухъядерности не заметно, разница укладывается в пределы погрешности. Рассмотрим график ежесекундной частоты кадров, может быть, хотя бы он покажет что-то любопытное:

Ровно ничего интересного, на наш взгляд, игра явно не использует возможности двухъядерной системы, хотя частота кадров на ней иногда и отличается в большую сторону. Это, скорее всего, связано с оптимизациями драйвера под мультипроцессорные системы, чем с самой игрой. А жаль. Такая неоптимизированная игра… хотя бы за счет ресурсов второго процессора попытались бы получить прирост скорости.

S.T.A.L.K.E.R.: Shadow of Chernobyl

Об этой новейшей игре, наверное, слышали вообще все. Именно её популярность и свежесть и стали теми причинами, которые побудили автора включить S.T.A.L.K.E.R.: Shadow of Chernobyl в статью. Тем более, что совсем недавно появилась возможность тестирования производительности при помощи кем-то заботливо написанной демки. К сожалению, разработчики игры в очередной раз посчитали, что игроки и тестеры недостойны возможностей записи и проигрывания демок и соответствующего тестирования производительности. Остаётся ждать патчей, в которых эти возможности обещают добавить, а пока пользоваться демкой, в которой большую часть времени показывается небо, а остальное время — обширная территория с высоты птичьего полета, что к геймплею игры почти не имеет отношения.

Итак, S.T.A.L.K.E.R. явно получает некоторое преимущество от второго ядра процессора, в том числе и в более тяжелом для видеокарты режиме. Частота кадров при разных настройках разрешения экрана не сильно отличается, такое впечатление, что производительность упёрта в скорость процессора или пропускную способность оперативной памяти. Но не в видеокарту. В крайнем случае — в её недоработанные драйверы. Полученное преимущество от второго ядра CPU достигло 8-9%, что не позволяет явно упомянуть оптимизации под многопроцессорные системы, скорее всего, в ускорении виноват драйвер видеокарты, который может использовать мощности второго ядра для своих целей.

График FPS показывает, что увеличение средней частоты кадров происходит в основном за счет пиков максимальных значений, минимальная частота кадров поднимается, но не слишком сильно. Поэтому, считаем, что вывод об отсутствии специальной многопроцессорной оптимизации в S.T.A.L.K.E.R. подтверждается.

Rainbow Six: Vegas

Ну и, наконец, последней игрой в материале будет Rainbow Six: Vegas — одна из первых игр на базе известного игрового движка Unreal Engine 3, который заочно славится поддержкой многопроцессорных конфигураций. Проверим, так ли это на самом деле. Игра интересна еще и тем, что она мультиплатформенна и довольно медлительна на многих не особенно мощных ПК, что вызывает много жалоб со стороны игроков. Проверим, спасут ли их двухъядерники:

Спасти может и не спасут, но что они игрой (точнее, движком) поддерживаются неплохо, это можно сказать со 100% уверенностью! Разница в производительности между однопроцессорной системой и двухпроцессорной хоть и не достигла той, что мы увидели в Quake 4, но всё же это вполне весомые 38% в сравнительно легком режиме, и 17% в более тяжелом (правда, не стоит забывать, что игры на движке UE3 не поддерживают антиалиасинг, поэтому режим для Geforce 8800 GTX получается не таким уж и тяжелым). Посмотрим, как наличие второго ядра CPU повлияло на среднесекундные показатели FPS в этой игре:

Самый интересный график, не правда ли? Такое впечатление, что второе ядро в Rainbow Six: Vegas всегда занято полезной для игры работой (потоком) и всегда увеличивает производительность. Вырос мгновенный FPS, минимальный FPS, средний FPS, вообще все значения. Налицо отличная оптимизация движка под мультипроцессорные системы. Вспомнив количество игр, анонсировавших применение движка Unreal Engine 3, теперь можно легко вывести главную причину крайней желательности двухъядерного процессора в игровых компьютерах, предназначенных для современных игр и игр самого ближайшего будущего.

Выводы

Надо сказать, что полученные в тестах результаты не всегда соответствовали нашим ожиданиям. Мы увидели как ускорение в тех приложениях, где его никак не ждали, так и отсутствие прироста производительности в играх, где его можно было предполагать. В первом случае явно «виновата» оптимизация видеодрайвера Nvidia ForceWare для работы с двухъядерными процессорами. Как нам кажется, неожиданные повышения производительности связаны именно с этим. По тестам видно, что двухъядерные процессоры могут увеличивать производительность современных игр по сравнению с одноядерниками, даже в тех случаях, когда приложения писались в расчете на одноядерные процессоры.

    На данный момент, увеличение производительности, привносимое вторым ядром CPU, в среднем относительно невелико — около 10-15%. В большом количестве игр прироста от второго ядра или совсем нет или он крайне невелик — 5-7% и меньше. Это небольшое увеличение производительности достигается при помощи оптимизаций видеодрайверов и более эффективного распределения нагрузки на CPU от фоновых и системных процессов. Лишь специально написанные многопоточные игровые приложения обеспечивают значительный рост производительности в случае установки двухъядерного процессора, вплоть до 40-50% в режимах, не ограниченных исключительно производительностью видеокарты.

Двухъядерный процессор Yonah:

Итак, мы наконец-то дождались выхода последнего представителя долгоиграющего семейства процессоров Pentium Pro — Pentium II — Pentium III — Pentium M, растянувшегося по времени более чем на десятилетие (с 1995 по 2006 гг.). Выходит он под странным и несолидным именем Intel Core Duo. Но это не меняет сути: перед нами по-прежнему Pentium M — правда, сильно модифицированный и исполненный в виде двухъядерного процессора с общим кэшем второго уровня.

Чтобы не выбиваться из общего ряда имён процессоров архитектуры P6 и при этом подчеркнуть заметные микроархитектурные отличия нового процессора от своего непосредственного предшественника Pentium M (Dothan), будем называть его в тексте настоящей статьи «Pentium M2». Также будем для удобства использовать сокращённые названия для всех процессоров цепочки: PPro, P-II, P-III, P-M, P-M2.

Но для начала договоримся о терминологии в связи с неоднозначностью понятий «двухъядерный» и «двухпроцессорный». С лёгкой руки компании Intel в популярной литературе устоялась следующая трактовка: всё, что размещено в одном корпусе (и вставляется в один разъём), называют процессором, а каждое из двух устройств, находящихся в этом корпусе (не обязательно на одном кристалле), не связанных микроархитектурно друг с другом и исполняющих независимые потоки инструкций, называют ядром. С другой стороны, каждое из этих ядер является полноценным процессором в самом строгом смысле слова. Компания IBM, например, использует только строгую терминологию: «two processors on one POWER4 chip» («два процессора на одном чипе POWER4»). Поэтому, чтобы избежать двусмысленностей и при этом не слишком отклоняться от нарождающейся терминологии, в необходимых случаях будем говорить «процессорное ядро», либо «CPU» для обозначения каждого такого «независимого процессора», и «процессорный чип», либо «разъём» (сокет) для обозначения собственно «двухъядерного процессора». В связи с этим систему, содержащую два процессорных разъёма, будет правильнее называть «двухсокетной», а не «двухпроцессорной» (вне зависимости от числа ядер на каждом процессорном чипе).

В предыдущей статье про двухъядерные процессоры новой архитектуры этот терминологический момент был обозначен не совсем чётко, и это вызвало некоторые нарекания.

Основные характеристики двухъядерного процессора Yonah показаны на приведенном выше рисунке (на всякий случай уточним: по-русски это слово правильно произносится как «йона», а не «йонах», как это делают многие). На первый взгляд, новый процессор не содержит ничего особенного. Ожидаемый размер кристалла при переходе на технологические нормы 65 нм, ожидаемый общий кэш второго уровня размером 2 МБ, ожидаемое улучшение технологий энергопотребления. Тактовая частота тоже вполне ожидаемая — 2.16 ГГц сейчас и 2.33 во втором квартале. Однако если копнуть глубже, то можно увидеть, что Yonah имеет на удивление много важных микроархитектурных отличий от своего предшественника, процессора P-M на ядре Dothan. Информация о них появилась ещё на весеннем и осеннем форумах IDF-2005, но на фоне новостей о новой процессорной архитектуре Merom/Conroe она не была замечена и оценена по достоинству. Самое интересное, что ничто не предвещало таких изменений в микроархитектуре процессора для мобильных применений. Похоже, что компания Intel выбрала путь осторожного эволюционного развития существующей архитектуры P6+ (P-M), чтобы обкатать различные новшества перед внедрением их в процессоры следующего поколения Merom/Conroe. Вполне возможно, что эти новшества не внесут существенного вклада в увеличение производительности, поскольку они не затрагивают многие «слабые места» архитектуры процессоров P-III/P-M. Однако они касаются как раз тех подсистем процессора, которые представлялись «критическими» для будущей высокопроизводительной архитектуры и относительно которых делались различные предположения.

В настоящей статье новый процессор будет рассматриваться в основном с микроархитектурной точки зрения — то есть, с точки зрения функционирования внутренних блоков процессора и эффективности исполнения программ пользователей. А такие его характеристики и новшества, как управление энергопотреблением (Power management) и технологии виртуализации (Virtualization Technology, VT), будут лишь кратко упомянуты. Что изменилось?
Основные отличия нового процессора

Основные микроархитектурные изменения в новом процессоре объединены под названием «Digital Media Boost» (что-то вроде «Мультимедийного разгона»).

  • реализация слияния микроопераций (micro-ops fusion) для инструкций SSE всех типов (SSE/SSE2/SSE3);
  • обработка инструкций SSE во всех трёх каналах декодера;
  • добавление набора инструкций SSE3;
  • ускорение исполнения некоторых инструкций SSE2, а также целочисленного деления;
  • улучшение механизма предвыборки из памяти.

Наиболее радикальные изменения коснулись декодера инструкций в части обработки инструкций SSE. Как отмечалось в предыдущей статье, в процессоре P-M появился механизм слияния микроопераций (micro-ops fusion) при декодировании x86-инструкций, суть которого заключается в том, что в ряде случаев вместо двух микроопераций (МОПов) порождается одна (называемая иногда «макрооперацией»), содержащая два элементарных действия. В основном это относится к инструкциям загрузки из памяти с последующим исполнением (Load-Op), когда одна макрооперация замещает МОПы чтения из памяти и выполнения операции. Такая макрооперация расщепляется на два отдельных действия на более поздней стадии прохождения, непосредственно перед запуском на исполнение. Данный механизм похож на аналогичный в процессорах AMD K7/K8, где любой МОП может содержать в себе загрузку из памяти, либо выгрузку в память.

Читайте также:  Восстановление контактов на андроид без резервной копии

Однако в процессоре P-M механизм слияния микроопераций не был реализован для инструкций SSE с загрузкой и исполнением (Load-Op). Такие инструкции по-прежнему расщеплялись на отдельные МОПы загрузки и исполнения. Помимо увеличения числа МОПов, это приводило к снижению пропускной способности декодера, поскольку такие инструкции могли обрабатываться только в первом, «сложном» канале декодера (остальные два «простых» канала способны порождать лишь по одной микрооперации). Кроме того, и обычные инструкции SSE, не содержащие в себе загрузку из памяти, могли обрабатываться только в первом канале декодера (начиная с процессора P-III). Причём это ограничение относилось не только к упакованным инструкциям SSE, для которых порождается два МОПа 64-битовых операций, но и к скалярным операциям SSE тоже. Вероятно, данное ограничение было связано с трудностями радикальной переделки декодера для поддержки операций SSE в процессоре P-III (кстати, одним из руководителей работы по созданию расширений SSE был наш соотечественник В. Пентковский).

В процессоре P-M2 (Yonah) декодер инструкций был полностью переделан — и теперь он поддерживает слияние микроопераций для инструкций «Load-Op» всех типов (включая SSE), а также обработку инструкций SSE (как скалярных, так и упакованных) во всех трёх каналах декодера. Таким образом, предельная пропускная способность декодера увеличилась в три раза — с одной инструкции SSE за такт до трёх таких инструкций.

На этом рисунке показан пример обработки самого сложного варианта инструкции SSE — упакованной (128-битной) инструкции с загрузкой из памяти и исполнением (Load-Op). В процессоре P-M (Dothan) такая инструкция расщеплялась на 4 МОПа. Согласно рисунку, в процессоре P-M2 (Yonah) образуется лишь один, «склеенный» МОП, содержащий 128-битную загрузку регистра XMM из памяти и 128-битную упакованную операцию. На основании рисунка трудно судить, действительно ли на выходе из декодера будет получена только одна комбинированная «128-битная» макрооперация, которая будет расщеплена на 4 отдельных действия на более поздней стадии, или всё же породятся две «64-битные» макрооперации (каждая с последующим расщеплением на 2 действия). Но в любом случае можно считать, что декодер нового процессора работает по схеме «4-2-2», так как каждый канал декодера теперь может обрабатывать упакованные 128-битные инструкции SSE, которые в функциональных устройствах рассматриваются как две 64-битные. Это усовершенствование роднит P-M2 (Yonah) с процессором AMD K8.

Помимо изменений в декодере, в новом процессоре появился набор инструкций SSE3. Также были ускорены некоторые инструкции распаковки и упаковки из набора SSE2. К сожалению, из доступных документов ничего не известно о темпе выполнения операций 64-битного умножения с плавающей точкой SSE2 (скалярной «mulsd» и упакованной «mulpd»). В процессоре P-M такие операции выполняются в половинном темпе, выдавая один результат в 2 такта для скалярных операций, и один результат в 4 такта — для упакованных. Это вдвое ниже темпа выполнения операций 64-битного сложения SSE2, а также операций 32-битного умножения и сложения SSE. Выполнение 64-битного умножения в полном темпе является совершенно необходимым для процессора, претендующего на конкурентоспособность в приложениях, использующих плавающую арифметику.

Судя по тому, что в рекламных материалах компании нет упоминания о таком усовершенствовании, можно считать, что эти операции выполняются по-прежнему медленно. С учётом этого предположения ситуация с производительностью нового процессора в плавающей арифметике напоминает ситуацию с процессором P-III на момент его появления: скорость 64-битной арифметики осталась невысокой из-за половинного темпа умножения (для P-III — в режиме x87, для P-M и P-M2 — x87 и SSE2), а весь упор сделан на повышение эффективности 32-битной арифметики (для P-III — через SSE, для P-M2 — также и через улучшение декодера, который перестал быть узким местом). Правда, следует отметить, что процессор P-III был многоцелевым, ориентированным на все сферы применения, а P-M2 (Yonah) — это процессор для мобильных применений.

На этом рисунке показан пример улучшения операции целочисленного деления для случаев, когда число значащих цифр в делимом и делителе ограничено 16, либо 24 двоичными разрядами. Особенно интересен самый распространённый случай деления 24-разрядного числа на 16-разрядное — время выполнения такой операции становится вполне приемлемым и составляет всего 4 такта.

Перейдём теперь от микроархитектурных изменений к функциональным, связанным с наличием двух процессорных ядер на одном кристалле. Главным элементом нового процессора, отличающим его как от одноядерного процессора P-M, так и от других двухъядерных процессоров архитектуры x86 (Intel Pentium D/XE и AMD Athlon 64 X2/FX-60), является общий кэш второго уровня.

Реализация общего L2-кэша обеспечивает более высокий уровень интеграции процессорных ядер. Если в системах с раздельными кэшами обмен данными между ядрами осуществляется через коммуникационный интерфейс (шину, либо коммутатор), объединяющий эти ядра за пределами L2-кэшей, то в системе с общим кэшем такие данные доступны обоим процессорным ядрам непосредственно из него. Такая организация позволяет значительно уменьшить время доступа к «чужим» данным, а также снизить трафик шины (коммутатора).

Однако этим преимущества общего кэша не исчерпываются. Процесс, исполняемый в одном CPU, может требовать больше места в L2-кэше для размещения своих данных, чем процесс в другом CPU, и общий кэш с адаптивной организацией позволяет обеспечить большую гибкость в их оптимальном размещении.

  1. Исполняются два процесса с одинаковой локальностью — в этом случае каждому процессу достанется по половине кэша.
  2. Исполняется только один процесс — L2-кэш будет доступен этому процессу целиком.
  3. Исполняются два процесса с общими (пересекающимися) данными — в этом случае экономится место в кэше, так как исключается дублирование данных.
  4. Исполняются два процесса с различающейся локальностью — процессу с большими потребностями (худшей локальностью) достанется больше места в кэше.

Таким образом, в первом случае эффективность использования общего и раздельных кэшей не различается, а в остальных — общий кэш используется более эффективно. Лишь в ситуации, когда локальность одного процесса намного хуже, чем другого, первый процесс может вытеснить данные второго процесса из кэша практически полностью и тем самым существенно замедлить его выполнение. Подобные ситуации могут встречаться и в других системах с разделяемыми ресурсами. Например, в любом двухъядерном процессоре один из процессов может требовать намного больше обращений к оперативной памяти, чем другой, и также замедлять его исполнение. В целом, ситуации с сильно несимметричными процессами требуют дополнительного анализа с учётом различных критериев «справедливого» выделения ресурсов.

Согласно первым результатам измерений процессора Yonah, время доступа к общему L2-кэшу увеличилось до 14 тактов — в сравнении с 10 тактами в одноядерном процессоре Dothan. Эти дополнительные такты являются платой за реализацию общего кэша, обеспечение доступа к нему из двух процессорных ядер и затрат на арбитраж. Увеличение времени доступа способно, разумеется, снизить производительность процессора в некоторых применениях (при прочих равных условиях). Однако опыт эксплуатации и измерений различных процессоров показывает, что влияние времени доступа к L2-кэшу обычно не очень велико. Например, в процессорах AMD K7 и K8 при большой нагрузке на L2-кэш эффективное время доступа достигает 20 и 16 тактов, соответственно. Такое увеличение времени доступа связано с эксклюзивной организацией кэша — но оно не сильно влияет на производительность.

Полученные результаты измерений процессора Yonah потребуют подтверждения на других методиках. Также будет необходимо определить пропускную способность L2-кэша. Обеспечение общего доступа для двух процессорных ядер в идеале требует удвоения пропускной способности. Однако темп доступа к кэшу в 32 байта за такт, заявленный для одноядерных процессоров P-III и P-M, представляется несколько избыточным и обычно не подтверждается прямыми измерениями. Возможно, предельная пропускная способность кэша нового процессора не изменилась и по-прежнему составляет 32 байта за такт, а требуемые характеристики одновременного доступа двух CPU обеспечиваются более рациональной организацией и конвейеризацией обращений к кэшу.

Таким образом, благодаря общему L2-кэшу, Yonah является первым высокоинтегрированным двухъядерным процессором архитектуры x86. В связи с начинающимся внедрением двухъядерных процессоров на массовый рынок требования к таким процессорам, а также к методам распараллеливания прикладных задач, должны повышаться. Появление процессоров с общим кэшем второго уровня должно привести к появлению новых методов программирования, обеспечивающих более высокую интеграцию выполняемых процессов и общее повышение скорости их исполнения.Что не изменилось?
Оставшиеся в наследство слабые места

К сожалению, в последнее время компания Intel не публикует подробных данных о микроархитектуре своих новых процессоров. Поэтому их характеристики приходится определять из кратких рекламных материалов и анонсов (где перечисляются лишь основные отличия от предыдущих моделей), а также средствами экспериментального исследования. Для мобильных процессоров проведение тестовых замеров также затрудняется тем обстоятельством, что такие процессоры не используются для построения серверов и не могут быть протестированы дистанционно — и в то же время они недостаточно распространены, чтобы исследователь мог найти процессор самостоятельно.

Дополнительной причиной «сокрытия» информации о процессорах Pentium M компанией Intel является, по-видимому, желание представить эти процессоры как самостоятельное поколение, отличающееся от старого семейства P6 (PPro, P-II, P-III) — поскольку признание принадлежности процессоров P-M к семейству P6 могло бы выглядеть как шаг назад в сравнении с основной десктопной архитектурой NetBurst (Pentium 4).

Действительно, процессор P-M сохраняет многие черты семейства P6, в том числе его слабые места. В новом процессоре P-M2 (Yonah) устранены очень важные ограничения архитектуры, связанные с декодером (они описываются в предыдущем разделе). Однако другие ограничения, унаследованные из процессоров P-III/P-M, остаются — и в первых результатах замеров это косвенно подтверждается тем фактом, что по производительности в однопоточных приложениях Yonah мало отличается от предшественника (Dothan), в одних случаях немного превосходя его, а в некоторых других — слегка уступая.

Главным недостатком процессоров P-M и P-M2 следует считать слабость блока плавающей арифметики. Этот блок является 80-битным при выполнении операций x87, и 64-битным — для операций SSE. Последнее означает, что 128-битные упакованные операции SSE (4 по 32 бита) и SSE2 (2 по 64 бита) расщепляются на две 64-битные и исполняются последовательно, с вдвое меньшим темпом.

Если бы все 64-битные операции могли выполняться в полном темпе, скорость работы FPU можно было бы считать приемлемой для процессоров такого класса. К сожалению, это требование не соблюдается для устройства умножения. Оно способно работать в полном темпе (выдавая один результат за такт) только в 32-битном скалярном режиме SSE. Также в оптимальном для этой архитектуры темпе устройство умножения работает в упакованном режиме SSE (выдавая четыре 32-битных результата каждые 2 такта). В режиме x87 и в 64-битном скалярном режиме SSE2 умножение выполняется в половинном темпе, а в упакованном режиме SSE2 — соответственно, ещё вдвое медленнее.

Таким образом, несмотря на способность декодера процессора P-M2 порождать достаточное количество микроопераций SSE2 в каждом такте, и, несмотря на возможность запуска МОПов на исполнение в раздельные устройства умножения и сложения через два независимых порта, предельная скорость выполнения 64-битных операций с плавающей точкой снижается вдвое, с двух операций за такт до одной (при равном количестве операций умножения и сложения).

Другой недостаток микроархитектуры процессоров P-III и P-M проявляется в невозможности достижения 100-процентной скорости выполнения даже при оптимальном потактовом планировании машинных инструкций программистом или транслятором. Это связано, вероятно, со схемой организации очереди (буфера) микроопераций, из которой МОПы выбираются для исполнения в функциональных устройствах внеочередным образом, по мере готовности операндов (такой буфер обычно называют «Reservation station»). В других современных процессорах (Intel Pentium 4, AMD K8, IBM PPC970) имеется несколько таких очередей (буферов), по одной очереди на группу близких функциональных устройств. Благодаря этому в каждом такте происходит поиск и выборка для исполнения только одного МОПа из каждой очереди (буфера). В процессоре P-III имеется единый буфер на 20 элементов, и в каждом такте из него извлекается до пяти МОПов. По-видимому, это действие является слишком сложным и не всегда выполняется оптимально, в необходимом темпе. Результаты замеров процессоров P-M (Banias, Dothan) показывают, что у них в этой части изменений не произошло. Предполагается, что организация этого буфера в процессоре P-M2 (Yonah) также не изменилась.

Можно отметить также ряд количественных ограничений, связанных с внеочередным исполнением операций (Out-of-Order execution) — в частности, относительно малую длину упомянутой выше очереди (буфера), равную 20, и небольшой размер «окна» для выполняемых операций («Reorder Buffer»), равный 40. Правда, есть предположения, что в процессоре P-M оба этих буфера несколько увеличены в сравнении с P-III, однако ни документация, ни общедоступные рекламные материалы, на это явно не указывают.

И, наконец, очень важным архитектурным недостатком процессора Yonah (как и его предшественников) является отсутствие поддержки 64-битного режима EM64T (x86-64). Введение такого режима потребовало бы значительной переделки функциональных устройств целочисленной и адресной арифметики, а также увеличения разрядности регистров и ширины внутрипроцессорных шин. Разумеется, в рамках эволюционного развития семейства P6+ такая переделка не могла быть проведена. Поэтому Yonah может в этой части рассматриваться лишь как временный, переходный по отношению к новому семейству универсальных процессоров Merom/Conroe/Woodcrest, в котором, помимо режима EM64T, будет внедрён целый комплекс мер по повышению производительности.Итоги эволюции семейства P6

Итак, рассмотрим напоследок эволюцию процессоров семейства P6 и подведём её итоги. Для этого выделим пять основных представителей семейства, демонстрирующих развитие процессорной микроархитектуры: PPro, P-II, P-III, P-M, P-M2.

Pentium Pro

Первый суперскалярный процессор архитектуры x86 с внеочередным исполнением операций (Out-of-Order execution). Имеет незначительные архитектурные расширения в сравнении с процессором предыдущего поколения Pentium: добавлены инструкции условной пересылки и новые инструкции сравнения. Исполнен в виде сборки с раздельными кристаллами процессора и L2-кэша. Использовался в основном для серверных применений, выпускался с кэшами различного размера вплоть до 1 МБ.

Pentium II

Добавлен набор инструкций MMX. Увеличены кэши первого уровня, улучшено исполнение 16-разрядных кодов. Исполнен в виде дочерней платы с отдельным кристаллом L2-кэша, работающего на половинной частоте. Выпускался также в следующих вариантах: OverDrive, совместимый с разъёмом процессора Pentium Pro; Celeron без L2-кэша; Celeron и Dixon с интегрированным L2-кэшем уменьшенного размера; Xeon с полночастотным внешним кэшем увеличенного размера.

Pentium III

Добавлен набор инструкций SSE и инструкции предвыборки из памяти. Первоначально исполнен в виде дочерней платы с отдельным кэшем, в последующих вариантах имеет встроенный полночастотный L2-кэш с 256-разрядной шиной. Выпускался также в следующих вариантах: Celeron с L2-кэшем уменьшенного размера; Xeon с полночастотным внешним кэшем увеличенного размера.

Pentium M

Добавлен набор инструкций SSE2. Реализован механизм слияния микроопераций (micro-ops fusion), увеличены кэши первого уровня, ускорена работа с аппаратным стеком, существенно улучшен механизм предсказания переходов. В связи с ориентацией на мобильные применения внедрены радикальные технологии энергосбережения. Введена новая процессорная шина, заимствованная у процессора Pentium 4. Произведён ряд микроархитектурных усовершенствований, операции плавающего умножения и сложения разнесены на два отдельных порта запуска. Во второй модели процессора P-M (Dothan) устранены задержки из-за «частичной записи в регистр» («Partial register stall»), удвоен темп выполнения инструкции сложения MMX.

Pentium M2 (Core Duo)

Добавлен набор инструкций SSE3. Существенно улучшен декодер с поддержкой механизма слияния микроопераций для инструкций SSE и обработкой упакованных инструкций SSE во всех каналах декодера. Ускорено выполнение некоторых инструкций, усовершенствован механизм предвыборки из памяти. Содержит на кристалле два процессорных ядра и общий L2-кэш. Поддерживает технологию виртуализации VT и усовершенствованные технологии энергосбережения.

Развитие микропроцессоров семейства P6 сопровождалось совершенствованием электронных технологий и уменьшением технологических норм с одновременным увеличением размера L2-кэша. За счёт усовершенствования микроархитектуры, устранения узких мест, увеличения кэшей и повышения тактовой частоты производительность процессоров семейства выросла и по некоторым показателям приблизилась к производительности конкурирующих продуктов (AMD Athlon 64 и Intel Pentium 4).

Вывод

Учитывая определенное количество факторов, а именно оптимизацию, разность архитектур, использование различных технологий и некоторых других — многоядерность сегодня не только дань моде, но и один из способов балансировки между огромным количеством насущных проблем.

И в первую очередь, это нужно не столько для наращивания производительности (ведь это вопрос оптимизации), сколько для решения проблем энергоэффективности и перегрева. Но это ли основной выход? Ведь остается ещё масса обходных путей. Например, то же уменьшение техпроцесса. Но и здесь не всё так просто. Ведь манипуляции с минимизацией приводят к большому количеству отбракованных процессоров. Более того, даже небольшие земные колебания, незаметные для простого человека, могут привести количество непригодных процессоров до 70-80%.

Остается система жидкостного охлаждения, но её эффективность в существующем виде, к сожалению, всё ещё под вопросом. Впрочем, производители вряд ли остановятся на этом, ну а на главный вопрос, нужна ли многоядерность? Ответ — да!

Ссылка на основную публикацию