Архитектура процессора Intel Pentium 4

Автор работы: Пользователь скрыл имя, 28 Февраля 2011 в 21:42, курсовая работа

Описание работы

Процессор Pentium фирмы INTEL объединяет преимущества, традиционно присущие миникомпьютерам и рабочим станциям, с гибкостью и совместимостью, которыми характеризуются платформы персональных компьютеров.

Содержание работы

Введение 3
1. Аналитический обзор аналогов 4
2 Архитектура Pentium процессора 7
3 Тестирование 17
Заключение 23
Список использованных источников 24

Файлы: 1 файл

Курсова готова.doc

— 1.00 Мб (Скачать файл)

     Второе  преимущество Trace Cache заключается в  том, что микрооперации в нем  сохраняются именно в том порядке, в каком они выполняются. Правда, правильный порядок определяется опять  же на основании предсказания переходов, однако вероятность того, что переходы предсказываются неправильно, достаточно мала для того, чтобы отказаться от очевидного выигрыша, получаемого путем отказа от повторных декодирований и предсказаний переходов.

     Intel не раскрывает размеров своего Trace Cache в килобайтах, однако, известно что в нем может быть сохранено до 12000 микроопераций.

     Наиболее  простая часть современного процессора – это ALU (арифметико-логическое устройство). Благодаря этому факту, Intel счел возможным увеличить его тактовую частоту внутри Pentium 4 вдвое по отношению к самому процессору. Таким образом, например, в 1.4 ГГц Pentium 4 ALU работает на частоте 2.8 ГГц.

     В ALU исполняются простые целочисленные  инструкции, поэтому, производительность нового процессора при операциях с целыми числами должна быть очень высокой. Однако, на производительности Pentium 4 при операциях с вещественными числами, MMX или SSE двукратное ускорение ALU никак не сказывается. Таким образом, латентность ALU существенно снижается. В частности, на выполнение одной инструкции типа add Pentium 4 1.4 ГГц тратит всего 0.35нс, в то время как выполнение этой команды у Pentium III 1 ГГц занимает 1 нс.

     Реализовав  в своем процессоре Athlon новый  конвейерный FPU, AMD очень сильно обогнала интеловский Pentium III в производительности при операциях с вещественными  числами. Однако, Intel в своем Pentium 4 не стал сосредотачиваться на совершенствовании своего FPU, а просто увеличил возможности блока SSE. В результате, в Pentium 4 имеет место расширенный набор команд SSE2, в котором к имеющемуся набору из 70 инструкций было добавлено еще 144. Такое решение – результат NetBurst идеологии, основной целью которой является увеличение скорости работы с потоками данных.

     Инструкции SSE позволяли оперировать с восемью 128-битными регистрами XMM0..XMM7, в которых  хранились по четыре вещественных числа  одинарной точности. При этом все SSE операции проводились одновременно над четверками чисел, в результате чего специально оптимизированные программы, в которых производилось большое количество однотипных вычислений (а к ним, помимо обработки потоков данных в какой-то мере относятся и 3D-игры), получали существенный прирост в производительности.

     SSE2 же оперирует с теми же самыми  регистрами и обратно совместим  с SSE процессора Pentium III. А столь  впечатляющее расширение набора  команд вызвано тем, что теперь  операции со 128-битными регистрами  могут выполняться не только как с четверками вещественных чисел двойной точности, но и как с парами вещественных чисел двойной точности, с шестнадцатью однобайтовыми целыми, с восемью короткими двухбайтовыми целыми, с четырьмя четырехбайтовыми целыми, с двумя восьмибайтовыми целыми или с 16 байтовыми целыми. То есть, теперь SSE2 представляя собой симбиоз MMX и SSE и позволяет работать с любыми типами данных, влезающими в 128-битные регистры.

     Таким образом, SSE2 гораздо более гибок, позволяя добиваться впечатляющего  прироста в производительности. Однако, использование нового набора команд требует специальной оптимизации  программ, поэтому ждать его внедрения  сразу после выхода нового процессора не стоит. Со временем же, SSE2 имеет достаточно большие перспективы. Поэтому, даже AMD собирается реализовать SSE2 в своем новом семействе процессоров Hammer. Старые же программы, не использующие SSE2, а полагающиеся на обычный арифметический сопроцессор, никакого прироста в производительности при использовании Pentium 4 не получат. Более того, несмотря на то, что что Intel говорит о том, что блок FPU в Pentium 4 был слегка усовершенствован, время, необходимое на выполнение обычных операций с вещественными числами возросло по сравнению с Pentium III в среднем на 2 такта.

     Что касается кеша первого уровня в Pentium 4, то поскольку теперь команды хранятся в Trace Cache, он предназначен только для  хранения данных. Однако, его размер в Pentium 4, основанном на ядре Willamette составляет всего 8 Кбайт. Это выглядит достаточно небольшой цифрой даже на фоне 16-килобайтной области данных в L1 кэше Pentium III. Однако, Intel был вынужден сократить объем кеша первого уровня в Pentium 4, так как ядро этого процессора и без того получалось слишком большим. Тем не менее, архитектура этого процессора может поддерживать L1-кеш и большего размера, поэтому, скорее всего, при переходе на технологический процесс 0.13 мкм и новое ядро Northwood, этот кэш будет увеличен.

     Однако, для увеличения производительности, Intel применил для доступа к L1-кешу новый алгоритм, чем уменьшил в Pentium 4 латентность этого кеша до двух процессорных тактов вместо трех тактов в Pentium III. Таким образом, учитывая большую тактовую частоту Pentium 4, время реакции его L1 кеша составляет всего 1.4нс для 1.4 ГГц модели против 3нс у L1 кеша Pentium III 1 ГГц. Также как и в Pentium III, L1 кэш Pentium 4 является write through и ассоциативным с 4 областями ассоциативности. При этом длина одной строки L1 кеша равна 64 байтам.

     Процессор Pentium 4 обладает Advanced Transfer Cache второго уровня объемом 256 Кбайт. Также, как и в Pentium III, L2-кеш имеет широкую 256-битную шину, благодаря которой процессоры от Intel имеют более высокую пропускную способность кеша, чем их конкуренты от AMD, использующие 64-битную шину кеша. Однако, в отличие от Athlon, в Pentium 4 (впрочем, также как и в Pentium III) L2 кэш не является эксклюзивным, то есть он дублирует данные, находящиеся в L1 кэше.

     Так как Pentium 4 рассчитан на обработку  потоковых данных, скорость работы L2-кеша для него является одним из ключевых моментов. Поэтому, Intel увеличил пропускную способность кеша второго уровня в Pentium 4 в два раза. Это усовершенствование было сделано благодаря передаче данных из L2-кеша на каждый процессорный такт, в то время, как данные из L2-кеша Pentium III передаются только на каждый второй такт. Таким образом, пропускная способность L2-кеша Pentium 4, работающего, например, с частотой 1.4 ГГц имеет теперь внушительную величину 44.8 Гбайт/с. Для сравнения – пропускная способность Advanced Transfer Cache у Pentium III 1 ГГц составляет 16 Гбайт/с. Также как и в Pentium III, L2 кэш имеет восемь областей ассоциативности и строки длиной 128 байт. Однако, в отличие от Pentium III, каждая строка может быть изъята не целиком, а по 64-байтовым половинкам.

     Говоря  о системе кэширования в Pentium 4, нельзя обойти стороной и тот факт, что архитектура NetBurst поддерживает и кэш третьего уровня размером до 4 Мбайт. Однако, в Pentium 4 пока эта возможность  не используется. Она зарезервирована для будущего применения в серверных процессорах.

     Итак, после краткого знакомства с основными  деталями NetBurst архитектуры Pentium 4 взглянем на его формальную спецификацию:

     - чип, производимый по технологии 0.18 мкм с использованием алюминиевых соединений. Переход на медные соединения Intel планирует произвести одновременно с внедрением технологии 0.13 мкм.

     - ядро Willamette, основанное на архитектуре NetBurst. Содержит 42 млн. транзисторов и имеет площадь 217 кв.мм. Это более чем в два раза больше, чем площадь ядра Athlon или Pentium III;

     - работает в специальных материнских платах с 423-контактным процессорным разъемом Socket 423;

     - использует высокопроизводительную 400 МГц Quad Pumped системную шину;

     - кеш данных первого уровня 8 Кбайт. Trace Cache для декодированных инструкций рассчитан на 12000 микроопераций;

     - интегрированный Advanced Transfer Cache второго уровня размером 256 Кбайт. Работает на полной частоте ядра и имеет 256-битную шину;

     - напряжение питания - 1.7В;

     - набор SIMD-инструкций SSE2;

     - выпускаются версии с частотами 1.4 и 1.5 ГГц. Позднее ожидается версия с частотой 1.3 ГГц.

     Поскольку Pentium 4 имеет совершенно новую архитектуру, то ему потребовался и новый чипсет. Так как Intel нацеливает свой новый  процессор на приложения, работающий с потоками данных, то основной задачей такого чипсета должно являться обеспечение высоких пропускных способностей основных шин: шины памяти и системной шины, соединяющей процессор с северным мостом чипсета.

     Pentium 4 использует совершенно новую  Quad Pumped процессорную шину, работающую с частотой 400 МГц. Пропускная способность такой шины в три раза больше, чем пропускная способность шины процессора Pentium III, и составляет 3.2 Гбайт/с. Благодаря такой высокой пропускной способности, минимизируются простои быстрого процессора Pentium 4 в ожидании следующей порции данных. Физически, реализуется новая системная шина путем умножения в контроллерах процессорной шины чипсета и процессора тактовой частоты, которая для Pentium 4 составляет 100 МГц, на 4. То есть, на частоте 400 МГц работает только участок между процессором и чипсетом.

     Наряду  с такой высокопроизводительной шиной, чтобы система была сбалансирована, подсистема памяти для Pentium 4 должна обеспечивать не меньшую, чем 3.2 Гбайт/с, пропускную способность. Поэтому, при создании набора системной логики для нового процессора Intel принял решение адаптировать чипсет i840, который поддерживает два канала Direct RDRAM. Как известно, пропускная способность PC800 RDRAM составляет 1.6 Гбайт/с, то есть, при использовании двух каналов Rambus, пропускная способность памяти оказывается как раз на уровне 3.2 Гбайт/с.

     В качестве южного моста в этом наборе логики используется уже знакомая нам по чипсету i815E микросхема ICH2, а в качестве северного моста – новый MCH Intel 82850, в числе ключевых особенностей которого следует отметить поддержку двух каналов Rambus, каждый из которых может функционировать с парой модулей RIMM, поддержку 400-мегагерцовой системной шины и AGP 4x.

     Ввиду дороговизны самого чипсета i850, а  также ввиду того, что платы  под Pentium 4 должны иметь шестислойную PCB, производить их достаточно сложно и дорого. Поэтому, только ограниченное число производителей системных плат высказало желание ввязаться в производство плат под Socket 423. В ближайшее время платы под Pentium 4 будут выпускаться только восемью производителями. Спецификации некоторых таких плат уже известны:

Плата Чипсет Форм-фактор RIMM AGP PCI CNR Примечания
Aopen AX4T i850 ATX 4 AGP Pro 5 1  
ASUS P4T i850 ATX 4 AGP Pro 5 0 Возможности для  разгона CPU
Gigabyte GA-8TX i850 ATX 4 AGP Pro 5 1 Интегрированный Creative CT5880
Intel D850GB i850 ATX 4 AGP Pro 5 1  
MSI MS-6339 i850 ATX 4 1 5 1  
 

     Как можно видеть из таблицы, все платы  под Pentium 4 похожи друг на друга: все  имеют по четыре слота для RIMM и  по пять слотов PCI. Большинство плат оборудовалось слотом AGP Pro, позволяющим использовать профессиональные графические карты с повышенным энергопотреблением.

 

3. Тестирование  

      Для тестирования было собрано три системы  со следующими конфигурациями:

  Pentium 4 Pentium III Athlon
Процессор Intel Pentium 4 1.4 Гц Intel Pentium III 1ГГц AMD Athlon 1.2 ГГц
Системная плата Intel D850GB (i850) ASUS CUSL2 (i815) ABIT KT7 (VIA T133)
Память 256 Мбайт PC800 RDRAM 256 Мбайт  PC133 SDRAM
Видеокарта ASUS V7700 32MB (NVIDIA GeForce2 GTS)
Жесткий диск IBM DTLA 307015

     Производительность Pentium 4 сравнивалась с самыми быстрыми на сегодня процессорами других семейств: Intel Pentium III 1 ГГц и AMD Athlon 1.2 ГГц.

     Тестирование  проводилось под управлением  операционной системы Microsoft Windows2000 SP1 с  установленным DirectX 8.

     Поскольку процессор Pentium 4 имеет совершенно новую  архитектуру, анализ производительности этого процессора будет состоять из двух частей. В первой для измерения быстродействия мы воспользуемся синтетическими тестами, а во второй протестируем процессоры, принимающие участие в тестировании, реальными приложениями.

     CPUmark 99

     Этот  тест показывает производительность целочисленной  части процессора и скорость работы с данными. Казалось бы, поскольку ALU Pentium 4 работает на удвоенной частоте процессора, то по результатам этого теста впереди должен быть Pentium 4. Однако этого не происходит. Разгадка медлительности Pentium 4 в данном тесте кроется в недостаточно большом L1 кэше, в который не помещаются все необходимые для его работы данные. Athlon же, с областью данных в L1-кеше размером 64 Кбайта, а это в 8 раз больше, чем кеш данных Pentium 4, значительно превосходит всех своих соперников.

Информация о работе Архитектура процессора Intel Pentium 4