Процессоры AMD:Архитектура и эволюция

Автор работы: Пользователь скрыл имя, 04 Октября 2009 в 08:50, Не определен

Описание работы

описание работы процессоров AMD

Файлы: 1 файл

AMD.doc

— 239.00 Кб (Скачать файл)

   Что касается 3DNow!, то тут по сравнению K6-2 все осталось совсем без изменений. Однако, надо констатировать, что приложений использующих эту технологию на рынке  не много, а поддержка 3DNow! в драйверах  видеокарт и DirectX не дает практически ничего. Также как и в случае с SSE, для получения значимого прироста в быстродействии, необходимо использование SIMD-инструкций при расчете геометрии 3D-сцены, так как функции, оптимизированные в DirectX работают недостаточно быстро и не используются разработчиками.

   AMD K7

    К7 - первый из семейства микропроцессоров х86 7-го поколения, в котором присутствуют конструктивные решения, до сих пор  не применявшиеся в процессорах  архитектуры х86 и сулящие выигрыш  в быстродействии даже при одинаковых тактовых частотах. Наиболее впечатляющим из них является, конечно, 200-мегагерцовая системная шина, однако есть и другие, менее заметные на первый взгляд новшества, ставящие К7 выше процессоров 6-го поколения.

Новая архитектура узла вычислений с плавающей точкой (fpu). К7 содержит 3 узла вычислений с плавающей точкой (fpu), любой из которых способен принимать на вход инструкции каждый такт работы процессора. При этом один узел предназначен исключительно для выполнения команды FSTORE! Назначение этого узла - обеспечивать обмен между регистрами и памятью в то время, как процессор выполняет другие инструкции. Такой подход, хотя и не повышает пиковую производительность, позволяет достичь более высокой средней производительности, что во многих случаях важнее. Остальные два fpu состоят из блока сложения (adder) и блока умножения (multiplier). Оба блока используют конвейеры (fully pipelined). Архитектура каждого fpu такова, что он может принимать на вход каждый такт одну инструкцию сложения и одну умножения, что дает пиковую производительность 1000MFLOPS при 500МГц. Ближайшим аналогом с точки зрения архитектуры является Pentium II, у которого также присутствуют adder и multiplier. Однако существуют два основных отличия. Во-первых, у PII только adder является полностью конвейеризованным (fully pipelined), multiplier же может принимать инструкцию на вход только каждый второй такт. Во-вторых, каждый узел fpu PII может принимать только одну инструкцию за такт, таким образом, пиковая производительность составляет 500MFLOPS при 500МГц. Вышесказанное ни в коем случае не является нападками на достойную архитектуру семейства Р6, которое до сих пор остается единственным семейством процессоров с конвейерным fpu. Да, чуть не забыл... Rise mP6, возможно, будет иметь архитектуру fpu, похожую на ту, что используется в К7 (как во всем, что связано с компанией Rise, здесь полно тумана, но компания уверенно заявляет, что fpu их процессора способен выполнять 2 инструкции х87 за такт), однако максимальная тактовая частота в 200МГц не позволяет этому процессору претендовать на место не только в "высшем обществе", но даже и в "среднем классе", поэтому сравнивать mP6 с К7 некорректно.

Огромный кэш L1. В К7 кэш L1 увеличился еще в 2 раза - до 128К. Это еще не гарантирует эффективного роста производительности процессора с увеличением тактовой частоты, но, по крайней мере, устраняет опасность простоя, из-за обмена с памятью.

Модернизируемый кэш L2. У К7 кэш L2 будет размещен, по примеру PII, в картридже, а не интегрирован в кристалл, как у К6-3. Результатом этого является возможность "модернизации" кэша. Первоначально его частота будет составлять 1/3 частоты процессора. В дальнейшем планируется выпуск версий с кэшем L2, работающим на частоте процессора, и, возможно, на половинной частоте.

AMD Athlon

       Если подойти  к архитектуре AMD Athlon поверхностно, то основные его параметры можно  обрисовать следующим образом:

  • Чип, производимый по технологии 0.25 мкм
  • Ядро нового поколения с кодовым именем Argon, содержащее 22 млн. транзисторов
  • Работает в специальных материнских платах с процессорным разъемом SlotA
  • Использует высокопроизводительную системную шину Alpha EV6, лицензированную у DEC
  • Кеш первого уровня 128 Кбайт - по 64 Кбайта на код и на данные
  • Кеш второго уровня 512 Кбайт. Расположен вне процессорного ядра, но в процессорном картридже. Работает на половинной частоте ядра
  • Напряжение питания - 1.6В
  • Набор SIMD-инструкций 3DNow!, расширенный дополнительными командами. Всего 45 команд
  • Выпускаются версии с частотами 500, 550, 600 и 650 МГц. Версия с частотой 700 МГц появится в ближайшее время

    Однако  таким простым процессор AMD Athlon кажется  только лишь на первый взгляд. На самом  же деле Athlon превосходит Intel не только по максимальной тактовой частоте (у Intel Pentium III она 600 МГц, да и к тому же при этом он работает на повышенном до 2.05В напряжении ядра), но и по размеру кеша первого уровня, размером в 128 Кбайт, у Intel Pentium III всего 32 Кбайта.

     AMD Athlon XP

    В ядро введены улучшения, такие как:

    -Полная поддержка инструкций Intel SSE;

      -Улучшенный механизм аппаратного предсказания ветвлений;

    - Улучшенный буфер преобразования адреса TLB;

      -Пониженное энергопотребление и встроенный термодиод.

    Nine-issue, superscalar, fully pipelined micro-architecture. Основной упор в описании своего ядра AMD делает на то, что количество ступеней конвейера у него меньше, чем у Pentium 4 (что и обуславливает меньшую частоту работы ядра при одинаковом техпроцессе), но зато количество одновременно исполняемых (за один такт) инструкций - больше.

    Superscalar, fully pipelined Floating Point Unit (FPU). Еще один плюс своих процессоров, который AMD решила показать в описании QuantiSpeed Architecture - это их знаменитый FPU. Он действительно мощный - три независимых конвейера для исполнения стандартных FPU-инструкций всего семейства x86, плюс инструкции из фирменного набора AMD 3DNow!, плюс (начиная с ядра Palomino) полная поддержка всего набора Intel SSE.

    Hardware data prefetc. В Athlon XP используется механизм предварительной (опережающей) загрузки инструкций в L1 cache. Примечательно следующее: во-первых - именно инструкций т.е. только исполняемого кода, а не данных. Во-вторых - именно в кэш первого уровня т.е. - минуя L2. В принципе, учитывая размер L1 у Athlon XP (128 KB).

    Exclusive and speculative Translation Look-aside Buffers (TLBs). TLB имеют практически все "сложные" современные процессоры. Фактически, это еще один подвид кэша, только кэшируются в нем не сами команды и данные, а их адреса. В Thunderbird двухуровневый TLB имел емкость 24/32 (24 адреса инструкций и 32 данных) и 256/256. Основное нововведение Palomino - расширенный L1 TLB, который теперь может хранить 40 адресов данных. Кстати, заметим - если Hardware Prefetch оптимизирует загрузку команд, то при усовершенствовании TLB AMD большее внимание уделила именно данным. Кроме того, "эксклюзивность" кэша (фирменная "фича" AMD, когда кэш второго уровня не дублирует в себе содержимое кэша первого уровня) теперь распространяется и на TLB. В общем, нам трудно будет судить насколько велик вклад нового Translation Look-aside Buffer в общую производительность Athlon XP т.к. нет возможности вычленить именно его вклад, но плюс мы все же поставим - это нечто действительно новое.

    Линейка Athlon XP:

    AMD Athlon XP 1500+     1.33 GHz
    AMD Athlon XP 1600+     1.40 GHz
    AMD Athlon XP 1700+     1.47 GHz
    AMD Athlon XP 1800+     1.53 GHz

    Если  раньше многие спорили, что быстрее - Pentium 4 2,0 ГГц или Athlon-C 1,4 ГГц, то Athlon XP все расставил по своим местам и вновь принял эстафетную палочку лидера. На частоте 1,53 ГГц Athlon XP смог явно обогнать Pentium 4 2,0 ГГц, что связано также и с возросшей производительностью KT266A. В таких современных играх, как "Wolfenstein: Return to Castle" или "Serious Sam" сразу видно, что Pentium 4 - не игровой процессор.

   64-битные  процессоры

   Основные  преимущества 64-битной архитектуры  микропроцессоров заключаются в  доступе к памяти. Если вы возьмёте два идентичных микропроцессора, пусть  один из них будет 32-битным, а другой – 64-битным, то последний сможет адресовать намного больший объем памяти, чем 32-битный (2 в 64 против 2 в 32). Для тех клиентов, которых ограничивают объём адресуемой памяти 32-битной архитектуры (4 Гбайт), единственным решением Intel с высоким уровнем производительности является Itanium, однако если вам ещё нужна и высокая производительность в x86 приложениях, то Intel ничего вам не предложит. Типичными приложениями, базирующимися на 64-битной технологии, можно считать большие базы данных и программы по проектированию - CAD. Если стандартная 32-битная система может адресовать максимум 4 Гбайт, то при 64-битной адресации компьютер получает в своё распоряжение, по меньшей мере, 16 Тбайт. Имейте в виду, что большие базы данных сегодня уже значительно превысили объём в 4 Гбайт. Чтобы обойти 32-битное ограничение в 4 Гбайт, в Windows 2000 и XP благодаря использованию расширения физических адресов (Physical Address Extension, PAE) и промышленной архитектуры памяти (Enterprise Memory Architecture) позволяется адресация приложениям до 8 Гбайт памяти (Advanced Server) и 64 Гбайт памяти (Data Center Server). Однако подобные решения не являются быстрыми, поскольку они применяют технику, подобную EMS-памяти, как при 16-битных вычислениях. Кроме того, 64 Гбайт всё равно является пределом 32-битных процессоров. Приложения, которым необходим быстрый доступ к базам данных больше 4 Гбайт или доступ к базам выше 64 Гбайт вообще, не могут обойтись без использования 64-битных систем.

    AMD Athlon 64

     Выпуск процессоров  Athlon 64 Socket939 стал однозначным успехом компании AMD. Высокая производительность в сочетании с хорошим балансом прочих характеристик (прежде всего энергопотребления) привлекло внимание пользователей. По производительности процессоры AMD Athlon64 ничуть не уступают процессорам Intel Pentium4 LGA775. По остальным характеристикам они либо равны (по цене), либо превосходят конкурентов (по уровню тепловыделения). Кстати, с переходом на 0.09мкм техпроцесс тепловыделение Athlon64 значительно уменьшилось. И, в сочетании с технологией Cool'n'Quiet, в данной области они вне какой-либо конкуренции. Тоже самое можно сказать про потенциал для оверклокинга - разогнанный процессор Athlon64 в большинстве приложений обгоняет разогнанный Pentium4.

    AMD, в отличие от Intel, не стала выдвигать принципиально новую архитектуру, не особо задумываясь, что же придётся делать лет через 5-7. Она просто взяла за основу ядро х86 и расширила набор инструкций до возможностей адресации 64-битного пространства. Athlon64 работает в двух режимах: первый предназначен для работы с 32- или 16-битными приложениями, в этом случае он практически не отличается от К7. Во втором процессор работает в двух подрежимах: в режиме совместимости, который разработан для запуска 32-битных программ в 64-битной ОС, что позволяет приложениям при работе в Windows (грядущей 64-битной версии) использовать полные четыре гигабайта памяти, не ограничиваясь прежними двумя. Что касается Intel, то для своих 64-битных процессоров компания разработала отдельную архитектуру "IA64", в отличие от AMD, которая смогла добавить 64-битную поддержку в виде расширений набора инструкций x86, названную "AMD64". Кардинальное различие заключается в том, что архитектура "IA64" лишена встроенной аппаратной совместимости с х86 кодом. Соответственно, чтобы работать с приложениями, которые увидели свет за последние два десятка лет, процессор (Itanium, Itanium 2 и так далее) использует программный декодер. Athlon64 же может аппаратно выполнять и обычный 32-битный х86-код. Поскольку аппаратное выполнение намного быстрее медленной программной эмуляции, то и производительность в 32-битных приложениях будет соответствующей. Учтём еще и то, что помимо более быстрой работы 32-битных приложений, Athlon64 предлагает неспешный и удобный способ плавного перехода на 64-битные вычисления, не считая увеличенное адресное пространство для приложений, работающих с большими объемами данных (правда, эта возможность доступна только в 64-битном режиме). Единственно, что для получения всех описанных преимуществ, приложение должно быть откомпилировано с учётом 64-битного режима.

    Как и раньше, Athlon64 незначительно отличается от Athlon, ядро содержит девять функциональных блоков (3 ALU, 3 AGU, FADD, FMUL и FMISC - три целочисленных блока и три блока операций с плавающей запятой), а также три декодера x86, тщательно проработанные AMD. Практически не изменился кэш L1 для инструкций и данных (по 64 кбайт на каждый компонент), хотя сейчас в нём появилась логика ECC. Процессор также приобрел блок команд SSE2, который удвоил количество регистров до шестнадцати. Так как Athlon64 предназначается для работы в серверной среде с большими объемами памяти, то было увеличено число записей в буферах быстрого преобразования адреса (TLB - Transition Look-aside Buffers). Чем больше входов записано в TLB, тем меньше придется загружать таблицы перевода адресов из основной памяти при передаче физического адреса. По сравнению с ядрами Thoroughbred и Barton, TLB работает с уменьшенными задержками, что повышает скорость. Физически, ядро AMD Athlon64 очень похоже на старое ядро Athlon. Одна из инноваций Athlon64 заключается в добавлении встроенного контроллера памяти, который занимает пространство, отводимое в ядрах Palomino и Thoroughbred под кэш L2.

Информация о работе Процессоры AMD:Архитектура и эволюция