Dram ecc symbol size в BIOS относится к настройкам памяти, связанных с использованием корректирующего кода ошибок (ECC) для оперативной памяти (RAM). Этот параметр определяет размер символов данных, которые используются для формирования ECC, что позволяет улучшить надежность и целостность данных в системе, предотвращая ошибки при работе с памятью.
Правильная настройка значения dram ecc symbol size может быть критически важной для серверных систем и рабочих станций, где надежность и стабильность работы системы имеют первостепенное значение. Если вы не уверены в значении, рекомендуется оставить его на настройках по умолчанию или проконсультироваться с документацией к материнской плате.
Что такое ECC RAM? Буферизированная оперативная память — что это?
При выборе комплектующих для компьютера мы нередко сталкиваемся с множеством сложных терминов и понятий. Например, когда речь идет об оперативной памяти, встречаются такие типы, как DDR, DDR2, DDR3, DDR4, RDRAM, RIMM и другие. Основные типы ОЗУ зачастую понятны, и информация о поддержке каждого из них обычно присутствует в характеристиках материнской платы. Однако такой параметр, как ECC, вызывает вопросы у многих пользователей. Что же такое ECC-память? Можно ли применять ECC оперативную память в домашних системах, и в чем принципиальное отличие между ECC RAM и non-ECC RAM?
Что такое ECC-память?
Это специализированный тип оперативной памяти, обладающий встроенными аппаратными средствами для иборьбы ошибок. Такие модули памяти созданы с учётом повышенных требований к точности данных и надёжности их обработки, характерных для серверов, в отличие от обычных персональных компьютеров.
ECC-RAM способна самостоятельно выявлять случайные изменения в данных, хранящихся в блоках памяти, то есть обнаруживать ошибки. В свою очередь, обычная десктопная память, лишённая систем коррекции, называется non-ECC.
На что способна ECC-память и как это работает?
Память с коррекцией ошибок может определить и исправить 1 бит изменённых данных в каждом машинном слове. Что это значит? Если данные между записью и чтением были по каким-либо причинам изменены (то есть возникла ошибка), то ECC ОЗУ скорректирует значение до верного. Подобная функциональность требует поддержки со стороны контроллера оперативной памяти. Эта поддержка может быть организована со стороны чипсета материнской платы, встроенного контроллера ОЗУ в современные процессоры.
Метод коррекции ошибок опирается на код Хэмминга, однако для обнаружения нескольких ошибок применяются другие алгоритмы. На практике в модулях памяти к каждому набору из 8 микросхем добавляется дополнительная микросхема, которая хранит коды ECC (8 бит на каждые 64 бита основной памяти).
Почему искажается значение в ячейках памяти RAM?
Одной из ключевых причин, вызывающих искажение информации, являются космические лучи. Несмотря на то, что мы защищены атмосферой Земли, космические лучи приносят с собой элементарные частицы, способные оказывать влияние на электронные устройства, включая компьютерную память. В результате воздействия энергии этих частиц может происходить изменение состояния ячейки памяти, что приводит к искажению данных и возникновению ошибок. Учитывая это, стоит отметить, что воздействие космических лучей возрастает с увеличением высоты, поэтому компьютерные системы, расположенные на значительной высоте, нуждаются в более надежной защите.
Как работает память с поддержкой ECC
Одним из способов мониторинга ошибок в оперативной памяти является применение технологии чётности, которая позволяет обнаруживать наличие ошибок в данных, но не даёт возможности их иборьбы.
Для коррекции ECC используется код Хэмминга. ECC защищает компьютерные системы от ненадлежащей работы из-за повреждений памяти и уменьшает риск серьезного сбоя системы. Память с поддержкой ECC функционирует на 2-3 % медленнее, чем non-ECC, в зависимости от используемых приложений.
Причины использовать ЕСС-память
Объективных причин использовать оперативную память с поддержкой ECC в настольных компьютерах нет. Так как вероятность возникновения ошибок данных крайне мала, то в обычных сценариях использования ПК крайне маловероятно, что возникновение ошибки приведёт к возникновению проблем или критических сбоев в работе ПК. Самый страшный сценарий — появление синего экрана смерти BSOD. Кроме того, использование ECC-ОЗУ затруднено тем, что настольные процессоры и материнские платы в своём большинстве не поддерживают данный тип оперативной памяти.
Применение оперативной памяти с корректировкой ошибок ECC имеет особое значение для серверов и корпоративного сектора, где требования к надежности и устойчивости к сбоям крайне высоки, а точность данных может оказывать влияние на вычислительные результаты и функционирование всей системы.
Вам интересно узнать?
- Что означает синий экран смерти и как его интерпретировать
- Способы восстановления информации после форматирования жесткого диска
- Оперативная память DDR2 и DDR3: особенности работы и назначения
- Является ли поколение ПК DDR3 устаревшим?
Изучение отказоустойчивости на платформе AMD Ryzen и материнской плате ASUS Prime B450M-A версии II
Приблизительно 15 лет назад на сайте "Оверклокеры" была опубликована моя статья: Сборка и тестирование отказоустойчивого компьютера на базе AMD K8. В этом материале рассматривались особенности платформы AMD, благодаря которым практически каждый процессор, даже самого низкого ценового диапазона, интегрирует контроллер памяти с функцией коррекции ошибок. Таким образом, использование модулей памяти с ЕСС зависело лишь от выбора материнской платы с соответствующей разводкой сигналов.
В этой статье мы продолжим обсуждение процессоров AMD, сосредоточив внимание на современном сокете AM4. Конкретно, мы рассмотрим характеристики нового процессора Ryzen 5 2600 с архитектурой Pinnacle Ridge, а также бюджетный вариант Athlon 200GE на базе ядра Raven Ridge. Для тестирования данных процессоров была выбрана доступная материнская плата ASUS Prime B450M-A, которая, по информации производителя, поддерживает модули памяти Unbuffered ECC, но с оговоркой — в зависимости от типа процессора. Именно эту важную оговорку мы и намереваемся детально изучить на практике.
1. Материнская плата ASUS Prime B450M-A версии II
Материнская плата ASUS Prime B450M-A была обновлена до версии ASUS Prime B450M-A-II, которая отличается не только дизайном, но и более важным дополнением — радиатором на силовых транзисторах VRM. Этот радиатор установлен только на тех транзисторах, которые нагреваются больше всего во время разгона. Плата уже поддерживает процессоры Ryzen 3 и модули оперативной памяти объемом до 128 ГБ, а Включает функцию BIOS FlashBack, позволяющую обновлять прошивку через USB для добавления поддержки новых процессоров и модулей памяти до их установки. Кнопка FlashBack размещена на задней панели в месте, где раньше находились два разъема PS/2, в результате чего на плате остался лишь один комбинированный разъем PS/2. Также указывается поддержка USB 3.2 вместо USB 3.1, хотя на практике это не приводит к изменениям, так как обеспечивается только Gen 1 и Gen 2.
Второй версии предоставляется в подарок расширенный комплект программного обеспечения, с полным списком которого можно ознакомиться на сайте ASUS. Кроме того, упаковка была усовершенствована: логотип Aura Sync на ней стал больше, благодаря чему выглядит значительно привлекательнее!
Плата ASUS Prime B450M-A-II поддерживает SSD NVMe и нравится мне удачным расположением разъема M2, благодаря которому модуль накопителя обдувается процессорным кулером. Этим, а также наличием шести внутренних разъемов SATA III (четыре из которых работают одновременно с SSD NVMe), четырех слотов для памяти DDR4 и трех способов подключения монитора (VGA, DVI и HDMI) данная плата интереснее еще более бюджетной модели ASUS Prime B450M-К. Как положено, в комплекте платы предусмотрены два кабеля SATA (прямой и угловой) и винты для крепления накопителя M2. А также обращает на себя внимание внутренний разъем для подключения планки с COM портом.
Одной из приятных особенностей данной материнской платы стала возможность управления скоростью работы трех вентиляторов. Если кулер процессора использует только четырехпиновый PWM, то для системных вентиляторов можно выбрать режимы PWM или DC. Это дает возможность создавать тихие системы без дополнительных затрат. В целом, плата для Socket AM4 производит впечатление тщательно продуманного изделия, "бюджетность" которого не сужает возможностей для сборки современных компьютерных конфигураций, за исключением случаев, когда требуется установка "множества процессоров и видеокарт".
Однако нас особенно интересует возможность использования девятичиповых модулей памяти с ECC, ведь наша недорогая плата поддерживает и это!
Вот они, девятичиповые модули:
Обратите внимание, что на них нет никаких дополнительных микросхем, как, например, на модулях Registered ECC, которые подходят только к определенным платам серверного класса. Здесь у нас память Unbuffered ECC — 9 чипов памяти, работающих с 72 линиями данных — в отличие от обычных (а по факту урезанных) 8-чиповых модулей без ЕСС с 64 линиями данных.
Модули Unbuffered ECC могут быть двусторонними, в таком случае они включают 18 чипов памяти. Для проверки их совместимости с материнской платой следует обратить внимание на QVL. Если какие-то модули памяти были испытаны только в версии без ECC, то версия с ECC также будет функционировать.
2. Тестовая система
Вот моя конфигурация системы: Корпус ASUS Ascot 6AR/2 Блок питания Aerocool ATX 500W CYLON 500 Материнская плата ASUS Prime B450M-A-II, BIOS 0310, 2409 Процессор AMD Ryzen 5 2600 (YD2600BBAFBOX) Кулер для процессора BOX Вентилятор корпуса DEEPCOOL (XFAN120) Оперативная память DDR4 2*8G Kingston KSM24ES8/8ME Unbuffered ECC Видеокарта 1Гб PCI-E DDR3 MSI GT 710 SSD 500 Гб M.2 2280 M Kingston A2000 (SA2000M8/500G) HDD 1 Тб SATA III 3.5" Seagate (ST1000NM0008) 7200RPM Операционная система Windows Server 2012 R2 64-бит
3. Тест DDR4 Unbuffred ECC
Суть статьи состоит в том, что современные процессоры AMD для потребителей официально не поддерживают модули с ECC, за исключением флагманских моделей Threadripper. Однако на англоязычных форумах есть информация о поддержке ECC для процессоров Summit Ridge и Pinnacle Ridge. Поэтому мы решили протестировать 12-нм процессор Ryzen 5 2600 из проверенного семейства Pinnacle Ridge, который в настоящее время предлагает наилучшее соотношение цена/производительность. Что касается новых 7-нм процессоров Zen 3, их возможности в работе с памятью ECC еще необходимо исследовать.
Материнская плата при загрузке не подтверждает наличие распознания модулей памяти с ECC, но проверить их активацию достаточно просто. Для этого мы используем известную утилиту Memtest86 V8.4 в бесплатной версии:
Теперь, когда стало очевидно, что ЕСС активирован, необходимо оценить его функциональность. Для этого память разгоняется до момента возникновения исправляемых ошибок:
У меня корректируемые ошибки появились в режиме DDR4-3600, при исходном DDR4-2400. В этом режиме можно работать, но возрастает вероятность появления двойной ошибки, которая не может быть скорректирована. При отключенном ECC память стабильно разгоняется до DDR4-3400.
В BIOS доступна функция отключения ECC, которая функционирует корректно. Это значит, что при необходимости можно переключить память на восьмичиповый режим и убедиться, что вместо сообщений о корректируемых ошибках отображаются отчеты о тестовых ошибках.
Стоит отметить, что здесь представлен скриншот заводской версии BIOS 0301. В настоящее время на сайте ASUS доступна обновленная версия BIOS 2409, в которой количество опций CBS значительно увеличилось и они структурированы в виде иерархического дерева:
- В разделе DF Common Options можно настраивать аспект скрабирования оперативной памяти (DRAM Scrub Rate) — процедуру её проверки для выявления и иборьбы ошибок (Enable Scrab Redirect). Скрабирование имеет смысл только для памяти с поддержкой ECC, и его активация может немного снизить производительность системы в зависимости от интенсивности сканирования.
- Настройка включения и отключения ECC находится в разделе UMC Common Options, подраздел DDR4 Common Options, а В подразделе Common RAS. Там расположен подраздел ECC Configuration с параметром DRAM ECC Enable и новым параметром DRAM ECC Symbol Size, в котором представлены варианты x4 и x8:
- Конфигурация x4 — активирует режим ChipKill, который предусматривает передачу 144-битного кода по двум каналам памяти, способствующего исправлению множественных ошибок и обеспечивающего функционирование в случае полного выхода из строя одного из чипов памяти. Данный режим требует подключения двух или четырех модулей оперативной памяти с поддержкой ECC.
- Конфигурация x8 — представляет собой стандартный режим ECC, который функционирует независимо для каждого канала с применением 72-битного кода, позволяющего исправлять одиночные ошибки и выявлять двойные.
Геймеров привлечет нововведение в новом BIOS, поддерживающее технологию Resizable BAR, предназначенную для ускорения процесса обмена данными между процессором и внешней видеокартой.
Теперь о процессорах Raven Ridge со встроенной графикой. Известно, что на этих процессорах контроллер памяти НЕ работает в режиме ECC, точно так же, как на первых процессорах AMD с GPU (Liano). Здесь AMD тоже по-своему поcледовательна: нет, значит нет. Для проверки применяется самый дешевый процессор данного типа — Athlon 200GE. Действительно, с этим процессором модули памяти работают в обычном восьмичиповом режиме, без контроля ошибок:
Это означает, что создать крайне экономичную систему с функциями контроля и коррекции ошибок памяти не удастся — придется отказаться от привлекательных процессоров с интегрированным графическим ядром и инвестировать в видеокарту. Это выглядит несколько более громоздко по сравнению с системами на специализированных платах, которые обычно оборудованы простенькими видеочипами с видеобуфером. Тем не менее, даже с видеокартой компьютер оказывается значительно дешевле, чем собранный из компонентов серверного класса — процессоров AMD EPYC и соответствующих материнских плат Socket SP3.
4. Про отказоустойчивость дисковой подсистемы SSD
Для обеспечения надежного хранения данных обычно используется объединение жестких дисков в массивах RAID 1, а реже — RAID 0+1, RAID 5 или RAID 6. Реализовать первые два типа массивов можно с помощью самой материнской платы ASUS Prime B450M-A-II, тогда как для реализации остальных потребуется установка дополнительного контроллера. Однако сейчас третье десятилетие XXI века, и медленные жесткие диски уже не в моде. Особенно учитывая, что для серверного RAID необходимо выбирать специальные диски, которые могут работать круглосуточно, а их стоимость за терабайт практически равна цене SSD.
SSD RAID имеет одну примечательную особенность. Надежность SSD не оценивается в часах наработки на отказ (MTBF), а измеряется количеством терабайтов, которые можно записать на них с гарантией (TBW — Total Bytes Written). Этот показатель достаточно скромен для современных бюджетных накопителей с TLC-ячейками, так как у них низкий предел циклов перезаписи.
Если совместить два таких диска в RAID 1, то их ресурс исчерпается одновременно из-за схожести операций записи. В результате они могут выйти из строя одновременно или почти одновременно, и вы не успеете их заменить. Если же рискнуть и создать RAID 0, то ресурс TBW удвоится, так как на каждый SSD диск будет записываться вдвое меньший объем данных! Это довольно странный момент: RAID 0 оказывается более надежным, чем RAID 1 для SSD. Это объяснимо, так как в SSD накопителях отсутствуют механические узлы, и единственным источником износа являются ячейки памяти. Сбой контроллера, который долгое время функционирует в одном и том же компьютере, является очень редким случаем (замечание — некоторые специалисты уже упомянули в комментариях, что это не совсем так, но в теории контроллер действительно надежен; исключение составляют флеш-накопители и внешние диски, которые могут выходить из строя из-за частого подключения).
Вместо установки двух SSD в режиме RAID 0 можно использовать один диск с удвоенным объемом, так как при увеличении емкости SSD показатель TBW также значительно возрастает. Это решение идеально подходит для материнской платы ASUS Prime B450M-A-II – установка одного быстрого накопителя NVMe максимального объема в слот M.2. После обсуждения, мы сделали выбор в пользу SSD Kingston A2000 с TBW 350.
Эти накопители положительно характеризуются небольшим нагревом, наличием буферной микросхемы оперативной памяти и хорошей практикой применения. Почему NVMe, а не обычный SATA SSD? Во-первых, потому NVMe что быстрее, а во вторых, потому что на плате ASUS Prime B450M-A-II для нее имеется готовый обдув от боксового процессорного кулера. И кабели, которых нет, не будут дергаться туда-сюда при чистке системного блока.
Существует один важный нюанс — хотя процессоры Ryzen поддерживают SSD NVMe сразу после установки, бюджетный Athlon 200GE не распознает его. Однако на материнской плате ASUS имеется замечательная функция под названием "CPU PCIe Lanes Unlocked", которая активирует эту скрытую возможность, позволяя быстрому SSD NVMe функционировать на данной плате с любым процессором Zen.
Но каким образом можно защитить систему от неминуемой утраты данных, вызванной запланированным сбоем SSD из-за превышения TBW? Вот несколько способов.
5. Как нам запрячь в одну упряжку коня и трепетную лань?
В операционной системе Windows разрабатывается новая файловая система ReFS (Resilient file system), которая включает в себя так называемый гибридный RAID 1 на дисках с разной производительностью — к примеру, сочетание SSD и HDD. Эта система позволяет использовать быструю SSD, одновременно создавая резервные копии всех данных на более медленном HDD. В случае внезапного выхода из строя SSD, работа продолжится на HDD. Именно такой гибридный RAID 1 мы будем настраивать — с использованием SSD NVMe Kingston и HDD Seagate.
Жаль, но ReFS все еще не научили работать с загрузочным диском Windows. Поэтому мы сделаем гибридный RAID-1 средством старой системы NTFS, которое присутствуют в ней от начала века — речь идет о т.н. "динамических дисках". После появления чипсетного RAID динамические диски Windows временно отошли на второй план, но сейчас, в связи с возникшей потребностью в создании гибридного RAID они снова востребованы. Конечно, производительноcть RAID на софте 20-летней давности будет уступать новому гибридному RAID в ReFS, но именно это решение позволяет создать гибридный загрузочный RAID прямо сейчас и посмотреть на него в работе.
На первый взгляд, все представляется довольно просто, пока не начинаются сложные манипуляции в аппаратной части. В эпоху Windows 2000, когда внедрились динамические массивы, структура дисковой подсистемы компьютера была ясной и четкой – все, что вы создали при установке ОС, соответствовало тому, что хранится на диске. Однако с тех пор ситуация значительно усложнилась и запуталась. Чтобы защититься от "продвинутых пользователей", Windows формирует на диске специальный зарезервированный системный раздел размером 500 мегабайт, с которого начинается загрузка. А если вам повезло и вы купили большой HDD объемом более 2 ТБ и установили систему в режиме UEFI, то таких разделов будет уже два, хотя и меньшего размера (но для меня это несущественно, так как я обычно избегаю работы с GPT без крайней необходимости).
Эти дополнительные модули мне не нужны, так как они уменьшают надежность системы. Когда я устанавливал операционную систему на SSD, системный раздел оказался на жестком диске. При отключении HDD для тестирования отказоустойчивости система, естественно, не смогла запуститься. А во время попытки переноса загрузчика на SSD с помощью EasyBCD система полностью перестала загружаться, и мне пришлось разбираться с ней с помощью различных утилит восстановления. Для сетевика, который начал свою карьеру с установки изящной Windows NT, все эти сложности выглядят довольно шокирующе.
В общем, это наглядное руководство с разъяснениями, как установить Windows 10 без создания всем известного скрытого раздела. Я решил сделать проще: у меня в системе два накопителя, поэтому сначала я в графическом интерфейсе распределил всё пространство на SSD и позволил Windows создать свой желаемый раздел на HDD. Затем я прервал установку и повторно запустил её с отключенным HDD.
Во время установки будет полезно добавить дополнительные драйверы RAID для материнской платы, если в будущем вы захотите активировать чипсетный RAID. Всего существует три драйвера RAID: RCBottom, RCRAID и RCConfig, которые устанавливаются именно в этом порядке. Их копируют на загрузочную флешку Windows, и в процессе подготовки к установке они добавляются по пункту "Загрузить драйвер".
После завершения всех действий на SSD установлена Windows, находящаяся в одном разделе. Теперь необходимо выполнить следующие шаги:
- Подключить HDD и открыть утилиту "Управление дисками".
- Удалить системный раздел на HDD, созданный автоматически.
- Преобразовать оба накопителя — SSD и HDD в динамические, а также создать на HDD зеркало загрузочного раздела с SSD (и зеркала других созданных разделов, если они имеются на SSD).
Все просто, а если показалось, что не очень просто — то прочитайте вот это иллюстрированное руководство: Как создать RAID 1 массив в случае, если на одном жёстком диске уже имеется информация
Теперь работа страховки для HDD активирована! Система может загружаться как с SSD, так и с HDD даже в случае отсутствия какого-либо диска. Однако не забудьте после проведения экспериментов с отключениями вновь создать зеркальные разделы. Также поупражняйтесь в использовании инструментария, чтобы в случае настоящей критической ситуации случайно не удалить раздел на единственном оставшемся исправном диске. Главная причина утраты данных в RAID, как ни удивительно, заключается не в аппаратных неисправностях, а в неумелых действиях при восстановлении поврежденного массива.
Какова скорость работы гибридного RAID? Загрузка ОС осуществляется практически мгновенно, сопоставимо с загрузкой с одного SSD. Копирование файлов также происходит очень быстро, хотя затем HDD продолжает работать еще длительное время, сохраняя всю записанную информацию на своих пластинах. Однако, если провести тесты с использованием специализированных программ, разница в скорости станет явной. Поэтому предпочтительнее оценивать не по синтетическим тестам, а по реальным задачам, выполняемым сервером.
В общем, гибридные решения идеально подходят для серверов с незначительной нагрузкой на дисковую подсистему, где необходимо эффективно распределять нагрузки между SSD и HDD. Благодаря SSD сервер быстро перезагружается, что является неоспоримым преимуществом этой технологии. Рассчитанные задачи хорошо выполняются на SSD сервере, особенно если для временных данных используется RAM-диск. Однако такие сервисы, как корпоративная электронная почта, видеонаблюдение и файловые архивы, лучше размещать на традиционном HDD RAID, созданном с использованием чипсета или ReFS. В случаях, когда используются высоконагруженные базы данных или виртуальные машины, необходимо выбирать более дорогие SSD MLC с функцией автоматического резервного копирования на архивные носители данных.
В любом случае, архитектура дисковой подсистемы современного сервера проектируется под решаемую им задачу и здесь опиcан только первый шаг в ее создании.
6. Вместо послесловия — о кулерах, надежности и разгоне
Читатель, возможно, с нетерпением ждет новостей о впечатляющем разгоне процессора на последней версии материнской платы ASUS Prime B450M-A II. Однако данная статья не посвящена тому, как снизить надежность системы, а наоборот — как ее повысить! Поэтому мы подходим к разгону наших надежных компьютеров исключительно осторожно и с любовью к делу. Как можно заниматься агрессивным разгоном с использованием стандартного кулера? В системах, ориентированных на отказоустойчивость, крайне важно, чтобы процессорный кулер можно было быстро заменить. Лучше всего это осуществимо с помощью кулеров боксового типа, которые идеально подходят для промышленной сборки компьютеров.
Использование модулей ECC позволяет немного, примерно на 5%, повысить стабильный разгон оперативной памяти. Тем не менее, такие модули не производятся в оверклокерских вариантах, поэтому их покупка для экстремального разгона не имеет смысла. Совсем другое дело — любительский разгон.
Даже для самых простых модулей DDR4 2400 можно без проблем увеличить частоту памяти и Infinity Fabric на 40% и использовать корректировку ошибок для стабильной и долговечной работы. Кроме того, штатный разгон процессора осуществляется простым движением слайдера EZ System Tuning прямо на стартовом экране UEFI BIOS (хотя отменить разгон так легко не выйдет). В моем случае частота процессора возросла с заводских 3400 MHz до 3850 MHz.
Теперь давайте рассмотрим младшего из протестированных процессоров — Athlon 200GE. Возникает вопрос: зачем нужны такие недорогие и урезанные CPU, если есть достойные и относительно доступные решения в сегменте мейнстрима? А нужно это для оперативной замены! Например, если вы сильно «разогнали» компьютер при напряжении 380V, и он издает запах гари — не включается. В таком случае устанавливаем запасной «временный» процессор и проверяем, что осталось в рабочем состоянии?
В конце года происходит множество событий, и иногда не удается заняться желаемыми делами. На этом пока все. Загружу лишь изображение ПСП (пропускной способности подсистемы памяти), которое достигается после разгона процессора Athlon 200GE с 3.2 до 3.4 GHz и оперативной памяти DDR4 2400 до DDR4 3400. Разгон процессора осуществляется с помощью встроенной автоматической настройки EZ System Tuning (да, она немного адаптирована для разгона этого заблокированного процессора).
Верхняя часть графика ПСП — это эффект разгона кэша процессора, нижняя часть — эффект разгона оперативной памяти.
Хочу выразить свою признательность М.Ю. Янченко за поддержку в сборке компьютера, а также екатеринбургской фирме Крона-КС за быстрый подбор и доставку необходимых компонентов.
Технологии обеспечения максимальной надежности (RAS) для оперативной памяти в серверах
Технологии обеспечения максимальной надежности (RAS) для оперативной памяти в серверах HPE ProLiant и HPE Synergy Gen10 Plus с процессорами Intel Xeon Scalable
Неисправности в оперативной памяти могут спровоцировать серьезные инциденты и даже привести к сбоям на сервере. Современные серверы получают всё большее количество оперативной памяти, что увеличивает вероятность отказов данных устройств. Отказы оперативной памяти являются одним из самых распространенных типов отказов среди серверов (наряду с отказами систем хранения). Серверы HPE ProLiant Gen10 Plus, оснащенные передовыми процессорами Intel Xeon Scalable, предлагают широкий спектр функций для обеспечения надежности, доступности и простоты обслуживания (RAS) памяти, которые можно сгруппировать в следующие категории:
- выявление и коррекция ошибок;
- резервирование и устойчивость к сбоям;
- проводимые технические обслуживания.
В данном документе содержится сжатое описание ряда технологий, направленных на достижение высшей степени надёжности (RAS – Надёжность, Доступность, Обслуживаемость) для оперативной памяти серверов HPE ProLiant Gen10 Plus. Рассматриваются основные характеристики этих технологий, их минимальные требования и методы активации. Эта информация поможет вам выбрать наиболее эффективные RAS технологии для оперативной памяти, чтобы обеспечить надлежащий уровень услуг центра обработки данных (ЦОД) для высоких рабочих нагрузок, особенно для критических бизнес-задач.
Этот документ посвящен исключительно функциям RAS для оперативной памяти сервера. В нем не рассматривается полный набор других технологий RAS в портфелях HPE ProLiant и HPE Synergy.
Зачем нужны технологии RAS для оперативной памяти
Надежность работы серверов продолжает оставаться ключевым элементом обслуживания Центров Обработки Данных (ЦОД). К сожалению, в процессе эксплуатации серверов могут возникнуть различные неполадки, включая проблемы с программным обеспечением, сбои в электроснабжении или дефекты в оперативной памяти. Мы внимательно следим за тремя основными типами ошибок памяти: исправимыми (correctable errors), неисправимыми (uncorrectable errors) и восстанавливаемыми (recoverable errors). Способность определить, какие ошибки поддаются исправлению, а какие нет, целиком зависит от возможностей контроллера памяти.
Исправимые ошибки представляют собой ошибки, которые могут быть определены и устранены с помощью набора микросхем. Эти ошибки являются однобитовыми. Все серверы HPE способны выявлять и корректировать однобитовые ошибки, используя расширенный код контроля ошибок (ECC). В системах HPE пользователю поступает уведомление о превышении порога исправимых ошибок (максимально допустимое количество исправимых ошибок за определенный промежуток времени) через индикаторы на передней панели, на системной плате (если она имеется) или через журнал HPE Integrated Management Log (IML).
Неисправимые ошибки представляют собой такие ошибки, которые можно обнаружить, но невозможно устранить с помощью имеющихся микросхем. Они всегда связаны с многобитовыми сбоями памяти и обязательно фиксируются в HPE IML. Обычно неисправимые ошибки можно отследить до единственного модуля DIMM. В большинстве случаев такие ошибки приводят к немедленному сбою или отключению системы.
Тем не менее, в отдельных ситуациях благодаря поддержке операционной системы и процессоров с расширенными возможностями (например, Intel Xeon Platinum и Intel Xeon Gold) удается предотвратить сбой системы. Эти ситуации мы называем восстановимыми ошибками. Для более детального понимания восстановления после таких ошибок необходима также поддержка со стороны ОС.
Ошибки памяти делятся на два основных типа: аппаратные (hard) и программные/случайные (soft).
- Ошибки аппаратного характера, как правило, сигнализируют о неисправности самого модуля DIMM. Несмотря на то, что такие исправимые ошибки устраняются системой и не вызывают остановки работы или потери данных, они свидетельствуют о проблемах с оборудованием. В результате аппаратных неисправностей в модуле DIMM может быть превышен установленный для систем HPE порог допустимых ошибок, что приведет к получению пользователем предупреждающего сообщения. Программные или случайные ошибки не указывают на наличие неисправностей в DIMM. Они возникают, когда данные и (или) биты ECC в DIMM имеют неправильные значения, но исчезают после иборьбы этих битов данных.
- Программные или случайные ошибки, как правило, не приводят к достижению порогового значения исправимых ошибок в модуле DIMM, установленного для систем HPE, и, следовательно, не отображают признаков аппаратной неисправности. Любой сбой, если он будет неправильно обработан, может в конечном итоге привести к отключению системы. В начале развития серверов с базовыми механизмами коррекции памяти (ECC) этого было достаточно для устранения большинства сбоев в DRAM. Однако современные серверы значительно более сложны, что делает необходимым наличие дополнительных функций RAS для поддержания ожидаемой стабильности и безотказной работы. Важно отметить, что избегая критического сбоя памяти, можно предотвратить отказ системы. Замена неисправных элементов памяти производится в ходе планового обслуживания. Более того, технологии RAS способны обнаруживать в слоте DIMM память, подверженную множеству программных или случайных ошибок, и рекомендовать ее замену до наступления аппаратного сбоя.
RAS технологии для оперативной памяти в серверах HPE ProLiant и HPE Synergy
HPE Fast Fault Tolerance
Обзор
Технология HPE Fast Fault Tolerance представляет собой инновационное решение для обеспечения непрерывной работы оперативной памяти, впервые внедренное в серверах HPE ProLiant Gen10 Plus, оснащенных процессорами Intel Xeon Scalable. Эти серверы, в сочетании с модулями памяти HPE SmartMemory и HPE Fast Fault Tolerance, предоставляют дополнительную защиту от сбоев и простоев. HPE Fast Fault Tolerance — это усовершенствованная версия адаптивной двойной коррекции ошибок (adaptive double device data Correction – ADDDC), разработанная в партнерстве между Hewlett Packard Enterprise и Intel. В отличие от ADDDC, HPE Fast Fault Tolerance обеспечивает больший объем резервных областей (частей памяти, предназначенных для замены поврежденных участков) и более широкие возможности для выявления дефектных секторов. Это гарантирует значительно более высокую надежность и доступность памяти по сравнению с другими производителями, применяющими только ADDDC.
Особенности
В предыдущих версиях серверов HPE ProLiant самой современной технологией защиты памяти считалась двойная коррекция данных устройства (DDDC). Основным её недостатком было то, что активация этой функции происходила только во время загрузки, что значительно снижало пропускную способность памяти. Клиенты сталкивались с необходимостью выбирать между надежностью и производительностью.
HPE Fast Fault Tolerance обеспечивает значительное улучшение по сравнению с DDDC, поскольку объединяет преимущества производительности одинарной коррекции данных (SDDC) с доступностью двойной коррекции (DDDC). HPE Fast Fault Tolerance позволяет системе загружаться с полной производительностью памяти и блокирует только небольшие области (банки) памяти, когда это необходимо для иборьбы сбоев, что приводит к значительно более высокой производительности, чем у DDDC. Когда неисправный раздел больше банка, может наблюдаться несколько большее негативное влияние на производительность.
Сжатые выводы
- HPE Fast Fault Tolerance способна справляться с двумя отказами DRAM (с их обнаружением и восстановлением).
- Эта RAS-функция сочетает в себе надежность DDDC и высокую производительность SDDC.
Минимальные спецификации
Каждый активированный канал должен использовать как минимум одноранковую память. Также поддерживается только HPE SmartMemory с организацией x4.
Активация HPE Fast Fault Tolerance
Функция HPE Fast Fault Tolerance изначально активирована для всех профилей рабочих нагрузок, за исключением профиля с низкой задержкой.
HPE Fast Fault Tolerance можно включить или отключить на любом сервере HPE Gen10 Plus с помощью
RBSU или RESTful API HPE. Для изменения стандартных настроек в профиле рабочей нагрузки необходимо сначала выбрать нужный профиль, а затем изменить его на «Пользовательский» (Custom). На этом этапе возможно включение или отключение функции HPE Fast Fault Tolerance в меню «Параметры памяти — расширенная защита памяти» (Memory Options — Advanced Memory Protection).
Требования к настройкам HPE Fast Fault Tolerance могут варьироваться в зависимости от серии серверов, но поддержка операционной системы или специализированного ПО, кроме базовой системы ввода-вывода (BIOS), не требуется.
Требования к технологии
При выходе из строя области оперативной памяти DRAM будет наблюдаться минимальное снижение производительности, но лишь в небольшой части (наиболее распространенный размер — банк) модуля памяти. Никаких значительных потерь для нагрузок с произвольным доступом к памяти не ожидается, поскольку доступ к области памяти, находящейся в режиме блокировки, будет осуществляться нечасто. Потеря производительности может быть значительной только при наличии виртуальной блокировки всего ранка памяти (rank level virtual lockstep), или если приложение часто обращается к данной области памяти до замены модуля DIMM. Ожидается, что общее снижение пропускной способности при работе HPE Fast Fault Tolerance будет минимальным для подавляющего большинства заказчиков, однако это зависит от приложения, размера затронутой области и конфигурации памяти.
Поддержка расширенного ЕСС
Обзор
Обычные механизмы ECC способны исправлять ошибки, возникающие при сбоях одного бита, а Выявлять проблемы, связанные с несколькими битами памяти. В случае выявления многобитных ошибок с использованием ECC, сигнал о неисправности передаётся на сервер, что приводит к его остановке.
Расширенный ECC на протяжении более двадцати лет является стандартным решением для борьбы с ошибками в серверах HPE. Он обеспечивает защиту не только от однобитовых, но и от ряда многобитовых ошибок памяти, особенно тех, которые возникают внутри одной микросхемы DRAM.
Улучшенный ECC способен исправлять как одиночные, так и 4-битные ошибки в памяти, если все поврежденные биты расположены на одном устройстве DRAM в модуле DIMM. Улучшенный ECC предлагает более высокий уровень защиты по сравнению с традиционным ECC, так как способен устранить некоторые ошибки памяти, которые иначе могли бы оставить ресурсы сервера в неработоспособном состоянии. Когда модуль DIMM демонстрирует признаки потенциального выхода из строя или растет вероятность появления неремонтируемых ошибок в памяти, сервер отправляет уведомление, применяя современные технологии обнаружения ошибок памяти HPE.
Минимальные условия
Для поддержки расширенного ECC нет никаких особых правил заполнения памяти или настроек RBSU. Она включена по умолчанию на платформах, использующих процессоры Intel Xeon Scalable.
Как активировать поддержку расширенного ECC
Поддержка расширенного ECC — это стандартный режим улучшенной защиты памяти, доступный в RBSU > «Настройки памяти» (Memory Options).
Информация по техническим характеристикам
Хотя расширенный ECC обеспечивает защиту от сбоев, он способен надежно исправлять многобитовые ошибки, только если они возникают в пределах одной микросхемы DRAM. Расширенный ECC не обеспечивает возможности переключения (failover) при отказе. Если происходит отказ памяти, перед ее заменой систему необходимо выключить. Последние поколения серверов HPE ProLiant и HPE Synergy с процессорами Intel Xeon Scalable предлагают три уровня расширенной защиты памяти (включая HPE Fast Fault Tolerance), которые обеспечивают повышенную отказоустойчивость для приложений, требующих наивысшего уровня доступности.
Зеркалирование памяти с поддержкой расширенного ECC
Обзор
Зеркальное копирование памяти с функцией расширенного ECC защищает от определенных неисправимых ошибок, способных вызвать сбои в работе системы. Есть два варианта работы: полное и частичное зеркалирование памяти.
- В режиме полного зеркалирования используется половина общей системной памяти для создания единой копии всех данных.
- Режим частичного зеркалирования позволяет пользователю выделить меньший объем системной памяти для зеркалирования, эта возможность доступна в более продвинутых версиях процессоров Intel Xeon Platinum и Gold.
При возникновении критической ошибки в защищенной области зеркальной памяти, система автоматически получает корректные данные из резервной копии. Это позволяет системе продолжать свою работу без необходимости участия пользователя. Зеркалирование памяти, предлагая дополнительное резервирование в памяти, обеспечивает высший уровень защиты от сбоев, которые не поддаются исправлению с помощью таких технологий, как ECC, SDDC, DDDC, ADDDC и Online Spare Memory.
Характеристики
Когда активировано полное зеркалирование памяти, лишь половина установленной оперативной памяти может быть доступна для системы. Это связано с тем, что зеркалирование занимает 50 % от общего объема памяти, и такая функция предназначена для серверных задач, требующих максимальной защиты от сбоев в работе памяти. Зеркалирование следует внедрять в тех случаях, когда любые сбои и необходимость остановки сервера для замены неисправных модулей могут привести к серьезным последствиям.
Частичное зеркалирование памяти может быть настроено пользователем и поддерживает различные режимы:
- конфигурация в операционной системе;
- первые 4 ГБ оперативной памяти сервера.
Для получения дополнительных данных о поддержке частичного зеркалирования памяти стоит обратиться к поставщику операционной системы.
Обычно влияние зеркалирования памяти на общую производительность является незначительным. Так как при частичном зеркалировании задействуется меньше объема памяти, затраты на его реализацию окажутся значительно ниже, чем при полном зеркалировании.
Минимальные требования
Третье поколение семейства процессоров Intel Xeon Scalable поддерживает четыре контроллера памяти на процессор. Каждый контроллер управляет двумя каналами памяти. При включении режима зеркалирования памяти, два канала, подключенные к одному контроллеру памяти, становятся зеркальной парой. Чтобы включить зеркалирование, эти каналы должны быть заполнены одинаково.
При установке модулей DIMM на различных парах каналов заполнение каждой пары может варьироваться относительно других — при условии, что оно соответствует допустимым нормам. Важно отметить, что неравномерное заполнение может негативно сказаться на производительности.
Схемы зеркалирования оперативной памяти для серверов HPE Proliant GEN 10 Plus
При частичном зеркалировании памяти используются аналогичные правила установки модулей памяти, как и для полного зеркалирования, которое поддерживается данной платформой.
Как активировать зеркалирование памяти
Включить поддержку зеркалирования памяти с расширенным ECC можно через RBSU, выбрав соответствующий пункт в разделе «Расширенная защита памяти». Для настройки полностью зеркалированной памяти клиент выделяет половину банков памяти для системных нужд, а остальные банки используются в качестве зеркального отображения. Все банки памяти должны быть сконфигурированы одинаково.
Для настройки частичного зеркалирования в вариантах расширенной защиты памяти следует выбрать зеркальную память с расширенным ECC (Mirrored Memory with Advanced ECC), а в режимах зеркального отображения памяти — соответствующий параметр, как показано на рисунке ниже.
Замечание
Функционал Partial Mirror (OS Configured) доступен лишь для определенных операционных систем. Для получения более подробной информации следует обратиться к поставщику операционной системы.
Технология Memory scrubbing (чистка памяти, патрульная и по требованию)
Анализ
Технология Memory scrubbing (чистка памяти) — это стандартная функция памяти RAS, которая предотвращает накопление случайных ошибок и, в конечном итоге, превращение их в неисправленную ошибку. Это достигается за счет упреждающей записи правильных данных обратно в память при каждом обнаружении ошибки.
Иногда значительные участки памяти продолжают оставаться неиспользуемыми в течение длительного времени из-за отсутствия обращений к ним, что ведет к необходимости применения дополнительной очистки памяти. В современных системах существует два способа выполнения очистки: патрульная и по запросу. Оба метода решают одну и ту же задачу — исправление ошибок в памяти при их обнаружении. Основное различие заключается в подходах к выявлению ошибок. Патрульная очистка направлена на проактивный поиск ошибок, который осуществляется в фоновом режиме, тогда как очистка по запросу выполняется только при обращении к памяти со стороны операционной системы или приложения.
Характеристики
При активированной функции патрульной чистки система активно мониторит память на наличие исправимых ошибок и устраняет их. Это помогает предотвратить накопление однобитных ошибок, которые могут стать неустранимыми, если их количество превысит допустимый уровень или они перерастут в многобитные ошибки. На каждый интегрированный контроллер памяти (IMC) предусмотрен один механизм патрульной чистки.
Минимальные требования
Для функции патрульной чистки отсутствуют специфические требования к заполнению памяти или настройкам RBSU. Она включена по умолчанию на платформе процессоров Intel Xeon Scalable, и пользователь может отключить её. Запросная чистка всегда активирована по умолчанию и не может быть деактивирована.
Как включить патрульную чистку
По умолчанию данная функция активирована в любом режиме улучшенной защиты памяти, который можно выбрать в RBSU > «Настройки памяти» (Memory Options).
Технические спецификации
BIOS инициирует процесс патрульной чистки при старте системы и задаёт периодичность этой процедуры. Чистка подразумевает следующие действия.
- Каждый день осуществляется считывание всех строк кэша с целью обнаружения ошибок.
- В случае выявления ошибок корректные данные возвращаются в память.
Патрульная чистка предназначена для того, чтобы исправимые ошибки не оставались в DRAM слишком долго и не могли объединиться с временной ошибкой, вызвав в результате неисправимую ошибку. Патрульная чистка работает во всех режимах памяти RAS, таких как расширенный ECC, зеркалирование или резервирование ранков, и помогает уменьшить количество неисправимых событий.
Потребность в серверах с увеличенной памятью продолжает возрастать. Это связано с развитием более сложных и ресурсоемких приложений, а также с мощными процессорами. Рост плотности и емкости памяти повышает риск возникновения ошибок, что ставит перед производителями серверов задачу не только обеспечить больший объем системной памяти, но и гарантировать ее надежность.
Компания Hewlett Packard Enterprise справляется с этой задачей, предлагая надежные технологии защиты памяти, включая Online Spare Memory (динамическое переключение в случае ошибок), зеркалирование памяти и HPE Fast Fault Tolerance. Функция Online Spare Memory особенно важна для клиентов, которые не могут позволить себе простои из-за сбоев в памяти, но могут дождаться планового отключения сервера для замены неисправных модулей памяти. Зеркалированная память обеспечивает высокий уровень доступности и отказоустойчивости, обеспечивая полную защиту от однобитовых и многобитовых ошибок. HPE Fast Fault Tolerance, новая технология, представленная в серверах HPE ProLiant и HPE Synergy Gen10 Plus с процессорами Intel Xeon Scalable, предлагает значительно улучшенную надежность памяти и доступность для клиентов.
Современные технологии защиты памяти от HPE предоставляют клиентам возможность подобрать систему с необходимым уровнем доступности, что способствует увеличению надежности итогового решения.
- оперативная память
- серверы
- отказоустойчивость
- зеркалирование