Изобретение относится к организации иерархической памяти компьютерных файлов данных и может применяться для построения систем хранения высокопроизводительных вычислительных систем.
Объем данных, хранимых на жестких дисках компьютеров, работающих в качестве устройств массовой памяти, быстро увеличивается в течение последнего десятилетия. Это особенно верно для данных, хранимых на сетевых файл-серверах, где в настоящее время обычными являются подсистемы на жестких дисках емкостью несколько Пб (петабайт) или выше, содержащие многие миллионы файлов.
В типовом случае ко многим из файлов на сетевых файл-серверах не будет обращения в течение некоторого времени. Это может объясняться разными причинами: файл может быть старой версией, резервной копией или может храниться до тех пор, пока однажды не потребуется. Файл может быть фактически вообще избыточным, однако только хозяин файла может идентифицировать его таковым, и в результате - файл хранится по причинам резервирования или надежности. В соответствии с общепринятой компьютерной практикой считается, что в случае сомнения файлы должны храниться неограниченно долго. Естественным следствием этого является то, что жесткие диски заполняются старыми файлами. Это случается в каждой компьютерной системе от самой маленькой до самой большой.
Организация иерархической памяти (HSM) является известным способом решения этой проблемы. Большинство современных операционных систем поддерживают информацию о последних дате и времени обновления файла. Многие также поддерживают информацию о последних дате и времени обращения к файлу. Система HSM периодически просматривает список файлов на жестких дисках, проверяя последние дату/время для каждого. Если к файлу не было обращений в течение заранее определенного промежутка времени, то файл переносится на вторичное устройство памяти, например магнитную ленту, и удаляется с жесткого диска.
Дальнейшее усовершенствование систем HSM, известное как деперемещение (демиграция, обратное перемещение), вынуждает HSM-систему автоматически восстанавливать перемещенный файл на исходный диск в случае, когда пользователь или прикладная задача пытаются обратиться к нему. Когда перемещенные данные хранятся на устройстве, работающем в режиме «почти on-line», например на ленточной библиотеке с автоматической сменой лент, запрос на обращение к файлу может быть даже временно приостановлен до тех пор, пока файл не будет восстановлен, после чего продолжается работа, как если бы файл никогда не был перемещен.
Известен «Способ обращения к данным, хранимым в компьютерной системе, с иерархической организацией памяти» (см. патент РФ №2182360 от 01.12.1995, опубликован 10.05.2002 г.), который включает этапы подачи команд, хранимых в оперативной памяти, в центральный процессор для обеспечения им поиска данных обращения, хранимых в оперативной памяти, путем генерирования, по меньшей мере, запроса на считывание, идентификации файла, к которому требуется обращение, причем файл состоит из частей файла, идентификации частей файла в файле, к которым необходимо обращения, обращения к частям файла, причем этап обращения включает проверку таблицы распределения файлов, которая определяет местоположение частей файла в средстве массовой памяти, для определения того, находятся ли части файла в средствах массовой памяти, и если это так, то определение местоположений таких частей файла, и формирования базы данных, которая идентифицирует местоположение частей файла, к которым должно осуществляться обращение.
В вышеуказанном патенте поддерживается вспомогательная база данных, указывающая, к каким блокам данных было обращение и в какие даты. Блоки, к которым не было обращения, могут быть затем заархивированы и удалены из файла на диске для освобождения памяти.
Если осуществляется запрос на считывание для части файла, которая заархивирована или перемещена, то система перемещает обратно требуемую часть файла перед тем, как запрос на считывание удовлетворяется.
Однако записи, обращение к которым имело место недавно, уже должны быть на жестком диске и доступ к ним может быть обеспечен немедленно в последующее время. Таким образом, доступ к часто требуемым записям будет обеспечен с высоким быстродействием без необходимости сохранения всего файла на жестком диске.
Способ может быть расширен, в сущности, с помощью увеличения порога пассивности для срока службы вспомогательной базы данных. Если из большого файла базы данных только к малому количеству записей было обращение, то все записи, к которым было обращение, могут быть сохранены на жестком диске, независимо от даты последнего обращения. Записи, к которым не было обращения, могут быть, однако, удалены для освобождения дискового пространства. В этом случае не требуется, чтобы вспомогательная база данных хранила дату или дату/время последнего обращения. Через продолжительные промежутки времени все области, к которым было обращение, могут быть перемещены, а вспомогательная база данных очищена.
Вышеуказанный способ является наиболее близким к заявляемому способу по технической сущности и поэтому выбран в качестве прототипа.
Недостатками данного способа являются:
- недостаточное быстродействие системы из-за единственности центрального процессора;
- миграция частей файла, т.к. происходит изменение целых файлов;
- невозможность применения данного способа для параллельной файловой системы.
Решаемой задачей является создание способа с организацией иерархического хранения данных для параллельной файловой системы.
Достигаемым техническим результатом является реализация производительности передачи данных, сравнимой со скоростью работы параллельной файловой системы, масштабируемость и обеспечение гибких механизмов управления потоками данных и политиками хранения, балансировки нагрузки.
Для достижения технического результата в способе обращения к данным, хранимым в параллельной файловой системе, с иерархической организацией памяти, который заключается в том, что формируют базу данных на серверах метаданных путем сканирования файлов, к которым должно осуществляться обращение, периодически просматривают метаданные с помощью программного обеспечения, в случае достижения заданного уровня заполненности и для освобождения пространства в параллельной файловой системе производят одновременно перемещение файлов на серверы миграции и занесение метаданных о перемещенных файлах в базу данных, при необходимости осуществляют возврат перемещенных файлов с помощью метаданных; новым является то, что в качестве программного обеспечения используют распределенную систему, серверы миграции и серверы метаданных объединяют между собой с помощью коммуникационной среды.
Применение в качестве программного обеспечения распределенной системы, серверов миграции с дисковыми массивами и серверов метаданных и объединение их между собой коммуникационной средой позволяет организовать иерархическую среду хранения данных для параллельной файловой системы.
На чертеже представлена функциональная схема, реализующая способ обращения к данным, хранимым в параллельной файловой системе, с иерархической организацией памяти.
Устройство, реализующее заявляемый способ, содержит высокопроизводительный вычислительный комплекс 1, включающий в себя параллельную файловую систему 2, серверы метаданных 3…3m, на которых организованы сканеры параллельной файловой системы, базы данных миграционного уровня системы хранения и клиенты параллельной файловой системы 4…4m, серверы миграции 5…5n, на которых находятся локальные дисковые массивы и клиенты параллельной файловой системы 6…6n, 7 - коммуникационная среда, организованная с помощью коммуникационной фабрики 8, объединяющая параллельную файловую систему 2, серверы метаданных 3…3m и серверы миграции 5…5n.
Реализованное программное обеспечение представляет собой распределенную систему, которая выполняет основные функции:
- осуществляет перемещение файлов в параллельном режиме;
- выделяет в монопольном или разделяемом режиме ресурсы (серверы миграции 5…5n, устройства хранения и т.д.) на время выполнения какой-либо операции с данными;
- предоставляет инструменты для запуска, исполнения и мониторинга заданий на выполнение какой-либо операции с данными;
- управляет очередью заданий, выполняет старт заданий и разрешение конфликтов при запросе ресурсов.
Основными компонентами реализованной системы являются:
- ядро системы;
- подсистема анализа загрузки параллельной файловой системы;
- транспортная подсистема;
- база данных;
- графический интерфейс;
- подсистемы зеркалирования или резервного копирования.
Программное обеспечение позволяет управлять серверами метаданных 3…3m, на которых осуществляется сканирование параллельной файловой системы 2, серверами миграции 5…5n, на которых осуществляется выполнение различных операций с данными (перенос данных из одного хранилища в другое, удаление данных и т.д) и заданиями, представляющими собой совокупность выделенных ресурсов, связанных с пользователем на определенное время.
Способ реализуется следующим образом.
В процессе функционирования путем периодического сканирования файлов в параллельной файловой системе 2, к которым должно осуществляться обращение, формируется база данных на серверах метаданных 3…3m.
Реализованное программное обеспечение на серверах метаданных 3…3m осуществляет отслеживание достижения заданного уровня заполненности параллельной файловой системы 2. При наступлении этого события для освобождения пространства происходит перемещение файлов на серверы миграции 5…5n по заранее заданным критериям и одновременное занесение метаданных в базу данных, находящуюся на серверах метаданных 3…3m.
При необходимости с помощью метаданных осуществляется возврат перемещенных файлов в параллельную файловую систему 2.
Заявляемый способ обращения к данным, хранимым в параллельной файловой системе, с иерархической организацией памяти высокопроизводительного вычислительного комплекса позволяет:
- отслеживать уровень заполнения параллельной файловой системы 2 высокопроизводительного вычислительного комплекса 1;
- осуществлять миграцию редко используемых данных с параллельной файловой системы 2 на дисковые массивы;
- восстанавливать мигрировавшие данные по запросу пользователей или в автоматическом режиме.
Был изготовлен опытный образец, испытания которого подтвердили его работоспособность и достижение заявленного технического результата.
название | год | авторы | номер документа |
---|---|---|---|
СПОСОБ ОБРАЩЕНИЯ К ДАННЫМ, ХРАНИМЫМ В КОМПЬЮТЕРНОЙ СИСТЕМЕ, СПОСОБ АРХИВИРОВАНИЯ ДАННЫХ И КОМПЬЮТЕРНАЯ СИСТЕМА ДЛЯ ОСУЩЕСТВЛЕНИЯ СПОСОБОВ | 1995 |
|
RU2182360C2 |
Интегрированный программно-аппаратный комплекс | 2016 |
|
RU2646312C1 |
МНОГОПРОТОКОЛЬНОЕ УСТРОЙСТВО ХРАНЕНИЯ ДАННЫХ, РЕАЛИЗУЮЩЕЕ ИНТЕГРИРОВАННУЮ ПОДДЕРЖКУ ФАЙЛОВЫХ И БЛОЧНЫХ ПРОТОКОЛОВ ДОСТУПА | 2003 |
|
RU2302034C9 |
Система деперсонализации и миграции персональных данных пользователей на веб-сайтах на основе технологии резервного копирования | 2018 |
|
RU2731110C2 |
Система защиты персональных данных пользователей в информационной системе на основании деперсонализации и миграции в безопасное окружение | 2017 |
|
RU2698412C2 |
ДЕРЕВО СВОЙСТВ ДЛЯ НАВИГАЦИИ И НАЗНАЧЕНИЯ МЕТАДАННЫХ | 2004 |
|
RU2365982C2 |
СИСТЕМА И СПОСОБ ЗАЩИТЫ ОТ НЕЛЕГАЛЬНОГО ИСПОЛЬЗОВАНИЯ ОБЛАЧНЫХ ИНФРАСТРУКТУР | 2012 |
|
RU2536663C2 |
СПОСОБ И СИСТЕМА ХРАНЕНИЯ ДАННЫХ | 2017 |
|
RU2656739C1 |
СПОСОБ ПОСТРОЕНИЯ ЕДИНОГО ИНФОРМАЦИОННОГО ПРОСТРАНСТВА И СИСТЕМА ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ | 2016 |
|
RU2656841C2 |
СИСТЕМА И СПОСОБ ДЛЯ ПРЕДСТАВЛЕНИЯ ЭЛЕМЕНТОВ, СОХРАНЕННЫХ НА КОМПЬЮТЕРЕ | 2004 |
|
RU2377647C2 |
Изобретение относится к организации иерархической памяти компьютерных файлов данных. Техническим результатом является повышение производительности передачи данных, масштабируемость и обеспечение гибких механизмов управления потоками данных и политиками хранения, балансировки нагрузки. Способ обращения к данным, хранимым в параллельной файловой системе, с иерархической организацией памяти заключается в том, что формируют базу данных на серверах метаданных путем сканирования файлов, к которым должно осуществляться обращение, периодически просматривают метаданные с помощью программного обеспечения, в случае достижения заданного уровня заполненности и для освобождения пространства в параллельной файловой системе производят одновременно перемещение файлов на серверы миграции и занесение метаданных о перемещенных файлах в базу данных, при необходимости осуществляют возврат перемещенных файлов с помощью метаданных, в качестве программного обеспечения используют распределенную систему, серверы миграции и серверы метаданных объединяют между собой с помощью коммуникационной среды. 1 ил.
Способ обращения к данным, хранимым в параллельной файловой системе, с иерархической организацией памяти, заключающийся в том, что формируют базу данных на серверах метаданных путем сканирования файлов, к которым должно осуществляться обращение, периодически просматривают метаданные с помощью программного обеспечения, в случае достижения заданного уровня заполненности и для освобождения пространства в параллельной файловой системе производят одновременно перемещение файлов на серверы миграции и занесение метаданных о перемещенных файлах в базу данных, при необходимости осуществляют возврат перемещенных файлов с помощью метаданных, отличающийся тем, что в качестве программного обеспечения используют распределенную систему, серверы миграции и сервера метаданных объединяют между собой с помощью коммуникационной среды.
Способ ферментативной переработки пищевых, кормовых и отбросных веществ животного и растительного происхождения | 1925 |
|
SU13001A1 |
Способ для измерения параметров нелинейного Rc-двухполюсника с релаксационными свойствами | 1979 |
|
SU892347A1 |
СПОСОБ, СИСТЕМА И УСТРОЙСТВО ДЛЯ СОЗДАНИЯ МОДЕЛИ АРХИТЕКТУРЫ ДЛЯ ГЕНЕРИРОВАНИЯ НАДЕЖНЫХ И ЛЕГКИХ В УПРАВЛЕНИИ ПРИЛОЖЕНИЙ ДЛЯ ЗАЩИТЫ ДАННЫХ В СИСТЕМЕ ЗАЩИТЫ ДАННЫХ | 2005 |
|
RU2391697C2 |
ФАЙЛОВАЯ СИСТЕМА, ПРЕДСТАВЛЕННАЯ ВНУТРИ БАЗЫ ДАННЫХ | 2006 |
|
RU2398275C2 |
US 7870355 B2, 11.01.2011 | |||
Пресс для выдавливания из деревянных дисков заготовок для ниточных катушек | 1923 |
|
SU2007A1 |
Авторы
Даты
2012-12-10—Публикация
2011-09-19—Подача