IBM Labs: Удвоение скорости выполнения аналитических задачКорпорация IBM (NYSE: IBM) сообщила подробности о новой архитектурной модели хранения данных, разработанной учеными IBM, которая позволит преобразовывать терабайты «чистой» информации в применимые на практике знания в два раза быстрее, чем это было возможно ранее. Новая архитектура, идеально подходящая для приложений облачных вычислений и рабочих нагрузок с интенсивной обработкой данных – подобно цифровым медиа, финансовой аналитике и извлечению из данных ценной информации – сэкономит клиентам часы сложных вычислительных процессов без необходимости осуществления значительных инвестиций в инфраструктуру. Создав наиболее инновационную и эффективную архитектурную модель для задач высокопроизводительных вычислений, с лучшими показателями производительности, масштабируемости и использования ресурсов подсистемы хранения данных, IBM одержала заслуженную победу в конкурсе Storage Challenge («Проблема хранения данных»).

Выполнение аналитических задач с огромными массивами данных приобретает сегодня все большую важность, однако организации могут пока лишь продолжать соответствующим образом наращивать мощности своих корпоративных систем хранения. Компании стремятся найти возможности решения проблем громадных объемов сохраняемых данных и достижения новых уровней информированности и знания своего бизнеса, и, поэтому, им необходимы альтернативные технологии, такие как облачные вычисления, чтобы идти в ногу с растущими требованиями к хранению данных, а также эффективно управлять гибкостью рабочих нагрузок через быстрое развертывание системных ресурсов для различных видов рабочих нагрузок.
«Компании буквально наталкиваются на непреодолимое препятствие, будучи не в состоянии справиться с огромными объемами ежедневно генерируемых данных, — отметил Прасенджит Саркар (Prasenjit Sarkar), Ведущий изобретатель (Master Inventor) по направлению Storage Analytics and Resiliency в исследовательском центре IBM Research–Almaden. — Мы постоянно исследуем и разрабатываем наиболее передовые в отрасли технологии хранения информации с целью решения проблемы «больших данных». Этот новый метод разбиения памяти хранения данных на логические разделы (storage partitioning) является важным шагом на этом пути, поскольку он ускоряет для компаний процесс «получения знаний из данных» (time-to-insight), позволяя не беспокоиться о традиционных ограничениях системы хранения».
Новая архитектура, созданная в исследовательском центре IBM Research–Almaden и получившая название General Parallel File System-Shared Nothing Cluster (GPFS-SNC), призвана обеспечивать повышенный уровень готовности посредством передовых технологий кластеризации и управления динамической файловой системой, а также новаторским методикам репликации данных. Новая архитектура основана на принципе "shared nothing" («никаких общих ресурсов» – когда узлы в составе кластера не имеют одновременного доступа к одним и тем же данным, а каждый из них работает со своим отдельным разделом базы данных). Это позволяет достичь новых уровней готовности, производительности и масштабируемости. GPFS-SNC представляет собой распределенную вычислительную архитектуру, в которой каждый узел является самостоятельным объектом; рабочие задачи распределяются между этими независимыми объектами-компьютерами, и ни один из них в процессе работы (и обращения к данным) не тратит время на ожидание другого.
Существующее предложение IBM на базе GPFS является ключевой технологией для таких решений как IBM High Performance Computing Systems, IBM Information Archive, IBM Scale-Out NAS (SONAS) и IBM Smart Business Compute Cloud. Инновации, разработанные в исследовательском центре, способствуют дальнейшему распространению этих решений и должны помочь справиться с серьезными проблемами больших данных.
Так, например, крупные финансовые институты, которые используют сложнейшие алгоритмы для анализа информации, вынуждены обрабатывать петабайты данных. Во всем мире через разнообразные вычислительные платформы проходят, а, затем, сохраняются, многие миллиарды файлов. Кроме того, эти ответственные вычисления из-за своей сложности требуют очень значительных ресурсов и затрат. Благодаря применению архитектуры GPFS-SNC выполнение сложных аналитических рабочих нагрузок может стать более эффективным, поскольку эта архитектурная модель предоставляет единую файловую систему и пространство имен (namespace) для всех разнородных вычислительных платформ, оптимизируя процесс и экономя дисковую память.

Источник Пресс-Центр IBM