Хранилище Facebook ежегодно увеличивается на 180 петабайт

09.11.2012 | 11:10
Хранилище Facebook ежегодно увеличивается на 180 петабайт
Хранилище данных крупнейшей мировой социальной сети Facebook ежесуточно разрастается на пол-терабайта, говорится в данных инженерной команды Facebook. Такие данные Facebook Engineering Team приводит одновременно с публикацией части исходных кодов программного обеспечения Facebook.

В данных Facebook постоянно хранятся большие массивы внутренних нерегламентированных запросов, очереди данных, кастомизированные данные MapReduce для кластерного поиска, а также масса других "сырых" данных, обеспечивающих быстрое функционирование громадного хранилища информации. В компании говорят, что многие работы здесь возложены на плечи Apache Hadoop. Многие, но не все…

В Facebook говорят о создании кастомизированной Hadoop-подобной платформы Corona, которая расширяет базовый функционал работы с Большими Данными за счет возможностей по огромному разрастанию архивов информации. "Мы изначально использовали реализацию технологии MapReduce в Apache Hadoop в качестве основы для нашей инфраструктуры. Она успешно работала на протяжении нескольких лет, Но в начале 2011 года мы поняли, что достигли пределов этой технологии", - рассказали в Facebook.

В конце концов система стала работать довольно медленно и это вынудило Facebook создавать нечто новое. Система Corona по своей организации напоминает Hadoop, но она имеет несколько дополнительных слоев, придающих ей бОльшую масштабируемость.

Здесь реализован так называемый кластер-менеджер, в задачи которого входит только то, что он отслеживает другие узлы в системе и следит за их нагрузкой, а также отвечает за освобождение системных ресурсов в кластере. Кроме того, здесь же есть выделенный трекер рабочих процессов, который управляет выделением процессор для небольших и больших заданий по обработке данных. Главное отличие Corona от Hadoop заключается в том, что новинка - это как бы Hadoop наоборот: задания здесь идут не от узлов, а к ним. Кроме того, здесь же работает более централизованная система управления ресурсами внутри кластера, создающая не только сами ресурсы для вычислений, но и сама регламентирующая работу.

В самой Facebook система Corona пока развернута не полностью, а примерно на 500 серверах, где идет ее обкатка. Позже она будет установлена на 1000 серверов.

Код Corona доступен на GitHub по адресу https://github.com/facebook/hadoop-20/tree/master/src/contrib/corona
Хранилище Facebook
По материалам CyberSecurity.ru
Лента новостей: FacebookLiveJournalЯндекс

Комментарии (1)
  1. Добавлено Айрат 10.11.2012 | 13:41Арифметика не сходится
    Не на пол-терабайта, а на пол-петабайта (500 терабайт)
    См. http://www.slashgear.com/facebook-data-grows-by-over-500-tb-daily-23243691/
    У вас арифмети
Оставьте комментарий:CaptchaОбновить проверочный код