Сервис Google Cloud DataFlow анализирует данные в поточном и пакетном режимах

27.06.2014 | 10:18
Компания Google ввела в действие предварительную версию полностью управляемого сервиса Cloud Dataflow, позволяющего создавать конвейеры для обработки произвольных объемов данных — их загрузки (в том числе из внешних источников), преобразования и анализа. Одна и та же модель программирования используется для создания конвейеров, обрабатывающих данные в пакетном и поточном режимах. Настраивать и сопровождать низкоуровневую инфраструктуру организации конвейера и обработки данных пользователю не требуется.

Примеры применения — анализ высказываний о каком-либо продукте в социальных сетях в реальном времени; контроль журналов операций на аномальную активность, могущую свидетельствовать об инцидентах безопасности. Сервис также можно использовать как альтернативу локальным системам извлечения, трансформации и загрузки (ETL), применяемым для подготовки данных к обработке системами бизнес-анализа.

Сервис построен на основе технологий анализа данных реального времени, применяемых в самой Google, — Flume и MillWheel. Первая агрегирует большие объемы данных, вторая обрабатывает с низкой задержкой. Сервис сопровождается SDK для построения конвейеров. Вначале будет поддерживаться только Java, впоследствии, возможно и другие языки программирования.
Google Cloud DataFlow
По материалам osp.ru
Лента новостей: FacebookLiveJournalЯндекс

Комментарии (0)
Оставьте комментарий:CaptchaОбновить проверочный код