El término Big Data ya forma parte de nuestro vocabulario cotidiano. A diario generamos una enorme cantidad de datos y las empresas, grandes o pequeñas, disponen ya de, literalmente, cientos de herramientas para procesar, refinar, almacenar y visualizar esta información en busca del objetivo último: extraer valor.

La pregunta que cabe hacerse ahora es ¿son estas herramientas y el hardware disponible capaces de escalar al ritmo en que lo hace la generación de información? En el momento actual al hablar de Big Data normalmente nos referimos a billones (Tera) o miles de billones (Peta) de bytes, pero ¿vamos a ser capaces de manejar los trillones (Exa) o incluso los miles de trillones (Zetta) que se pueden generar en un futuro cercano? Algunas estimaciones hablan de que, en el año 2020, la cantidad acumulada de datos rondará los 44 Zettabytes. Y es posible que estas estimaciones se queden cortas.

Pero, ¿de dónde sale toda esta información? ¿es que vamos a subir (aún) más vídeos a YouTube o (aún) más fotos a Instagram? Puede que no muchas más, aunque se estima que, para el 2020, se generarán datos en redes sociales equivalentes a 1,5 Gbytes por persona y día. Pero estas redes no serán, ni de lejos, la principal fuente de datos. La mayor cantidad de datos los generará el denominado Internet de las Cosas.

El Internet de las Cosas (Internet of Things o IoT) conectará a la red miles de millones de dispositivos, con decenas de aplicaciones, que permitirán mejorar aspectos como la salud, el medio ambiente, la agricultura, el transporte o la producción industrial. La empresa IoT Analytics estima que el número de dispositivos IoT se acercará a los 10 mil millones en 2020  (sin contar teléfonos, tablets o PCs), un número superior a los 7,7 mil millones de habitantes estimados para todo el planeta ese mismo año.

Esa información generada a nivel de dispositivo deberá trasladarse a los centros de datos (la nube) para su procesamiento y extracción de valor. Pero, ¿es esto posible? Tengamos en cuenta que transmitir 1 PetaByte de datos a través de una línea a 10 Gbps podría necesitar más de un mes. Y hay que tener en cuenta la latencia. No es viable, pues, llevar los datos en bruto a la nube. Pero si la montaña no va a Mahoma…

Ya que no vamos a ser capaces de transferir toda la información recopilada por los sensores del IoT a la nube, podemos optar por realizar parte de ese procesamiento en los propios dispositivos IoT. Este modelo de computación distribuida es lo que se conoce como Edge Computing, modelo en el que parte de la computación se traslada a los dispositivos situados en el “borde” de la red, es decir, a los sensores y actuadores, que dejan de ser meros captadores de datos para empezar a ser capaces de  realizar ciertas operaciones sobre los mismos. Estos dispositivos inteligentes (o edge devices) pueden realizar tareas de análisis y filtrado de los datos, reduciendo en gran medida la cantidad de información a transferir. Como contrapartida, los dispositivos deben de ser más complejos, teniendo que ser capaces de trabajar en condiciones extremas en cuanto a seguridad, consumo de batería y disponibilidad de la conexión.

En resumen, el procesamiento en la nube y su extensión a los bordes de la red será esencial para manejar la avalancha de datos que se aproxima. Las metodologías de procesamiento de grandes datos en la nube son uno de los objetivos de estudio del Máster en Big Data y Data Science.

Edge Computing Introduction

Autor

Tomás Fernández Pena

Consultor Externo de la Universidad Internacional de Valencia