Ir al contenido principal

Entradas

Athena

Athena es un servicio de consultas interactivo para el análisis de datos, no estructurados, semiestructurados y estructurados sobre Amazon S3 bajo SQL estándar. Carece de servidor (Serverless) por lo que no se requiere la administración de infraestructura.             Athena nos permite trabajar directamente con SQL estándar siendo muy sencillo de implantar y comenzar a trabajar, únicamente disponiendo de habilidades SQL se pueden analizar conjuntos de datos a gran escala de forma rápida y sencilla. Tampoco es necesario realizar trabajos complejos de ETL para preparar los datos para su análisis. En proyectos de Big Data , estas fases pueden llegar a suponer un máximo del 70% del tiempo empleado durante todo el proyecto, respondiendo un 30% a procesos de análisis de datos propiamente dichos. Se puede integrar de serie con el catálogo de datos de  AWS Glue , lo que permite crear un repositorio de metadatos unificado en di...

AWS Lambda

La computación dentro de una solución Big Data esta soportada por medio del servicio AWS Lambda (entre otros), que permite ejecutar código sin aprovisionar ni administrar servidores. Se trata de uno de los servicios más interesantes de la plataforma donde únicamente se paga por el tiempo de ejecución de las funciones, por cada 100 ms que el código se ejecute y no por el número de veces que se activa el código. Cuando AWS Lambda ejecuta una función Lambda, se encarga de aprovisionar y administrar los recursos necesarios para ejecutar la función. Al crear una función Lambda, se especifica información de configuración, como la cantidad de memoria y el tiempo de ejecución máximo que se desea permitir.  Cuando se invoca una función Lambda, AWS Lambda lanza un contenedor (es decir, un entorno de ejecución) basado en los ajustes de configuración que se han  proporcionado. Se necesita tiempo para configurar el contenedor y hacer el bootstrapping necesario, lo que añade l...

Temperatura de Datos y Acceso

El concepto de temperatura de datos y acceso podemos aplicar lo desde dos componentes y siempre teniendo en cuenta el contexto sobre el cual estamos trabajando: La temperatura de los datos hace referencia al momento en el cual se han producido esos datos, por ejemplo si nos encontramos en medio de una conferencia y alguno de los asistentes realiza una publicación sobre la misma, podemos hablar que ese dato es muy caliente, puesto que acaba de producirse en la línea temporal. En función del negocio en el que nos encontremos, la temperatura de los datos influirá en mayor medida en la toma de decisiones y en los análisis que debamos realizar. Acceso, vendrá determinado por el instante en el que accederemos a los datos, por ejemplo siguiendo el caso anterior, si almacenamos y analizamos un histórico de publicaciones de hace un año, estos serán datos menos calientes, siendo además su volumen mayor que los producidos en el día de hoy.        ...

Big Data & Cloud

Las soluciones de Big Data se suelen describir en torno al desafío de la administración y operación del dato, que debido al incremento en el volumen, velocidad y variedad de los datos, no pueden ser resueltos sobre bases de datos y aproximaciones tradicionales.  En los últimos años han surgido diferentes compañías que aportan un set de soluciones en cloud con las cuales se pueden desarrollar y afrontar problemas en el desarrollo e implantación de una solución Big Data : Amazon IBM Google Microsoft             Todas ellas aportan soluciones con diferentes enfoques en sus clouds,vamos a centrarnos en la solución propuesta por Amazon sobre su cloud Amazon Web Services . Proporciona una cartera amplia y totalmente integrada de servicios en la nube que permiten desarrollar e implantar soluciones de Big Data sin necesidad del aprovisionamiento de hardware, en referencia a su mantenimiento y la escalabilidad de infra...