Publicado por: Hernán Paggi 13.3.14



La nueva arquitectura Microsoft Flat Network Storage para datacenters con Windows Azure permite la utilización de clústeres de almacenamiento datos binarios de gran tamaño o blobs (de las siglas en inglés Binary Large Object) preparados para big data. Microsoft anunció que esta es una de las actualizaciones más grandes que se han realizado del servicio HDInsight desde la incorporación de la plataforma Hortonworks Hadoop Data Platform v1.1.0 en el mes de marzo. Las nuevas características incluyen mejoras para que los desarrolladores tengan interacción mucho más fácil con las suscripciones de Windows Azure, permitiéndoles crear clústeres de cómputo de alta performance a través del Windows Azure Management Portal.


La nueva versión del grupo de SQL Server incluye los siguientes componentes Apache Hadoop de código abierto y un redistribuible Microsoft Java Database Connectivity (JDBC) para SQL Server:

  • Apache Hadoop, Versión 1.0.3
  • Apache Hive, Versión 0.9.0
  • Apache Pig, Versión 0.9.3
  • Apache Sqoop, Versión 1.4.3
  • Apache Oozie, Versión 3.2.0
  • Apache H.Catalog, Versión 0.4.1
  • Apache Templeton, Versión 0.1.4
  • SQL Server JDBC Driver, Version 3.0
  • Windows Azure management portal in HDInsight


Los desarrolladores utilizan Windows Azure Management Portal para especificar el número de nodos de cómputo para un clúster HDInsight Data Services. Un clúster consiste de un nodo extra-large que tiene un costo de u$s 0.48 por hora de utilización y uno large un poco más pequeño de u$s 0.24 por hora. De esta forma, un clúster de pequeña escala con cuatro nodos de cómputo daría un total de u$s 1.44 por hora, lo que equivale a unos u$s 1000 mensuales. El primer clúster Hadoop en Windows Azure en su versión Preview vendrá constará de tres nodos con una vida útil de 24 horas renovables. Una actualización posterior incrementará el tiempo de uso a 5 días pero eliminará la renovación. El costo del  ancho de banda para almacenamiento no se descontará en la última versión del Preview, pero competirá en precio contra el servicio AWS S3 de Amazon.

Migrar el almacenamiento local HDFS hacia blobs en Windows Azure


La consigna "mover el cómputo a los datos" de Hadoop requiere el hosting de datos en el sistema de archivos Hadoop Distributed File System (HDFS). Con Windows Azure, los desarrolladores podrán trabajar con un almacenamiento de blobs personalizable, el cual proveerá alta disponibilidad replicando todos los objetos tres veces. La durabilidad se mejoró y estará disponible la opción de recuperación ante desastres o Disaster Recovery con replicación a nivel geográfico, replicando las copias por triplicado a datacenters con Windows Azure en la misma región luego de la geolocalización inicial. Luego se duplicarán las copias a más de 150 km del centro de datos principal. Por ejemplo, un blob en Azure alojado en Dublín (una subregión del oeste europeo) se autoreplicará en Amsterdam, la zona norte de la región. Actualmente HDFS no incorpora estas características de disponibilidad y durabilidad.

Al correr HDFS como un sistema de archivos local se mejora la performance del manejo de blobs en Azure para las tareas de red MapReduce en el servicio HDInsight de primera generación. El almacenamiento de Windows Azure se pensó con la idea de separar las máquinas virtuales de cómputo de aquellas que se usan para almacenamiento con el fin de mejorar los sistemas con múltiples inquilinos. Microsoft definió la tecnología Flat Network Storage como de segunda generación, por lo tanto vale mostrar las diferencias entre ambas generaciones en la siguiente tabla:


Como mencioné anteriormente, las cuentas de Storage tienen georeplicación por defecto para proveer almacenamiento georedundante, pero los usuarios finales pueden desactivar esta característica y utilizar almacenamiento redundante de forma local, lo cual acarrea con sigo una reducción de costos y una tasa de transferencias mucho más alta. La performance un blob de almacenamiento con HDInsight en Azure tiene los siguientes puntos clave:

  • El almacenamiento de blobs en Azure provee las mismas características de acceso para lectura que HDFS de Hadoop
  • Los blobs de Azure proveen un acceso de escritura más rápido que Hadoop HDFS, permitiendo que los jobs se completen más rápido cuando se escriben datos a disco


Microsoft realizó una comparación de performance de HDInsight en Azure contra otros productos de la competencia y aseguró lo siguiente:

Velocidad: Azure es 56% más rápido que Amazon S3 en escritura y 39% más rápido en lectura de archivos que HP Cloud Object Storage

Disponibilidad: El tiempo de respuesta promedio de Azure fue 25% más rápido que el segundo mejor tiempo de Amazon S3


Escalabilidad: Amazon S3 varía solo un 0.6% en promedio en los test de escalamiento, mientras que Microsoft Windows Azure ofrece una variación de 1,9%. HP y Rackspace, ambos basados en nubes OpenStack, mostraron una variación de 23,5% y 26,1%, respectivamente, pero la performance se tornó impredecible a medida que se incrementaba la cantidad de objetos.

One Response so far.

Comentar

Suscribirse a los artículos | Suscribirse a los comentarios

Idioma / Language

Certificaciones

Certificaciones

Artículos populares

Compartir al pie del post

Seguidores de Google+

Hernán Paggi. 2014. Todos los derechos reservados. Con tecnología de Blogger.

Suscripción de noticias

Suscríbase para recibir noticias en su correo electrónico

- Copyright © VMware Virtualization Blog -Metrominimalist- Powered by Blogger - Designed by Johanes Djogan -