En épocas prehistóricas, bastaban algunas técnicas rudimentarias de cálculo y memorización para almacenar y procesar la información en el único soporte que teníamos: el cerebro. Luego, surgieron la escritura, la aritmética, la estadística y, posteriormente, la informática para cubrir las demandas cada vez mayores de información de la civilización humana.
Pero actualmente los volúmenes y la variedad de información que tenemos que manejar superan las posibilidades de las herramientas convencionales. Así que se ha tenido que inventar nuevas formas de procesar estas grandes cantidades de datos conocidos como Big Data.
Al usar el término Big Data, nos referimos a conjuntos de datos de gran tamaño, complejidad y velocidad de crecimiento, características que los hacen difíciles de capturar, gestionar, procesar o analizar mediante herramientas convencionales como las bases de datos, las estadísticas convencionales o los paquetes de visualización.
Aunque no se ha definido claramente qué tamaño debe tener un conjunto de datos para ser considerado Big Data, la mayoría de los analistas concuerdan en que ronda entre los 30-50 Terabytes hasta varios Petabytes. Pero no es tanto la cantidad de datos, sino su complejidad y variabilidad, lo que representa un desafío actualmente.
Y es que, en general, los datos obtenidos no tienen una naturaleza estructurada sino caótica, y provienen de muchas fuentes distintas como internet y móviles, Internet de las Cosas (IoT en inglés), sensores y dispositivos biométricos, datos sectoriales recopilados por empresas especializadas y datos experimentales de todo tipo.
De ahí que se requieran nuevos enfoques y herramientas para manipular estas grandes cantidades de información. La importancia de esto es crucial, ya que actualmente no solo las grandes empresas tienen que manejar Big Data, sino también los gobiernos y sus instituciones, así como los centros de investigación científica.
Actualmente, los sistemas de Big Data se emplean para tomar mejores decisiones en las campañas de marketing y publicidad, entender y optimizar los procesos de negocio, mejorar el rendimiento de los deportistas, aumentar el rendimiento de las máquinas y dispositivos, mejorar la seguridad y el cumplimiento de la ley, y conseguir avances en la ciencia y en la investigación, especialmente en la medicina.
Actualmente, para el almacenamiento de BigData se utilizan bases de datos NoSQL (Not Only SQL, en inglés) que rompe con el esquema entidad-relación de las bases de datos tradicionales y permiten un almacenamiento más flexible y concurrente. Así surgieron tecnologías como Apache Cassandra, CouchDB, MongoDB, Hadoop y MapReduce.
Para el análisis de grandes cantidades de datos, se utilizan técnicas de asociación, minería de datos (data mining), agrupación (clustering) y análisis de texto, que permiten organizar y relacionar grandes cantidades de información aparentemente inconexas y proveniente de diversas fuentes.
Por otro lado, se emplean lenguajes de programación como R y Python para cálculo estadístico, análisis de datos, representación de datos, etc., así como sistemas de computación distribuida como Apache Storm para procesar flujos de datos constantes en tiempo real.
Como puedes ver, la tecnología siempre encuentra formas de superar los desafíos que impone cada época: en el caso de la nuestra, la gran cantidad de información que se genera cada año en todo el mundo. Si te pareció útil, comparte este post para que otros sepan más sobre el tema o déjame un comentario para saber tu opinión.
Esta entrada ha sido publicada el 13/01/2021 11:30
En el mundo del desarrollo web, jQuery se ha convertido en una herramienta esencial para… Leer más
Si eres como la mayoría de las personas, es probable que confíes en tu conexión… Leer más
En la era digital actual, nuestros dispositivos móviles se han convertido en una parte integral… Leer más