Internet: Big data

Big data:
[Macrodatos] A partir de determinada cantidad de datos la capacidad del software convencional se vuelve incapaz de tratarlos en un tiempo razonable. El volumen de los datos masivos crece constantemente. En 2012 se estimaba su tamaño de entre una docena de terabytes hasta varios petabytes de datos en un único conjunto de datos. IDC estima que la cantidad de información almacenada en los sistemas de TI del mundo se duplica cada dos años. La gestión de datos no estructurados pasó del 31 por ciento en 2015 al 45 por ciento en 2016.

En la metodología MIKE2.0 dedicada a investigar temas relacionados con la gestión de información, definen big data en términos de permutaciones útiles, complejidad y dificultad para borrar registros individuales. Se ha definido también como datos lo suficientemente masivos como para poner de relieve cuestiones y preocupaciones en torno a la efectividad del anonimato desde una perspectiva más práctica que teórica. La META Group (ahora Gartner) definía (2001) el crecimiento constante de datos como una oportunidad y un reto para investigar en el volumen, la velocidad y la variedad. Gartner continúa usando datos masivos como referencia. Grandes proveedores del mercado de datos masivos están desarrollando soluciones para atender las demandas más críticas sobre cómo procesar tal cantidad de datos, como MapR y Cloudera. Las soluciones desarrolladas por MapR Technologies tienen un destacado papel en la computación en la nube de servicios públicos. De los grandes almacenes de datos de las empresas puede generarse valiosa información que proviene del uso de nuevas técnicas de tratamiento. Utilizan herramientas como bases de datos NoSQL, Hadoop, Spark, software de análisis de BIG Data, aplicaciones de inteligencia empresarial y aprendizaje automático.

Cables | Author: kbrookes | License: Attribution-NonCommercial-NoDerivs Servidores Centro datos Google

SCAYLE (Centro de Supercomputación de Castilla y León) aportó medio millón de horas de cálculo al proyecto LIGO, premiado con el Nobel de Fisíca. El superordenador «Caléndula» colaboró en la detección de ondas gravitacionales llevada a cabo por Rainer Weiss, Barry Barish y Kip Thorne. El hallazgo fue considerado como el «descubrimiento del año» por la revista «Science». Las autoridades chinas pusieron en marcha un sistema de reputación social. Es capaz de recabar información sobre cómo los ciudadanos emplean su tiempo de ocio. La empresa iFlytek fue acusada por Human Rights Watch de poca transparencia en el desarrollo de un sistema de vigilancia piloto —en colaboración con las autoridades chinas— capaz de identificar automáticamente las voces de personas concretas en conversaciones telefónicas. iFlytek se fundó como empresa pública china en 1999. Se centró en software de reconocimiento y sintetización de voz y aplicó la experiencia adquirida a la conmutación de llamadas telefónicas e incluso a juguetes. El sistema de reconocimiento facial que emplea el Estado alcanza un alto grado de efectividad.

Usos en medicina:
Se almacenan datos médicos de forma creciente. Se busca integrar multitud de datos epidemiológicos, clínicos, de laboratorio, estudios genómicos y de respuesta a fármacos. La genómica personalizada, que pronto se generalizará ya que puede ayudar a predecir la aparición de determinadas enfermedades y la elección de tratamientos más apropiados, requerirá la combinación y análisis de ingentes cantidades de datos clínicos y moleculares. El estudio de esos datos obtenidos en cientos de miles de individuos, aportarán un importante conocimiento en aspectos preventivos, diagnósticos, clínicos, terapéuticos y pronósticos de las enfermedades. En 2017 una prueba empleando IA Watson de IBM para analizar gran cantidad de datos médicos dio pobres resultados a causa de que los registros de partida se incluían en las bases de datos de forma demasiado heterogénea y arbitraria. IBM no llegó a sacar beneficios de su proyecto Watson Health. La comunidad médica mostró demasiado escepticismo y fue demasiado renuente a colaborar. Otro de los problemas que surgen al tratar datos de pacientes reales es su rápida obsolescencia. Los tratamientos de vanguardia están cambiando con gran rapidez y los datos de pacientes reales tienen una vida media de utilidad que se reduce a unos meses. Este tipo de aplicación sobre la medicina ha puesto de manifiesto la laberíntica situación de las compañías de seguros médicos en EE.UU. Las compañías que ofrecen seguros de vida invierten cada vez más en sistemas inteligentes que van aprendiendo y aprovechan datos y tendencias no incluidos en las tablas tradicionales que emplea el sector para la toma de decisiones.

El big data utiliza técnicas tradicionales de estadística y de la inteligencia artificial de los años 60 y 70. El inicio de la IA se debe a Alan Turing en la década de 1950. Para adentrarse en el análisis los interesados tienen a su disposición programas sencillos y gratis como R. Se calcula que en 2020 se generarán 44 zetabytes de información. El consumo de los data center supone el 3% de la energía que se produce en el mundo.

La obtención fraudulenta de datos realizada por Cambridge Analytica sirvió de advertencia sobre consecuencias importantes del uso ilegal de datos. La consultora recibió 5,9 millones de dólares de la campaña de Trump. Compiló sin permiso datos de 87 millones de usuarios de Facebook. Es acusada de recurrir a otras prácticas ilegales para forzar la voluntad de determinadas personas relevantes. En 2018 el gerente de la campaña de reelección de Trump, Brad Parscale, estaba dedicado a un ambicioso programa para conseguir información de simpatizantes y potenciales votantes. El proyecto dedicaba un millón de dólares al mes en prospección digital. Con la información obtenida se desarrollaba un programa con intervenciones específicas sobre individuos para inclinar el sentido del voto, invitar a engrosar el voluntariado y contribuir en la promoción en las redes. La Ley de Protección de Datos (LOPD), en sintonía con el Reglamento europeo de Protección de Datos, pone límites al uso de los datos por parte de las empresas. Es notable el grado de desconfianza que muestra el público sobre el big data y la inteligencia artificial.

En mayo de 2020 la empresa C3.ai, especializada en IA, puso a disposición de los científicos una útil aplicación para aprovechar ingentes cantidades de datos relativos a la covid-19 que se venían acumulando. Varios conjuntos de datos provinientes de múltiples fuentes separadas pueden así ser cruzados y empleados para producir resultados útiles en diagnóstico, previsión y conocimientos sobre propagación. Los datos de algunas fuentes se encontraban en formatos ilegibles para la comunidad médica. Durante la pandemia se crearon diversos compendios con gran cantidad de información como CORD-19 (promocionado por la Casa Blanca) y NCRC (Novel Coronavirus Research Compendium).