Big data: En la metodología MIKE2.0 dedicada a investigar temas relacionados con la gestión de información, definen big data en términos de permutaciones útiles, complejidad y dificultad para borrar registros individuales. Se ha definido también como datos lo suficientemente masivos como para poner de relieve cuestiones y preocupaciones en torno a la efectividad del anonimato desde una perspectiva más práctica que teórica. La META Group (ahora Gartner) definía (2001) el crecimiento constante de datos como una oportunidad y un reto para investigar en el volumen, la velocidad y la variedad. Gartner continúa usando datos masivos como referencia. Grandes proveedores del mercado de datos masivos están desarrollando soluciones para atender las demandas más críticas sobre cómo procesar tal cantidad de datos, como MapR y Cloudera. Las soluciones desarrolladas por MapR Technologies tienen un destacado papel en la computación en la nube de servicios públicos. De los grandes almacenes de datos de las empresas puede generarse valiosa información que proviene del uso de nuevas técnicas de tratamiento. Utilizan herramientas como bases de datos NoSQL, Hadoop, Spark, software de análisis de BIG Data, aplicaciones de inteligencia empresarial y aprendizaje automático.
SCAYLE (Centro de Supercomputación de Castilla y León) aportó medio millón de horas de cálculo al proyecto LIGO, premiado con el Nobel de Fisíca. El superordenador «Caléndula» colaboró en la detección de ondas gravitacionales llevada a cabo por Rainer Weiss, Barry Barish y Kip Thorne. El hallazgo fue considerado como el «descubrimiento del año» por la revista «Science».
Las autoridades chinas pusieron en marcha un sistema de reputación social.
Es capaz de recabar información sobre cómo los ciudadanos emplean su tiempo de ocio.
La empresa iFlytek fue acusada por Human Rights Watch de poca transparencia en el desarrollo de un sistema de vigilancia piloto —en colaboración con las autoridades chinas— capaz de identificar automáticamente las voces de personas concretas en conversaciones telefónicas.
iFlytek se fundó como empresa pública china en 1999.
Se centró en software de reconocimiento y sintetización de voz y aplicó la experiencia adquirida a la conmutación de llamadas telefónicas e incluso a juguetes.
El sistema de reconocimiento facial que emplea el Estado alcanza un alto grado de efectividad.
Usos en medicina:
El big data utiliza técnicas tradicionales de estadística y de la inteligencia artificial de los años 60 y 70.
El inicio de la IA se debe a Alan Turing en la década de 1950.
Para adentrarse en el análisis los interesados tienen a su disposición programas sencillos y gratis como R.
Se calcula que en 2020 se generarán 44 zetabytes de información.
El consumo de los data center supone el 3% de la energía que se produce en el mundo.
La obtención fraudulenta de datos realizada por Cambridge Analytica sirvió de advertencia sobre consecuencias importantes del uso ilegal de datos.
La consultora recibió 5,9 millones de dólares de la campaña de Trump.
Compiló sin permiso datos de 87 millones de usuarios de Facebook.
Es acusada de recurrir a otras prácticas ilegales para forzar la voluntad de determinadas personas relevantes.
En 2018 el gerente de la campaña de reelección de Trump, Brad Parscale, estaba dedicado a un ambicioso programa para conseguir información de simpatizantes y potenciales votantes.
El proyecto dedicaba un millón de dólares al mes en prospección digital. Con la información obtenida se desarrollaba un programa con intervenciones específicas sobre individuos para inclinar el sentido del voto, invitar a engrosar el voluntariado y contribuir en la promoción en las redes.
La Ley de Protección de Datos (LOPD), en sintonía con el Reglamento europeo de Protección de Datos, pone límites al uso de los datos por parte de las empresas.
Es notable el grado de desconfianza que muestra el público sobre el big data y la inteligencia artificial.
En mayo de 2020 la empresa C3.ai, especializada en IA, puso a disposición de los científicos una útil aplicación para aprovechar ingentes cantidades de datos relativos a la covid-19 que se venían acumulando. Varios conjuntos de datos provinientes de múltiples fuentes separadas pueden así ser cruzados y empleados para producir resultados útiles en diagnóstico, previsión y conocimientos sobre propagación. Los datos de algunas fuentes se encontraban en formatos ilegibles para la comunidad médica. Durante la pandemia se crearon diversos compendios con gran cantidad de información como CORD-19 (promocionado por la Casa Blanca) y NCRC (Novel Coronavirus Research Compendium).
NSA |
Proceso a Assange |
Wikileaks |
Multimedia |
Internet
I.B.M. |
Intel |
Google |
Bioética |
Espacio |
|