es
Books
Walter Sosa Escudero

Big data

  • Jari González Rubioцитируетв прошлом году
    Según un estudio de la consultora Cumulus Media, en un minuto de internet 900.000 personas se conectan a Facebook, 3,5 millones de usuarios realizan búsquedas en Google, se envían 452.000 tuits, se reproducen 4,1 millones de horas de video en YouTube, se miran 70.000 horas de contenido de Netflix y se suben unas 46.200 fotos a Instagram. Sí, en un minuto de internet.
  • Benjamin Melgarejo Reicheltцитирует3 года назад
    “N = todo” es la frase que muchos usan para referirse a que big data eventualmente revelará todos los datos y tornará innecesaria la ciencia tal como la conocemos. La naturaleza anárquica y espontánea de big data hace que sea muy difícil (si no imposible) que tengamos “todos los datos”, en particular, los contrafácticos, como dijimos en este capítulo. Y si no es seguro que tendremos todos los datos, la estadística y la ciencia tienen un presente y un futuro asegurados, interactuando con los datos masivos y los algoritmos y no compitiendo con ellos, funcionando como guardianas de la replicabilidad, la transparencia y la ética, tal como lo han venido haciendo desde hace cientos de años
  • Benjamin Melgarejo Reicheltцитирует3 года назад
    Muerto el modelo, el nuevo rey pasa a ser el propio algoritmo, que ahora cumple la doble función de estimar y construir el modelo; es el cura del pueblo casando y buscando parejas. La vieja pregunta “¿y el modelo de dónde sale?” es la ayuda de las nereidas del análisis de datos, que responderían que los datos lo sugerirán a través del uso del algoritmo correcto, apoyado por un océano de datos. En definitiva, la gran división entre la estadística tradicional y el análisis de datos es que la primera estima o valida modelos mientras que el segundo los construye.
  • Benjamin Melgarejo Reicheltцитирует3 года назад
    Varios resultados sorprendentes emergen del estudio: el más llamativo es que la conformación de “cámaras de eco” o “burbujas informativas” parece resultar de las elecciones de los usuarios más que de los algoritmos que eligen qué noticias mostrar. Es decir, no es tanto el Gran Hermano el que decide las noticias, sino el resultado de nuestras propias interacciones, como si cada uno de nosotros (en “cooperación” con nuestros amigos) nos autoescribiésemos nuestro propio diario de Yrigoyen promoviendo lo que nos gusta y escondiendo lo que no. El otro resultado sorprendente es que el círculo de amigos de la mayoría de los usuarios de Facebook estudiados es bastante más diverso que lo que se sospecha: aproximadamente el 20% de los amigos pertenecen al espectro contrario de las creencias ideológicas. Es decir, de acuerdo al estudio, un “progresista” tiene un 20% de amigos conservadores, y viceversa. Esto sugiere que el cruce de links y opiniones entre sectores es mayor que el que se pensaba, lo que relativiza la importancia del efecto cámara de eco antes mencionado.
  • Benjamin Melgarejo Reicheltцитирует3 года назад
    El objetivo central de un experimento es crear información contrafáctica, no observarla, porque, como ya dijimos, es inobservable. Entonces, desde el punto de vista de la determinación de causas y efectos, no existe forma de que big data pueda aportar “todos los datos”, porque solo observa nuestras acciones y no nuestros contrafácticos: big data nunca es todos los datos.
  • Benjamin Melgarejo Reicheltцитирует3 года назад
    El diseño de experimentos es uno de los grandes logros de la ciencia moderna. Su esencia consiste en aislar el canal a través del cual una cosa afecta a la otra. En este sentido, un agrónomo asigna fertilizante a una parcela y no a la otra, pero garantizando que ambas tengan la misma cantidad de luz o agua, de modo que, luego del experimento, las diferencias en el crecimiento de las plantas se deban fundamentalmente al fertilizante. El experimento es un intento de reconstruir el laberinto borgeano: si está bien diseñado, es como si una parcela fuese exactamente la otra salvo por el fertilizante, lo que resulta una comparación de “peras con peras”.
  • Benjamin Melgarejo Reicheltцитирует3 года назад
    Dice Anderson:

    Basta de una vez con la teoría del comportamiento humano, desde la lingüística a la sociología. Olvídense de la taxonomía, la ontología y la psicología. ¿Quién sabe por qué la gente hace lo que hace? El punto es que lo hacen, y que podemos rastrearlo y medirlo con una precisión antes impensable. Con suficientes datos los números hablan por sí mismos.

    Más allá de la revolución mediática causada por sus dichos extremos, nadie se toma ni demasiado en serio ni demasiado literalmente su apuesta, pero también es cierto que nadie la ignora.
  • Benjamin Melgarejo Reicheltцитирует3 года назад
    La carrera de los algoritmos en pos de la capacidad predictiva enfrenta a la sociedad con un serio dilema. Un tema central del capítulo 5 es que la profusión de datos permite diseñar y entrenar modelos cada vez más complejos que redundan en una mejora en la capacidad predictiva. El arrollador avance de tecnologías como árboles de decisión o deep learning es una consecuencia de ir en esta dirección. Pero, por otro lado, las sociedades necesitan entender los mecanismos que producen cifras cruciales, como la pobreza o el resultado de una elección. Y la complejidad atenta contra la comunicabilidad.
  • Benjamin Melgarejo Reicheltцитирует3 года назад
    La falacia de la correlación es un clásico de la ciencia y la estadística, que sugiere que hay un mar de diferencia entre predecir correctamente y explicar. Los principales logros de la conjunción entre big data y aprendizaje automático tienen que ver con la capacidad predictiva de sus métodos. Resulta frustrante ver cómo un complejísimo mecanismo (como CART o las redes neuronales) puede tener una excelente performance predictiva y nula capacidad explicativa.
  • Benjamin Melgarejo Reicheltцитирует3 года назад
    Conclusión: más datos es cada vez mejor, pero reducir el margen de error es cada vez más costoso.
fb2epub
Перетащите файлы сюда, не более 5 за один раз