El “Big Data” No es neutral.

Mientras mas avanzan las discusiones sobre la importancia de los datos y la acelerada apuesta que le hemos estado haciendo a la cuantificación de la vida gracias a los datos, lo primero que debemos desmitificar es que el “Big Data” no es neutral.

Los datos en sí mismos obedecen a las diferentes elecciones de las personas, lo que dicen, lo que cuentan, los sentimientos y las emociones; cuando hablamos de personas. En el caso de las empresas, el comercio, la política los datos reflejan los intereses de cada uno de los segmentos sobre el que se quiera poner la lupa de los datos.

La neutralidad de los datos sería como decir que las opiniones políticas de las personas recogidas en twitter y agrupadas en tendencias reflejan el pensamiento frío de cada personas sin la afectación emocional de quien hace el trino o asumir el desinterés de cada persona por cada uno de los temas. Eso por un lado.
Por otro lado debemos examinar las fuentes de datos de quienes nos entregan el “Big Data” del qué tanto hemos estado hablando, ya sea las estadísticas del buscador de google, las de twitter, facebook o pornhub, aunque sus algoritmos se ufanan de almacenar las búsquedas sin ningún filtro hay que dudar de antemano de los filtros realizados al entregar una estadística u otra y como no podemos acceder al 100% de los datos no podemos fiarnos de su veracidad o de su neutralidad que es el tema especifico.

El dato es un ejercicio político, por eso desde hace unos años hemos venido hablando de los datos abiertos, del gobierno abierto y otros cuantos términos en donde se pretende que diferentes personas puedan entender que es eso del “Big Data” tome el control de sus propios datos y comprenda las implicaciones de lo que tenemos en frente.

Hoy decimos que los datos de contratación de los gobiernos pueden ayudar a resolver los temas de corrupción, pero los datos del portal de contratación de Colombia no son 100% abiertos y el tener los datos de todos los contratos no pueden decirnos como afectar la problemática social de la corrupción. Mi hipótesis es que con datos o sin datos seguirá existiendo corrupción y que los datos sólo mostraran en que se quiere gastar el dinero pero no quienes están detrás del proceso, los datos de contratación nos mostraran en que se esta gastando el dinero y en que decidieron gastarse cada centavo del dinero público.
Ademas podremos leer que tipo de tendencia política tiene el gasto publico a que intereses obedece el gasto mas allá de los programas políticos el cruce de los datos de contratos puede hablar sobre los intereses de las personas en los diferentes puntos del poder político y como están interpretando la ejecución del presupuesto. Eso si del presupuesto publico hay una parte de ese presupuesto que es de ejecución “secreta” de la cual no podemos saber nada.

Después de los datos del gasto publico en otro nivel de importancia aparecen los datos de trafico, los datos arrojados por los sensores que miden diferentes variables de contaminación ambiental, los datos de las personas que usan taxis o transporte publico etc etc que pueden servir para que ciudadanos interesados den una lectura o propongan soluciones a problemas locales, “Ciudadanos inteligentes” en ciudades inteligentes. Esa es parte de la apuesta del “Big Data” pero sigue estando lejos de ser neutral. ¿Quién tiene el poder de computo para procesar el flujo diario de twitter que no sea twitter o las grandes empresas? a los ciudadanos de a pie nos toca conformarnos con lo que el “Big data” esta hablando.

La cuantificación por medio de los datos suele mostrar un problema de manera fría al enumerar las cosas y pareciera que tomara distancia, es por eso que el analista de los datos debe acompañar sobre todo cuando se trata de datos sociales o culturales de las preguntas típicas que intenten explicar los números, siempre un ¿por que? que intente dar cuenta de lo que nos muestran los datos es igual de importante y su respuesta es humanamente imposible que sea neutral. Aún la inteligencia artificial no esta analizando los datos y cuando lo haga debemos dudar también de su neutralidad.

Anuncios

#DATOS 13 años de homicidios en Medellín

Para nadie es un misterio que Medellín ha sido una de las ciudades más violentas de Colombia que hemos vivido entre delincuencia comun, narcotrafico, guerrilla, paramilitares y muchos elementos que tienen que ver con el orden social, político y cultural de una ciudad que como las del resto del país forjada en el desarraigo y la ausencia de condiciones dignas para el trabajo la educación y la salud.

Más allá de hacer una reflexión sobre la violencia en la ciudad, de lo que voy a hablar es de un set de datos al que tuve acceso gracias a Juan Carlos Lema que envió varios derechos de petición a la alcaldía para pedir algunos datos entre ellos el dato de personas asesinadas desde el 2003 a la fecha actual. La respuesta fue bien interesante ya que los datos entregados por petición de JCLEMA debían estar georeferenciados.

Para enfrentarme a los datos que fueron entregados en una tabla de excel tomé la decisión de utilizar una serie de herramientas que me permitieran hacer lecturas rápidas de los datos, en un primer momento opte por Tupale.co como herramienta para almacenar los datos y aprovechar las API que genera la herramienta para luego conectarme a los datos desde otras herramientas para hacer análisis y visualizaciones.

Lo primero que hice fue importar todo el set de datos completo que contiene mas de 16mil registros (https://tupale.co/opendata.php?id=303) esta primera importación me empezó a mostrar cosas que no sabia como que el 2009 fue el año de mayor numero de homicidios registrados.

Mi propósito era poner en un mapa todos estos datos y debido a la cantidad de datos y pensando en una forma de analizarlos tome la decisión de separarlos por periodos electorales así que separe los datos de la siguiente forma:

2003 –> https://tupale.co/opendata.php?id=304 (Alcalde, Luis Perez)
2004 – 2007 –> https://tupale.co/opendata.php?id=305 (Alcalde, Sergio Fajardo)
2008 – 2011 –>https://tupale.co/opendata.php?id=306 (Alcalde, Alonso Salazar)
2012 – 2015 –>https://tupale.co/opendata.php?id=307 (Alcalde, Anibal Gaviria)
2016 –>https://tupale.co/opendata.php?id=308 (Alcalde, Federico Gutierrez)

Para hacer el Mapa, Tupale.co entrega una API GeoJSON que me permite usar los datos en otras herramientas, en este caso la idea era utilizar UMAP otro proyecto libre pensado para la cartografía social que me permitió montar cada periodo en una capa diferente y hacer una visualización:

Mapa agrupado:
https://umap.openstreetmap.fr/es/map/mapa-homicidios-medellin-2003-2016_115265#12/6.2184/-75.6038

Mapa de calor:
https://umap.openstreetmap.fr/es/map/mapa-homicidios-medellin-2003-2016_115335#13/6.2320/-75.5899

Mapa Mujeres (2003 – 2016):
https://umap.openstreetmap.fr/es/map/mapa-homicidios-medellin-mujeres-2003-2016_115534#12/6.2273/-75.5887

Nota: Los puntos que se encuentran en toda la mitad de la alpujarra entre la gobernación y la alcaldía se debe a que no tenían ninguna coordenada entonces decidí ubicarlos allí para mostrar los defectos de la información.

Son muchas cosas las que podremos decir a partir de estos datos pero mi ejercicio en este momento no es analizarlos ni ofrecer una lectura de la violencia en Medellín ya que los datos son incompletos y para hacer tal lectura se requiere de información de todos los tipos de violencia. Sobre mi pregunta de lo que pasó en 2009 encontré un documento que recomiendo se lean a quien le interese este tema: https://www.medellin.gov.co/irj/go/km/docs/wpccontent/Sites/Subportal%20del%20Ciudadano/Convivencia%20y%20seguridad/Secciones/Plantillas%20Gen%C3%A9ricas/Documentos/2011/Segundo%20Semestre%202009.pdf
Allí se explica muy bien los fenómenos que hicieron que 2009 fuera uno de los años con mayor numero de homicidios en Medellín.