El “Big Data” No es neutral.

Mientras mas avanzan las discusiones sobre la importancia de los datos y la acelerada apuesta que le hemos estado haciendo a la cuantificación de la vida gracias a los datos, lo primero que debemos desmitificar es que el “Big Data” no es neutral.

Los datos en sí mismos obedecen a las diferentes elecciones de las personas, lo que dicen, lo que cuentan, los sentimientos y las emociones; cuando hablamos de personas. En el caso de las empresas, el comercio, la política los datos reflejan los intereses de cada uno de los segmentos sobre el que se quiera poner la lupa de los datos.

La neutralidad de los datos sería como decir que las opiniones políticas de las personas recogidas en twitter y agrupadas en tendencias reflejan el pensamiento frío de cada personas sin la afectación emocional de quien hace el trino o asumir el desinterés de cada persona por cada uno de los temas. Eso por un lado.
Por otro lado debemos examinar las fuentes de datos de quienes nos entregan el “Big Data” del qué tanto hemos estado hablando, ya sea las estadísticas del buscador de google, las de twitter, facebook o pornhub, aunque sus algoritmos se ufanan de almacenar las búsquedas sin ningún filtro hay que dudar de antemano de los filtros realizados al entregar una estadística u otra y como no podemos acceder al 100% de los datos no podemos fiarnos de su veracidad o de su neutralidad que es el tema especifico.

El dato es un ejercicio político, por eso desde hace unos años hemos venido hablando de los datos abiertos, del gobierno abierto y otros cuantos términos en donde se pretende que diferentes personas puedan entender que es eso del “Big Data” tome el control de sus propios datos y comprenda las implicaciones de lo que tenemos en frente.

Hoy decimos que los datos de contratación de los gobiernos pueden ayudar a resolver los temas de corrupción, pero los datos del portal de contratación de Colombia no son 100% abiertos y el tener los datos de todos los contratos no pueden decirnos como afectar la problemática social de la corrupción. Mi hipótesis es que con datos o sin datos seguirá existiendo corrupción y que los datos sólo mostraran en que se quiere gastar el dinero pero no quienes están detrás del proceso, los datos de contratación nos mostraran en que se esta gastando el dinero y en que decidieron gastarse cada centavo del dinero público.
Ademas podremos leer que tipo de tendencia política tiene el gasto publico a que intereses obedece el gasto mas allá de los programas políticos el cruce de los datos de contratos puede hablar sobre los intereses de las personas en los diferentes puntos del poder político y como están interpretando la ejecución del presupuesto. Eso si del presupuesto publico hay una parte de ese presupuesto que es de ejecución “secreta” de la cual no podemos saber nada.

Después de los datos del gasto publico en otro nivel de importancia aparecen los datos de trafico, los datos arrojados por los sensores que miden diferentes variables de contaminación ambiental, los datos de las personas que usan taxis o transporte publico etc etc que pueden servir para que ciudadanos interesados den una lectura o propongan soluciones a problemas locales, “Ciudadanos inteligentes” en ciudades inteligentes. Esa es parte de la apuesta del “Big Data” pero sigue estando lejos de ser neutral. ¿Quién tiene el poder de computo para procesar el flujo diario de twitter que no sea twitter o las grandes empresas? a los ciudadanos de a pie nos toca conformarnos con lo que el “Big data” esta hablando.

La cuantificación por medio de los datos suele mostrar un problema de manera fría al enumerar las cosas y pareciera que tomara distancia, es por eso que el analista de los datos debe acompañar sobre todo cuando se trata de datos sociales o culturales de las preguntas típicas que intenten explicar los números, siempre un ¿por que? que intente dar cuenta de lo que nos muestran los datos es igual de importante y su respuesta es humanamente imposible que sea neutral. Aún la inteligencia artificial no esta analizando los datos y cuando lo haga debemos dudar también de su neutralidad.

Anuncios

#DATOS 13 años de homicidios en Medellín

Para nadie es un misterio que Medellín ha sido una de las ciudades más violentas de Colombia que hemos vivido entre delincuencia comun, narcotrafico, guerrilla, paramilitares y muchos elementos que tienen que ver con el orden social, político y cultural de una ciudad que como las del resto del país forjada en el desarraigo y la ausencia de condiciones dignas para el trabajo la educación y la salud.

Más allá de hacer una reflexión sobre la violencia en la ciudad, de lo que voy a hablar es de un set de datos al que tuve acceso gracias a Juan Carlos Lema que envió varios derechos de petición a la alcaldía para pedir algunos datos entre ellos el dato de personas asesinadas desde el 2003 a la fecha actual. La respuesta fue bien interesante ya que los datos entregados por petición de JCLEMA debían estar georeferenciados.

Para enfrentarme a los datos que fueron entregados en una tabla de excel tomé la decisión de utilizar una serie de herramientas que me permitieran hacer lecturas rápidas de los datos, en un primer momento opte por Tupale.co como herramienta para almacenar los datos y aprovechar las API que genera la herramienta para luego conectarme a los datos desde otras herramientas para hacer análisis y visualizaciones.

Lo primero que hice fue importar todo el set de datos completo que contiene mas de 16mil registros (https://tupale.co/opendata.php?id=303) esta primera importación me empezó a mostrar cosas que no sabia como que el 2009 fue el año de mayor numero de homicidios registrados.

Mi propósito era poner en un mapa todos estos datos y debido a la cantidad de datos y pensando en una forma de analizarlos tome la decisión de separarlos por periodos electorales así que separe los datos de la siguiente forma:

2003 –> https://tupale.co/opendata.php?id=304 (Alcalde, Luis Perez)
2004 – 2007 –> https://tupale.co/opendata.php?id=305 (Alcalde, Sergio Fajardo)
2008 – 2011 –>https://tupale.co/opendata.php?id=306 (Alcalde, Alonso Salazar)
2012 – 2015 –>https://tupale.co/opendata.php?id=307 (Alcalde, Anibal Gaviria)
2016 –>https://tupale.co/opendata.php?id=308 (Alcalde, Federico Gutierrez)

Para hacer el Mapa, Tupale.co entrega una API GeoJSON que me permite usar los datos en otras herramientas, en este caso la idea era utilizar UMAP otro proyecto libre pensado para la cartografía social que me permitió montar cada periodo en una capa diferente y hacer una visualización:

Mapa agrupado:
https://umap.openstreetmap.fr/es/map/mapa-homicidios-medellin-2003-2016_115265#12/6.2184/-75.6038

Mapa de calor:
https://umap.openstreetmap.fr/es/map/mapa-homicidios-medellin-2003-2016_115335#13/6.2320/-75.5899

Mapa Mujeres (2003 – 2016):
https://umap.openstreetmap.fr/es/map/mapa-homicidios-medellin-mujeres-2003-2016_115534#12/6.2273/-75.5887

Nota: Los puntos que se encuentran en toda la mitad de la alpujarra entre la gobernación y la alcaldía se debe a que no tenían ninguna coordenada entonces decidí ubicarlos allí para mostrar los defectos de la información.

Son muchas cosas las que podremos decir a partir de estos datos pero mi ejercicio en este momento no es analizarlos ni ofrecer una lectura de la violencia en Medellín ya que los datos son incompletos y para hacer tal lectura se requiere de información de todos los tipos de violencia. Sobre mi pregunta de lo que pasó en 2009 encontré un documento que recomiendo se lean a quien le interese este tema: https://www.medellin.gov.co/irj/go/km/docs/wpccontent/Sites/Subportal%20del%20Ciudadano/Convivencia%20y%20seguridad/Secciones/Plantillas%20Gen%C3%A9ricas/Documentos/2011/Segundo%20Semestre%202009.pdf
Allí se explica muy bien los fenómenos que hicieron que 2009 fuera uno de los años con mayor numero de homicidios en Medellín.

Lo colectivo, Lo comunitario, Lo abierto y Lo LIBRE

Hoy las palabras mencionadas en el titulo de este texto son comunes en muchos de los espacios culturales, sociales y políticos. Vemos a los falsos profetas como Uber o B&B que se paran en las ideas de lo “comunitario” y el trabajo colaborativo para montar un negocio con todas las dinámicas del mercado clásico, por muy bueno que sean esos servicios no es una relación entre pares la que se crea en este tipo de ejercicios, el nivel de relación en muchos de estos modelos sigue siendo desproporcionada y se convierte en la típica relación entre cliente y proveedor. En ese ejercicio no podemos catalogar los ejemplos anteriores como Libres en el sentido estricto de la palabra, son herramientas gratuitas que podemos usar, que prestan un buen servicio pero el valor social aportado no se puede medir en la cantidad de carrera realizadas o en la cantidad de gente que pago mas barato una habitación.

Cada que escucho o leo la palabra abierto y libre juntas en párrafos relacionadas con trabajo comunitario, recuerdo que a principios de los años noventa, un hacker llamado Richard Stallman – que trabajaba en el MIT, propuso un conjunto de cuatro libertades que fueron fundamentales para el desarrollo de software en una sociedad que empezaba a depender de la tecnología:

0. La libertad de ejecutar el programa, para cualquier propósito.
1. La libertad de estudiar cómo funciona el programa, y modificarlo para que haga lo que tu quieras.
2. La libertad de redistribuir copias para que puedas ayudar al prójimo.
3. La libertad de distribuir copias modificadas, dando a la comunidad una oportunidad de beneficiarse de los cambios que hiciste.

En la actualidad estas cuatro libertades pueden reescribirse de muchas maneras para que apliquen en todos los posibles aspectos del conocimiento. Y es necesario empezar a pensar en que es lo que mueve la economía en el mundo actual, desde el punto de vista de la tecnología en el siglo XX un factor importante de la economía estuvo marcada por el Software de ahí que Stallman formulara las cuatro libertades. El siglo XXI esta marcado por un negocio basado en los datos, los datos de las personas, los datos de las instituciones, los ejercicios comunitarios, los saberes populares, todo tipo de información en valuable en el sentido cualitativo y cuantitativo, creo que para la mayoría de las personas compartir los saberes es algo que se hace de manera natural, si me preguntan por la receta de unas pastas que hice no tengo problema en contarle al otro el procedimiento, escribirla y regalársela para que la reproduzca, de esta forma si lo miramos a la luz de las cuatro libertades mencionadas se conectan de una manera sencilla, así:

0. Puedes usar el conocimiento / información, dato que comparto, para cualquier propósito
1. Puedes estudiar el conocimiento / información, dato que comparto, y modificarlo para que haga lo que tu quieras. (Por ejemplo mejorar la receta y agregarle nuevos condimentos)
2. Puedes copiar el conocimiento / información, dato que comparto, para que puedas ayudar a otras personas, especialmente a los amigos.
3. Puedes distribuir copias modificadas de el conocimiento / información, dato que comparto, dando a la comunidad una oportunidad de beneficiarse de los cambios que hiciste.

Para que estas libertades sean funcionales para todas las personas la relación que se establezca debe ser entre pares, los involucrados en el proceso deben de estar de acuerdo en cumplir unas normas básicas que implican, respeto por las cuatro libertadas, reciprocidad todos podemos aportar de diferentes maneras, es muy importante estar conscientes de la diferencia y variedad de conocimientos en todo tipo de redes de personas, no abusar, y valorar el conocimiento local y comunitario de la misma forma como se valora el conocimiento académico y foráneo.

De esta forma cuando los colectivos que se comportan basándose en estos principios entran en relación con instituciones, el estado, corporaciones, empresas, se debe tener cuidado en como se genera la relación de pares entre este tipo de sector de la sociedad, en este caso en un primer momento sin dar mayores explicaciones las entidades deberían de aportar en valor económico el acceso al conocimiento que ofrecen los colectivos o ofrecer intercambios del mismo valor que fortalezcan la red, estableciendo desde un principio las condiciones de la relación que se va a establecer para evitar en un futuro malos entendidos por ejemplo:

1. Licencias, todo el conocimiento, documentos, material, fotos, vídeos, etc, que se genera de una relación entre una institución y un proyecto comunitario debe de tener una licencia abierta, de preferencia algo como Licencia de Producción de Pares (https://endefensadelsl.org/ppl_deed_es.html), también se pueden utilizar otras licencias en el caso de datos cartográficos, geoespaciales, información georeferenciada se puede utilizar la licencia que utiliza OpenStreetMap (http://opendatacommons.org/licenses/odbl/)

2. Evitar utilizar licencias Creative Commons que no sea Dominio Publico CC0 o CC-BY-SA 4.0 (http://creativecommons.org/licenses/by-sa/4.0/), en el caso de desarrollo de Software la licencia GPL v3 cumple un buen papel o la licencia MIT

3. Las políticas de manejo de datos personales deben estar establecidas desde el principio y de acuerdo a la ley.

4. Se deben revisar las políticas de seguridad de la información en el caso de manejar información sensible.

5. Las instituciones deberían esforzarse por reconocer el trabajo realizado el los territorios, no reinventar la rueda con cada ejercicio realizado cuando se invita a participar a la comunidad, la palabra participación que tiene un carácter pasivo debería de sustituirse por un concepto cercano a la construcción colectiva, de esta forma cuando las instituciones quieran hacer un ejercicio con la comunidad, esta debe estar involucrada en todo el proceso de creación del ejercicio, desde el planteamiento inicial, desde evaluar la pertinencia y las necesidades y con el propósito especifico de no repetir el trabajo ya realizado y que se actué con la buena fe de construir y no de desconocer a los otros y su trabajo.

Cuando se trata de sumar esfuerzos es necesario plantear desde unas reglas de juego claras que construyan de manera participativa un ejercicio sano para las diferentes actividades comunitarias que se realizan en las ciudades, es muy interesante que las instituciones se acerquen a construir con nosotros, pero pilas hay que acercarse no solo con buenas intenciones y trayendo talleristas de fuera, reconocer el conocimiento local es muy importante y es algo que ha faltando en las relaciones que normalmente se tejen entre instituciones y colectivos. Tener en cuenta la importancia y el valor actual de los datos, de las oportunidades que esto abre, de sus relaciones y lograr que los ejercicios de lo abierto estén mediados por la libertad y no por la gratuidad.