Formação

Acesso à Informação

Help Desk

Manual del CruzaGrafos

Manual del CruzaGrafos

En matemáticas, la teoría de grafos te permite encontrar las relaciones entre objetos en un conjunto dado. En este caso, las conexiones entre vértices y aristas que muestran los grafos se pueden utilizar para investigar grandes bases de datos de forma visual e interactiva. Así, es posible establecer el vínculo entre empresas, políticos, pagos, obras públicas, entre otros datos. Esta web se puede explorar y visualizar con ayuda de grafos.

La teoría matemática de grafos ya se usa en computación en muchas situaciones, como para averiguar cuáles son las relaciones directas que tiene un objeto, cuáles son las posibles trayectorias entre dos o más objetos, o qué objeto está más conectado (que tiene más relaciones).

Turicas, el programador Bernardo Fontes y su equipo utilizaron lenguajes de programación como Python, CSS, JavaScript, HTML, Shell y PLpgSQL para traducir esto en cruces y visualizaciones interactivas de grandes bases de datos del IRS y del Tribunal Superior Electoral.

Por el momento, por ejemplo, CruzaGrafos ya tiene 29,4 millones de registros, de los cuales hay 20 millones de personas y 9 millones de empresas. Y en los grafos podemos ver la proximidad y las relaciones sociales de toda esta información.

Grafos ganó mucha visibilidad con Panama Papers, un trabajo de 2016 del Consorcio Internacional de Periodistas de Investigación. Entre las tecnologías utilizadas se encuentran los sistemas de gestión de bases de datos en Neo4J y grafos Linkurious para la búsqueda y visualización de datos.


Trabajos de limpieza y análisis

El equipo del proyecto CruzaGrafos realiza análisis de datos exploratorios en bases de datos de interés público en Brasil. El trabajo se realizó a través de una investigación sobre portales de acceso a datos abiertos en Brasil, conversaciones con expertos y un estudio de la información que dejó el periodista Claudio Weber Abramo.

Catalogamos estos datos, sus características, filas y columnas, y también estudiamos su viabilidad de uso con el software Metabase. También se estudiaron los portales de datos públicos y las API que pueden facilitar la actualización de la información del proyecto.


Presentación y ejemplos de uso de CruzaGrafo en el 2do. Domingo de Datos de Abraji en septiembre de 2020

Estos estudios fueron importantes para saber qué bases de datos necesitarían limpieza de información, qué información son nombres de personas o empresas, qué información son identificaciones, qué información se puede usar como claves cruzadas entre diferentes bases de datos, qué bases de datos son de interés público real o pueden ser explorados en las otras fases del proyecto, entre otros factores.

Actualmente, CruzaGrafos cuenta con datos de candidatura electoral recolectados en la Corte Superior Electoral, con información general como año de elección, cargo, nombre completo, nombre de urna, número secuencial en la elección, partido político, unidad electoral, unidad federativa y CPF completo del candidato.

Y también datos de la Hacienda Federal de Brasil sobre empresas con QSA (Socios y Administradores), con información como nombre comercial, razón social, nombres completos de socios, CNPJ (ID que identifica a empresas en Brasil) y CPF (ID que identifica a personas en el Brasil) "enmascarado" por los socios: el IRS y otras instituciones públicas no publican todo el contenido del CPF de 11 dígitos, pero sí ponen asteriscos en algunos números, como en este ejemplo: ***. 270.068 - **.

Las conexiones de la plataforma y los grafos se generan cruzando las claves de identificación principales, en este caso, CPF, CNPJ y nombre completo.

Estas bases de datos son actualizadas periódicamente por organismos públicos y también se actualizarán en CruzaGrafos. El proyecto también incluirá otras bases de datos de interés público y periodístico a lo largo de los meses.


Construcción colectiva

A mediados de 2020, el proyecto también envió invitaciones a más de 40 periodistas de Brasil y América Latina, con o sin experiencia en análisis de datos. A partir de ahí, estas pruebas y críticas se hicieron con ajustes y mejoras.

En octubre, 80 periodistas que participaron en el curso “Periodismo, Covid-19 y Corrupción” promovido por Abraji y Transparencia Internacional Brasil, con el apoyo de la Fundación Konrad Adenauer, también tuvo acceso a CruzaGrafos. Los profesionales pudieron aprender técnicas prácticas y expresar sus opiniones.
 
“No existen bases de datos perfectas o es raro encontrar una fuente completa de información sobre una persona o empresa de interés público. Entonces lo que hemos construido con CruzaGrafo es una gran posibilidad de encontrar pautas e información relevante, pero eso debe ser complementado con chequeos y más verificación ”, advierte Reinaldo Chaves.


Mira lo que puedes hacer

  • Buscar todas las empresas vinculadas a un político / candidato a un cargo público en el que sea socio o administrador;
  • En estas empresas ver quiénes son los otros socios;
  • Comprobar también la red de proximidad de estos socios, es decir, de qué otras empresas son socios y los demás socios respectivos, en diferentes grados de proximidad;
  • Averiguar si el camino que separa a una persona / empresa de otra persona / empresa es corto o si realmente existe;
  • Tener de antemano la lista de familiares o asesores de políticos o personas de interés público, averiguar si tienen empresas (una táctica que podría usarse para encubrir activos, por ejemplo);
  • Comprobar si un político o candidato en las elecciones tiene empresas en sectores económicos que puedan entrar en conflicto con su cargo público;
  • Saber si un político / candidato o persona de interés público tiene varias empresas en su nombre en la misma industria y / o con nombres similares (táctica que podría usarse para lavar dinero, por ejemplo).

Y con este tipo de información, continúe investigando cuestiones como:

  • Recopilar información adicional de la Hacienda Federal, utilizando el número CNPJ, como la dirección de la empresa y el valor de su capital social. Esta información puede mostrar signos de discrepancia, por ejemplo, si gana una gran oferta. En Google Street View también puedes buscar si hay una imagen reciente de la empresa para ver su fachada y barrio;
  • En los tribunales o en el proyecto Publique-se, desarrollado por Abraji, para comprobar si existen procesos judiciales que citan a personas o empresas
  • Comprobar si las empresas de interés tienen licitaciones, convenios y contratos cotizados en los portales de transparencia federal, estatal o municipal
  • Hacer una búsqueda en los registros para averiguar si las personas encontradas tienen propiedades y dónde
  • Averiguar si las empresas de interés tienen deudas activas o están en el registro de sanciones ambientales o derechos laborales


Imagen que muestra la conexión de un exdiputado federal recientemente condenado, Anibal Ferreira Gomes (CE), y su exasesor parlamentario, a través de varias sociedades.

Y hoy también ponemos al aire gratuitamente el contenido del curso “Periodismo, Covid-19 y Corrupción”, que muestra todas estas técnicas y otras de uso de CruzaGrafos (en este enlace). Cada video también tiene en su descripción una carpeta con más materiales de lectura y paso a paso que estudian casos recientes en investigación en Brasil de personas y empresas públicas. Aquí y aquí hay dos enlaces directos a estudios de casos.

"No hay valoración de mérito del contenido de las bases de datos por parte de CruzaGrafos, Abraji, Brasil.IO o los profesionales relacionados con este proyecto. La evidencia de conducta ilícita debe ser cotejada con fuentes y más información y el hecho de que cualquier persona ser investigada no significa que sea culpable. Hay que comprobar todos los datos, incluso con los políticos y las empresas citadas. Siempre hay que tener cuidado con las personas y empresas con el mismo nombre ”, dice Chaves.

Innovaciones para trabajar

Durante el desarrollo del proyecto surgieron muchos problemas. Catalogar, limpiar y publicar grandes bases de datos públicas, que en Brasil suelen estar dispersas y publicadas en formatos de difícil análisis o con grandes cantidades de información, requirió mucho esfuerzo y creación de soluciones.

Era necesario crear un centralizador de entidades, que permitiría la búsqueda de nombres, empresas, municipios, hospitales, contratos, etc., y nos diese el identificador universal único (UUID). Las entidades pueden ser: empresas, personas, aplicaciones, etc. La falta de un UUID trae problemas como la necesidad de filtrar varios campos al mismo tiempo (que cambian de un conjunto de datos a otro), dificultad para buscar en más de un conjunto de datos, dificultad para generar ID fuera de línea para consultas externas, entre otros.

El backend del grafo creado es el "corazón" del software, que se conecta al sistema anterior para buscar y gestionar consultas en la base de datos de grafos, API, etc. y la propia herramienta en funcionamiento crea el "pegamento" de todo y es la parte más específica. Entonces tenemos la integración con la autenticación del sistema de membresía Abraji, en el cual tenemos los scripts que alimentan los dos sistemas anteriores y la interfaz a la que accede el usuario.

En cuanto al procesamiento de datos, también fue necesario crear soluciones actuales y otras aún en finalización, por ejemplo:
Para información sobre miembros de empresas brasileñas, CNPJs brasileños — código único de identificación de empresa en Brasil —, actividades corporativas del CNPJ, candidaturas políticas, donaciones políticas, contratos de salud, entre otras bases principales a ser seleccionadas para el lanzamiento y para el próximos meses.

Se implementó la funcionalidad Nodos vecinos expandidos y Nodos vecinos expandidos hasta 2 grados. Esto le permite expandir rápidamente la visualización de grafos de conexión entre personas y empresas, revelando así los grados de conexión cercanos.

También se realizó la funcionalidad Guardar Grafo, que será muy útil durante las pruebas y para que los usuarios guarden y regresen a una investigación. Quienes acceden a la herramienta también pueden hacer clic en Exportar CSV para transformar el grafo que se muestra en la pantalla en un formato de hoja de cálculo.

También creamos una solución para calcular la "ruta entre objetos", que calcula la ruta más corta entre dos personas/ empresas y se muestra en el grafo.

Y agregamos una funcionalidad que no estaba inicialmente planeada, pero que ayudará mucho en usabilidad, luego de pruebas que hicimos internamente: navegar por el historial de los objetos (personas y empresas) investigados.


Próximos pasos y apertura para no miembros

Las actualizaciones de las bases del Tribunal Superior Electoral y del Servicio de Impuestos Internos de Brasil se publicarán periódicamente en la plataforma, incluidos los datos de las Elecciones de 2020. También se incluirán nuevas bases de datos y los usuarios serán informados en la propia plataforma y en la comunicación de nuestro proyecto.

Todos los pasos descritos para obtener los datos, las comprobaciones y el código fuente de la plataforma también estarán disponibles próximamente en GitHub. Si ha identificado un error o tiene alguna sugerencia, le pedimos que se comunique con nosotros en [email protected].

Los no miembros de Abraji también pueden acceder a CruzaGrafos a partir del 12 de noviembre. Estas personas deberán registrarse en la página web del proyecto a partir de ese día, pero solo se permitirá el acceso a personas o instituciones sin vinculación profesional con partidos políticos, con cualquier órgano de los poderes Ejecutivo, Legislativo y Judicial o con entidades que promuevan lobby de negocios.

Recibirán acceso gratuito durante 30 días y luego deberán pagar una tarifa de suscripción de R$ 30 por mês (US$ 5.2). Las empresas que deseen suscribirse al servicio para grupos de empleados deben ponerse en contacto con Abraji y solicitar un presupuesto.

Assinatura Abraji
Notas

Por Reinaldo Chaves