Formação
Help Desk
Dicas do NICAR 2018 - Workshops
O coordenador de cursos e projetos da Abraji, Tiago Mali, participou, no começo de março, da edição de 2018 do NICAR, principal evento de jornalismo de dados do mundo. Organizado pelo IRE (Investigative Reporters and Editors) – entidade que inspirou a criação da Abraji –, o evento ocorreu em Chicago entre 8 e 11 de março.
Tal como em 2017, Mali reuniu o que viu de melhor em dois e-mails enviados para a lista de associados da Abraji. O conteúdo é dividido em 5 tópicos: reportagens; os seres humanos por trás dos dados; as máquinas que fazem jornalismo e anti-jornalismo; workshops; e ferramentas.
Abaixo, uma adaptação do texto do coordenador da Abraji sobre workshops que merecem destaque.
Fuzzy - Matching – Cruzar dados quando os nomes escritos em duas bases são diferentes
Utilizando algoritmos eficientes/machine learning, esta ferramenta resolve um problema recorrente para jornalistas de dados: cruzar bases por nome de pessoas/companhia e sem ter o CNPJ ou o CPF. A técnica consegue identificar que “Mr. Tiago Mali", “Tiago Mali” “Tiago V. Mali” e “Thiago Mali” são provavelmente a mesma pessoa. A apresentação de slides explica como ela funciona, e o repositório mostra como baixar a ferramenta no computador.
Visidata
Uma opção para uma primeira análise de dados exploratória, segundo Mali. “Se torna muito rápido saber se tem ou não notícia ali dentro”, diz. Embora a ferramenta possa parecer um pouco “tosca” ao abri-la, é extremamente eficiente. “Com poucos toques no teclado, você consegue enxergar a distribuição de dados numa coluna, fazer agrupamentos, tirar médias, medianas e procurar padrões estranhos na tabela ou no arquivo .json”, explica o coordenador de cursos da Abraji.
Imagens com alta definição de satélites
Este tutorial é especialmente útil para reportagens visuais: mostra passo a passo como conseguir imagens do satélite Landsat e transformá-las em material útil para o jornalismo. É possível mostrar mudanças climáticas, secamento de represas, ou o que companhias de exploração de minério/petróleo fazem ao meio ambiente com o passar do tempo. Segundo Mali, o tutorial mostra três maneiras de conseguir esse resultado. “A mais rápida (depois de instalar a ferramenta na máquina) envolve duas linhas de comando do terminal. Parece complicado no início, especialmente porque você tem de aplicar um código que nunca viu na vida, mas seguindo as instruções, sai direitinho”, diz.
Arrancar dados de PDF
Nesta apresentação do NICAR há várias ferramentas para extrair dados de arquivos em PDF. Algumas delas já são conhecidas, como o tabula, mas muitas apresentam problemas dependendo do tipo de arquivo. Há ferramentas pagas, como o ABBYY finereader.
Introdução ao Machine Learning
Este repositório trata de um dos temas mais debatidos nesta edição do NICAR: o machine learning. Para Mali, esse é “um dos caminhos no futuro do jornalismo”, inclusive na formulação de fake news.
Mining the Social Web
Em sua apresentação, Lam Thuy Vo, repórter de dados do BuzzFeed News, tenta descomplicar a mineração de dados de redes sociais via APIs. Para fazer isso, ela criou modelos de scripts de Python que já estão prontos para extrair determinados tipos de informações. No repositório também há outras formas de minerar dados de redes sociais.
Raspar dados sem programação
Esta apresentação, que ocorreu também no ano passado, é útil para quem objetiva extrair dados de sites sem escrever muitos códigos. Entre os destaques de Mali em relação a edição deste ano, está este dicionário de HTML.
Ferramentas do Google úteis para jornalistas
Nesta apresentação, Marco Túlio, coordenador do Google News Lab no Brasil traz um panorama das ferramentas da empresa de tecnologia úteis para jornalistas. Mali destaca três: Google Cloud Data Prep e Open Refine, que são “as melhores maneiras de lidar com bases de dados desorganizadas” e o comando importxml do Google Sheets, que simplifica alguns tipos de raspagem de dados.
R
O programador Hadley Wickham deu uma oficina paga durante a conferência, focada em explorar as ferramentas do tidyverse, set de bibliotecas que, segundo Mali, “deixa a linguagem de programação do R bem mais acessível e eficiente”. Os arquivos do curso estão disponíveis neste github. O curso é especialmente útil para quem está começando a mexer em R. Há um outro repositório para quem quer aprender raspagem em R aqui, e esta apresentação é útil para quem quer se aprofundar em conceitos estatísticos, como regressão linear.
Python
O My First Python Notebook, do jornalista Ben Welsh, é útil para quem se interessa por Python. “Fiz ele no ano passado e foi excelente: bem direto ao ponto da análise de dados. O tutorial on-line do link é tão bom quanto/melhor que a sessão presencial de um dia inteiro”, aponta Mali. Há o material de um curso da linguagem para iniciantes aqui e o link para um workshop de Python mais avançado aqui.
GitHub e Javascript
Aqui, uma apresentação sobre como jornalistas usam o GitHub. Neste link, material de um curso sobre javascript.
Visualização de Dados
Para quem tem interesse em aprender a criar gráficos a partir da biblioteca D3, há este tutorial bastante introdutório. Para quem que já tem conhecimentos da linguagem e pretende avançar, há este workshop.
Há também a apresentação de Alberto Cairo sobre visualização de dados: Todos os gráficos mentem. Alguns, mentem mais do que outros.
Foto: Marco Túlio no 12º Congresso da Abraji. Por Alice Vergueiro
Tiago Mali, coordenador de cursos da Abraji, viajou à Florida para participar do Nicar em março de 2018. Todas as suas despesas foram cobertas com recursos da própria Abraji.