Abraji disponibiliza milhares de documentos de interesse público em ferramenta de pesquisa do Google
  • 23.08
  • 2021
  • 13:00
  • Eduardo Goulart de Andrade

Formação

Acesso à Informação

Abraji disponibiliza milhares de documentos de interesse público em ferramenta de pesquisa do Google

Pesquisar e analisar PDFs, imagens com texto, documentos escritos à mão e até áudios em português de um jeito fácil e rápido é a promessa do Pinpoint, nova ferramenta do Google. A Abraji será a curadora do projeto no Brasil, disponibilizando duas grandes coleções de documentos de interesse público na plataforma. O acesso à plataforma desenvolvida para jornalistas é gratuito.

As duas primeiras coleções oriundas dessa parceria tecnológica trazem documentos da CPI da Pandemia e do inquérito 4.828, que investiga manifestações antidemocráticas. Além de facilitar o acesso a essas informações, a ideia é também permitir que os jornalistas possam usar todas as funcionalidades da ferramenta.

O Pinpoint utiliza o mesmo motor de inteligência artificial da busca do Google para identificar automaticamente nomes de pessoas, locais e até empresas mencionadas nos documentos e nos áudios. Com isso, profissionais de imprensa podem ganhar tempo e eficiência.

Acesse aqui a coleção sobre a CPI da Pandemia

Acesse aqui a coleção sobre o inquérito dos atos antidemocráticos

A coleção da CPI da Covid exemplifica como o Pinpoint pode facilitar uma cobertura.

A comissão do Senado tornou público milhares de arquivos relacionados à investigação da pandemia. E, talvez, a principal dificuldade dos jornalistas seja encontrar informações relevantes em meio a dezenas de milhares de páginas.

Para conhecer todos os documentos que trazem informações sobre o ex-ministro da Saúde Eduardo Pazuello, por exemplo, basta digitar o nome dele na caixa de buscas do Pinpoint. Ou seja, em fração de segundos a ferramenta do Google retira uma agulha do palheiro.

Na tela do Pinpoint, também é possível filtrar os documentos em um menu, ao lado direito, por nomes de pessoas, empresas e instituições, além de localizações geográficas (cidades, UFs, nomes de rodovias, CEPs etc.). E ainda dá para combinar esses filtros. Depois, ao clicar no documento, o programa abre o arquivo com a informação filtrada em destaque.

Nos documentos da CPI, há ainda vídeos que os senadores receberam. O Pinpoint ainda não é compatível com esse tipo de arquivo, mas a Abraji enviou somente os áudios (MP3) desses materiais. Com isso, a ferramenta transcreve automaticamente as gravações. E o melhor: você pode pesquisar por palavra-chave.

Até 18 de agosto, a comissão já havia recebido 2.187 conjuntos de documentos – sendo que muitos deles têm mais do que apenas um arquivo dentro dos links. É importante frisar que nem todos estarão na coleção da Abraji. Primeiro, porque ainda não subimos todos os arquivos disponíveis. Segundo, porque vários documentos são sigilosos – por envolverem a quebra de sigilo telefônico e bancário de investigados, por exemplo. Por fim, porque nem todos os arquivos são legíveis pelo Pinpoint.

A coleção com documentos sobre a CPI da Pandemia conta, no total, com mais de 2.900 arquivos únicos no Pinpoint da Abraji.


Tecnologia usada para reconhecimento

A ferramenta do Google utiliza uma tecnologia chamada OCR (um acrônimo em inglês para Reconhecimento Ótico de Caracteres), que permite a pesquisa por palavra-chave nos seguintes tipos de arquivo:

  • PDF
  • E-mails (.EML) e arquivos de e-mails (.MBOX)
  • Imagens (.JPEG, .PNG, .GIF, .BMP, .TIFF)
  • Texto (.TXT, .RTF)
  • Texto estruturado (.CSV, .XML, .TSV)
  • Word (.DOC, .DOCX)
  • Excel (.XLS, .XLSX)
  • PowerPoint (.PPT, .PPTX)
  • Páginas da web (.HTML)
  • Áudio (.MP3, .MP4, .M4A, .WAV, .FLAC, .WMA, .AAC, .RA, .RAM, .AIF, .AIFF)

Alguns desses arquivos, como os de imagem e áudio, são convertidos automaticamente em PDF. Embora o Pinpoint possibilite a pesquisa em planilhas (CSV, XLS etc.), não é possível visualizar o conteúdo desses arquivos dentro da ferramenta. Por isso, é preciso abri-los fora da plataforma.

A CPI foi instalada em 27 de abril, com prazo de três meses de funcionamento. No entanto, foi prorrogada por mais 90 dias. Com isso, os trabalhos devem seguir até o começo de novembro. Dessa maneira, esta coleção da Abraji estará em constante atualização. Até junho, a comissão já havia recebido cerca de 1,5 terabytes de arquivos, o que mostra a dificuldade de analisar todas essas informações rapidamente.

Como agilizar suas buscas

Assim como o Google, o Pinpoint também possibilita o uso de operadores de busca avançada. Por exemplo, você pode usar aspas para pesquisar um termo exato: "tratamento precoce". Caso esteja buscando por documentos que contenham simultaneamente mais de um termo, use o operador AND (cloroquina AND azitromicina, por exemplo). Para pesquisas em documentos que contenham uma ou outra palavra-chave, o caminho é utilizar OR. Por exemplo: Mandetta OR Pazuello. Detalhe importante: utilize AND e OR em letras maiúsculas. E use o símbolo de menos para excluir palavras de uma pesquisa: Covaxin -Precisa. Esta pesquisa serve para encontrar todos os documentos que façam menção à vacina indiana, sem constar a empresa que estava intermediando a venda do imunizante, por exemplo.          

A outra coleção que a Abraji disponibilizou agora é a do inquérito 4.828, que apurava manifestações que defendiam o fechamento do Congresso e do STF. Os alvos da investigação eram parlamentares e ativistas bolsonaristas.

O inquérito foi aberto no ano passado, a partir de ​​pedido da Procuradoria-Geral da República (PGR). O caso estava em segredo de justiça, mas o ministro Alexandre de Moraes retirou o sigilo dos documentos em junho passado, depois que a PGR pediu o arquivamento da investigação. Recentemente, um outro inquérito foi aberto, e Moraes decretou a prisão preventiva do ex-deputado Roberto Jefferson. Aqui é possível ver as movimentações do processo.

O Google ainda conta com parceiros para curadoria do Pinpoint em outros países. The Washington Post, Big Local News e DocumentCloud também são curadores do projeto. E várias redações ao redor do mundo já usam a ferramenta. Inclusive, o norte-americano The Boston Globe recentemente foi premiado com um Pulitzer em reportagem que se valeu do Pinpoint durante a investigação.

Mensalmente a equipe da Abraji vai divulgar duas novas coleções de arquivos de interesse público no Pinpoint da Abraji. Acompanhe nosso site e redes sociais para mais informações. 

A Abraji esclarece que não há nenhuma avaliação de mérito nas informações contidas nas coleções que disponibiliza. As  informações são de assuntos de interesse público e jornalístico e são apenas o ponto de partida de uma investigação jornalística. Indícios de condutas ilícitas devem ser verificados com fontes e mais dados e o fato de qualquer pessoa ser investigada não significa que ela é culpada.

Todos os dados devem ser checados, inclusive com os políticos e empresas citados. Sempre deve-se ter cuidado com pessoas e empresas homônimas. A Abraji não se responsabiliza pelos defeitos ou vícios que possam existir nas fontes de dados públicas usadas para criar as coleções no Pinpoint.

Dúvidas e sugestões sobre o projeto escreva para: [email protected]

Foto de capa: Volodymyr Hryshchenko/Unsplash

Assinatura Abraji