Publicação de dados abertos: formatos de arquivo adequados e inadequados

PDF é um formato de arquivo inadequado para a publicação de dados tabulares e, consequentemente, de dados abertos.

Em contextos onde os dados a serem publicados são de natureza tabular (dados organizados em tabela), é comum que estejam armazenados numa base de dados e sejam facilmente transportados para algum arquivo adequado ao armazenamento de dados tabulares, como CSV. Isso, quando a fonte primária em que os dados estão armazenados já não são os próprios arquivos, usualmente planilhas eletrônicas em formatos como ODS (não-proprietário) ou XLS (proprietário).

O caminho mais curto entre dois pontos: CSV

Para órgãos que desejam publicar dados tabulares, apesar de ser mais fácil fazê-lo em arquivos cujos formatos permitam ao usuário analisar, cruzar e reutilizar livremente estes dados, não são raros os casos em que dados tabulares são publicados em formatos de arquivo inadequados, como é o caso, tipicamente, dos arquivos em formato PDF. Da mesma forma, é inadequada a publicação de dados tabulares em arquivos no formato DOC, JPG, PPT, etc. Cada formato de arquivo tem uma função:

  • PDF, para representação de documentos que deverão ser visualizados graficamente ou impressos de maneira padronizada.
  • DOC, para documentos de processamento de texto.
  • JPG, para compressão de imagens fotográficas.
  • PPT, para arquivos de apresentações (slides).
  • ODS e XLS, para planilhas eletrônicas voltadas à realização de cálculos ou à apresentação de dados.
  • CSV, para publicação de dados tabulares em formato aberto (dados abertos).

Dados abertos: dados tabulares apresentados em formato aberto

Um primeiro aspecto a ser considerado está no fato de que é mais fácil publicar dados tabulares em formatos de arquivo adequados para este propósito: preferencialmente CSV, mas aceitavelmente em ODS que é um formato de arquivo para planilhas eletrônicas não-proprietário ou, toleravelmente, em XLS, que também é um formato de arquivo para planilhas eletrônicas, mas proprietário. De todo modo, se o órgão possui barreiras culturais ou tecnológicas que dificultam a publicação de dados tabulares sob sua guarda em formato aberto (dados abertos), planilhas eletrônicas podem servir à função de publicar dados tabulares, ainda que não em formato de dados (tabulares) abertos.

Além disso, quando o órgão já tem clareza de que o solicitante deseja dados abertos, exportar dados tabulares para arquivos inadequados não apenas desperdiça recursos públicos (tempo, dinheiro, pessoal) ao exigir uma etapa a mais de trabalho inútil, como efetivamente prejudica a qualidade dos dados ao invés de agregar-lhes valor.

Integridade dos dados publicados

Um segundo aspecto relevante diz respeito à crença de que manter os dados encapsulados num arquivo PDF é o que garante sua integridade contra adulterações: nada mais equivocado. Arquivos PDF são facilmente editáveis. Não é o formato do arquivo o que garante sua integridade, mas sim a aplicação de algoritmos de verificação como MD5 e SHA-3, os quais geram resumos criptográficos capazes de identificar um arquivo unicamente, como uma “impressão digital”.

Um órgão que esteja preocupado em garantir a integridade do arquivo publicado pode aplicar-lhe um desses algoritmos, por meio de softwares como o md5sum, e informar seu resumo criptográfico na própria resposta. Este é um exemplo de resumo criptográfico: “2a4afef31a65ec0cf97eac8d0c4307af”.

Conclusão: não complique (em PDF), publique (em CSV)!

Assim, quando uma solicitação de informação pública demanda a publicação em formato de dados abertos, é importante que o órgão nunca empacote a tabela e seus respectivos dados num arquivo em formato PDF, mas sim em um arquivo cujo formato seja adequado para a publicação de dados abertos: preferencialmente CSV, aceitavelmente ODS, e toleravelmente XLS. Arquivos no formato CSV são os mais simples de ser produzidos e os mais recomendados para a publicação de dados abertos por órgãos que ainda tenham pouco conhecimento acumulado sobre o assunto. Órgãos mais desenvolvidos podem publicar dados abertos, além de em CSV, também em RDF.

PDF é um formato de arquivo inadequado para a publicação de dados tabulares e, consequentemente, de dados abertos. Para atender ao conceito de dados abertos, os dados devem ser publicados em formatos de arquivo adequados para este propósito, jamais em PDF.

Mais informações sobre dados abertos estão disponíveis no artigo Maturidade em Dados Abertos: Entenda as 5 Estrelas, publicado pela OKFN Brasil – Rede pelo Conhecimento Livre.

Tags: ,

Deixe uma resposta