segunda-feira, 10 de abril de 2017

Dados Conectados

Vamos começar este artigo analisando a figura 01, extraída do site DataPortals.org [1], que mostra a ocorrência de catálogos de dados abertos no mundo:

Figura 01 – Distribuição dos catálogos de dados abertos governamentais no mundo [1]


Hummm ... 200 catálogos na Europa, 140 na América do Norte, 22 na América do Sul, 23 na África, 21 na Ásia e 15 na Oceania. Tudo bem. E como fazer para responder algumas questões relevantes como:

  • Quais os dados disponíveis sobre ocorrência de doenças no hemisfério sul ?
  • Ou ainda, quais as ocorrências de determinado tipo de crime nestes países ?
  • Quantas escolas foram abertas desde 2008 em cada país que possua um catálogo de dados ?

Como se tratam de catálogos de dados abertos, provavelmente, para tentar responder a pelo menos uma destas perguntas será preciso acessar os 424 catálogos, buscar em cada um deles o dado desejado, fazer o download de cada conjunto de dado, padronizar o formato de dados, metadados, levar para uma ferramenta de extração, tratamento de carga de dados (ETL), construir uma consulta para depois ter um resultado. Muito esforço, não ? E deixando a coisa um pouco mais complexa, se a licença de uso de um conjunto de dados impedir que este dado seja cruzado com outro dado, ou ainda, se o formato disponibilizado seja proprietário ou um formato de baixa qualidade, como o PDF? Provavelmente você ficará sem responder as suas perguntas.

A web que conhecemos atualmente é a web dos documentos, onde são priorizados e disponibilizados páginas HTML, arquivos de diversos formatos, como planilhas, documentos de texto, mapas, coordenadas geográficas, animações, conteúdo multimídia, etc. Acontece que os dados, mesmo que estejam disponíveis em formatos abertos, para serem acessíveis primeiro é preciso encontrar o arquivo que armazena os dados, para ai sim, acessar cada dado, pois, em sua maioria são formatos não estruturados e são adequados para facilitar o acesso e leitura para humanos e não são compreensíveis por máquina [2].

Considerando situações corriqueiras como esta, o World Wide Web Consortium - W3C tem desenvolvido muitos esforços para não apenas estabelecer os padrões da internet global, mas ultimamente, para a oferta de dados na Web, como já apresentamos no post anterior.

E como seria se pudéssemos acessar diretamente os dados disponíveis na web, mediante consultas a servidores de dados? Consultas que acessem dados de diversas origens, espalhados ao longo do mundo e ainda, obtendo não apenas os dados, mas a semântica relacionada a eles.  Buscando construir esta web dos dados que, dentre outras muitas coisas, resolvem aos problemas corriqueiros do inicio do artigo que, ao longo destes esforços e pesquisas desenvolvidas pelo W3C, Tim Berners-Lee (ele mesmo, o mesmo cara que inventou a Web) propôs um conceito muito promissor que são os Dados Conectados, do termo em inglês, Linked Data [3].

Em definição, Linked Data se resume ao conjunto de boas práticas para a publicação de dados na web. Linked Data define princípios para a publicação e consumo dos dados e os classificam de acordo com sua disponibilidade, acesso, estruturação e conexão [2].
   
Assim como a web do hipertexto, a web dos dados é construída a partir de documentos na web, porém, diferentemente da web do hipertexto, onde os links são âncoras que relacionam uma página web a outra (ou a um arquivo), na web dos dados, os links são apontados para os dados que são descritos por um framework de recursos, conhecido como RDF (Resource Description Framework). Além disso, cada dado é identificado por um identificador universal - URI (Universal Resource Identifier) e ainda, podem ser acessados mediante uma linguagem de consulta que é o SPARQL (SPARQL Protocol and RDF Query Language).

   Para um dado ser conectado, ele precisa obedecer aos quatro princípios para publicação [4]:

1. Use URIs para definir coisas;
2. Use HTTP URIs para que os dados possam ser encontrados por humanos e agentes na web;
3. Quando um dado for solicitado através de HTTP URIs, fornecer todas as informações sobre o mesmo, em um formato de dados estruturados utilizando padrões como RDF e SPARQL;
4. Incluir links para outras fontes de dados relacionados (usando URIs) para que seja possível obter mais informações.

A partir do conceito de Dados Conectados, algumas nações globais já estão considerando este novo paradigma e incentivando a sua produção e oferta. Países como o Reino Unido e os Estados Unidos da América já possuem uma boa oferta de dados em formato RDF nos seus catálogos de dados governamentais. Além disso, grandes projetos em escala global tem crescido a cada ano, como a DBPedia[5], que é a base de dados conectada a partir da Wikipedia ou a LODSpringer[6], que visa ofertar dados conectados sobre artigos, periódicos e conferências científicas editorados pela Springer.
   
Enfim, sobre o Reino Unido já é possível responder a terceira pergunta do início deste artigo “Quantas escolas foram abertas desde 2008 em cada país que possua um catálogo de dados ?”. Basta executar a seguinte consulta SPARQL abaixo:

PREFIX sch-ont: <http://education.data.gov.uk/ontology/school#>
PREFIX xsd: <
http://www.w3.org/2001/XMLSchema#>
SELECT ?school ?name ?date ?easting ?northing WHERE {
?school a sch-ont:School; sch-ont:establishmentName ?name;
sch-ont:openDate ?date ;
sch-ont:easting ?easting ;
sch-ont:northing ?northing .
FILTER (?date > "2008-01-01"^^xsd:date && ?date < "2009-01-01"^^xsd:date)
}

Nos próximos artigos continuaremos apresentando o potencial, casos de uso, vantagens, limitações e muito mais sobre o universo dos Dados Conectados.
  
Até a próxima!!!

* Estes artigos são oriundos de pesquisas científicas desenvolvidas no Núcleo de Excelência em Tecnologias Sociais (NEES), do Instituto de Computação da Universidade Federal de Alagoas (UFAL) e contam com a contribuição direta dos pesquisadores Dr. Ig Ibert Bittencourt (UFAL), Dr. Seiji Isotani (USP), e Armando Barbosa, Danila Oliveira, Judson Bandeira, Thiago Ávila e Williams Alcântara (UFAL).

[1] DataPortals. (2015). A Comprehensive List of Open Data Portals from Around the World. Open Knowledge Foundation.
Acesso em: jul. 2015. Disponível em: http://www.dataportals.org
[2] Bandeira, Judson; Alcantara; Williams;  Barbosa, Armando; Ávila, Thiago; Oliveira, Danila; Bittencourt, I. & Isotani, S. (2014). Dados Abertos Conectados. Jornada de Atualização em Tecnologia da Informação. Anais do III Simpósio Brasileiro de Tecnologia da Informação - SBTI 2014.
[3]Berners-Lee, Tim (2006). Linked Data. W3C. Acesso em: jul. 2015. Disponível em: http://www.w3.org/DesignIssues/LinkedData.html
[4] Bizer, Christian; Heath, Tom; Berners-Lee, Tim (2009). Linked data – the story so far. International Journal On Semantic Web And Information Systems, v. 5, n. 3, p. 1-22.
[5] DBPedia – http://www.dbpedia.org


Nenhum comentário :

Postar um comentário