Por Thiago Ávila e
Judson Bandeira*
Conforme exploramos no artigo anterior, as perspectivas para a produção
de dados nos próximos cinco anos (2020) é animadora e desafiadora. Se por um
lado a oferta de dados digitais deverá crescer exponencialmente, por outro
lado, um percentual significativo destes dados podem não ser úteis para coisa
alguma.
As arquiteturas tradicionais para armazenamento de dados, especialmente
na era pré-internet, foram sendo estabelecidas para armazenar os dados, em
arquivos, isolados do mundo externo, caracterizando verdadeiras ilhas de dados
e informações. Decorrente deste modelo, inúmeros problemas surgiram, especialmente
a redundância de dados, que por sinal é um problema existente até os dias de
hoje. Ao longo dos anos, o armazenamento de dados evoluiu para a criação dos
bancos de dados, e posteriormente modelos de agrupamento como os sistemas de
bancos de dados distribuídos e as federações de bancos de dados[1].
Paralelamente, em meados de 1996, Tim Berners-Lee publicou o artigo “The World Wide Web: Past, Present and
Future [2] que definiu as diretrizes da Web, como ela devia ser na época e
como ela deveria ser no futuro. Já naquela época, há quase 20 anos, Berners-Lee
estabeleceu que a Web deveria ser um espaço de compartilhamento de informações
para que pessoas (e máquinas) possam se comunicar entre si. Complementarmente,
ele previu a existência da interação entre pessoas e hipertextos intuitivos e
legíveis por máquina.
Entretanto, a Web que conhecemos hoje foi se estruturando a partir do
hipertexto, conhecidas como páginas web, tendo como principal foco a
apresentação de informações. Apesar de Tim Berners-Lee ter previsto a leitura
dos dados por máquina, a Web atual é prioritariamente interpretada por humanos.
A partir da Web, inúmeras possibilidades de produção de informações
foram se desenvolvendo ao longo do tempo. Páginas HTML, sítios, portais,
conteúdo multimídia, arquivos diversos e mais recentemente com a “era social”,
os blogs, mídias sociais, dentre outros. Ou seja, a Web se tornou um espaço
global de informações que cresce a cada dia.
Com o volume de informações crescente, surgiram outros problemas
relevantes relacionados à busca e recuperação de informações. Rapidamente, a
capacidade humana de encontrar informações na Web ficou muito limitada
evidenciando a preocupação de que a localização e recuperação de dados na web
deveriam ser feita por máquinas, mas faltavam dados sobre as informações que
fossem entendidas por máquinas. Estes dados são conhecidos como metadados.
Ademais, a Web atual é sintática, cuja busca é feita prioritariamente por
palavras-chave num grande número de páginas obtendo baixa precisão. Além disso,
as páginas de integram e se “linkam” de forma pouco estruturada e de forma
manual.
Como resultado, nem todos os dados podem ser encontrados por meio dos
mecanismos de busca tradicional na web, muito menos é possível se especificar
consultas complexas sobre os dados que estejam presentes em várias páginas,
como por exemplo, “Qual o nome completo de todos os capitães dos times de
futebol vencedores de todas as Copas do Mundo?”. Ou seja, assim como no tempo
dos arquivos, os dados na Web ainda vivem isolados uns dos outros.
Felizmente, várias instituições e pesquisadores ao redor do mundo estão
muito atentos a este paradoxo, dentre elas e especialmente o W3C – World Wide Web Consortium. O W3C tem como missão liderar a WWW para o
uso máximo do seu potencial, desenvolvendo protocolos e guias que apoiem o
desenvolvimento da Web em larga escala. Sua visão para a Web envolve a
participação, compartilhamento de conhecimentos apoiando a construção de uma
confiança em escala global. Esta visão estabelece ainda a existência de uma única
Web (One Web), que adota princípios e
padrões abertos.
Não preciso explicar muito
sobre qual relação à Web tem a ver com a grande oferta de dados em escala
global, não é? Afinal, por onde trafegam a maioria destes bilhões e trilhões de
dados distribuídos mundialmente?
Buscando alcançar esta visão o W3C vem trabalhando fortemente na
construção de uma nova Web, que atenda aos princípios e padrões abertos e que
vá muito além da Web que conhecemos composta prioritariamente por arquivos e
páginas HTML. Esta nova Web, mais conectada e aberta está sendo denominada a “Web dos Dados”.
Na “Web dos Dados”, estipula-se que os dados passem a ser facilmente localizáveis
bem como sejam associados a elementos semânticos, como os vocabulários. Além
disso, os dados passam a serem entendidos como recursos de dados e para tal,
precisam de identificadores exclusivos que viabilizem o acesso específico para
cada recurso. E ainda, a forma como os dados passam a se relacionar entre si
muda dos tradicionais esquemas de tabelas e bancos de dados para um esquema de
sujeito-objeto-predicado, conhecido como tripla, dentre outros avanços.
Felizmente, apesar da problemática do artigo anterior, as perspectivas
podem ser promissoras considerando todo este maravilhoso trabalho que vem sendo
desenvolvido por inúmeros especialistas mundo a fora sob a coordenação do W3C.
Nos próximos artigos estaremos explorando ainda mais a Web dos Dados, buscando
entender como ela está sendo estruturada, os novos conceitos e aplicações
relevantes.
Até a próxima!!!
*
Estes artigos contam são oriundos de pesquisas científicas desenvolvidas
no Núcleo de Excelência em Tecnologias Sociais (NEES), do Instituto de
Computação da Universidade Federal de Alagoas (UFAL) e contam com a
contribuição direta dos pesquisadores Dr. Ig Ibert Bittencourt (UFAL), Dr.
Seiji Isotani (USP), e Armando Barbosa, Danila Oliveira, Judson Bandeira,
Thiago Ávila e Williams Alcântara (UFAL).
[1] Ribeiro, Danusa; Lóscio, Bernadette; Souza,
Damires (2011). Linked Data: da Web de Documentos para a Web de Dados. V
ERCEMAPI – Escola de Computação Ceará, Maranhão e Piaui. Disponível em: http://pt.slideshare.net/danusarbc/linked-data-da-web-de-documentos-para-a-web-de-dados-10057267
[2] Berners-Lee, Tim (1996). The World Wide Web: Past,
Present and Future. Disponível em: http://www.w3.org/People/Berners-Lee/1996/ppf.html
Comentários
Postar um comentário