Duas notícias chamaram minha atenção esta semana. Uma fundação portuguesa está guardando todo e qualquer conteúdo publicado sob domínios .pt. Seria mais ou menos se guardássemos todos os sites .com.br em servidores. O arquivo português já tem mais de 15 terabytes, e, imagino eu, não para de crescer.

A notícia foi destaque de alguns sites no começo desta semana. Dá pra ler uma entrevista com o coordenador do projeto no Link e conhecer o site do Arquivo da Web Portuguesa aqui.

Ai que burro! Dá zero pra ele!, diria o Chaves. Que ideia furada guardar o conteúdo da internet!!! Tinha que ser português mesmo…

Pois saiba que a Biblioteca do Congresso Americano, talvez a mais importante do mundo, tem um projeto de arquivo de TODOS os tweets já feitos desde o começo do serviço, em 21 de março de 2006. E olha que o site recebe cerca de 55 milhões de postagens de 140 caracteres por dia.

Todas as besteiras que você escreve, os trechos de música, as lamúrias da vida, estão gravados nos arquivos americanos.

Até aí não parece nada de mais, mas daqui a uns anos o projeto terá um poderoso material na mão que pode mapear gostos e preferências de boa parte da comunidade online dos nossos tempos. Vai ser possível, por exemplo, detectar qual a palavra mais utilizada no Twiter, quais produtos foram mais citados, enfim, uma variedade de informações que podem servir aos interesses de muita gente.

Seria como – tomadas as devidas proporções – você revisitar sua caixa do Gmail. Fiz isso esses dias. Li o primeiro e-mail, busquei os e-mails nos quais pedi emprego em lugares onde trabalhei, reli conversas com ex-namoradas, vi planos que nunca saíram do papel etc.

Agora imagine isso com o trafego de informação de gente de todo o planeta?

Thiago Kaczuroski, o Kazu, escreve às quartas-feiras no Sete Doses e tentou mas não conseguiu calcular quantos pen drives de camelô seriam necessários para guardar o arquivo do Twitter

Anúncios