Língua e Computador: Explorando a Wikipédia

A Wikipedia é um projeto admirável. Iniciada em 2001, sua versão original em inglês hoje inclui quase 4 milhões de artigos sobre os mais diversos temas. Já me ajudou em diversas ocasiões em que precisava saber alguma coisa sobre algum assunto em particular ou simplesmente matar curiosidades.

Mas além de servir para ser consultada por pessoas, a Wikipedia também tem auxiliado pesquisas em Processamento de Língua Natural. Como? Em primeiro lugar, oferecendo uma quantidade enorme de textos bem escritos (na maioria das vezes). Só isso já é útil para algumas aplicações, como os modelos de língua, que tentam determinar se uma sequência de palavras parece compor um texto real ou não. Para alcançar esse objetivo, um modelo de língua precisa ser treinado com textos. (Se você estiver se perguntando para que serve isso na prática, a resposta mais fácil é tradução automática: sistemas tradutores normalmente geram diversas versões do texto traduzido e exibem a que for melhor avaliada pelo seu modelo de língua. Mas isso já é outro assunto.)

Outras formas de aproveitar automaticamente conhecimento da Wikipedia também existem. Uma delas é para detecção de entidades: imagine que um programa está "lendo" um texto e quer descobrir do que se trata. Então, ele se depara com uma palavra desconhecida; por exemplo, Oslo. Uma consulta superficial à Wikipedia, verificando categorias da página, alguns templates que aparecem no código fonte ou simplesmente algumas palavras chave, pode responder rapidamente que se trata de uma cidade na Noruega.

Além disso, algumas páginas da Wikipedia possuem uma infobox (aquela caixa à direita com informações pontuais, dependendo do tipo de artigo), que contém dados em um formato fácil de ser lido por computador. No exemplo de Oslo, é possível o programa aproveitar a Wikipedia para extrair dados como a população ou as coordenadas geográficas da cidade. Um cenário imaginável: o programa lê "viajar de Londres para Oslo" e esboça um mapa ligando as duas cidades, sem que nenhum programador tenha informado ao programa a localização delas. Ou seja, a Wikipedia poderia ser usada por um computador para aprender coisas, da mesma forma que nós, humanos.

Infelizmente, a Wikipédia (com acento - a versão em português) está muito atrás da Wikipedia em inglês. Sua quantidade de artigos ainda está na casa dos 700 mil, e quem já a acessou algumas vezes pôde conferir que muitos dos artigos em português são bem menores que suas versões em inglês, e, frequentemente, não são lá muito bem escritos. Mesmo assim, em minha pesquisa, tento aproveitar dados provenientes da Wikipédia. Pretendo falar um pouco mais disso em outro post.

Quanto a questões técnicas, o projeto WikiMedia facilita bastante o acesso aos dados. É possível usar uma API para se fazer consultas à Wikipedia (ou a outros projetos como o Wiktionary), ou baixar todo o seu conteúdo de uma vez, o que é melhor para quem trabalha com programas que leem tudo quanto possível em vez de fazer consultas isoladas. Quem tiver curiosidade pode olhar a página de downloads do projeto WikiMedia. O arquivo com todo o conteúdo das páginas da Wikipédia em português contém mais de 700 megabytes compactado; descompactado, são cerca de 3,5 giga. Bastante coisa. Os arquivos estão em um formato XML bem simples, com algumas poucas tags que descrevem cada artigo. Os textos em si estão com a marcação MediaWiki para indicar negrito, sublinhado, links, etc.

Língua e Computador

terça-feira, 29 de maio de 2012

Explorando a Wikipédia

Nenhum comentário:

Postar um comentário