terça-feira, 29 de maio de 2012

Explorando a Wikipédia

A Wikipedia é um projeto admirável. Iniciada em 2001, sua versão original em inglês hoje inclui quase 4 milhões de artigos sobre os mais diversos temas. Já me ajudou em diversas ocasiões em que precisava saber alguma coisa sobre algum assunto em particular ou simplesmente matar curiosidades.

Mas além de servir para ser consultada por pessoas, a Wikipedia também tem auxiliado pesquisas em Processamento de Língua Natural. Como? Em primeiro lugar, oferecendo uma quantidade enorme de textos bem escritos (na maioria das vezes). Só isso já é útil para algumas aplicações, como os modelos de língua, que tentam determinar se uma sequência de palavras parece compor um texto real ou não. Para alcançar esse objetivo, um modelo de língua precisa ser treinado com textos. (Se você estiver se perguntando para que serve isso na prática, a resposta mais fácil é tradução automática: sistemas tradutores normalmente geram diversas versões do texto traduzido e exibem a que for melhor avaliada pelo seu modelo de língua. Mas isso já é outro assunto.) 

quarta-feira, 25 de janeiro de 2012

Involução das Línguas

Um tema relativamente comum em ficção científica são povos com tecnologias superevoluídas que viveram num passado distante e sumiram deixando apenas vestígios.

Este tema parece atrair bastante atenção dentro do gênero provavelmente por parecer irreal: normalmente a humanidade evolui em ciência e tecnologia, e não retrocede. Mas fugindo um pouco da ideia de tecnologias futurísticas, acredito que as línguas humanas se encaixam bem nessa descrição.