quarta-feira, 31 de julho de 2013

Geoparser - extrair localizações de um texto


A Europeana Connect, grupo de trabalho de boas práticas digitais financiado pela Comissão Europeia, disponibiliza uma ferramenta online muito interessante que permite fazer geoparsing (extrair e ordenar informação com significado espacial) sobre um qualquer excerto de texto e criar um XML com as localizações e sítios devidamente descriminados.

I - Parsing de texto para XML

Aqui fica uma pequena demonstração. Começamos por aceder à ferramenta de geoparsing e colamos o o seguinte excerto (1) retirado da Wikipedia:

"The first Tour de France was staged in 1903. The plan was a five-stage race from 31 May to 5 July, starting in Paris and stopping in Lyon, Marseille, Bordeaux and Nantes before returning to Paris."

Como se pode ver, este excerto contém referências a cidades, e essas referências têm um significado espacial (coordenadas) que pode ser associado aos nomes.

De seguida basta selecionar XML (2) e clicar em Geoparse (3):