quarta-feira, 31 de julho de 2013

Geoparser - extrair localizações de um texto


A Europeana Connect, grupo de trabalho de boas práticas digitais financiado pela Comissão Europeia, disponibiliza uma ferramenta online muito interessante que permite fazer geoparsing (extrair e ordenar informação com significado espacial) sobre um qualquer excerto de texto e criar um XML com as localizações e sítios devidamente descriminados.

I - Parsing de texto para XML

Aqui fica uma pequena demonstração. Começamos por aceder à ferramenta de geoparsing e colamos o o seguinte excerto (1) retirado da Wikipedia:

"The first Tour de France was staged in 1903. The plan was a five-stage race from 31 May to 5 July, starting in Paris and stopping in Lyon, Marseille, Bordeaux and Nantes before returning to Paris."

Como se pode ver, este excerto contém referências a cidades, e essas referências têm um significado espacial (coordenadas) que pode ser associado aos nomes.

De seguida basta selecionar XML (2) e clicar em Geoparse (3):




Após clicarmos em Geoparse o nosso navegador de Internet irá mostrar o XML gerado (note-se que o XML já vem com as coordenadas geográficas das cidades mencionadas). Selecionamos o texto, colamos num editor de texto simples - notepad por exemplo (não usar o Word!) e guardamos com a extensão .xml. 

II - Converter o XML para CSV

Agora que temos o XML, vamos fazer outra operação de parsing para converter o XML em CSV de modo a podermos importar os dados facilmente para um qualquer sofware SIG. Para isso vamos recorrer a outra ferramenta online - XML to CSV converter. O procedimento é muito simples, basta fazer o upload (1) e converter (2). Concluída a operação basta descarregar os dados para o nosso computador.


O resultado será um ficheiro .zip com vários CSV lá dentro. O que nos interessa é o CSV "Place". Extraímos esse ficheiro para uma qualquer localização do nosso computador:



III - Importar para o QGIS

Agora que temos o CSV, podemos importá-lo para o QGIS através do plugin "Add Delimited Text Layer" através de um procedimento descrito anteriormente neste blog (poderá ser necessário fazer ajustamentos ao CSV através do Libre Office ou programa similar). Uma vez importado, basta fazer um "Save As" sobre o layer que acabámos de adicionar e guardar no formato que desejarmos, por exemplo KML para visualização no Google Earth:


IV - Nota Final

A eficácia desta ferramenta está directamente relacionada com a qualidade da base de dados toponímica que está por trás do geoparsing propriamente dito. Como tal, nomes portugueses, à excepção das grandes cidades poderão não ser reconhecidos. 

Sem comentários:

Enviar um comentário