Bibliotecas para identificar endereços em um texto

Olá, pessoal.

Bibliotecas como Spacy e NLTK possibilitam identificar entidades, incluindo localizações. Gostaria de extrair dados como ruas, bairros e demais localizações de textos como licitações e diários oficiais. Vocês conhecem alguma biblioteca que já faça isso pro contexto brasileiro? Ou tem dicas a respeito? Obrigada.

1 curtida

Olá @anapaula! Tem um trabalho da Monique que não atenda completamente a sua necessidade, todavia, algumas das entidades do modelo treinado por ela podem lhe ser úteis.

The finetunned model was trained on a corpus with around 180 news articles crawled from Google News. The original project's purpose was to recognize named entities in news related to fraud and corruption, classifying these entities in four classes: PERSON, ORGANIZATION, PUBLIC INSITUITION and LOCAL (PESSOA, ORGANIZAÇÃO, INSTITUIÇÃO PÚBLICA and LOCAL).

O link pra o repositório do trabalho está aqui. Espero que ele possa lhe ser útil de alguma maneira.

3 curtidas

Eu comecei um projeto para identificar localizações brasileiras em texto: https://github.com/DadosAbertosDeFeira/tomba/. Toda ajuda é bem vinda! :slight_smile:

2 curtidas

Muito bom, @anapaula !

Outra ferramenta boa para named entity recognition é o DBPedia Spotlight. Com a vantagem adicional de que você pode, como passo posterior, fazer queries na DBPedia a partir das entidades reconhecidas para enriquecer ainda mais os dados extraídos do texto.

1 curtida