-
-
Notifications
You must be signed in to change notification settings - Fork 416
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Feature/lista municipios tocantins #1336
base: main
Are you sure you want to change the base?
Feature/lista municipios tocantins #1336
Conversation
Também conserta url removendo espaços e adiciona {"DOWNLOAD_DELAY": 1.0}
Preciso de uma ajuda pra decidir o que fazer com esta tarefa. Apesar do site ser bem difícil de raspar devido a sua dependência no JS, tava até me divertindo conseguindo tocar aos trancos e barrancos. O problema começou a surgir nesta navegação entre páginas. Comecei a receber respostas inesperadas do backend sem motivo aparente. Após muita dor de cabeça, cheguei à conclusão que o problema é no backend mesmo, e não parece ser um bug no meu raspador. O que acontece é que, em alguns momentos, uns itens são baixáveis porque o servidor responde OK na requisição necessária para construir o link de download do arquivo, em outros momentos, ele retorna um html de erro dizendo "dados inválidos" e não me dá o necessário para continuar. Outra evidência de mal comportamento do backend é o estado do código da página. É um terror, e mostra que ele foi feito com técnicas e tecnologias muito antigas e mal-mantidas. Se o frontend está assim, imagino que o backend siga o exemplo. Pra piorar, fui ver o site das outras cidades que deveriam ser cópias deste e logo na primeira (Combinado) percebi que o site parecia igual, mas com código levemente diferente. Outra cidade (Aurora do Tocantins), outro site semelhante, mas com código levemente diferente dos dois anteriores. Outras evidências disso são:
Isso indica que seria inviável(?) fazer um BaseSistema que funcione para todos porque cada site requer raspagem diferente. Nota: Além disso, me parece inviável prosseguir com a criação do raspador para Lavandeira também, porque não dá pra confiar que o servidor vai responser da mesma maneira dadas requisições iguais. Nota: |
Também cria métodos abstratos na base que jogam erro
Layout do site publicador de diários oficiais
Marque apenas um dos itens a seguir:
Código da(s) spider(s)
custom_settings
em meu raspador.Testes
.log
deste teste está anexado na PR..log
e.csv
deste teste estão anexados na PR..log
e.csv
deste teste estão anexados na PR.Verificações
.csv
gerados pela minha coleta conforme a documentação não encontrando problemas..log
gerados pela minha coleta conforme a documentação não encontrando problemas.Descrição
#1093
Esta PR tenta adicionar 7 raspadores de Tocantins que usariam o mesmo sistema de publicação.