Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Adicionando flags de revisão nos arquivos CoNLL-U #51

Merged
merged 3 commits into from
Jun 17, 2020

Conversation

Cristiananc
Copy link
Contributor

@Cristiananc Cristiananc commented Jun 15, 2020

O PR modifica os arquivos CoNLL-U na pasta udp adicionando duas novas informações nos metadados das sentenças. Temos duas linhas novas que são (me pareceu um nome bem informativo em cada):

  • golden_split

  • golden_syntactic

Como discutido, queremos poder observar e extrair quais sentenças foram revisadas por nós. A ideia de ter duas adições nos metadados facilita uma correção individual, é claro que só faz sentindo corrigir a análise sintática se a sentença é golden para a segmentação. Com isso, tendo esses flags é possível utilizá-los para melhorar o treino do opennlp para a segmentação incluindo novas sentenças, além do bosque, que são golden e pertencem ao DHBB.

@arademaker
Copy link
Contributor

@Cristiananc uma descrição das intenções do PR ou link para o issue correspondente que tenha descrição do que foi implementado e qual a proposta. Só assim podemos avaliar seu código e os resultados. Pode informar? Qual foi a lógica que vc pensou? Qual o objetivo? O que este PR resolve?

@Cristiananc
Copy link
Contributor Author

Certo, fiz a edição com os comentários.

@arademaker
Copy link
Contributor

Eu aceitei o PR mas tive que corrigir coisas:

Como eu disse, precisamos nos acostumar a primeiro descrever as ideias em um issue. Depois a implementação começa. Exemplo delph-in/pydelphin#175.

Em particular, neste caso não precisamos de dois flags, dado que se a revisão da análise sintática foi feita, então podemos considerar a segmentação também revista. Então me parece que só precisamos de um flag e talvez dois valores: syntax, segmentation. Onde syntax quer dizer revisão das duas coisas. Para 300K sentenças, esta decisão mais econômica poupa muito espaço.

Outra coisa é que na sua descrição acima, tem um detalhe fundamental não explicado. Vc adicionou dois novos status esquecendo de verificar as sentenças que já tinham status = revisado.

Tive que aproveitar para corrigir bug na biblioteca cl-conllu, para usar o código que fiz em Lisp, certifiquem-se de estar usando a versão 0.9 (arquivo cl-conllu.asd). Implementei o código Lisp para mostrar como fazer. Optei por transformar a assoc list que contém os metadados de cada sentença em uma hash para então modificar e devolver a hash para uma assoc. Estou assumindo que os arquivos em udp/ só tínhamos sentenças com o flag status = revisado, correto @lucasrct ?

@arademaker
Copy link
Contributor

commit 1e7e645 fixed and solved this PR.

@arademaker arademaker merged commit 403d959 into master Jun 17, 2020
@Cristiananc
Copy link
Contributor Author

Entendi, obrigada pelas correções. Nos arquivos que tinha observado não havia nenhum status. De qualquer forma vou abrir os issues antes de começar.

@arademaker arademaker deleted the split-of-sentences branch October 7, 2020 22:58
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

2 participants