Unidade:
|
Instituto de Ciências Matemáticas e de Computação |
Modalidade:
|
Difusão |
Tipo:
|
à Distância |
Público Alvo:
|
Alunos de graduação, principalmente, mas o curso também está aberto para alunos de pós em Processamento de Línguas Naturais e de outras áreas diferentes do Processamento de Línguas Naturais que desejam trabalhar com grandes volumes de dados textuais. |
Objetivo:
|
Esse curso pretende capacitar os alunos a fazer análises de textos usando a técnica de agrupamento em conjunto de dados (datasets) textuais. Serão utilizadas as bibliotecas scikit-learn, NLPNet (para realizar a anotação linguística no nível das palavras) e Pandas na linguagem Python. Os algoritmos utilizados serão o K-Means e Agglomerative clustering e as técnicas do Cotovelo (Elbow Method), TF-IDF (Term Frequency - Inverse Document Frequency), LSA (Latent Semantic Analysis), Medida V (homogeneidade/completude) e Silhueta. Serão utilizados os datasets públicos BrWaC, PorSimplesSent e uma versão inicial do dataset do projeto de rastreamento ocular RastrOS, sendo desenvolvido no ICMC. |
Pré-requisito Graduação:
|
Não |
|
|
Área de Conhecimento:
|
Ciência da Computação
|
|
|
|