Resumos de aula: PLN - 2019


Nota: Arquivo gerado por um programa.

Nome Resumo
Mauro Mascarenhas de Araujo Aula de 01/08: "NLTK através de exemplos: Modelagem de tópicos (topic modeling) e Redes de co-ocorrência". A aula iniciou-se com a apresentação de um artigo publicado na revista Nature em 1996 chamado "Seeking Life's Bare (Genetic) Necessities", onde o objetivo era identificar o assunto geral do texto. Sendo assim, logo foi possível identificar algumas palavras relacionadas à genética, outras relacionadas à computação e outras relacionadas à biologia. Enfim, a ideia é dado um texto sem estrutura, tentar atribuir rótulos associados ao documento em questão, buscando identificar os tópicos do texto. Para tal, parte-se do princípio que um documento textual é uma mistura de tópicos, onde, no caso do artigo previamente mencionado, os tópicos foram "Genética", "computação", "Ciências da vida" e "Anatomia", onde, após a execução do algoritmo, a maior probabilidade foi de que o artigo tratava de algum assunto relacionado à computação. Um tópico pode ser definido como um tema ou assunto de um discurso, podendo ser representados por uma distribuição de palavras. Isso significa que uma palavra tem certa probabilidade de aparecer nesse tópico. Note que não é possível saber o assunto propriamente dito, mas é possível ter uma visão geral da área de abordagem do texto. Uma modelagem de tópicos (uma análise "abstrata", em alto nível, do conteúdo de documentos), é apropriada quando deseja-se entender, de forma rápida, o conteúdo de um corpus grande (deve ser grande para fazer valer o esforço computacional), como os corpus se conectam ou ainda como eles mudam ao longo do tempo. Em uma modelagem de tópicos normalmente são fornecidos como entrada uma coleção de documentos (ou corpus) e um número finito de tópicos. Porém, o nome dos tópicos bem como suas distribuições para cada documento não são conhecidos. A ideia é fornecer os documentos, realizar a clusterização (agrupamento) das palavras, identificar a distribuição dos tópicos nos documentos e analizar a frequência das palavras. Sendo assim, é possível notar que trata-se de um problema de agrupamento de textos com a variante de que palavras e documentos são agrupados simultaneamente. Existem diferentes métodos para modelagem de tópicos, as duas abordagens mais conhecidas são a PLSA (Probabilistic Latent Semantic Analysis de 1999) e LDA (Latent Dirichlet Allocation de 2003). O trabalho pioneiro na área foi o de Hofmann (PLSA), que gerou um artigo que hoje conta com aproximadamente 2538 citações, mas também há o trabalho mais citado na área, o LDA de Blei et al., que conta com aproximadamente 27564 citações. A seguir foi apresentado a modelagem de tópicos sobre um texto do curpus AP, onde ao definir 4 tópicos, foram obtidas aglomerações relacionadas à arte (arts), dinheiro (budgets), crianças (children) e educação (education). A ideia de modelos generativos para textos é, dado um modelo, quando aplicado à um documento, retornar uma saída. Porém, a geração de um modelo é uma tarefa difícil, sendo que, na maioria das vezes, uma mistura de modelos é o mais apropriado para resolver o problema. O LDA consiste em, dado um número de tópicos e um corpus, atribuir aleatoriamente os tópicos às palavras, calcular P(T|D) e P(W|T), onde T é o tópico, D é o documento e W é a palavra, e atualizar o tópico de cada palavra com P(T|D)*P(W|T). Foi apresentado um exemplo simples de 5 documentos com poucas palavras, onde foram aplicadas as remoções de stopwords e um stemmer (nestes casos, é recomendado o uso de um bom stemmer ou um lemmatizador) e então aplicou-se o algoritmo. Foi possível obter que a frase "Look at this cute hamster munching on a piece of broccoli." estava muito mais relacionada à comida do que à animais. Logo a seguir foi apresentado um trabalho de iniciação científica entitulado "Caracterização de obras literárias usando redes de co-ocorrência". Logo no início foi possível perceber que é possível classificar obras literárias de acordo com seu gênero (é possível perceber um certo agrupamento no espaço), mas o objetivo em si era demonstrar, através de diferentes testes empíricos, que a classificação de textos de obras literárias pode ser realizada usando suas características estruturais (padrões topológicos) extraídas de redes de co-ocorrência textual. O processo consistiu em dada uma frase original (de Machado de Assis, por exemplo), normalizar o texto aplicando stemmer, depois aplicar rede de co-ocorrência (no caso, variou o parâmetro entre 2 e 5). Bom, como considerações finais teve-se que: Com a visualização das redes de co-ocorrência é possível realizar uma análise mais qualitativa das obras literárias, sendo evidenciadas palavras de maior relevância, o que torna mais fácil detectar conceitos relacionados com a temática de cada texto; A partir das métricas obtidas das redes de co- ocorrência, é possível realizar uma análise mais quantitativa, o que permitiu buscar padrões de similaridade e comparar autoria e genêro literário; A técnica utilizada foi a de análise de componentes principaissendo que, para ambas janelas de conexão, obtivemos uma porcentagem de explicação da variância de cerca de 90% com duas dimensões.
July Anne Pinheiro Aula 15: NLTK através de exemplos: - Modelagem de tópicos (topic modeling) - Redes de co-ocorrência Foi apresentado no início da aula um artigo que tratava de genética e através do processamento tínhamos os tópicos de genética, computação e biologia no artigo. Evidenciando que um artigo/documento pode estar composto de diferentes tópicos que se misturam para a elaboração de ideias. Ainda analisando o documento, considerando apenas os tópicos listados, podemos pensar que o mais provável é que seja de computação. O que é um tópico? Um tópico pode ser definido como um tema (ou assunto) de um discurso. Os tópicos podem ser representados por uma distribuição de palavras. Isso significa que uma palavra tem certa probabilidade de aparecer neste tópico. Modelagem de tópicos (MT) É uma análise “abstrata” (em alto nível) do conteúdo de documentos. É apropriado quando, frente a um corpus grande, deseja-se entender, de forma rápida, o conteúdo. A MT também pode ser utilizada para identificar: (i) como esses tópicos se conectam, e (ii) como mudam ao longo do tempo. O que geralmente é considerado como entrada para a MT são: * Uma coleção de documentos (ou corpus). * Número finito de tópicos. O que não sabemos: * Os nomes dos tópicos, ou seja, não conseguimos informar a busca de tópicos em computação. * A distribuição de tópicos para cada documento, não é possível saber se os documentos têm um conteúdo associado a 50% computação e 50% esportes. Coleção de documentos -> Modelo de Tópicos -> grupos de palavras, distribuição de tópicos e frequência de palavras. Importante notar que estamos tratando um problema de agrupamento de textos, com a variante de que documentos e palavras são agrupadas simultaneamente. Existem diferentes métodos para modelagem de tópicos, as mais conhecidas são: PLSA: Probabilistic Latent Semantic Analysis (1999) - trabalho pioneiro de Thomas Hofmann LDA: Latent Dirichlet Allocation (2003)- trabalho mais popular sobre o assunto feito por David M. Blei. Modelos generativos e LDA Modelo -> Documento -> Geração do documento Modelos generativos para textos Modelo <-> Documento Estimação / inferência <-> Documento A geração do modelo é uma tarefa difícil. LDA (Latent Dirichlet Allocation) Para o método o problema aqui é identificar qual tópico é associado a um documento. Os passos para utilização do método: * Atribuir aleatoriamente os tópicos as palavras * Calcular P(D|T) e P(W|T) * Atualizar o tópico T de cada palavra W com P(T|D) X P(W|T) Exemplo (simples) Suponha termos 5 documentos (com poucas palavras) 1) I like to eat broccoli and bananas. 2) I ate a banana and spinach smoothie for breakfast. 3) Chinchillas and kittens are cute. 4) My sister adopted a kitten yesterday. 5) Look at this cute hamster munching on a piece of broccoli. Exemplo (texto padronizado) Sem stop words, e após aplicação de um stemmer: 1) like, broccoli, banana 2) banana, spinach, smoothi, breakfast 3) chinchilla, kitten, cute 4) sister, adopt, kitten, yesterday 5) look, cute, hamster, munch, piec, broccoli 1)Topic: 0.117*"broccoli" \+ 0.116*"banana" \+ 0.076*"cute" \+ 0.072*"look" \+ 0.071*"hamster" 2)Topic: 0.117*"broccoli" \+ 0.116*"banana" \+ 0.076*"cute" \+ 0.072*"look" \+ 0.071*"hamster" 3)Topic: 0.158*"kitten" \+ 0.095*"sister" \+ 0.095*"yesterday" \+ 0.095*"adopt" \+ 0.094*"chinchilla" 4)Topic: 0.158*"kitten" \+ 0.095*"sister" \+ 0.095*"yesterday" \+ 0.095*"adopt" \+ 0.094*"chinchilla" 5)Topic: 0.117*"broccoli" \+ 0.116*"banana" \+ 0.076*"cute" \+ 0.072*"look" \+ 0.071*"hamster" Redes de co-ocorrência aplicadas para a caracterização de obras literárias Foi apresentado um trabalho e seus respectivos resultados relacionados a redes de co-ocorrência aplicadas para caracterização de obras literárias. Objetivo do trabalho Demonstrar, através de diferentes testes empíricos, que a classificação de textos de obras literárias pode ser realizada usando suas características estruturais (padrões topológicos) extraídas de redes de co-ocorrência textual. Um grafo/rede de co-ocorrência O projeto consistiu em submeter as obras de Machado de Assis,Aluísio de Azevedo e José de Alencar nas etapas a seguir: * Frase original * Normalização(sem stemming) * Stemming * Rede de co-ocorrência( janela de conexão 2) * Rede de co-ocorrência( janela de conexão 5) Os resultados foram disponibilizados em grafos, gráficos de dimensões. Após a visualização dos resultados algumas considerações foram feitas referente ao trabalho. Como sinalizados a seguir: * Com a visualização das redes de co-ocorrência é possível realizar uma análise mais qualitativa das obras literárias, sendo evidenciadas palavras de maior relevância, o que torna mais fácil detectar conceitos relacionados com a temática de cada texto. * A partir das métricas obtidas das redes de co-ocorrência, é possível realizar uma análise mais quantitativa, o que permitiu buscar padrões de similaridade e comparar autoria e gênero literário. * A técnica utilizada foi a de análise de componentes principais sendo que, para ambas janelas de conexão, obtivemos uma porcentagem de explicação da variância de cerca de 90% com duas dimensões.
Igor Neres Trindade A aula de hoje, 01/08/2019, se dividiu em duas partes: a primeira, um pouco mais teórica, abordou a identificação de tópicos, enquanto a segunda apresentou redes de co-ocorrência, e como isso pode ser usado para identificar autoria em textos e gênero literário, através da apresentação de um trabalho de iniciação científica. O primeiro ponto abordado foi o de Topic Modeling. Na aula passada, vimos a sumarização, isto é, como escolher uma frase ou um conjunto de frases que representem o tema de um texto. Na aula de hoje, queremos modelar o texto por tópicos, escolhendo palavras que estejam relacionadas a um determinado tópico. Esse processo foi demonstrado através de um texto da revista Science, em que as partes destacadas em diferentes cores estavam relacionadas a diferentes tópicos: palavras em amarelo estavam relacionadas a genética, enquanto as em azul à computação e matemática. Note que, diferentemente de reconhecimento de entidades nomeadas, não definimos um rótulo por palavra, mas sim um rótulo por texto. Um tópico pode ser entendido como um tema do discurso, sobre o que se trata um determinado texto, e pode ser representado por uma distribuição de palavras. Dessa forma, para identificar tópicos, podemos fazer um casamento simples entre as palavras, obtidas de um documento após filtragem de stopwords, e os tópicos pré-definidos. De acordo com as frequências de cada tópico, podemos classificar o texto como sendo da Computação, por exemplo. E, como esse tópico é muito extenso, poderíamos ainda definir subtópicos, como Criptografía, Grafos ou mesmo PLN. Esse casamento casamento da palavra e o tópico é possível por existirem termos associados a um nó específico. Uma modelagem de tópicos (ou MT) é uma análise abstrata do conteúdo de documentos e seu uso é apropriado quando temos um corpus grandes. Do contrário, somente com uma leitura, seria possível definir do que se trata o documento. Mas muito além do que saber o tópico, podemos entender como eles se conectam e como mudam ao longo do tempo. Para fazer essa modelagem, é necessária como entrada um corpus e um número finito de tópicos. Não sabemos o nome dos tópicos, mas sabemos que existe um conjunto de palavras que estão aparentemente agrupadas. Dessa forma, podemos entender como palavras estão agrupadas, como elas estão distribuídas por tópicos no texto, e quais as frequências de palavras por tópicos. Por trás, isso é um problema de agrupamento: os documentos e as palavras são agrupadas simultaneamente. E para resolver esse problema, existem vários métodos para modelagem. Nessa aula, vimos modelos generativos e Latent Dirichlet Allocation (ou LDA). Para entender o LDA, pensemos no que fizemos até o momento: usamos modelos para ter um ou vários documentos. Imagine que queremos fazer o processo contrário. Dado o documento, queremos inferir ou estimar o modelo. O problema está no fato que, em aplicações reais, não sabemos esse modelo. Seria uma modelagem em bigramas, trigramas, bag-of-words? De fato, existem vários modelos. E inferir o modelo que gerou o documento não é uma tarefa trivial. Esse é o desafio e LDA permite em parte fazer isso, atribuindo, de início, os tópicos aleatoriamente às palavras, e atualizando o tópico de cada palavra, com o de maior valor dado pelo produto entre a probabilidade de um tópico, dado um documento, e a probabilidade de uma palavra, dado um tópico. No fim da aula, fomos apresentados a um trabalho de iniciação científica sobre caracterização de obras literárias usando redes de co-ocorrência, que se propôs a demonstrar como a classificação de textos de obras literárias pode ser realizada usando suas características estruturais. Para isso, foi necessário coletar as obras e realizar um processo de tokenização, remoção de stopwords e stemming, como visto nas aulas. Após isso, foram geradas redes de co-ocorr?ncia, que são grafos, nas quais as palavras estão diretamente ligadas a outras dentro de uma janela de um tamanho específico. Sabemos que autores diferentes escrevem de maneira diferente e a forma de escrita é representada no grafo. Dessa forma, é possível gerar obrar com características de um autor específico, como o Machado de Assis.
Rodrigo Hiroaki Ideyama Na aula de número 15, o tema abordado foi sobre “NLTK através de exemplos: - Modelagem de tópicos (topic modeling) - Redes de coocorrência”. No início, o professor mostrou um artigo chamado “Seeking Life’s Bare (Genetic) Necessities” a fim de demonstrar que este exemplo evidencia que um artigo/documento pode estar composto de diferentes tópicos (ou unidades) que se misturam para a elaboração de ideias, no caso, tópicos de genética (genes, genomes, genetic, sequenced), computação (computer, numbers, computational, predictions) e biologia (organism, survive, life). Ao analisar esse documento, pode-se achar que o mais provável é que seja de computação. Por definição, tópico pode ser entendido como um tema (ou assunto) de um discurso. que podem ser representados por uma distribuição de palavras, o que isso significa que uma palavra tem certa probabilidade de aparecer neste tópico. Então, uma modelagem de tópicos (MT) é uma análise “abstrata” (em alto nível) do conteúdo de documentos, aplica-se, geralmente, quando quer entender de forma rápida o conteúdo frente a um corpus grande. Também utiliza essa técnica quando deseja identificar as conexões entre os tópicos e como mudam estas ao longo do tempo. Existem diferentes métodos para modelagem de tópicos, as duas abordagens mais conhecidas são: * PLSA: Probabilistic Latent Semantic Analysis (1999) - também conhecida como Probabilistic Latent Semantic Indexing (PLSI), é uma ferramenta estatística baseada em uma mistura de decomposição derivados de um modelo de classe latente considerada mais complexa do que o Latent Semantic Analysis (LSA), deriva de álgebra linear e downsizes as tabelas de ocorrência, para a análise de dados de dois modos e coocorrência, foi criada devido à necessidade, segundo Hofmann, ao LSA não conseguir realizar a captura de construções no domínio textual, por exemplo, polissemia, isto é, uma mesma palavra dotada de vários significados. Além disso, não possuir um embasamento teórico adequado. * LDA: Latent Dirichlet Allocation (2003) - esta técnica estatística é que dado um documento é composto por um conjunto de tópicos latentes e cada tópico é associado uma distribuição de probabilidade sobre as palavras do vocabulário. Foi inspirada no Probabilistic Latent Semantic Analysis pelo Blei, sendo aplicada a quaisquer tipo de conjuntos de dados discretos em contexto de classificação de conjuntos de documentos textuais. Diferente do PLSA, o LDA baseia-se em um modelo generativo assumindo que cada um dos documentos em particular na coleção é uma mistura de temas. Assim, um certo documento em um conjunto de notícias sobre Deep Learning poderia ser composto por uma mistura de 50% sobre o tema Redes Neurais Convolucionais, 30% sobre o tema Redes Neurais Recorrentes e 20% sobre Redes Neurais Adversárias, enquanto outro documento poderá ser composto por 30% sobre GPU, 20% sobre aplicações de Deep Learning, 30% sobre Tensorflow e 20% sobre Keras. Como próximo tópico, “Redes de coocorrência aplicadas para a caracterização de obras literárias”, o Jesús citou a iniciação científica da aluna Bruna Pereira Santos que tem como objetivo em demonstrar, através de diferentes testes empíricos, que a classificação de textos de obras literárias pode ser realizada usando suas características estruturais (padrões topológicos) extraídas de redes de coocorrência textual. Para o melhor entendimento do grafo/rede de coocorrência, o professor demonstrou como uma frase original de Machado de Assis é processado passo a passo com as técnicas de normalização (sem stemming e tirando stopwords), stemming, rede de coocorrência (janela de conexão 2) e rede de coocorrência (janela de conexão 5). Sobre isso, para finalizar a aula, o professor fez os comentários finais, dizendo que com a visualização das redes de co-ocorrência é possível realizar uma análise mais qualitativa das obras literárias, sendo evidenciadas palavras de maior relevância, o que torna mais fácil detectar conceitos relacionados com a temática de cada texto. * A partir das métricas obtidas das redes de co-ocorrência, é possível realizar uma análise mais quantitativa, o que permitiu buscar padrões de similaridade e comparar autoria e gênero literário. * A técnica utilizada foi a de análise de componentes principais sendo que, para ambas janelas de conexão, obtivemos uma porcentagem de explicação da variância de cerca de 90% com duas dimensões.
Elsio Antunes Junior Quinta feira, 1 de agosto de 2019; NLTK através de exemplos: Modelagem de tópicos e redes de co-ocorrência; Um artigo ou um documento pode estar composto de diferentes tópicos (ou unidades) que se misturam para a elaboração de ideias; O slide mostrado pelo professor traz um texto que fala de sequenciamento de genoma e contém palavras relacionadas a genética, computação e biologia; O professor menciona o Artigo de Revisão em comunication of ACM - 2012, com mais de quatro mil citações, chamado "Probabilistic Topic Models"; Ideia: Um documento textual é uma mistura de tópicos; Quando enumeramos as palavras relacionadas a um determinado tópico (palavras que são comuns em textos deste tipo), colocamos em um gráfico e observamos as ocorrências de determinado conjunto de palavras de um tópico, podemos pensar que, para este documento, o mais provável é que seja sobre o assunto cujo número de ocorrências seja maior; Mas o que é um tópico? Um tópico pode ser entendido como um tema ou assunto de um discurso; Os tópicos podem ser representados por uma distribuição de palavras. Isso significa que uma palavra tem certa probabilidade de aparecer nesse tópico; No nono slide exibe-se uma tabela com as palavras mais comuns de determinados tópicos, a saber: genetics, evolution, disease, computers, todos com uma quantidade de palavras presentes em textos considerados daquele tópico; Modelagem de tópicos (MT) é uma análise abstrata de conteúdo de documentos; É apropriado quando, frente a um corpus grande, deseja-se entender, de forma rápida, se o conteúdo dele trata-se, por exemplo, de esportes, de computação ou genética ou outro assunto; a modelagem de tópicos também pode ser utilizada para identificar como esses tópicos se conectam e como mudam ao longo do tempo; O que geralmente é considerado como entrada para a modelagem de tópicos são uma coleção de documentos e um número finito de tópicos; O que não sabemos: os nomes dos tópicos - não podemos informar, por exemplo, a busca de tópicos em computação; a distribuição de tópicos para cada documento - não sabemos se os documentos tem um conteúdo associado a cinquenta porcento computação e cinquenta porcento esportes; Um slide com esquemas é exibido; Nele a representação da entrada de uma coleção de documentos em uma "caixa preta" com o modelo de tópicos, que cospe tópicos na forma de agrupamento de palavras (clusters of words), documentos com a distribuição de tópicos ou um histograma que contabiliza a frequência das palavras de um determinado tópico; Note, então, que estamos tratando um problema de agrupamento de textos, com a variante de que documentos e palavras são agrupadas simultaneamente; Existem diferentes métodos para modelagem de tópicos, as duas abordagens mais conhecidas são: PLSA (Probabilistic Latent Semantic Analysis) e LDA (Latent Dirichlet Allocation); O professor cita os trabalhos de Thomas Hoffmann (1999) e de David M. Blei (2003); Por último o professor menciona o trabalho de redes de co-ocorrência aplicadas para a caracterização de obras literárias da aluna de iniciação científica Bruna Pereira Santos, colega nossa da UFABC; O objetivo do trabalho foi demonstrar, através de diferentes testes empíricos, que a classificação de textos de obras literárias pode ser realizada usando suas características estruturais (padrões topológicos) extraídas de redes de co-ocorrência textual; Comentários finais: Com a visualização das redes de co-ocorrência é possível realizar uma análise mais qualitativa das obras literárias, sendo evidenciadas palavras de maior relevância, o que torna mais fácil detectar conceitos relacionados com a temática de cada texto; A partir das métricas obtidas das redes de co- ocorrência, é possível realizar uma análise mais quantitativa, o que permitiu buscar padrões de similaridade e comparar autoria e gênero literário; A técnica utilizada foi a de análise de componentes principais sendo que, para ambas janelas de conexão, obtivemos uma porcentagem de explicação da variância de cerca de 90% com duas dimensões.
Eracton Ferreira Ramalho Esse é o resumo da nossa aula 15. Pegamos um texto sobre o genoma, onde procuramos por alguns assuntos (genética, computação e biologia) e localizamos algumas palavras que foram identificadas e exibidas de cores diferentes. Isso evidenciou que um artigo/documento pode estar composto de diferentes tópicos (ou unidades) que se misturam para a elaboração de ideias. Após ver essas seleções de palavras e trechos podemos ver que um documento textual é uma mistura de tópicos. Ao termos um novo documento ao ser analisado, e considerando apenas esses quatro tópicos, podemos pensar que para esse documento, o mais provável é que seja de computação, no exemplo do slide. O que seria um tópico? Um tópico pode ser entendido como: um tema (ou assunto) de um discurso. Os tópicos podem ser representados por uma distribuição de palavras. Isso significa que uma palavra tem certa probabilidade de aparecer neste tópico. O que é modelagem de tópicos (MT)? É uma análise “abstrata” (em alto nível) do conteúdo de documentos. É apropriado quando, frente a um corpus grande, deseja-se entender, de forma rápida, o conteúdo dele. A MT também pode ser utilizada para identificar: (i) como esses tópicos se conectam, e (ii) como mudam ao longo do tempo. O que geralmente é considerado como entrada para a MT são: Uma coleção de documentos (ou corpus) e número finito de tópicos. E o que não sabemos nisso dos tópicos? Os nomes dos tópicos e a distribuição de tópicos para cada documento. Tratar de MT é tratar de um problema de agrupamento de textos, com a variante de que: documentos e palavras são agrupadas simultáneamente. Existem diferentes métodos para modelagem de tópicos, as duas abordagens mais conhecidas são: PLSA: Probabilistic Latent Semantic Analysis (1999) e LDA: Latent Dirichlet Allocation (2003). O primeiro foi um trabalho pioneiro de Hofmann e o segundo o trabalho mais popular de Blei et al. Vamos falar agora de modelos generativos e LDA. Esses modelos generativos pegam um modelo e há uma geração de documento que gera um documento. Até ai, tudo bem intuitivo. Porém tem a parte de volta, onde o documento envia uma informação para o modelo, e isso se chama estimação/inferência. Gerar um modelo é uma tarefa difícil. Por fim vimos redes de co-ocorrência aplicadas para a caracterização de obras literárias. Isso tem como objetivo demonstrar, através de diferentes testes empíricos, que a classificação de textos de obras literárias pode ser realizada usando suas características estruturais (padrões topológicos) extraídas de redes de co-ocorrência textual.
Renato de Avila Lopes Resumo 15 NLTK através de exemplos: Modelagem de tópicos (topic modelling) Redes de co ocorrência Texto exemplo - Seeking Life's Bare (Genetic) Necessities Tema - Genética? Computação? Biologia? Artigo relevante para o assunto - Probabilistic Topic Models - publicado no Communication of ACM - abril 2012 Documento textual - mistura de tópicos Se considerarmos apenas esses quatro tópicos (Genética, Computação, Ciências da vida, Anatomia) o mais provável seria que esse novo documento falasse sobre computação Tópico: tema ou assunto de um discurso Pode ser representado por uma distribuição de palavras Palavra possui certa probabilidade de aparecer nesse tópico Exemplo de tópicos "Genetics" human genome dna genetic genes sequence molecular "Evolution" evolution evolutionary species organism life "Disease" disease host bacteria resistance strains malaria "Computers" computer models information data system networks model Modelagem de tópicos - Análise abstrata em alto nível do conteúdo de documentos Corpus grande - Trata-se de esporte? genética? computação? MT identifica como esses tópicos se conectam e como mudam ao longo do tempo Entrada - coleção de documentos (corpus), número finito de tópicos Não sabemos - nomes dos tópicos, distribuição de tópicos para cada documento (exemplo 50% associado a computação e 50% a esportes) Collection of documents _> Topic Model -> Cluster of words / Distribuition of topics / Frequency of words Problema de agrupamento de texto onde documentos e palavras são agrupados simultaneamente Abordagens mais conhecidas PLSA Probabilistic Latent Semantic Analysis (1999) trabalho pioneiro sobre PLSA publicado por Thomas Hofmann Recebeu 2538 citações LDA Latent Dirichlet Allocation (2003) Latent dirichlet allocation de David M Blei, Andrew Y NG, Michael I Jordan recebeu 27564 citações Modelos generativos e LDA Modelos generativos para texto Modelo -> geração do documento (estimação / inferência) -> documento Como inferir entre vários modelos? Geração do modelo é uma tarefa difícil LDA: Atribuir aleatoriamente os tópicos às palavras Calcular P (T|D) e P(W|T) Atualizar tópico T de cada palavra W com P(T|D) x P(W|T) Exemplo Suponha cinco documentos com poucas palavras I like to eat broccolli and bananas - classificada como relacionada a comida I ate a banana and spinach smoothie for breakfast - classificada como relacionada a comida Chinchillas and kittens are cute - classificada como relacionada a animais (pets) My sister adopted a kitten yesterday - classificada como relacionada a animais (pets) Look at this cute hamster munching on a piece of broccoli - classificada como relacionada a comida Trabalho de iniciação cientifica da aluna Bruna Pereira Santos Redes de co ocorrência aplicadas para a caracterização de obras literárias Objetivo do trabalho: Demonstrar através de testes empíricos que a classificação de obras de textos literários pode ser realizada usando suas características estruturais (padrões topológicos) extraídas de redes de co ocorrência textual Grafo de co ocorrência Frase original de Machado de Assis "Talvez porque nenhuma tinha os olhos de ressaca, nem os de cigana oblíqua e dissimulada" Normalização sem stemming: talvez porque nenhuma olhos ressaca cigana oblíqua dissimulada Stemming: tal porqu nenhum olh ressac cigan obliqu dissimul Rede de co ocorrência com janela 2 e janela 5 Pipeline Obras literárias -> Coleta -> Pré-processamento (stopword e dicionários) - Normalização (parsing, remoção de stopwords, stemming) -> Geração de redes de co ocorrência (parâmetros para geração de redes) -> visualização das redes de co ocorrência Análise comparativa (caracterização de obras literárias) -> visualização das redes de co ocorrência Com a visualização das redes de co ocorrência é possível realizar uma análise mais qualitativa das obras literárias, evidenciando palavras de maior relevância par detectar conceitos relacionados com a temática Através de métricas é possível buscar padrões de similaridade e comparar autoria e gênero literário Técnica utilizada foi análise de componentes principais sendo que para ambas janelas de conexão (2 e 5) foi obtido 90% de variância com duas dimensões
Renan Baisso Dando procedência nos estudos de Processamento de Linguagem Natural (PLN), desta vez, iremos abordar tópicos mais sofisticados que os discutidos até então na disciplina, são eles Modelagem de Tópicos (Topic Modeling) e Redes de Co-ocorrência. Até o momento, aprendemos diversas técnicas para manipular o texto, através da transformação das palavras em lemas, separar termos através de tokenização ou então classificar as palavras por contexto ou algum recurso externo (treebank). Entretanto, ainda não adicionamos nenhum tipo de classificação de texto pelo conteúdo utilizando apenas seu próprio conteúdo, por isso, estes tópicos são de grande importância para o estudo de PLN. Começando pela modelagem de tópicos, podemos fazer o seguinte questionamento, como classificar um texto sendo que existe a possibilidade de haver diversas palavras para compor um assunto específico, ou ainda mais, como classificar textos que são compostos por diversas unidade de diferentes assuntos, isto é, com multidisciplinaridade? Antes de responder diretamente a pergunta, vamos definir o que é um tópico e como fazer sua modelagem. Um tópico é um tema ou assunto de discurso que podem ser representados por um distribuição de palavras, logo, podemos dizer que há uma probabilidade de certa palavra aparecer em um determinado tópico. Já a modelagem de um tópico pode ser definida como a análise abstrata, ou de alto nível, do conteúdo de documentos. Desta maneira, quando se deparar com um corpus grande fazer a distinção em esporte, computação ou qualquer outro assunto. Logo, podemos utilizar esta técnica para descrever como os tópicos estão conectados e como mudam ao longo do tempo. Pois então, para realizar esta análise começamos com dois parâmetros, a coleção de documento e o número finito de tópicos a serem identificados, mas também devemos entender quais variáveis não conhecemos, como os nomes dos assuntos e a distribuição das palavras em cada um deles. Sendo assim, é importante destacar que estamos realizando o agrupamento, ou clusterização, de texto com a variante de que documento e palavras são agrupadas simultaneamente. Para fazer executar uma tarefa de MT podemos citar duas abordagens, a Probabilistic Latent Semantic Analysis (PLSA) e a Latent Dirichlet Allocation (LDA). Como trabalhos pioneiros e de destaque nesta área de estudos temos o “HOFMANN, Thomas. Probabilistic latent semantic analysis” e “BLEI, David M.; NG, Andrew Y.; JORDAN, Michael I. Latent dirichlet allocation”. Para melhor entendimento, vamos verificar o funcionamento do LDA. No início do procedimento, como mencionado anteriormente, temos apenas o documento e a quantidade de tópicos associados, então, à princípio, os rótulos das palavras são distribuídos aleatoriamente, para depois as probabilidades P(W|T) e P(T|D) serem calculadas e depois a multiplicação destes dois fatores para atualizar a qual tópico os termos pertencem e assim sucessivamente, até que a distribuição um estado estacionário. Agora no que diz respeito a redes de co-ocorrência, é uma técnica para construir as relações entre textos e tópicos apenas utilizando as características estruturais dos documentos e uma janela de contextualização pré-estabelecida como, por exemplo, a classificação de obras literárias apenas olhando as construções sintáticas da escrita e a semântica da obra. No fim da análise com redes de co-ocorrência, de maneira visual, temos um resultado para demonstrar as relações de forma mais “alto nível”, ou qualitativa, evidenciando palavras de maior relevância, o que facilita detectar conceitos relacionados com cada documento. Já com as métricas obtidas, podemos gerar resultados com caráter quantitativo o que permite traçar padrões de similaridade dentro da rede analisada.
Guilherme Beo Arqueiro Na aula 15 de PLN, vimos exemplos e aplicações do NLTK (Natural Language ToolKit) com modelagem de tópicos e redes de co-ocorrência. No início da aula, vimos um exemplo que evidenciava que um artigo ou documento pode ser composto de diferente tópicos, de diferentes áreas, que se misturam para a elaboração de ideias. A ideia é que um documento de texto é uma mistura de diferentes tópicos e, ao termos um novo documento para análise, considerando alguns tópicos extraídos do texto podemos classificar o tópico do texto. O conceito de tópicos foi apresentado, e se trata de um tema ou assunto de um discurso que podem ser representados por uma distribuição de palavras, de forma que uma palavra tem uma certa probabilidade de aparecer neste tópico. A modelagem destes tópicos é uma análise em alto nível do conteúdo de documentos, de forma que seu uso é apropriado quando é necessário lidar com um corpus grande e descobrir rapidamente o conteúdo deste corpus (esportes, genética, computação, etc), além de ser possível entender como esses tópicos se conectam e como mudam ao longo do tempo. Em geral, a modelagem de tópicos recebe como entrada uma coleção de documentos ou um número finito de tópicos, mas não necessariamente sabemos os nomes dos tópicos ou a distribuição de tópicos para cada documento. Neste caso, estaremos tratando de um problema de agrupamento de textos, onde documentos e palavras são agrupadas simultaneamente. Existem diferentes métodos para modelagem desses tópicos, como a PLSA (Probabilistic Latent Semantic Analysis) e LDA (Latent Dirichlet Allocation). O primeiro, é um trabalho pioneiro de Thomas Hofmann, e o segundo vem de um trabalho de David Blei e Andrew Ng. Vimos que um modelo pode definir a geração de um documento, com estimação e inferência deste documento. A técnica de LDA consiste basicamente em atribuir aleatoriamente os tópicos às palavras e calcular P(T|D) e P(W|T) e atualizar o tópico (T) de cada palavra (W). Vimos um exemplo simples com 5 documentos de poucas palavras, onde aplicando o stemmer e sem as stop words e é possível padronizar o texto em suas probabilidades. Mais ao final da aula, vimos redes de co-ocorrência aplicadas para a caracterização de obras literárias, com um exemplo de artigo de iniciação científica produzido por Bruna Pereira Santos. O objetivo deste trabalho era demonstrar, através de diferentes testes empíricos, que é possível classificar textos de obras literárias utilizando suas característica estruturais (padrões topológicos) extraídas de redes de co-ocorrência de texto. Esse tipo de procedimento é realizado com uso de grafos de co-ocorrência, que são geradas após um processo que se segue como normalização, stemming, rede de co- ocorrência com janela de conexão 2 e janela de conexão 5. Nessa análise, podemos obter o tipo de grafo, seus vértices (representados pelo vocabulário), as arestas e a maior frequência entre palavras. Com essa análise, é possível montar as redes com e sem stemming e identificar padrões no texto, como o estilo de cada escritor ou qual é o gênero literário, de forma que é possível realizar uma análise qualitativa das obras literárias, sendo evidenciadas palavras de maior relevância, o que torna mais fácil de detectar conceitos relacionados com a temática de cada texto. A técnica empregada foi a de análise de componentes principais de forma que, para ambas janelas de conexão, obtivemos uma porcentagem de explicação da variância de cerca de 90% com duas dimensões.
Michelle Kaori Hamada Esta aula foi sobre "NLTK através de exemplos: -Modelagem de tópicos (topic modeling); - Redes de co-ocorrência". A modelagem de tópico faz-se sobre um texto que não temos a estrutura, por exemplo, tendo um documento como o exibido na aula sobre genoma, as partes grifadas em amarelo nele estão relacionadas a genética (no caso, tratamos como um tópico). Mas o mesmo artigo pode ser relacionado a outro tópico/assunto, por exemplo computação e biologia. O dado exemplo nos mostra então que um mesmo artigo/documento pode ser composto de diferentes tópicos (ou unidades) que se completam para a elaboração de ideias. Assim, como um dado texto em que não sabemos a estrutura como rotulá-lo, não por palavras mas sobre o documento? Como um documento textual é uma mistura de tópicos (conjunto de rótulos), e tópicos são um tema (ou assunto) de um discurso que podem ser representados por uma distribuição de palavras. Isto significa que uma palavra tem certa probabilidade de aparecer em determinado tópico. Usamos então MT (modelagem de tópicos) para análise em alto nível do conteúdo de documentos para determinar a probabilidade daquele tópico ser de tal tema. A MT é apropriada quando ao termos um corpus grande, desejamos entender o conteúdo deste, além de ser também utilizada para identificar como os tópicos se conectam e desenvolvem ao longo do tempo. Geralmente as entradas para MT são coleções de documentos/corpus e um número finito de tópicos. Ao passo que não podemos informar os nomes dos tópicos e a distribuição de tópicos para cada documento, por exemplo, o quanto o conteúdo de um documento está associado a um tópico. A aplicação de MT pode nos retornar os agrupamentos das palavras, a distribuição dos tópicos e a frequência na qual as palavras aparecem. Observa-se então que se trata de um problema de agrupamento de textos com a diferença que os documentos e as palavras são agrupadas de forma simultânea. Há diferentes técnicas para modelagem de tópicos, mas as mais importantes na literatura são: PLSA (Probabilistic Latent Semantic Analysis - 1999) e LDA (Latent Dirichlet Allocation - 2003). O Primeiro é o trabalho pioneiro de Hofmann e o segundo é o trabalho mais popular de Blei. Os modelos generativos para textos pegam e geram documentos a partir de um modelo, a o contrário, a partir de um documento inferir modelos também é feita por LDA. As redes de co-ocorrência podem ser usadas para aplicar a caracterização de obras literárias utilizando- se de PLN e grafos. Esse foi o projeto de IC de uma aluna, se poderíamos classificar as obras literárias de acordo com os gêneros literários. Estes são textos não estruturados que podem ser classificados como conto, crônica, poesia, romance e teatro. O objetivo era demonstrar que através de diferentes testes empíricos era possível a classificação de textos de obras literárias ser realizada usando suas características estruturais (padrões topológicos) extraídas de redes de co-ocorrência textual. A conclusão foi que com a visualização das redes de co-ocorrência é possível realizar uma análise mais qualitativa das obras literárias, sendo evidenciadas palavras de mais relevância, o que torna mais fácil detectar conceitos realizados com a temática de cada texto. E com as métricas obtidas foi possível buscar padrões de similaridade e comparar autoria e gênero literário. Assim, foi possível identificar que é possível caracterizar sim uma separação entre os gêneros de acordo com os padrões encontrados.
Marcela Akemi Yamashita NLTK atrabés de exemplos: modelagem de tópícos e redes de co-orrência. Exemplo: agrupamento de um tópico específico através de palavras. Artigo "Seeking Life's Bare (Genetic) Necessities". É possível inferir tópicos do artigo através da ocorrência das palavras "genes", "genomes", "sequenced genome", "genetic": (Genética), "computer", "numbers", "prediction", "computacional": (Computação), "organism", "survive", "life": (Biologia) etc. Tais exemplos evidenciam que um artigo ou documento pode ocorrer diversos tópicos que se misturam para elaboração de idéias. Artigo de revisão em Communications of ACM (2012), "Probabilistic Topic Models" trata da ideia de utilizar algoritmos probabilisticos para descobrir novos assuntos que estão entrelaçados em uma coleção maior e não-estruturada de documentos, auxiliando na organização da coleção de acordo com os assuntos descobertos. UM documento textual é uma mistura de tópicos. Ao analisar um novo documento, considerando os tópicos, de acordo com os valores probabilísticos dos termos contidos, é possível determinar que o documento aborde computação. Tópicos: temas ou assuntos de um discurso. Podem se representados por uma distribuição de palavras, onde cada uma tem certa probabilidade de aparecer no tópico. Ex. Tópicos como "genetics" provavelmente conterão palavras como "human", "genome", "dna", "genes", assim como "computers" provavelmente terá os termos "computer", "Models", "Information", "data" etc. Modelagem de tópicos(MT): Trata-se de uma análise abstrata do conteúdo de documentos. Diante de um corpus grande é desejável entender de forma rápida o conteúdo dele (se é sobre "esportes", "genética"...). Também pode ser utilizada para identificar como tópicos se conectam e como mudam ao longo do tempo. Entradas: coleção de documentos ou corpus, número fínito de tópicos. Desconhecido: nome dos tópicos, distribuição para cada documento. Problema de agrupamento de textos, sendo que documentos e palavras são agrupados simultaneamente. Dois métodos mais conhecidos: PLSA (Probabilistic Latent Semantic Analysis - 1999) e LDA (Latent Dirichlet Allocation - 2003). Pioneiro: PLSA. 2538 citações. LDA, inspirado em PLSA: 27564 citações. Por vezes artigos antigos ficam por tempos sem qualquer reconhecimento até que haja interesse por eles (Bela Adormecida). Modelos generativos e LDA: Um modelo leva a geração de um documento. E um documento gera uma estimação/inferência (bag of words) de um modelo. Geração de modelos é muito dificil e por vezes existem vários modelos, sendo dificil inferir um. LDA: atribuir aleatoriamente tópicos as palavras, calculando P(T|D) e P(W|T), atualizando cada tópico (T) de cada palavra (W) com P(T|D)*P(W|T). Exemplo: cinco documentos, 2 sobre comida e 2 sobre animais, 1 doc ambiguo. APlicação de stemmer. Quinto documento é classificado como comida. Redes de co-ocorrência aplicadas a caracterização de obras literárias. IC de aluna do professor. Utilização de classificação de textos de obras literárias utilizando padrões topológicos extraídos de redes de co-ocorrência textual. Visualização das redes torna possivel realizar análise mais qualitativa de obras literárias, evidenciando palavras de maior relevância, facilitando detectar conceitos relacionados a temática de cada texto. Através das métricas da rede, possível realizar análise quantitativa, permitindo buscar padrões de similaridade e comparar autoria e gênero literário. Técnica de análise: PCA, obtendo porcentagem de explicação de variância de cerca de 90% com duas dimensões.
Carlos Eduardo Ramos A aula 15 teve como tema Modelagem de tópicos (topic modeling) e Redes de co- ocorrência. Foi apresentado um texto sobre genética, com palavras-chave destacadas no texto. Porém, outras palavras-chave podem não condizer com a determinação do verdadeiro assunto do texto. Um texto pode conter diversas palavras que se relacionam em um dado tema ou área do texto. Esses são diferentes tópicos de um texto ou documento. Um tópico é um assunto, um tema com palavras distribuídas. As palavras tem certa probabilidade de aparecer no tópico. Na modelagem de tópicos probabilística (LDA), temos um tipo de modelo estatístico para descobrir os "tópicos" abstratos que ocorrem em uma coleção de documentos. A modelagem de tópicos é uma ferramenta de mineração de texto freqüentemente usada para a descoberta de estruturas semânticas ocultas em um corpo de texto. Um documento geralmente diz respeito a vários tópicos em diferentes proporções. Os Tópicos produzidos por técnicas de modelagem de tópicos são conjuntos de palavras semelhantes. Um modelo de tópico captura essa intuição em uma estrutura matemática, que permite examinar um conjunto de documentos e descobrir, com base nas estatísticas das palavras de cada um, quais podem ser os tópicos e qual é o equilíbrio de tópicos de cada documento. As palavras podem se encaixar nos conjuntos de tópicos existentes no texto. O resultado seria o apontamento do tópico mais provável de representar o texto ou documento A modelagem de tópicos implementa algoritmos para identificar como esses tópicos se conectam, e como mudam ao longo do tempo. A entrada é um corpus e um número finito de tópicos. Os nomes dos tópicos não são conhecidos. As duas abordagens mais conhecidas são: PLSA: Probabilistic Latent Semantic Analysis (1999) LDA: Latent Dirichlet Allocation (2003). O trabalho pioneiro envolvendo PLSA foi publicado por Thomas HOFMANN e possui mais de duas mil citações. O trabalho mais popular de LDA foi publicado por David M. BLEI; Andrew Y. NG; Michael I. JORDAN da Universidade de Stanford. O LDA, permite que conjuntos de observações sejam explicados por grupos [não observados](https://en.wikipedia.org/wiki/Latent_variable) que explicam porque algumas partes dos dados são semelhantes. A partir do documento, temos os tópicos, e cada tópico tem as palavras que o compõem e a probabilidades disso ocorrer. Após, os tópicos são distribuídos aleatoriamente às palavras. O cálculo da probabilidade condicional é realizado. O somatório da probabilidade para pertencer ao tópico é calculado. A segunda parte da aula envolveu Redes de co-ocorrência aplicadas para a caracterização de obras literárias, um trabalho realizado por uma aluna de IC da UFABC.O trabalho envolveu uma classificação de textos de obras literárias, sendo realizada usando características estruturais (padrões topológicos) extraídas de redes de co-ocorrência textual. O trabalho adotou o seguinte fluxo de processamento: coleta de obras literárias, pré-processamento e normalização, geração das redes de co-ocorrência, visualização da rede de co- ocorrência, análise comparativa e caracterização das obras literárias. Na caracterização, quanto maior o tamanho da janela, maior o número de arestas do grafo de co-ocorrência (grafo dirigido com arestas ponderadas)
Caique de Camargo 15ª aula de processamento de linguagem natural. Continuando com tema de NLTK com exemplos, hoje foram apresentadas duas vertentes: Modelagem de Tópicos (Topic Modeling) e Redes de Co-ocorrência. A ideia da modelagem de tópicos é evidenciar o que é tratado no texto separando-o por unidades, um texto normalmente é uma mistura de tópicos, mas existe aquele que é mais abrangente em seu conteúdo e por isso mais provável de o documento fazer parte deste terminado tópico propabilisticamente. Um tópico pode ser entendido como um tema ou assunto de um discurso, como pode ser representado por palavras essas possuem uma probabilidade de fazer parte de um determinado tópico. No fim, a modelagem de tópicos é uma análise abstrata e em alto nível do conteúdo do documento. É apropriado quando, frente a um corpus grande, deseja-se entender, de forma rápida, o conteúdo dele, a MT também pode ser utilizada para identificar como esses tópicos se conectam e como mudam ao longo do tempo. Normalmente o MT tem como entrada uma coleção de documentos ou corpus e um número finito de tópicos, mas não sabemos os nomes dos tópicos e a distribuição dos tópicos para cada documento. Estamos, então, lidando com um problema de agrupamento de textos com a variante de que documentos e textos são agrupados simultaneamente. Das abordagens existentes duas são bastante conhecidas: PLSA: Probabilistic Latent Semantic Analysis (1999) e LDA: Latent Dirichlet Allocation (2003). Thomas Hoffman foi um dos pioneiros na área ao lançar seu estudo Probabilistic latent semantic analysis em 1999 na Morgan Kaufmann Publishers Inc. E o trabalho mais popular é o de David M. Blei, Andrew Y. e Michael I. Jordan sobre Latent dirichlet allocation para o Journal of machine Learning research em 2003. O modelo LDA atribui aleatoriamente os tópicos as palavras por probabilidade e calcula a probabilidade de um determinado documento estar em um determinado tópico. Redes de co-ocorrência podem ser aplicadas para a caracterização de obras literárias, pelo menos é o que diz o estudo de Bruna Pereira Santos em seu estudo Caracterização de obras literárias usando redes de co-ocorrência, publicado na FAPESP pela Universidade Federal do ABC em um programa de iniciação científica. Com ele foi possível demonstrar, através de diferentes testes empíricos, que a classificação de textos de obras literárias pode ser realizada usando suas características estruturais (padrões topológicos) extraídas de redes de co- ocorrência textual. E a partir do trabalho foi possível concluir que com a visualização das redes de co-ocorrência é possível realizar uma análise mais qualitativa das obras literárias, sendo evidenciadas palavras de maior relevância, o que torna mais fácil detectar conceitos relacionados com a temática de cada texto. A partir das métricas obtidas das redes de co- ocorrência, é possível realizar uma análise mais quantitativa, o que permitiu buscar padrões de similaridade e comparar autoria e genero literário. A técnica utilizada foi a de análise de componentes principais sendo que, para ambas janelas de conexão, obtivemos uma porcentagem de explicação da variância de cerca de 90% com duas dimensões.
Laura Cestavo Borges Dos Santos A aula do dia 1/8 foi sobre NLTK novamente, dessa vez focando em exemplos de modelagem de tópicos (topic modeling) e redes de co-ocorrência. Inicialmente vimos um texto o qual evidencia que um artigo/documento pode estar composto de diferentes tópicos (ou unidades) que se misturam para a elaboração de ideias. Ou seja, um documento textual é uma mistura de tópicos e ao termos um novo documento a ser analisado, e considerando outros quatro textos nas áreas de genética, computação, ciências da vida e anatomia, ou seja, temos quatro tópicos. Podemos pensar que para esse novo texto o mais provável é que ele seja da computação. Um tópico pode ser entendido como um tema (ou assunto) de um discurso. Os tópicos podem ser representados por uma distribuição de palavras. Isso significa que uma palavra tem certa probabilidade de aparecer nesse tópico. Modelagem de tópicos é uma análise “abstrata” (em alto nível) do conteúdo de um documento. É apropriado quando, frente um corpus grande, deseja-se entender de forma rápida o conteúdo dele. Por exemplo, se é um documento de esportes ou de computação. A MT também pode ser utilizada para identificar como esses tópicos se conectam e como mudam ao longo do tempo. O que se usa como entrada para a MT são uma coleção de documentos (ou corpus) e um número finito de tópicos. O que não sabemos na modelagem de tópicos são os nomes dos tópicos e a distribuição de tópicos para cada documento. É possível observar que estamos tratando um problema de agrupamento de textos com a variante de que documentos e palavras são agrupadas simultaneamente. Existem diferentes métodos para a modelagem de tópicos, as duas mais conhecidas são a PLSA (Porbabilistic Latent Semantic Analysis – 1999) e a LDA (Latent Dirichlet Allocation – 2003). Queremos ter a partir de um modelo, gerar um documento e inferir/estimar a partir de um documento qual é o modelo dele. A geração de modelo é uma tarefa difícil. O LDA sugere que atribui-se aleatoriamente os tópicos as palavras e calcula as probabilidades, atualizando o tópico de cada palavra com o produto dessas probabilidades. Vimos um exemplo na aula de 5 documentos com poucas palavras. Era possível ver que os dois primeiros eram referentes a comida, o 3 e 4 referentes a animais e o 5 era referente a comidas e animais. Após remover as stop words e aplicar um stemmer, passou-se o algoritmo e foi possível ver que o 5 tópico acabou sendo classificado como comida. Por fim a aula terminou com o artigo feito por uma aluna da UFABC sobre redes de co-ocorrência aplicadas para a caracterização de obras literárias, onde o objetivo do trabalho era demostrar que a classificação de textos de obras literárias pode ser utilizado usando suas característica estruturais extraídas de redes de co-ocorrência textual. Onde concluiu-se que com as redes é possível fazer uma analise mais qualitativa das obras, sendo evidenciadas palavras de maior relevância e a partir das métricas obtidas.
Matheus de Araujo Vargas Na aula de Processamento de Linguagem Natural do professor Jesus P. Mena do dia 1 de Agosto foram apresentados, com o uso do NLTK (Natural Language Toolkit), modelagem de tópicos e redes de co-ocorrência. Um tópico pode ser entendido como um tema (ou assunto) de um discurso. São exemplos de tópicos: computação, anatomia, genética, religião, esporte, etc. Os tópicos podem ser representados por uma distribuição de palavras. Isso significa que uma palavra tem certa probabilidade de aparecer nesse tópico. Por exemplo, as palavras "dna" e "genoma" tem maior probabilidade de aparecer em textos pertencentes ao tópico "genética". Já as palavras "programação" e "hardware" tem maior probabilidade de pertencerem a um texto do tópico "computação". A modelagem de tópicos é uma análise “abstrata” (em alto nível) do conteúdo de documentos.É apropriado quando, frente a um corpus grande, deseja-se entender, de forma rápida, o conteúdo dele: trata-se de um documento de "esportes", "genética" ou "computação"? A modelagem de tópicos também pode ser utilizada para identificar como esses tópicos se conectam e como mudam ao longo do tempo. Geralmente, são considerados como entrada para a modelagem de tópicos uma coleção de documentos (ou corpus) ou um número finito de tópicos. O que não sabemos é quais são os nomes dos tópicos e qual a distribuição de tópicos para cada documento. Existem diferentes métodos para modelagem de tópicos. Dentre elas, as duas abordagens mais conhecidas são PLSA (Probabilistic Latent Semantic Analysis- 1999) e LDA (Latent Dirichlet Allocation - 2003). O LDA é um modelo probabilístico generativo para coleções de dados discretos como corpus de documentos. Um modelo generativo é aquele que aleatoriamente gera os dados a partir das variáveis latentes. Assim, o LDA não é um algoritmo com descrições sequenciais de instruções para encontrar tópicos dada uma coleção de documentos. O LDA é um modelo probabilístico no qual é descrito como os documentos são gerados. Nesse modelo, as variáveis observáveis são os termos de cada documento e as variáveis não observáveis são as distribuições de tópicos. Os parâmetros das distribuições de tópicos, conhecidos como hiper-parâmetros, são dados a priori no modelo. A distribuição utilizada para amostrar a distribuição de tópicos é a distribuição de Dirichlet. No processo generativo, o resultado da amostragem da Dirichlet é usado para alocar as palavras de diferentes tópicos e que preencherão os documentos. Assim, pode-se perceber o significado do nome Latent Dirichlet Allocation, que expressa a intenção do modelo de alocar os tópicos latentes que são distribuídos obedecendo a distribuição de Dirichlet. Foi apresentado na aula também um projeto que utiliza redes de co-ocorrência para a caracterização de obras literárias. O objetivodo projeto é demonstrar, através de diferentes testes empíricos, que a classificação de textos de obras literárias pode ser realizada usando suas características estruturais (padrões topológicos) extraídas de redes de co-ocorrência textual. A partir das métricas obtidas das redes de co-ocorrência, é possível realizar uma análise mais quantitativa, o que permitiu buscar padrões de similaridade e comparar autoria e genêro literário.
Paula Keiko Miyashita O tópico da aula 15 foi NLTK através de exemplos: Modelagem de tópicos (topic modeling) e Redes de co-ocorrência. A aula se iniciou com modelagem de tópicos, demonstrando um artigo onde palavras que indicam diferentes tópicos foram grifadas com diferentes cores, demonstrando que um único texto pode conter diferentes tópicos que se misturam para a elaboração da ideia final. Um artigo sobre Probabilistic Topic Models, citado pelo menos 4531 vezes, demonstra como modelagem de tópicos é um assunto importante. A ideia é que um texto é uma mistura de tópicos e, uma vez que tenhamos mapeadas as palavras de cada tópico, ao receber um novo texto podemos analisa-lo e verificar a qual tópico é mais provável que o texto pertença. Os tópicos podem ser definidos como uma distribuição de palavras, ou seja, uma palavra tem determinada probabilidade de aparecer num tópico. A modelagem de tópicos é uma análise abstrata, em alto nível, do conteúdo do documento, é apropriada para situações em que se tem um corpus grande e deseja-se entender de forma rápida seu conteúdo. Outras situações em que a modelagem pode ser utilizada é para a identificação do tipo de conexão entre os tópicos presentes no texto e como se modificam com o tempo. As entradas usuais de uma Modelagem de Tópicos é uma coleção de documentos/corpus e um número finito de tópicos. Não se pode fornecer o nome dos tópicos nem a distribuição de tópicos neste. Ou seja, fornecemos uma coleção de documentos e recebemos uma coleção de tópicos, a distribuição destes tópicos e a frequência das palavras dentro destes tópicos, ou seja, documentos e palavras são agrupados ao mesmo tempo. As duas modelagens mais conhecidas são PLSA (Probabilistic Latent Semantic Analysis) e LDA (Latent Dirichlet Allocation), mas existem diversas outras. Um fato interessante foi que o artigo de LDA não foi muito citado (por volta de 2538 vezes), no entanto um segundo artigo, que se baseia no LDA foi citado por volta de 27564 vezes. Modelos generativos utilizam modelos para gerar textos, mas como descobrir qual modelo gerou o texto? Utilizando LDA. Basicamente se atribui aleatoriamente tópicos às palavras, calcula-se a probabilidade de cada documento ser de cada tópico e de cada de cada palavra ser determinada palavra de determinado tópico. A partir destes dados, calcula-se as probabilidades de classificação de cada palavra e reclassifica-a, modificando as probabilidades em tempo de execução. A classificação de textos de obras literárias pode ser realizada ao estudar suas características estruturais (padrões topológicos), extraídas de redes de co-ocorrência textual. Após retirar stopwords e passar por um stemmer, pode-se determinar janelas de conexão determinam até quantas palavras ao redor são consideradas como relacionadas à palavra em questão para construir um grafo de co-ocorrência. A partir de informações do grafo, utilizam-se algumas de suas métricas para plotar um gráfico com a distribuição dos textos que, finalmente, permite classifica-los.
Leonardo Nascimento Enquanto na sumarização o interesse é escolher uma frase ou um conjunto de frases que representem um texto, na modelagem de tópicos, também conhecida como topic modeling, o objetivo é identificar os diferentes tópicos envolvidos nesse texto. Um tópico pode ser entendido como um tema ou um assunto de um discurso, podendo ser representado por uma distribuição de palavras. Isso significa dizer que é possível atribuir probabilidades de uma palavra aparecer em determinado tópico. O exemplo apresentado evidencia que um documento pode ser composto por diferentes tópicos, os quais se misturam para a elaboração de ideias. As palavras no texto de exemplo nos remetem à genética, computação e biologia, e também seria possível analisar qual a probabilidade do texto pertencer a cada um desses tópicos. Não sabendo a estrutura ou quem escreveu determinado documento, a atribuição de rótulos poderia ser feita com modelagem de tópicos. Essa técnica é apropriada quando, frente a um corpus grande, deseja-se entender qual é o assunto do texto. Ainda, essa técnica também pode ser utilizada para identificar como os tópicos se conectam e mudam ao longo do tempo. Para a modelagem de tópicos geralmente se considera como entrada um corpus e um número finito de tópicos. Nesse processo, que nada mais é do que um problema de agrupamento de textos, as abordagens para modelagem de tópicos mais conhecidas são Probabilistic Latent Semantic Analysis (PLSA) e Latent Dirichlet Allocation (LDA). Para avaliar o modelo construído, padroniza-se o texto removendo stop-words e aplicando um stemmer e, na sequência, calcula-se a probabilidade de pertencer a cada um dos tópicos possíveis. Outra abordagem para caracterização de textos são as redes de co-ocorrência. No caso específico, redes de co-ocorrência aplicadas para a caracterização de obras literárias, onde o objetivo do trabalho era demonstrar, através de diferentes testes empíricos, que a classificação de textos de obras literárias pode ser realizada usando padrões topológicos, isto é, sua características estruturais, extraídas de redes de co-ocorrência textual. Nesse processo, a frase original foi normalizada, essencialmente removendo stop-words, um stemmer foi aplicado, e redes de co-ocorrência foram montadas a partir de janelas de diferentes tamanhos. Assim, analisando somente a topologia do gráfico, usando métricas como as vistas em comunicação em redes, é possível entender a estrutura das obras. Com a visualização das redes de co-ocorrência é possível realizar uma análise mais qualitativa das obras literárias, sendo evidenciadas palavras de maior relevância, o que torna mais fácil detectar conceitos relacionados com a temática de cada texto. A partir das métricas obtidas das redes de co-ocorrência, é possível realizar uma análise mais quantitativa, o que permitiu buscar padrões de similaridade, comparar autoria e gênero literário. A técnica utilizada foi a de análise de componentes principais, sendo que, para as janelas de conexão 2 e 5 utilizadas, obteve-se uma porcentagem de explicação da variância de cerca de 90% com duas dimensões.
Jairo da Silva Freitas Junior Na aula 15, iniciamos pelo assunto modelagem de tópicos (topic modeling) usando NLTK. Esta parte da aula é baseada no artigo “Probabilistic Topic Models” publicado na Communications of the ACM em 2012 por David Blei. Um mesmo texto pode ter um ou mais assuntos relacionados, aos quais chamamos de tópicos. Cada tópico é caracterizado por uma distribuição de probabilidades associadas a termos no texto. Por exemplo: palavras como espécie, vida e grupo estão associadas a Evolução, enquanto hospedeiro, bactérica, infeccioso e cepa estão mais próximas de Doenças. A modelagem de tópicos pode ser útil para identificar os assuntos principais de um documento, como os tópicos se conectam e a mudança no tempo dos tópicos aos quais uma palavra está ligada. É preciso fornecer ao modelo um corpus e o número de agrupamentos desejados. Por se tratar de técnica de aprendizado não supervisionado, em que documentos e palavras são agrupados simultaneamente, o nome de cada tópico deve ser atribuído a posteriori pelo especialista. Os métodos mais utilizados para modelagem de tópicos são PLSA (Probabilistic Latent Semantic Analysis, publicado originalmente por Thomas Hofman) e LDA (Latent Dirichlet Allocation de David Blei e o famoso Andrew NG). No LDA (1) o modelo inicia atribuindo classificando aleatoriamente cada palavra à um tópico. Em seguida, (2) calcula-se P(T|D) e P(W|T), onde T é um tópico, D um documento, e W uma palavra. (3) Cada palavra tem seu tópico reatribuído de acordo com o maior valor do produto das probabilidades a priori calculadas para um dado T, W e D, isto é o novo tópico é argmax(P(T|D)xP(W|T)) (suponha um vetor com tamanho |T|). Repete-se (2) e (3) algumas vezes até o algoritmo convergir. A segunda parte da aula foi sobre Redes de co-ocorrência. Fizemos um estudo do trabalho de iniciação científica da Bruna Pereira Santos intitulado “Caracterização de obras literárias usando redes de co-ocorrência”. O trabalho tinha como objetivo demostras empiricamente que textos de obras literárias podem ser classificados usando características estruturais de redes de co-ocorrência textual. Após a normalização e stemming, a aluna testou diversos tamanhos de janela de conexão para gerar as redes de co-ocorrência. Basicamente, a janela de conexão é a distância máxima (em palavras) para a qual uma palavra é considerada conectada a outro na grafo de co-ocorrência de um texto. Obviamente, conforme cresce o a janela de conexão, aumenta o número de arestas e a maior frequência entre palavras. Importante destacar que o grafo tem mudanças topológicas importantes dependendo da aplicação ou não de stemming, sendo recomendado este procedimento para este tipo de análise. Foram extraídas diversas variáveis sobre a topologia do gráfico e aplicou-se PCA para redução de dimensionalidade, sendo possível classificar obras tanto por autor quanto por gênero. O trabalho foi disponibilizado, a meu pedido, no repositório Tidia da disciplina.
Matheus Dos Santos Pereira Resumo da aula 15 de processamento de linguagem natural, com o tema de NLTK através de exemplos: Modelagem de tópicos (topic modeling), Redes de concorrência. A aula começou com um exemplo de como biologia, computação e genética podem se misturarem para criar ideias, o exemplo dado é referente a uma publicação no GENOME MEETING, sobre seeking life’s Bare (Genetic) Necessities. O que é uma ideia? Ideia é um documento texto onde ocorre uma mistura de tópicos. Um tópico pode ser entendido, como um tema de discurso, podemos representa-los através da distribuição de palavras, isso significa que cada palavra tem certa probabilidade de aparecer neste tópico, foi mostrado uma tabela (olhar aula 15, slide 9) com as palavras que podem compor os tópicos de 4 áreas (Genética, Evolução, Doenças, Computação). Este tipo de analise é apropriada quando de modo rápido, deseja-se entender o conteúdo de um corpus grande. Também pode ser usada para entender como corpus se conectam e como mudam ao longo do tempo. Normalmente para se fazer esta modelagem de tópicos (MT) vista acima, colocamos de input uma coleção e dados e um numero finito de tópicos, porem não podemos usando o MT sabe os nomes dos tópicos (Não podemos informar, por exemplo, a busca de tópicos em computação.) e a distribuição destes. (Não sabemos se os documentos têm um conteúdo associado a 50% computação e 50% esportes.). Note, então, que estamos tratando um problema de agrupamento de textos, com a variante de que: Documentos e palavras são agrupadas simultaneamente. Existem diferentes métodos para modelagem de tópicos, as duas abordagens mais conhecidas são: PLSA (Probabilistic Latent Semantic Analysis (1999)) e LDA (Latent Dirichlet Allocation (2003)). Outro tópico abordado em aula foi Modelos generativos e LDA que consiste em: Passo 1º Atribuir aleatoriamente os tópicos as palavras 2º Calcular P(T|D) e P(W|T) 3º Atualizar o tópico (T) de cada palavra (W) com P(T|D) x P(W|T). Outro tópico foi Redes de concorrência aplicadas para a caracterização de obras literárias, demonstrar através de diferentes testes empíricos, que a classificação de textos de obras literárias pode ser realizada usando suas características estruturais (padrões topológicos) extraídas de redes de concorrência textual. Com a visualização das redes de concorrência é possível realizar uma análise mais qualitativa das obras literárias, sendo evidenciadas palavras de maior relevância, o que torna mais fácil detectar conceitos relacionados com a temática de cada texto. A partir das métricas obtidas das redes de concorrência, é possível realizar uma análise mais quantitativa, o que permitiu buscar padrões de similaridade e comparar autoria e gênero literário. A técnica utilizada nos exemplos dados foi a de análise de componentes principais sendo que, para ambas janelas de conexão, obtivemos uma porcentagem de explicação da variância de cerca de 90% com duas dimensões.
Marcelo de Souza Pena Aula 15 de PLN, continuando a falar sobre o NLTK através de exemplos, desta vez sobre modelagem de tópicos e redes de co-ocorrência. Começando a aula vimos um exemplo de texto e como ele poderia ser rotulado como um texto sobre genética, sobre computação ou sobre biologia, uma vez que ele possui palavras das listas de palavras usadas para classificar textos nesses temas. Isso mostra que um artigo é composto por diferentes tópicos que se misturam para elaborar uma ideia. Vimos um texto da revista Communications of the ACM sobre o assunto da aula que teve muitas citações, mais do que normalmente um artigo da computação consegue. Um tópico pode ser entendido como um assunto ou tema e representado por uma lista de palavras com uma probabilidade de aparecer no tópico. Essas lista são geralmente apontadas por especialistas. A modelagem de tópicos (MT) é útil quando você tem um corpus grande e precisa entender rapidamente o conteúdo dele e para entender como diferentes tópicos se conectam e como mudam ao longo do tempo. Na entrada de um algoritmo de modelagem temos o corpus (coleção de documentos) e um número finito de tópicos, mas não sabemos os nomes dos tópicos, nem a distribuição deles para cada documento. Depois de passar pela caixa preta que é esse algoritmo, temos os clusters de cada tópico (como um problema de agrupamento de textos), a distribuição de tópicos e a frequência de palavras em cada tópico. Os dois métodos mais usados são PLSA e LDA, ambos muito citados quando publicados. A geração do modelo é uma tarefa difícil. No caso do LDA os tópicos são atribuídos aleatoriamente às palavras, então são reclassificados calculando a probabilidade do tópico no documento e a probabilidade das palavras no tópico, assim cada palavra vai ter uma probabilidade de estar em cada tópico e a classificação será atualizada de acordo com ela. A cada atualização os coeficientes dever ser recalculados. Vimos um exemplo com 5 frases sobre comidas e animais. Após retirar stopwords e lemmatizar, a quinta frase, que tem elementos dos dois, é classificada no tópico comida. Vimos uma IC feita por uma aluna da UFABC que não quer computação tentando saber se redes de co- ocorrência podem ser usadas para classificação de textos de obras literárias. Como demonstrado, os gêneros literários aparentam poder ser classificados, especialmente crônicas, teatro e romance. Pega a frase original, tira stopwords, normaliza, passa um stemmer, faz a rede de co-ocorrência com janela de conexão 2 e 5. Foram feitas várias análises, criação de grafos, redução de dimensionalidade, etc. Com essas redes é possível evidenciar palavras mais relevantes e realizar análises mais quantitativas. No caso o stemmer não foi tão bom, pois perde um pouco o sentido das palavras; um lemmatizador teria sido melhor.
Lucas Kenzo Kurokawa Tema da aula 15 é “NLTK através de exemplos: - Modelagem de tópicos (topic modeling)- Redes de co-ocorrência”, onde vimos um exemplo de que um documento pode ser composto por diferentes tópicos que se misturam para elaboração de ideias. Um tópico pode ser entendido como um tema/assunto de um discurso. Podem ser representados por uma distribuição de palavras, ou seja, uma palavra tem certa probabilidade de aparecer nesse tópico. Modelagem de tópicos (MT) é uma análise abstrata (alto nível) do conteúdo de documentos. É recomendado o uso quando frente a um corpus grande, buscamos entender o conteúdo dele (se for um documento relacionado com esportes, genética, computação, etc). Pode ser utilizada também para identificar como os tópicos se conectam e como mudam ao longo do tempo. Como entrada para a MT temos uma coleção de documentos (corpus) e um número finitos de tópicos. Não sabemos os nomes dos tópicos e nem a distribuição (em quais e a proporção para cada documento). Então, note que no fim estamos falando de um problema de agrupamento de textos, e para isso temos duas abordagens mais conhecidas: PLSA (“probabilistic latent semantic analysis” de 1999) e LDA (“latent dirichlet allocation” de 2003). Modelos generativos e LDA. A partir de um modelo, temos a geração do documento, com o documento podemos gerar um bag of words (BOW), ou seja, um “saco” contendo a contagem de palavras daquele documento. A geração do modelo é uma tarefa difícil e para inferirmos o modelo, misturamos os modelos. Dado um documento, tentamos identificar qual tópico está associado. Fazemos isso atribuindo aleatoriamente os tópicos às palavras. Com isso podemos calcular as probabilidades dos tópicos no documento. A atualização dos tópicos é feita palavra por palavra. Isso é feito pelo tópico que tiver o maior resultado de probabilidade. Assim após a atualização dos tópicos, os cálculos dos coeficientes dos documentos devem ser refeitos, além dos coeficientes das palavras nos tópicos. Redes de co-ocorrência aplicadas para a caracterização de obras literárias. Objetivo é demonstrar através de diversos testes empíricos que a classificação de textos de obras literárias pode ser realizada através da análise das características estruturais através das redes de co- ocorrência textual. Pipeline: obras literárias, coleta, pré-processamento (parsing, remoção de stopwords e stemming), geração das redes de co-ocorrência (com parâmetros), análise comparativa e visualização das redes. Com a visualização das redes, é possível fazermos uma análise mais qualitativa, sendo evidenciadas as palavras de maior relevância, facilitando a detecção dos conceitos relacionados as temáticas. Além disso, permite buscar padrão de similaridade e comparar autoria e gêneros. No exemplo mostrado em sala, a técnica utilizada foi de janelas de conexão com porcentagem de explicação de variância de cerca de 90% com duas dimensões.
Pedro Ricardo Bronze Nesta aula iremos passar pelo assunto de Topic Modeling (MT) como citado na aula anterior fazendo uso da biblioteca NLTK. Um artigo da revista Science é apresentado a respeito de genética, computação e biologia. O artigo 'Probabilistic Topic Modeling' da 'Communication of ACM - 2012' representa ótima leitura para entender o assunto de Topic Modeling, recomendação do próprio Profº Jesus. Podemos utilizar a MT para classificar textos de acordo com as áreas às quais estes devem pertencer. MT é uma análise mais alto nível do conteúdo de um documento, para além de frequências de palavras ou estruturas sintáticas apenas. A MT pode em posterior instância ser utilizada para análise de distância entre tópicos esta conexão varia ao longo do tempo. As entradas para MT são corpus de documentos e um número finito de tópico. Os nomes dos tópicos e a quantidade de documentos que se tem em cada tópico não são sabidos a priori. O problema em seu cerne é um problema de agrupamento de textos sendo que documentos e palavras são agrupadas simultaneamente. Principais métodos de MT são: Probabilistic Semantic Analysis (PLSA) e LDA (Latent Dirichlet Allocation). É fundamental que se tirem sinais de pontuação, stop-words além de ser recomendado a utilização de um stemmer/lemmatizer para agrupar palavras da mesma raiz. Um exemplo de programa foi upado na página da disciplina para modelagem simples de algumas frases de exemplo. Além disso, um trabalho de Iniciação Científica da UFABC chamado 'Caracterização de obras literárias usando redes de co-ocorrência' apresenta uma utilização do próximo assunto desta aula. Etapas comuns envolvem normalização (Parsing, stopwords, remoção de pontuação etc), stemming, rede de co-ocorrência que pode ter diferentes tamanhos, 2 envolvendo apenas duas palavras lado a lado. Em uma janela de 5 palavras as palavras são linkadas com as 5 palavras adjacentes para procurar padrões de co-ocorrência. No caso do stemming podemos perder semântica em certas palavras então considerar a utilização de um lemmatizador é viável. Para uma maior precisão semântica é adequado utilizar um lematizador, embora com stemmer características topológicas ainda são evidentes. Análise de grafo nos permite estudar como diferentes autores escrevem de determinadas formas e como se relacionam com outros autores ou períodos litarários de um mesmo autor. Algumas das obras de Machado de Assis são apresentadas após a aplicação de um PCA para possibilitar a visualização considerando duas componentes principais (PCA). Rotulação posterior nos permite visualizar como as obras de distribuem e emergem padrões de agrupamentos de certos tipos de textos como crônicas, poesias, prosas e contos. Quando perguntado o professor evidenciou que alguns autores apresentam um maior grau de amadurecimento literário, o que poderia ser evidenciado por diferentes padrões topológicos de suas obras para diferentes períodos.
Tamiris Gabriele da Silva Lira A décima quinta aula de Processamento de Linguagem Natural continuou a apresentar o pacote NLTK, Natural Language Toolkit, através de exemplos. Nessa aula estudamos Modelagem de tópicos (topic modeling) e Redes de co-ocorrência. O professor iniciou a aula apresentando um trecho de artigo que continha algumas palavras-chave destacadas. Estas palavras poderiam ser classificadas em diferentes categorias, o que indica que "um artigo/documento pode estar composto de diferentes tópicos (ou unidades) que se misturam para a elaboração de ideias". No caso do artigo analisado, considerando as palavras destacadas, existe uma maior probabilidade de ser um texto de Computação, ainda que ideias de genética e ciências biológicas estejam presentes. Assim, o professor introduziu a noção de que um documento é uma mistura de tópicos, e que cada tópico pode ser entendido como um tema e representado por um conjunto de palavras, onde para cada palavra pode ser atribuída uma probabilidade de pertencer ao tópico. Dessa forma, o conceito de Modelagem de Tópicos é apresentado como uma análise em alto nível de um documento, de modo que se possa entender qual o seu conteúdo. A modelagem de tópicos, portanto, permite observar como os tópicos mudam ao longo do tempo e como eles se relacionam; recebe como entrada uma coleção de documentos e um número de tópicos que não são definidos com um nome, o que impede que seja possível determinar a distribuição de tópicos para cada documento. O agrupamento de palavras e documentos é feito ao mesmo tempo, e os dois métodos mais conhecidos para a modelagem de tópicos são o PLSA, Probabilistic Latent Semantic Analysis, e o LDA, Latent Dirichlet Allocation. O professor, então, explicou o LDA, que consiste em atribuir um tópico aleatoriamente para cada palavra do documento, calcular a probabilidade do tópico dado o documento e da palavra dado o tópico e, por fim, atualizar o tópico da palavra através da fórmula P(T|D)x(P(W|T). Em seguida, o professor exemplificou as redes de co-ocorrência aplicadas para a caracterização de obras literárias, um projeto de iniciação científica de 2017. Nele, a autora mostrou que é possível classificar obras literárias utilizando suas características estruturais, que foram extraídas através de redes de co-ocorrência textual. Para isso, após a coleta e pré-processamento das obras literárias foram geradas redes de co-ocorrência que respeitavam alguns parâmetros específicos e, subsequentemente, a visualização e análise comparativa dessas redes, resultando na caracterização das obras. Por fim, o professor mostrou o resultado das redes de co-ocorrência com janelas de tamanho dois e cinco e apresentou um gráfico que demonstra o agrupamento das obras de acordo com gêneros literários (conto, crônica, romance, etc.).
Yago Sorrilha Aula: NLTK através de exemplos: \- Modelagem de tópicos (topic modeling) \- Redes de co-ocorrência No início da aula foi apresentado um exemplo de como um artigo ou documento pode estar composto de diferentes tópicos (ou unidades) que se misturam para a elaboração de ideias. Ideia: um documento textual é uma mistura de tópicos: ao termos um novo documento ao ser analisado, e considerando apenas os tópicos: genética, computação, ciências e anatomia, podemos pensar que para um artigo de uma revista de computação, o mais provável é que seja de computação. Um tópico pode ser entendido como um tema ou assunto de um discurso. Os tópicos podem ser representados por uma distribuição de palavras. Isso significa que uma palavra tem certa probabilidade de aparecer nesse tópico. Modelagem de Tópicos (MT) é uma análise "abstrata" (em alto nível) do conteúdo de documentos. É apropriado quando, frente a um corpus grande, deseja-se entender, de forma rápida, o conteúdo dele. A MT também pode ser utilizada para identificar como esses tópicos se conectam e como mudam ao longo do tempo. O que geralmente é considerado como entrada para a MT são: uma coleção de documentos (corpus) e um número finito de tópicos. O que não sabemos: os nomes dos tópicos e a distribuição de tópicos para cada documento. Note, então, que estamos tratando de um problema de agrupamento de textos, com a variante de que documentos e palavras são agrupados simultaneamente. Existes diferentes métodos para modelagem de tópicos, as duas abordagens mais conhecidas são: PLSA: probabilistic latent semantic analysis e LDA: latent dirichlet allocation. Modelos Generativos e LDA Modelos generativos para textos:apresentado alguns diagramas de como funciona este modelo. Demonstração de um exemplo com 5 documentos, remove-se os stop words e aplica- se um stemmer, tem-se o resultado de tópicos após aplicação. Redes de co-ocorrência aplicadas para a caracterização de obras literárias: trabalho de iniciação científica de uma aluna da UFABC. Como classificar obras literárias, utilizando redes de co-ocorrência textual. Demonstrado resultados e gráficos que mostram o funcionamento. Com a visualização das redes de co-ocorrência é possível realizar uma análise mais qualitativa das obras literárias, sendo evidenciadas palavras de maior relevância, o que torna mais fácil detectar conceitos relacionados com a temática de cada texto. A partir das métricas obtidas das redes de co- ocorrência, é possível realizar uma análise mais quantitativa, o que permitiu buscar padrões de similaridade e comparar autoria e genêro literário. A técnica utilizada foi a de análise de componentes principais sendo que, para ambas janelas de conexão, obtivemos uma porcentagem de explicação da variância de cerca de 90% com duas dimensões.
Vinicius Narciso da Silva Resumo sobre a aula "NLTK através de exemplos: Modelagem de tópicos e redes de co-ocorrência". A aula iniciou com um texto sobre genética. Foram destacadas algumas palavras que se ligavam a determinados contextos (Genética, computação e biologia). O exemplo serviu para evidenciar que um documento pode estar composto por diferentes tópicos que se misturam para a construção de ideias. Com isso, adotamos a seguinte ideia: Um documento textual é uma mistura de tópicos. Com isso em mente, queríamos analisar um novo documento para pensar sobre o tópico central do texto. Tomando de exemplo o texto sobre genética, era provável que o texto tratasse sobre computação. Definimos então o que é um tópico: um tema (ou assunto) de um discurso. Tópicos podem ser representados por uma distribuição de palavras. Isso significa que uma palavra tem certa probabilidade de aparecer nesse tópico. Podemos citar como exemplo a palavra "Humano" no tópico de genética, "Origem" no tópico de evolução, "infeccioso" no tópico de doença e "Rede" no tópico de computação. A Modelagem de Tópicos é uma análise abstrata (em alto nível) do conteúdo de documentos. É recomendada para entender de forma rápida o conteúdo de um documento (frente a um corpus grande). Outras aplicações dessa Modelagem são buscar conexões entre tópicos e analisar como eles mudam ao longo do tempo. A entrada dessa abordagem consistem em uma coleção de documentos (ou corpus) e um número finito de tópicos. O que não se sabe são os nomes dos tópicos e sua distribuição para cada documento. O problema consistem em agrupar texto, com a variante de que documentos e palavras são agrupadas simultaneamente. Para tal, temos duas abordagens principais: Análise de Semântica Latente Probabilística (PLSA) e Alocação de Dirichlet Latente (LDA), sendo o primeiro pioneiro no assunto e o segundo, a abordagem mais popular. Para gerar um documento a partir de um modelo pode ser uma tarefa relativamente simples. No entanto, gerar um modelo para inferência de documentos é uma tarefa difícil. Partiremos do problema de identificar qual é o tópico associado a um modelo. Tomaremos LDA como abordagem para o problema. Primeiramente atribuímos tópicos às palavras de forma aleatória e calculamos a probabilidade do tópico dado o documento e da palavra dado o tópico, sempre atualizando o tópico de cada palavra multiplicando as probabilidades calculadas anteriormente. Repetimos o processo para cada palavra. Para o tópico de redes de co-ocorrência, utilizamos uma aplicação para a caracterização de obras literárias. O objetivo era demonstrar, através de diferentes testes empíricos, que a classificação de textos de obras literárias pode ser realizada usando suas características estruturais (padrões topológicos) extraídas de co-ocorrência textual.
Marcelo Schirbel Gomes Modelagem de Tópicos e Redes de Co-ocorrência Topic Modeling é tentar atribuir um tópico a um texto, sobre o qual não temos a estrutura. Assim como vimos nas últimas aulas no contexto de Sumarização, na qual temos um tema sob uma frase. Em um texto, podemos ter algumas palavras associadas a um tópico, ou a alguns tópicos. E esses tópicos devem ter correlações com o texto como um todo, e não com um frase. Logo, podemos ter que um texto se resume a um compilado de tópicos. E um novo documento, ao ser analisado, deve perder os stopwords e fazer um casamento simples com os tópicos previamente definidos. Essa modelagem de tópicos pode ser usada para classificar os textos, em fóruns isso é bem comum. Um tópico é um tema ou assunto de um texto/discurso. São representados por uma distribuição de palavras. Cada uma com a sua probabilidade de aparecer no texto. Esse tipo de modelagem é abstrata do conteúdo do documento. É ótimo para um *corpus* grande. Pois teremos uma boa ideia do tema geral do texto. Também como os tópicos se relacionam e suas ocorrências ao longo do texto. Precisamos ter um número finito de tópicos e um número pré-definido de tópicos. Mas não precisamos saber os nomes dos tópicos, isso seria algo tendencioso ao algoritmo. Por trás de tudo temos uma variante: Os documentos e as palavras são agrupados de forma simultânea. E para isso existem duas técnicas: PLSA e LDA Partindo de um documento, e conhecendo seus tópicos, podemos ter um modelo bem próximo do documento. Mas no mundo real, temos vários modelos e não sabemos quais se relacionam com quais documentos. LDA Podemos extrair as palavras, agrupá-las em tópicos e depois decidir qual o tópico principal. Primeiramente atribuimos tópicos aleatórios aos conjuntos de palavras. Iteramos sobre isso até achar os verdadeiros. Isso acontece depois de removermos os stopwords e aplicarmos uma normalização, como o stemmer. Redes de Co-ocorrência Com isso podemos classificar tipos de obras, ou textos com bases em grafos. Pois existe uma separação entre os tipos de textos, ainda que muito próximos. Mas essa classificação é com base em suas estruturas e padrões topológicos(teoria dos grafos). Uma rede de co-ocorrência mostra as relações entre as palavras, com uma certa janela. Ou seja, até um certo número de palavras, temos as ligações e correlações entre as palavras. Essa janela é agrupada no grafo, assim podemos ter uma visão das ligações entre as palavras, após serem normalizadas.
Joao Victor Fontinelle Consonni A décima quinta aula de PLN deu continuidade ao assunto da aula anterior, explorando mais a fundo algumas funcionalidades da biblioteca NLTK do python. Tratando da modelagem de tópicos (topic modeling), vimos um exemplo que evidenciou que um documento é composto por diferentes tópicos (ou unidades) que se misturam para a elaboração de ideias. Um tópico pode ser entendido como um tema (ou assunto) de um discurso. Os tópicos podem ser representados por uma distribuição de palavras. Isso significa que uma palavra tem certa probabilidade de aparecer nesse tópico. A modelagem de tópicos (MT) é uma análise abstrata (em alto nível) do conteúdo de documentos, sendo mais apropriado utiliza-la frente a um corpus grande. A MT também pode ser utilizada para identificar como diferentes tópicos se conectam e como cada um deles muda ao longo do tempo. Uma MT recebe de entrada uma coleção de documentos (corpus) e um número finito de tópicos. A princípio os tópicos do corpus sáo desconhecidos, assim como a distribuição de tópicos. A MT é um problema de agrupamento de textos, com a variante de que documentos e palavras são agrupados simultaneamente. Existem diferentes métodos para modelagem de tópicos, sendo as duas mais conhecidas a PLSA (Probabilistic Latent Semantic Analysis) e a LDA (Latent Dirichlet Allocation). Vimos o algoritmo utilizado pelo LDA para gerar um modelo a partir de um documento, de forma a identificar o tópico do documento. O método parte da atribuição aleatória de tópicos às palavras e utiliza um cálculo probabilístico iterativo para atribuir novos tópicos às palavras, até convergir para o resultado final. Neste contexto, vimos a utilização de redes de co-ocorrência aplicadas para a caracterização de obras literárias, que foi o tema de iniciação científica de uma aluna da UFABC, que buscou demonstrar, através de diferentes testes empíricos, que a classificação de textos de obras literárias pode ser realizada usando suas características estruturais (padrões topológicos) extraídas de redes de co-ocorrência textual. Ela concluiu que com a visualização das redes de co-ocorrência é possível realizar uma análise mais qualitativa das obras literárias, sendo evidenciadas palavras de maior relevância, o que torna mais fácil detectar conceitos relacionados com a temática de cada texto. A partir das métricas obtidas das redes de co-ocorrência, é possível realizar uma análise mais quantitativa, o que permitiu buscar padrões de similaridade e comparar autoria e gênero literário. A técnica utilizada foi a de análise de componentes principais, atingindo uma porcentagem de explicação da variância de cerca de 90% com duas dimensões.
Felipe Rigo Yoshimura Na aula 15 de PLN foi abordado o tema de modelagem de tópicos e redes de co- ocorrência. Em um único documento ou artigo pode-se encontrar diversos tópicos que se misturam para compor as ideias apresentadas. Um tópico é definido como um tema ou assunto de um discurso, e pode ser representado por uma distribuição de palavras, ou seja, probabilidades de cada palavra aparecer nesse tópico específico. Modelagem de tópicos é uma análise em alto nível do conteúdo de documentos, quando aplicado em um corpus grande pode-se descobrir de forma rápida conteúdo do texto. Além disso, MT pode ser utilizada para identificar como os tópicos se conectam e mudam ao longo do tempo. Como entrada para a modelagem de tópicos deve-se fornecer um conjunto de documentos e a quantidade de tópicos que serão abordados. Com essas informações procura- se descobrir a descrição de cada tópico e a distribuição dos tópicos em cada documento. O tipo de problema abordado é de agrupamento de textos, agrupando palavras e documentos simultâneamente. Existem diferentes abordagens para esse tópico, as mais conhecidas são PLSA e LDA. Dado um modelo generativo, é possível gerar um novo documento, agora o que será visto com essas técnicas é como utilizar documentos para inferir um modelo generativo para textos. O algoritmo Latent Dirichlet Allocation (LDA) se inicia classificando cada palavra com um tópico de forma aleatória, depois disso calcula-se as matrizes de termos dado um documento e palavras dado o termo. E atualiza-se cada palavra multiplicando as probabilidades P(T|D) e P(W|T), escolhendo a classe com maior probabilidade. Após isso, atualiza-se as matrizes previamente calculadas. Na segunda parte da aula, foi mostrado um trabalho de classificação de obras literárias utilizando redes de co-ocorrência. O pipeline utilizado no trabalho foi a coleta das obras, normalização dos textos realizando o parsing, remoção de stopwords e stemming, geração das redes de co-ocorrência e analise dos resultados. É possível observar que a aplicação do stemming auxia bastante nos resultados, porém seria melhor a utilização de um lematizador para não perder a semântica de alguns tokens. Utilizando uma técnica de redução de dimensionalidade pode-se visualizar a separação das obras por suas classes. A conclusão do trabalho é que com as redes de co- ocorrência é possível detectar as palavras mais relevantes, e com isso identificar os conceitos relacionados com o texto. Além disso, elas possibilitam realizar uma análise mais qualitativa buscando padrões de similaridade para comparar autoria e gênero literário.
Giselle Silva de Santana Nesta décima quinta aula, ministrada no dia 01/08/19, o assunto abordado foi: “NLTK através de exemplos: Modelagem de Tópicos (topics modeling) e Redes de co-ocorrência”. A aula contou com a apresentação de alguns conceitos e aplicações práticas de uso do NLTK. Inicialmente nos foi apresentado um exemplo de artigo que abordava diferentes tópicos chamado “Seeking Life's Bare (Genetic) Necessities”. Neste artigo eram abordados os assuntos de Computação, Genética, Anatomia e Ciências Naturais. Se o documento for analisado com base nestes quatro assuntos, o mais natural seria afirmar que o tema do artigo é Computação. Um tópico pode ser definido como um assunto (ou tema) de um discurso, podendo ser representados por uma distribuição de palavras. Isso significa que uma palavra tem certa probabilidade de aparecer nesse tópico. A modelagem de tópicos é uma análise abstrata (em alto nível) do conteúdo de documentos, sendo bastante apropriada quando se tem um corpus extenso e se deseja entender o conteúdo deles de forma rápida, como por exemplo, o documento é sobre esportes? Ou é sobre genética? Ou seria computação? A modelagem de tópicos também pode ser usada para identificação de como os tópicos se conectam e como tais tópicos mudam ao longo do tempo. A entrada de uma modelagem de tópicos (MT) costuma ser uma coleção de documentos com número finito de tópicos onde não sabemos os nomes dos tópicos e nem a distribuição de tópicos para cada documento. Este problema se trata de um problema de agrupamento de textos, com a variante de que os documentos e palavras são agrupadas simultaneamente. Existem duas principais abordagens mais conhecidas para MT, que são a PLSA (Probabilistic Latent Semantic Analysis, de 1999) e LDA (Latent Dirichlet Allocation, de 2003). O trabalho de Thomas Hofmann (PLSA) é o trabalho pioneiro nesse assunto, enquanto que o de David Blei (LDA) é o mais popular. Por fim, nos foi apresentado o assunto “Redes de co- ocorrência aplicadas para a caracterização de obras literárias”, tema de iniciação científica de uma das alunas do orientadas pelo professos Jesús. Com as redes de co-ocorrência é possível realizar uma análise mais qualitativa das obras literárias, sendo evidenciadas palavras de maior relevância, o que torna mais fácil detectar conceitos relacionados com a temática de cada texto. No trabalho apresentado a técnica utilizada foi a de análise de componentes principais e foi obtida uma porcentagem de explicação de variância de cerca de 90% com duas dimensões.
Ricardo Gomes Nesta aula seguimos com a utilização do NLTK através de exemplos, dessa vez analisando modelagem de tópicos e rede de coocorrência. Documentos podem ser compostos de diferentes tópicos de acordo com as palavras e termos utilizados em seu corpus, se misturando na elaboração de ideias. Apesar dessa mistura de tópicos, documentos tendem a possuir um tópico mais relevante ao texto, comparado a outros tópicos. Um tópico pode ser definido como um tema, ou assunto, de um discurso e este pode ser representado por palavras específicas, que tendem a aparecer associada ao tópico. Por exemplo, em computação, termos como "computadores", "sistemas" e "informação" frequentemente surgem nos documentos relacionados a esse tema, enquanto termos como "evolução", "organismos" e "vida" aparecem mais em textos sobre biologia. A ideia de modelagem de tópicos se trata de uma análise abstrata, principalmente em um corpus grande, com o objetivo de identificar facilmente o assunto tratado. Outros objetivos incluem a identificação da mudança de tópicos ao longo do tempo e como esses tópicos se conectam. Nessa modelagem, são considerados uma coleção de documentos e um número finito de tópicos, porém não se sabe a distribuição de tópicos para cada documento. A análise da modelagem de tópicos pode ser feita de várias formas, como clusters de palavras, distribuição de tópicos e frequência de palavras. Os dois métodos mais conhecidos são PLSA (Probabilistic Latent Semantic Analysis) e o LDA (Latent Dirichlet Allocation). O LDA tem como objetivo inferir o modelo, dentro de um conjunto finito, que gerou um determinado documento. O processo é realizado através da atribuição aleatória dos tópicos às palavras, realizar o cálculo das probabilidades, do tópico no documento e da palavra no tópico, e depois ir atualizando palavra por palavra. Em um exemplo simples, frases podem resultar em uma atribuição errada de tópicos, caso uma palavra apresente um coeficiente maior. Já no caso de redes de coocorrência, existe uma aplicação para caracterização de obras literárias. O objetivo disso demonstrar que a classificação de textos de obras pode ser realizada através de suas características estruturais extraídas da rede de coocorrência. Essas redes podem ser visualizadas na forma de grafos e através delas é possível uma análise qualitativa das obras, sendo evidenciadas as palavras de maior relevância, tornando mais fácil detectar conceitos relacionados à temática de cada texto.
Luiz Gabriel Correia NLTK modelagem de tópicos, redes de co-ocorrência. São conceitos genéricos e que podem ser aplicados a grandes conjuntos de dados. Podemos organizar palavras como sendo relacionadas a um mesmo assunto. Problema: dado um texto sem estrutura, como atribuir rótulos para o texto, como um todo. Probabilistic Topic Models é interessante. A ideia é que um documento textual é um mistura de vários tópicos. Organizando a frequência de palavras de cada tópico no texto, a maior "barra" poderia indicar qual é o tópico do texto. Um tópico pode ser entendido como um tema ou um assunto de discurso. Modelagem de tópico é uma área da computação adequada quando o corpus é grande, mas mesmo assim queremos entender qual é o conteúdo que está presente nos documentos. Também podemos usar MT para identificar como estes tópicos se conectam e como mudam ao longo do tempo. Se você for fazer classificação, a MT é uma abordagem simples, relativamente barata computacionalmente, mas bastante robusta. Geralmente em problemas de agrupamento precisamos indicar o número de tópicos. Os nomes dos tópicos precisam ser dados pelo especialista. A distribuição dos tópicos não é conhecida. Existem dois diferentes métodos PLSA (Probabilistic Latent Semantic Analysis) e LDA (Latent Dirichlet Allocation), dois artigos pioneiros de 1999 e 2003, respectivamente, muito citados na computação. Modelos gerativos de texto podem ser usados para gerar lero-lero, por exemplo, mas podemos fazer o processo inverso: a partir de um texto tentar inferir um modelo. No inicio, atribuímos aleatoriamente os tópicos as palavras então calculamos as probabilidades condicionais. Para este tipo de aplicação é muito recomendado retirar stopword e utilizar um stemmer ou lemmatizador. O LDA precisa ser aplicado nos dados padronizados para que façam sentido. Redes de co-ocorrência trata-se de tentar classificar obras literárias. O objetivo do trabalho era mostrar que classificação poderia ser feita usando padrões topológicos usando teoria dos grafos. Construímos o grafo ligando cada palavra a todos da sua janela (grafo completo local). Usando janela de tamanho 2 ainda obtemos milhares de arestas, por tanto é importante usar um stemmer, que acabamos perdendo um pouco da semântica, mas ainda assim temos um bom resultado de classificação. A visualização do grafo pode ser bastante reveladora se usamos redução dimensionalidade - PCA.
Rodrigo Akiyama Abrantes Resumo 15 de Processamento de Linguagem Natural -Uso da biblioteca NLTK para modelagem de tópicos e redes de co-ocorrência Em sua grande maioria, qualquer tipo de linguagem natural aborda mais de um assunto em sua estrutura. Tomando artigos científicos como exemplo, em diversas regiões do texto haverão tópicos ou unidades textuais (como entidades nomeadas) que abordarão temas diferentes do principal. Deste modo podemos interpretar que um documento textual é uma mistura de tópicos, onde estes pertencem a um tema ou assunto do discurso. Eles são representados por uma distribuição de palavras, significando que uma palavra possui certa probabilidade de aparecer nesse tópico. Por exemplo, palavras como "CPU", "Memória" e "algoritmos" possuem maior probabilidade de aparecem em tópicos de computação do que em tópicos de culinária. A modelagem de tópicos é uma análise abstrata do conteúdo dos documentos, ou seja, de forma mais genérica. Ela é apropriada para corpus grandes onde se deseja entender o seu conteúdo de forma rápida. Ela também pode ser utilizada para identificar as conexões entre os tópicos do texto e como estes mudam ao longo do tempo (ou ao longo do texto). São utilizados como entrada o corpus que será analisado e um número finito de tópicos. O que desejamos obter são os nomes dos tópicos contidos no texto e a sua distribuição presente em cada documento contido no corpus. Os dois métodos mais conhecidos para a modelagem de tópicos são o PLSA (Probabilistic Latent Semantic Analysis) e o LDA (Latent Dirichlet Allocation). Redes de co-ocorrência aplicadas para a caracterização de obras literárias: Este foi o tema de iniciação científica de uma aluna da UFABC. O objetivo do trabalho era demonstrar, através de diferentes testes empíricos, que a classificação de textos de obras literárias pode ser realizada utilizando padrões topológicos extraídas de redes de co-ocorrência textual. No tralho, são construídos redes de co-ocorrência que evidenciam as palavras de maior relevância, tornando mais fácil a detecção de conceitos relacionados com a temática de cada texto. Por meio das métricas estatísticas extraídas, é possível realizar a comparação e conexão dos valores obtidos para cada obra e, desta forma, criar agrupamentos de assuntos e buscar padrões de similaridade e comparar autoria e gêneros literários.
Gustavo Murayama Podemos utilizar NLTK para modelagem de tópicos (topic modeling) e redes de co-ocorrência. Para fazermos uma modelagem de tópicos, partimos da ideia que um documento textual é uma mistura de tópicos e, ao analisar um novo documento, podemos considerar que dentre N tópicos, é mais provável que o texto seja de um tópico específico. Um tópico pode ser entendido como um tema (ou assunto) de discurso. Os tópicos podem ser representados por uma distribuição de palavras, ou seja, uma palavra tem certa probabilidade de aparecer neste tópico. Ao tratarmos de um corpus grande, desejamos entender de forma rápido o conteúdo dele: em suma, qual tópico ou quais tópicos ele pertence. A modelagem de tópicos, portanto, é uma análise abstrata em alto nível do conteúdo de documentos, que pode ser utilizada para identificar como os tópicos se conectam e como mudam ao longo do tempo. O que usualmente é considerado como uma entrada para Modelagem de Tópicos são uma coleção de documentos (ou corpus) e um número finito de tópicos. O que não sabemos no momento da entrada de dados são os nomes dos tópicos e a distribuição de tópicos para cada documento. Estamos tratando de um problema de agrupamento de textos, com a variante de que documentos e palavra são agrupadas simultaneamente. Existem diferentes métodos para modelagem de tópicos, sendo as duas mais conhecidas a PLSA (Probabilistic Latent Semantic Analysis) e LDA (Latent Dirichlet Allocation). A PSLA é uma técnica estatística para análise de co-ocorrência de dados, que deriva-se uma representação de poucas dimensões das variáveis observadas com relação sua afinidade para determinadas variáveis ocultas. LDA é um modelo estatístico gerativo que permite que conjuntos de observações sejam explicados por grupos não observados que explicam porque algumas partes dos dados são semelhantes. Utilizando uma rede de co- ocorrência, é possível realizar uma análise mais qualitativa de um texto e evidenciar palavras de maior relevância, tornando mais fácil detectar conceitos relacionados com a temática de cada texto. No caso de um texto literário, é possível, a partir das métricas obtidas, realizar uma uma análise mais quantitativa, que permite buscar padrões de similaridade e comparar autoria e gênero literário.
Victor Arruda Ganciar Vimos nas últimas aulas que Part of Speech Tagging é um dos principais componentes de todas as análises de Processamento de Linguagem Natural. A tarefa de etiquetagem de POS implica simplesmente em rotular palavras com sua característica de linguagem, por exemplo, substantivos, verbos, adjetivos e advérbios. Vimos também que sumarização de informação é um processo de geração automática de um resumo associado a um objeto. A sumarização permite não somente entender a estrutura de uma frase, mas também do texto inteiro. Um artigo ou documento pode ser composto por diferentes tópicos que se misturam para elaboração de ideias onde um tópico pode ser entendido como um tema ou assunto de um discurso. Os tópicos podem ser representados por uma distribuição de palavras, isso significa que uma palavra tem certa probabilidade de aparecer nesse tópico. A modelagem de tópicos é uma análise abstrata do conteúdo de documentos e é apropriada quando, frente a um corpus muito grande, deseja-se entender, de forma rápida, o conteúdo dele. A modelagem de tópicos também pode identificar como esse tópicos se conectam e como mudam ao longo do tempo. O que geralmente é considerado como entrada de uma modelagem são uma coleção de documento e um número finito de tópicos, e o que não sabemos são os nomes dos tópicos e a distribuição deles para cada documento. Existem diversas abordagens para modelagem de tópicos e as duas mais conhecidas são: Probabilistic Latent Semantic Analysis e Latent Dirichlet Allocation. Analisamos também um trabalho desenvolvido por uma aluna da UFABC sobre Caracterização de Obras Literárias Usando Redes de Co-ocorrência com o objetivo de demonstrar, através de diferentes testes empíricos, que a classificação de textos de obras literárias pode ser realizada usando suas características usuais (padrões topológicos) extraídas de redes de co- ocorrência textual. Com a visualização das redes de co-ocorrência é possível realizar uma análise mais qualitativa das obras literárias, sendo evidenciadas palavras de maior relevância, o que torna mais fácil detectar conceitos relacionados com a temática de cada texto. É possível também, a partir das métricas obtidas, realizar uma análise quantitativa, o que permitiu buscar padrões de similaridade e comparar autoria e gênero literário
Lucas Ferraz Nicolau Dando continuidade às aulas de exemplos com a biblioteca NLTK, esta aula se dividiu nos temas modelagem de tópicos e redes de co-ocorrência. Um tópico pode ser entendido como um tema, ou assunto, de um discurso, podendo ser representado por uma distribuição de palavras. Ao analisar um novo documento, devemos ter em mente que um texto é uma mistura de tópicos e, portanto, podemos comparar com bases prévias de palavras com tópicos associados para identificar qual o tópico mais provável. Um exemplo apresentado evidencia como um artigo é composto por diferentes tópicos como genética, computação e biologia para elaboração de ideias. A modelagem de tópicos é uma análise em alto nível dos conteúdos, sendo mais efetiva em corpus grandes que não podem ser analisados manualmente. Pode ser utilizada para identificar como os tópicos se conectam e como mudam ao longo do tempo. Geralmente, uma modelagem de tópicos processa seus resultados usando como entrada uma coleção de documentos e um conjunto finito de tópicos, sem saber os nomes dos tópicos ou a distribuição destes nos documentos. Assim, a modelagem de tópicos se trata de um agrupamento de textos com a variante que documentos e palavras são agrupadas simultaneamente. Os dois métodos mais populares para modelagem de tópicos são Probabilistic Latent Semantic Analysis (PLSA), proposto por Thomas Hofmann em 1999, e Latent Dirichlet Allocation (LDA), proposto David Blei em 2003. Focando-se no LDA, este utiliza de ferramentas probabilísticas para realizar a difícil tarefa de geração de um modelo a partir de documentos, frequentemente, utilizando remoção de stopwords e um steemer ou lematizador. O restante da aula foi dedicado a apresentar do uso de redes de co-ocorrência para caracterização de obras literárias. O objetivo deste trabalho era demonstrar de textos de obras literárias pode ser realizada por meio de características estruturais extraídas de redes de co-ocorrência textual. Esta análise foi realizada através de um pipeline que iniciava com um processo de normalização que seguia com a geração de redes de co-ocorrência com diferentes janelas de conexão. A partir dos resultados, foram analisadas as propriedades estruturais dos grafos gerados comparando visualmente as diferentes obras através da aplicação de PCA.
Anderson Chaves Faria Seguindo ainda o molde da aula passada, continuamos no assunto de NLTK, só que dessa vez dando um enfoque a como compôr tópicos de acordo com uma probabilidade de uma palavra estar em determinado tópico. Uma vez que no nosso texto apareçam essas palavras, nós podemos inferir os tópicos predominantes no texto e inclusive categorizá-lo de forma automatizada. A modelagem de tópicos (MT) apesar de ser uma análise de alto nível de abstração, apresenta muitas vantagens quando se precisa entender de forma rápido o conteúdo de um documento grande, como os tópicos se conectam e como eles variam com o tempo: como entrada temos os tópicos e os documentos a serem analisados e como saída temos documentos e palavras agrupados. Para a modelagem de tópicos, podem ser utilizados dois métodos as abordagens mais famosas são Probabilistic Latent Semantic Analysis (PLSA) e Latent Dirichlet Allocation (LDA), sendo que o exemplo mostrado em aula foi do LDA. Uma vez que as stop words foram removidas e um stemming foi aplicado, é calculada a probabilidade de pertencimento da palavra a um determinado tópico. Na segunda parte da aula, foi apresentado a definição de redes de co- ocorrência utilizando como exemplo um projeto de classificação de obras literárias feito como iniciação científica. O pipeline passa por remoção de stop words, stemming (na aula o professor explicou que lemmatization poderia ser uma abordagem com resultados melhores) e por fim o ligamento de cada uma das palavras com as X próximas, de acordo com o tamanho da janela que você quer analisar na sua rede. Uma análise da dimensão nos mostra que não é muito benéfico ter X maior que 2. Com a visualização das redes de co-ocorrência é possível ter uma análise qualitativa muito bom já que não temos só as ligações das palavras como também evidenciado as que mais aparecem. Com as métricas do grafo obtido é possível buscar padrões de similaridade e comparar gênero, época e autoria. No exemplo em sala foi utilizado o PCA, porém seria interessante ter uma comparação de outros classificadores uma vez que o PCA apesar de reduzir a dimensionalidade também perde parte da interpretabilidade.
Rafael Pauwels de Macedo Continuamos nesta aula dentro do tópico do NLTK (Natural Language ToolKit), focando desta vez nas situações de modelagem de tópicos e redes de co- ocorrência. A ideia central é que ao analisar um artigo ou texto qualquer conseguiriamos categorizar a informação em tópicos (ou unidades) que se misturaram para a elaboração de uma ideia. Consideramos que um documento textual é uma mistura de tópicos, e cada tópico por ser entendido como um tema ou discurso. É possível categorizar as palavras por tópico, assim sabemos a probabilidade de cada palavra pertencer a determinado tópico e por consequência os tópicos principais (geralmente os quatro mais frequentes) do documento. Essa análise por ser de alto nível se aplica melhor em corpus grandes e se deseja entender sobre o assunto macro do documento. Por exemplo, esse documento é sobre "esportes"?. A modelagem de tópicos é utilizada também na identificação de como os tópicos se conectam e como eles variam no decorrer do tempo. Existem diferentes abordagens quando o assunto é MT (modelagem de tópico), os dois mais conhecidos são o PLSA (Probabilistic Latent Semantic Analysis) de 1999 e o LDA (Latent Dirichlet Allocation) de 2003. O PLSA é o pioneiro na técnica e é muito citado (2538 vezes) porém nem se compara ao nível atingido pelo LDA, que já foi citado mais de 27564 vezes. O maior problema na aplicação desses métodos é identificar qual tópico se associa melhor a um documento, para solucionar esse problema atribuímos aleatoriamente os tópicos às palavras, calculando P(T|D) e P(W|T). Vimos então um exemplo simples do algoritmo sendo aplicado sobre cinco frases curtas, após a remoção das stop words e aplicação de um stemmer chegamos ao momento da classificação de tópicos onde vimos as dificuldades e sutilezas na identificação do tópico da frase. Finalizando a aula vimos um trabalho de iniciação cientifica onde foi aplicado redes de co-ocorrência para caracterização de obras literárias. Classificando obras literárias como a de Machado de Assis, tanto dentro do aspecto literário como conto, crônica, poesia, romance e teatro quanto em aspectos mais técnicos e densos, possíveis através da redes de co-ocorrência.
Jair Edipo Jeronimo Dando continuidade à utilização do NTKL, vimos no início da aula um exemplo de como um único texto pode estar relacionado a diversos tópicos (ou temas), que em conjunto formam uma ideia. Dessa forma, podemos considerar que um documento textual é um conjunto de tópicos, ou seja, possui diversos assuntos em seu discurso e que estão relacionados a um grupo de palavras. Por exemplo, o tópico computação está relacionado a palavras como: computador, informação, modelos, data, métodos, entre outras. Assim, a modelagem de tópicos permite identificar como esses tópicos se conectam e como são alterados ao longo do tempo. A partir de uma coleção de documentos a modelagem de tópicos deve realizar processos como: agrupamento de palavras, distribuição de tópicos e analisar a frequência das palavras, ou seja, temos de considerar que documentos e palavras são agrupados simultaneamente. Em aulas passadas, vimos como modelos podem auxiliar na geração de documentos, porém agora estamos interessados em ao analisar um documento, podermos identificar qual o modelo que o gerou, através de uma inferência. Dessa forma, podemos utilizar o modelo Latent Dirichlet Allocation (LDA) que dado um documento, avaliamos o conjunto de tópicos a qual ele está associado, baseando-se nas palavras que ele contém. Assim, nós distribuímos aleatoriamente os tópicos do texto às palavras e após isso, baseado em cálculos de probabilidade, atualizamos o tópico de cada palavra. Além desse conceito, vimos também o trabalho de Iniciação Científica da aluna Bruna Pereira Santos, que abordava o tema "Caracterização de obras literárias usando redes de co-ocorrência". Este trabalho, tinha como objetivo classificar textos de obras literárias, usando características estruturais extraídas de redes de co-ocorrência textual. Antes das análises das redes, foram realizados processos de normalização, stemming, rede de co-ocorrência de janela de conexão de tamanho 2 e depois com janela de conexão de tamanho 5. Após isso, foi apresentado os grafos resultantes e uma tabela com valores quantitativos. Por fim, foi possível concluir que a partir dos resultados obtidos, é possível realizar análises quantitativas, que permitiram a identificação de similaridade e comparação de autoria e gênero literário.
Matheus Tulio Pereira da Cruz Existem artigos/documentos que podem estar composto por diferentes tópicos, é importante para nós identificarmos se isso ocorre em um texto. O que queremos é encontrar palavras e evidenciá-las com cores que representem determinadas áreas. Artigo importante - Probabilist Topic Models. A ideia é, que tenhamos um documento textual que é uma mistura de tópicos. Ao termos um novo documento que será analisado, e considerando apenas uma certa quantidade de tópicos, podemos pensar que para esse documento, o número de palavras que se relacionam com um determinado tópicos, podemos intuir que esse artigo é de tal tópico. Um tópico pode ser entendido como um Tema ou assunto de um discurso. Os tópicos podem ser representados por uma distribuição de palavras. Isso significa que uma palavra tem uma certa probabilidade de aparecer em um determinado tópico. Modelagem de tópicos (MT) é uma análise "abstrata" (em alto nível) do conteúdo de documentos. É apropriado quando, frente a um corpus grande, deseja-se entender, de foram rápida ... O que geralmente é considerado omo entrada para a MT são: \- Uma coleção de documentos (ou corpus); \- Número finito de tópicos. O que não sabemos: \- Os nomes dos tópicos; \- A distribuição de tópicos para cada documento Note, então, que estamos tratando um problema de agrupamento de textos, com a avariante de que: \- Documentos e palavras são agrupadas simultaneamente . Existem diferentes métodos para modelagem de tópicos, as duas abordagens mais conhecidas são: \- PLSA: Probabilistic Latent Semantic Analysis (1999) \- LDA: Latent Dirichlet Allocation (2003) Para aplicar o LDA é necessário que se faça uma normalização dos dados, ou seja, utilizar um stemmer ou um lematizador nos dados. Aplicar LDA em dados sem uma normalização gera resultados distantes do que deveria. Foi apresentado um trabalho de uma aluna da UFABC cujo tema era caracterização de obras literárias usando redes de co-ocorrência. O objetivo do trabalho é demonstrar, através de diferentes testes empíricos, que a classificação de textos de obras literárias pode ser realizada usando suas características estruturais (padrões topológicos) extraídas de redes de co-ocorrência textual.
Willian Teruya Kimura Na aula que ocorreu no dia 01/08, foi apresentado mais algumas aplicações referentes à biblioteca NLTK por meio de alguns exemplos, sendo eles: modelagens de tópicos, ou topic modeling, ou redes de co-ocorrências. Para iniciar o conteúdo, foi apresentado um exemplo sobre a qual mostra como artigos/documentos podem ser decompostos em diferentes tópicos que podem se misturar para a elaboração de ideias. É discutido a ideia de que um documento textual é uma mistura de tópicos, mostrando que, ao termos um documento novo a ser analisado, como o mostrado no exemplo, e levando em consideração os tópicos levantados no texto, é possível inferir algum tema para o documento, que, no caso do exemplo, provavelmente era da computação. O que é um tópico? Ele pode ser entendido como um tema de discurso, sobre o qual pode ser representado por uma distribuição de palavras, ou seja, uma palavra tem uma certa probabilidade em aparecer no tópico. Para isso, é realizado uma modelagem de tópicos, que é uma análise “abstrata” do conteúdo de documentos. Tal modelagem é de uso apropriado quando se procura entender o conteúdo de um dado corpus grande, além de realizar análises como: a conexão entre os tópicos e como eles mudam ao longo do tempo. Entradas para a modelagem, num geral, são: uma coleção de documentos e um número finito de tópicos, mas é importante pontuar que não se sabe os nomes dos tópicos e sua distribuição para cada documento. Assim, estamos tratando de um problema de agrupamento de texto, com a variante de que documentos e palavras são agrupados simultaneamente. Há dois métodos para modelagem de tópicos, sendo eles: Probabilistic Latent Semantic Analysis e Latent Dirichlet Allocation. Foi discutido também sobre redes de co-ocorrência aplicadas para a caracterização de obras literárias, sobre a qual o objetivo se trata de demonstrar, através de diferentes testes empíricos, que a classificação de textos podem ser realizada através de suas características da estrutura extraídas por meio de redes de co-ocorrência textual.
Matheus Fama Machado de Sousa NLTK através de exemplos: \- Modelagem de tópicos (topic modeling) \- Redes de co-ocorrência Um documento textual pode ser interpretado como uma mistura de tópicos. Um tópico pode ser entendido como um tema (ou assunto) de um discurso. Os tópicos podem ser representados por uma distribuição de palavras. Isso significa que uma palavra tem certa probabilidade de aparecer nesse tópico. Esse conceito pode ser utilizado na modelagem de tópicos (MT) que se utiliza de uma análise abstrata do conteúdo dos documento afim de determinar, de forma rápida, o conteúdo do documento. A modelagem de tópicos também pode ser utilizada para identificar como os tópicos do documento se conectam e como se alteram ao longo do tempo. Geralmente, a entrada de uma MT são um corpus (ou coleção de documentos) e um número infinito de tópicos. Nessa modelagem não temos como saber quais serão os nomes dos tópicos. Por exemplo, não podemos informar a busca de tópicos em esportes. Também não podemos informar a distribuição de cada tópico no documento. Por exemplo, não sabemos se o conteúdo do documento tem 50% computação e 50% cultura. Note, então, que estamos tratando um problema de agrupamento de textos, com a variante de que: Documentos e palavras são agrupadas simultaneamente. Existem diferentes métodos para modelagem de tópicos, as duas abordagens mais conhecidas são: PLSA: Probabilistic Latent Semantic Analysis (1999) LDA: Latent Dirichlet Allocation (2003) Com a visualização das redes de co-ocorrência é possível realizar uma análise mais qualitativa das obras literárias, sendo evidenciadas palavras de maior relevância, o que torna mais fácil detectar conceitos relacionados com a temática de cada texto. A partir das métricas obtidas das redes de co- ocorrência, é possível realizar uma análise mais quantitativa, o que permitiu buscar padrões de similaridade e comparar autoria e gênero literário. A técnica utilizada foi a de análise de componentes principais sendo que, para ambas janelas de conexão, obtivemos uma porcentagem de explicação da variância de cerca de 90% com duas dimensões.
Lucas Zanoni de Oliveira A aula 15 do dia 01/08/19 foi iniciada com o conceito de NLTK através de exemplos, sendo eles: modelagem de tópicos (topic modeling) e redes de co- ocorrência. Com base em uma notícia da Science de nome “Speaking Life’s Bare (Genetic) Necessities”, foram extraídos possíveis temos abordados no decorrer do texto, por meio da identificação de algumas palavras relacionadas, o que originou em 3 temas: genética, computação e biologia. O conceito dessa funcionalidade é que um documento de texto nada mais é do que uma mistura de tópicos, onde em termos, um novo documento ao ser analisado possui um tópico que o mais identifica dentre os demais, como é o caso da “computação” no texto supracitado. Mas para que entendamos esse conceito, precisamos inicialmente entender a sua base: o tópico; que pode ser entendido também como um assunto ou tema, sendo representado por uma distribuição de palavras relacionadas ao tópico por uma relação probabilística. Temos também o conceito de modelagem de tópicos (MT) que é uma análise abstrata sobre o conteúdo de documentos, podendo ser utilizada para identificar a relação entre tópicos e suas alterações no decorrer do tempo (abordagens mais conhecidas: PLSA e LDA). Na segunda parte da aula foi trazido o conceito de “modelos generativos e LDA” que por meio de um exemplo apresentado, onde 5 frases foram apresentadas, tínhamos que 2 destas eram categorizadas de uma forma, outras duas de outra, enquanto a última era a combinação das duas categorias anteriores. Sendo assim, por meio do cálculo por LDA, obtivemos que na verdade a última frase pertencia ao primeiro grupo vide sua amostra de palavras. Na terceira parte foi dado o conceito de “redes de co-ocorrência aplicadas a caracterização de obras literárias”, onde por meio de um trabalho de IC, onde por meio de diferentes testes foi obtida a classificação de textos de obras literárias com base em suas características estruturais extraídos pela própria rede, gerando então um grafo.
Felipe Dias Correia A aula 15 foi abordado sobre o tema de NLTK, com exemplos de topic modeling e redes de co-ocorrência, usando o artigo do Seeking life's bare (genetic) necessities como um texto base, e evidenciava e classificava algumas palavras como tópicos, dando a ideia de um documento textual ser uma mistura de tópicos, que chegamos no tema de modelagem de tópicos, que é uma análise mais abstrata do conteúdo de documentos, e seu uso é mais eficiente para tratar de corpus grande, onde deseja-se entender qual conteúdo aborda aquele texto, e a modelagem de tópico também pode identificar como os tópicos se conectam e como mudam ao longo do tempo. Para entrada para a modelagem de texto, podem ser considerado uma coleção de documentos, que chamamos de corpus, ou um número finito de tópicos, e as abordagens mais conhecidas são a PLSA, Probabilistic Latent Semantic Analysis, de Hofmann, e a LDA, Latent Dirichlet Allocation, o de Blei. Depois foi abordado sobre modelos generativos e LDA, onde foi usado exemplos da geração de modelos através de um documento, e a dificuldade da geração de modelos. E sobre LDA, mostrou a dificuldade de identificar qual tópicos é associado a um documento e as técnicas que o LDA usa para atribuir às palavras, calcular a probabilidade de (T|D) e probabilidade de (W|T) e atualizar os tópicos (T) de cada palavra (W) com os cáculos do P(T|D) e P(W|T). Os exemplos usados foram de 5 documentos, onde dividiu em tópicos que eram importantes de cada documento, e depois atribuído seus pesos. E no final da aula, foi sobre rede de co-ocorrência aplicadas para a caracterização de obras literárias, foi sobre uma pesquisa feita por uma aluna da nossa universidade, onde o objetivo era demonstrar, através de diferentes testes, que a classificação de textos de obras literárias pode ser realizada usando suas características estruturais, extraídas de redes co-ocorrência textual.
Diego Pereira de Lima Na aula do dia primeiro de agosto da matéria de Processamento de linguagem natural lecionada pelo Professor Jesús P. Mena-Chalco, foi abordado o tema de Modelagem de tópicos e sobre redes de co-ocorrência pela ferramenta NLTK. No inicio da explicação foi evidenciado tópicos que compunham um artigo de exemplo, evidenciando diferentes ideias que se misturam na elaboração de um artigo. Desta forma, sabendo alguns temas possíveis é viável analisar o tema em que este artigo está inserido provavelmente por modelagem de tópicos. Desta forma um tópico é um tema que gira o discurso, inferido pela distribuição e relacionamento das palavras existentes relacionadas a cada tópico. Isso facilita análise rápida de um corpus grande a cerca do seu tema. De forma a identificar os tópicos, comumente é utilizada tanto o PLSA (Probabilistic Latent Semantic Analysis) quanto o LDA (Latent Dirichlet Allocation) para identificação dos tópicos, uma análise do tipo ‘Agrupamento’. De forma, a atribuir as ponderações e construir um modelo, na técnica de LDA é feito uma atribuição aleatório dos tópicos nas palavras, calculado as probabilidades e atualizados conforme a probabilidade da dependência do tópico dado o documento e da palavra dado o tópico. E assim, reconstruindo os coeficientes até inferir-se o modelo. Após encerrar a explicação dobre as técnicas de modelagem de tópicos foram discutidas as aplicações de redes de co-ocorrencia na caracterização de obras literárias, utilizando a pesquisa da aluna de Iniciação cientifica – Fapesp: Bruna Pereira Santos. Com objetivo de classificar os textos literários a respeito ao seu gênero, foram feitos diferentes testes empíricos utilizando padrões estruturais extraídos das redes de co-ocorrência. Foi apresentado o pipeline do projeto, e o processo de formação de uma rede de co-ocorrência variando o tamanho da janela de conexão e evidenciando nas ‘plotagens’ obtidas, além da redução de dimensionalidade resultante do PCA. E por fim , foi possível realizar uma análise mais qualitativa concluindo os resultados das analises obtidas.
Rodolfo Azevedo Dos Santos Classificação dos documentos a partir de palavra (termos) presentes no texto. Classificação baseado em tópicos Um documento é uma mistura de tópicos. Após identificar um novo documento (documento de entrada) a partir de tópicos previamente definidos (grupos de palavras classificados) é feita a análise de quantidade de termos referentes a cada tópico. O tópico presente em maior quantidade fornece a maior probabilidade do texto ser a respeito daquele tema. Isso é chamado de modelagem de tópicos. Tópico é um assunto do discurso (Tema). Palavras tem uma certa probabilidade associada de aparecerem em um tópico. A implementação é simples utilizando apenas funções. Modelagem de tópicos (MT) é uma análise abstrata (em alto nível) a respeito do conteúdo de documentos. Isso é útil quando existe um corpus grandes (quantidade grande de documentos – aplicações reais). Permite entender de forma rápida sobre qual tópico (assunto/rema/área) o documento se refere. MT pode ser utilizada para identificar com os tópicos se conectam e como mudam ao longo do tempo. O que é considerado como entrada para um MT: Coleção de documentos (corpus) Número finito de tópicos (que são utilizados para análise) Todo tópico possui um nome Modelagem: Coleção de documentos -> black box model -> tópicos/distribuição de tópicos/frequência de palavras Documentos e palavras são agrupados de forma simultânea. Cada coloração é um tópico Não é custoso computacionalmente (não é necessário iterar) LDA (Latent Dirichlet Allocation: Técnica popular de categorização (para decidir qual o tópico mais comum). LDA é utilizado para uma classificação rápida. Aplicação: Classificação de e-mails. Calcula probabilidade do tópico dado um documento é a probabilidade de cada uma das palavras dado o tópico. Ao final, o tópico de cada palavra é atualizado com essas probabilidades calculadas. Redes de co-ocorrência Podemos classificar obras literárias? Em conto, poesia, crônica etc. Sim, é possível. Grafo é uma rede de co-ocorrência. Pipeline Permite analisar dado uma janela
Ramon Neres Teixeira Jardim A aula de hoje volta a falar de NLTK, dessa vez com exemplos aplicados em modelagem de tópicos e redes de co-ocorrência. O primeiro exemplo, a modelagem de tópicos, tenta atribuir um tópico à um texto. Um tópico pode ser descrito como o assunto de um texto ou discurso, e pode ser representado por um conjunto de palavras que tem relação com tal tópico, ou seja, palavras que tem certa probabilidade de aparecerem neste tópico. A modelagem de tópicos é comumente utilizada quando se há um corpus grande e se deseja identificar rapidamente qual o tópico ou assunto de cada documento. Esta técnica também pode identificar como os tópicos se conectam e como mudam ou evoluem ao longo do tempo. Geralmente, as entradas para este algoritmo são os documentos e um número finito de tópicos, porém algoritmo não sabe o nome dos tópicos e nem consegue definir uma distribuição de tópicos para os documentos, ou seja, o algoritmo não diz se um documento é 50% relacionado a computação e 50% a esportes. Os dois principais métodos para modelagem de tópicos são o PLSA (Probabilistic Latent Semantic Analysis), pioneiro da área e o LDA (Latent Dirichlet Allocation), que é o mais comum. A segunda parte da aula tratou de redes de co-ocorrência aplicadas para a caracterização de obras literárias. Foi exibido um trabalho de iniciação científica que tinha como objetivo classificar documentos (obras literárias) em seus gêneros (conto, crônica, poesia etc.) tendo as redes de co-ocorrência como principal ferramenta para isso. A visualização das redes de co-ocorrência permitiu uma análise qualitativa das obras avaliadas, de forma que as palavras mais relevantes ficaram em evidência, destacando os termos mais relacionados com o tópico do texto. Também foi possível utilizar métricas relacionadas a grafos para obter uma análise mais quantitativa, o que permite comparar autoria e gênero literário de forma sistemática.
Felipe de Campos Mesquita No resumo da aula 15 de Processamento de Linguagem Natural o assunto foi NLTK através de exemplos, modelagem de tópicos (topic modeling) e redes de co- ocorrência. Do primeiro assunto, modelagem de tópicos, a ideia é que um documento textual é uma mistura de tópicos, dos slides da aula temos um exemplo e, ao termos um novo documento ao ser analisado, e considerando apenas esses quatro tópicos, podemos pensar que para esse documento, o mais provável é que seja de computação, pois estamos considerando a divisão por tópicos e este é o mais adequado com os textos analisados. Um tópico pode ser entendido como um tema ou assunto de um discurso. Os tópicos podem ser representados por uma distribuição de palavras, isso significa que uma palavra tem certa probabilidade de aparecer nesse tópico, como foi no caso do exemplo da análise dada no começo da aula. Uma modelagem de tópicos pode ser uma análise em alto nível do conteúdo de documentos, queremos entender, por exemplo, se estamos tratando um documento como de esportes, genética ou computação, a modelagem (MT) também pode ser utilizada para identificar como esses tópicos se conectam, e como mudam ao longo do tempo. Estamos tratando isso na verdade como um problema de agrupamento de textos, com a variante que documentos e palavras são agrupadas simultaneamente. Para modelagem de tópicos, as abordagens mais conhecidas são PLSA: Probabilistic Latent Semantic Analysis (1999) e LDA: Latent Dirichlet Allocation (2003). Para o outro assunto da aula, redes de co-ocorrência aplicadas para a caracterização de obras literárias mais especificamente, a ideia é demonstrar através de diferentes testes empíricos, que a classificação de textos de obras literárias pode ser realizada usando suas características estruturais extraídas de redes de co- ocorrência textual. Para ambos os assuntos vimos alguns exemplo do funcionamento.
Rafael Ribeiro Gomes da Silva Nessa décima quinta aula, continuamos com NLTK, mas utilizando como abordagem o cálculo da probabilidade de uma palavra se encaixar em algum determinado tópico. Após identificar as palavras é possível a inferência dos tópicos predominantes no corpus e realizar sua classificação, que em um primeiro momento pode não ser totalmente precisa. A modelagem de tópicos (MT) é uma análise com alto nível de abstração e é extremamente eficiente em corpus grandes para a compreensão de como os tópicos se conectam e suas variações ao longo do texto. No início da análise, não é possível afirmar os nomes dos tópicos e nem a distribuição ao longo dos documentos. Pensando de maneira minimalista estruturalmente, temos a entrada da coleção de documentos e como saída podemos ter variações de clusterização de palavras, distribuição de tópicos e frequências das palavras. No MT as abordagens mais famosas são a Latent Dirichlet Allocation(LDA), Probabilistic Latent Semantic Analysis(PLSA) e vimos o funcionamento do LDA. Em um primeiro momento é feita a atribuição aleatória de temas para as palavras, em seguida: removemos as stop words e aplicamos um stemmer. Após feitas essas etapas, são calculadas as probabilidades de cada palavra para cada tópico, caso um tópico tenha uma porcentagem maior que a do tópico atual, é feita a atualização de tópico. Na segunda metade da aula, vimos a definição das redes de co-ocorrência tendo como exemplo a classificação feita em um projeto de IC. Seguimos os dois primeiros passos de LDA (sendo possível também a utilização de lemmas) e a criação de grafos baseando-se na quantidade indicada na janela. Foi apresentada uma análise de que não é muito vantajosa uma janela superior a 2. Através de mecanismos visuais desses grafos, temos uma boa análise quantitativa pela palavra com maior relevância.
Gustavo Zanfelice Dib Próximas aulas serão baseadas em exemplos: Apresentação da biblioteca nltk Primeiro tópico: Topic-Modelling A ideia não é necessariamente analisar as palavras individualmente, mas sim o texto como um todo. Probabilistic Topic modelling, artigo de teor didático base disponibilizado pelo professor. Um tópico é um tema que possui palavras de grande coincidência dentro de seus documentos. Sendo assim o modelo busca encontrar padrões de co-ocorrências de palavras para analisá-las e clusterizar elas. O MT(Modelo de tópicos) é muito eficiente para separar documentos de diferentes áreas, já que as palavras comuns irão possuir maior discrepância. É importante notar que essa técnica não atribui nomes para os tópicos e sim exibe quais são as palavras de maior relevância para ele. Modelos generativos para textos: divididos em blocos um documento alimenta um modelo e então o modelo gera um novo documento com o que "aprendeu". Vários modelos podem ser analisados para buscar a criação de modelos. Um método de implementação rápida de Topic modelling é o LDA. O LDA atribui os k tópicos aleatoriamente para as palavras e então assume que a palavra analisada está errada porém todas outras estão corretas e assim reanalisa todo o texto. É recomendado que antes de realizar a modelagem se normalize o texto retirando acentos, stopwords, etc. Redes de co-ocorrência aplicadas para a caracterização de obras literárias: Essa idéia é bem utilizada para se visualizar como diferentea obras se relacionam, ao demonstrar a rede em um grafo, fica visível não só a relação entre elas, mas também as palavras de maior ocorrência. Utilizar o stemmer pode-se perder o sentido de algumas palavras na visualização, sendo assim, para melhor exibição talvez seria melhor utilizar um lemmatizador. Para essa visualização sistemas de redução são muito úteis, como PCA ou SVM.
Tiago Suzukayama A aula abordou o tema NLTK através de exemplos, como modelagem de tópicos e redes de co-ocorrência. O primeiro exemplo a ser mostrado evidenciou que um artigo ou um documento pode estar composto de diferentes tópicos ou unidades que se misturam para a elaboração de idéias. A partir da análise, o artigo poderia abordar temas como genética, computação ou biologia. Ao analisarmos um documento como este, podemos pensar que ele seja de um destes tópicos, dependendo da análise de cada um. Um tópico pode ser entendido como um tema ou assunto de um discurso. Os tópicos podem ser representados por uma distribuição de palavras. Isso significa que uma palavra tem certa probabilidade de aparecer neste tópico. A modelagem de tópicos é uma análise abstrada, em alto nível, do conteúdo de documentos. É apropriada quando, a partir de um corpus grande, deseja-se entender, de forma rápida, o conteúdo dele. A MT também pode ser utilizada para identificar como estes tópicos se conectam, e como mudam ao longo do tempo. O que pode ser considerado como entrada para um MT são uma coleção de doumentos e um número finito de tópicos. O que não sabemos são os nomes dos tópicos e a distribuição de tópicos para cada documento. Estamos tratando um problema de agrupamento de textos, com uma variantes de que os documentos e palavras são agrupadas simultaneamente. Existem diferentes métodos para modelagem de tópicos. As duas mais conhecidas são a PLSA e a LDA. Um trabalho mostrado em aula foi "Caracterização de obras literárias usando redes de co-ocorrência". O objetivo deste trabalho era demonstrar, através de diferentes testes empíricos, que a classificação de textos de obras literárias pode ser realizada usando suas características estruturais extraídas de redes de co-ocorrência textual.
Henrique Augusto Santos Batista Um exemplo mostrado evidencia que um documento pode conter diferentes tópicos (ou unidades) que se misturam para a elaboração de ideias, ao termos um novo documento enquanto é analisado, e considerando apenas genética, computação e biologia como no exemplo, podemos pensar que para esse documento, o mais provável é que seja de computação. Mas o que é um tópico? Um tópico pode ser entendido como um tema ou assunto de uma texto. Os tópicos podem ser representados por uma distribuição de palavras, assim podemos dizer que uma palavra tem certa probabilidade de aparecer nesse tópico. Então vemos a modelagem de tópicos que é uma análise “abstrata” do conteúdo de um documento, é apropriado quando, frente a um corpus grande, deseja-se entender, de forma rápida, o conteúdo dele. A modelagem de tópicos também pode ser utilizada para identificar como esses tópicos de conectam e como mudam ao longo do tempo. O que geralmente se considera como entrada para modelagem de tópicos são uma coleção de documentos ou corpus com um número finito de tópicos, porém não sabemos os nomes dos tópicos ou a distribuição de tópicos para cada documento. Isso pode então ser considerado um problema de agrupamento de textos, com a variante de que documentos e palavras são agrupados simultaneamente. Existem diferente métodos para modelagem de tópicos as duas abordagens mais conhecidas são a Probabilistic Latent Semantic Analysis (PLSA) e a Latent Dirichlet Allocatin (LDA) Nessa aula foi apresentado um projeto de pesquisa com o nome de Caracterização de obras literárias usando redes de co-ocorrência que tem o objetivo de demonstrar, através de diferentes testes empíricos, que a classificação de textos de obras literárias pode ser realizada usando suas características estruturais (padrões topológicos) extraídas de redes de co-ocorrência textual
Lucas Vitalino Severo Pais A modelagem temática é uma maneira de construir um modelo de uma coleção de documentos de texto, que determina a quais tópicos cada um dos documentos está relacionado. O modelo temático de uma coleção de documentos de texto determina a quais tópicos cada documento pertence e quais palavras formam cada tópico. A transição do espaço de termos para o espaço dos tópicos encontrados ajuda a resolver a sinonímia e a polissemia dos termos, bem como a resolver mais eficazmente problemas como a busca temática, classificação, somatização e anotação de coleções de documentos e fluxos de notícias. A modelagem temática como um tipo de modelo estatístico para encontrar tópicos ocultos na coleção de documentos encontrou sua aplicação em áreas como aprendizado de máquina e processamento de linguagem natural. Os pesquisadores usam diferentes modelos temáticos para analisar textos, arquivos de documentos em texto, para analisar mudanças em tópicos em conjuntos de documentos. Entendendo intuitivamente que o documento está relacionado a um tópico específico, nos documentos dedicados a um tópico, pode-se encontrar algumas palavras com mais frequência do que outras. Por exemplo: “cachorro” e “osso” são encontrados com mais frequência em documentos sobre cães, “gatos” e “leite” serão encontrados em documentos sobre gatinhos, preposições “e” e “c” aparecerão nos dois tópicos. Normalmente o documento diz respeito a vários tópicos em proporções diferentes, portanto, um documento em que 10% do tópico é composto por gatos, e 90% do tópico é sobre cães, podemos supor que há 9 vezes mais palavras sobre cães. A modelagem temática reflete essa intuição em uma estrutura matemática, que permite, com base no estudo da coleta de documentos e no estudo das características de freqüência das palavras em cada documento, concluir que cada documento é um certo equilíbrio de tópicos.
Murilo Bolzan Dionisio Modelagem de tópicos e redes de co-ocorrencia: O termo usado ao tentar atribuir algum tópico para um texto qualquer onde não temos nenhum tipo de estrura é denominado de Topic Modeling. Nas aulas anteriores vimos alguns exemplos disso, como sumarização, pois geramos um tema sobre uma frase. Em textos, tem a chance de ter suas palavras associadas com algum tópico, mas esse tópico escolhido deve poder ter alguma associação correlativa com o restante do texto como um todo e não somente com uma única frase. Então conseguimos ter que um texto pode ser reduzido (resumido) em um compilado de tópicos. E, caso formos analisar um novo documento, todas suas stopwords devem ser excluídas e um novo casamento simples com os tópicos definidos previamente a substituirão. Em fóruns online, a modelagem de tópicos normalmente é usada ao classificar os textos (posts no caso), mas seu uso pode ser aplicado em diversos outros casos. Os tópicos serão sempre o tema ou assunto do discurso ou frase avaliado, tem sua representação em uma distribuição de palavras, onde cada uma terá sua probabilidade de aparição na redação completa. Ao analisarmos este estilo de modelagem, podemos perceber que é bem abstrata ao conteúdo original do documento inserido, ou seja, é excelente para algo com um corpo grande de palavras, pois conseguimos ter uma boa ideia de tema, onde a generalização é útil no intuito de fazer relações entre eles ou de interpretação de ocorrências deles. Antes de ser aplicado qualquer tipo de modelagem, é recomendado que todas as stopwords e pontuações sejam removidas do texto a ser interpretado. O que temos visto é q aplicar um lemmatizador é mais proveitoso do que aplicar um steming, pois assim não perdemos tanto a interpretação sintática do texto.
Paulo Alexander Simoes Resumo - Aula 15 - NLTK através de exemplos: - Modelagem de tópicos (topic modeling) - Redes de co-ocorrência Um artigo/documento pode estar composto de diferentes tópicos (ou unidades) que se misturam para a elaboração de ideias. Ao termos um novo documento ao ser analisado, e considerando apenas esses quatro tópicos, podemos pensar que para esse documento, o mais provável é que seja de computação. Um tópico pode ser entendido como: Um tema (ou assunto) de um discurso. Os tópicos podem ser representados por uma distribuição de palavras. Isso significa que uma palavra tem certa probabilidade de aparecer nesse tópico. Modelagem de tópicos é uma análise “abstrata” (em alto nível) do conteúdo de documentos. A MT também pode ser utilizada para identificar: (i) como esses tópicos se conectam, e (ii) como mudam ao longo do tempo. O que geralmente é considerado como entrada para a MT são: Uma coleção de documentos (ou corpus). Número finito de tópicos. O que não sabemos: Os nomes dos tópicos. Não podemos informar, por exemplo, a busca de tópicos em computação. A distribuição de tópicos para cada documento. Não sabemos se os documentos tem um conteúdo associado a 50% computação e 50% esportes. Note, então, que estamos tratando um problema de agrupamento de textos, com a variante de que: Documentos e palavras são agrupadas simultaneamente. Existem diferentes métodos para modelagem de tópicos, as duas abordagens mais conhecidas são: PLSA: Probabilistic Latent Semantic Analysis (1999) LDA: Latent Dirichlet Allocation (2003). Modelos generativos e LDA. Redes de co-ocorrência aplicadas para a caracterização de obras literárias. Demonstrar, através de diferentes testes empíricos, que a classificação de textos de obras literárias pode ser realizada usando suas características estruturais (padrões topológicos) extraídas de redes de co-ocorrência textual.
Rodrigo San Martin Ignacio Gomes NLTK atráves exemplos. Modelagem de tópicos (topic modeling) e Redes de co- ocorrência. Para a elaboração de ideias, os documentos podem conter uma grande quantidade de tópicos diferentes. Assim, um documento textual pode ser considerado como uma mistura de tópicos e diferentes pesos de cada tópico na mistura podem indicar o tipo do documento. Um tópico pode ser entendido como um tema ou assunto de um discurso. Podem ser representados por distribuições de palavras, com uma probabilidade de ocorrência para cada uma delas dentro de um assunto. A modelagem de tópicos (MT) é uma análise em alto nível do conteúdo dos documentos. Para um corpus grande, pode-se entender o tipo de assunto ou documento a que se trata. Também pode identificar como os tópicos se conectam e como mudam ao longo do tempo. As entradas considerada para MT são o corpus, que são uma coleção de documentos e também um número finito de tópicos. Assim, a partir de uma coleção de documentos é calculado um modelo de tópico e em cima disso podem ser realizadas clusterizações de palavras para determinar tópicos próximos, também podem ser calculadas as distribuições de tópicos em um documento, bem como a frequência de palavras em cada tópico. Duas abordagens mais conhecidas para modelagem de tópicos são a Latent Semantic Analysis (PLSA) e a Latent Dirichlet Allocation (LDA). Com MT podem ser realizada a avaliação da classificação de obras literárias através de redes de co-ocorrência, executando uma análise qualitativa, evidenciando palavras de maior relevância e assim facilitando a identificação de temática de cada texto. Métricas numéricas das redes de co-ocorrência podem ser utilizadas para detectar padrões de similaridade entre textos diferentes, utilizando por exemplo análise de componentes principais (PCA).
Denildo Veloso Braga Aula 15: NLTK através de exemplos. Modelagem de tópicos (topic modeling) e redes de co-ocorrência. Modelagem de tópicos consiste em atribuir um tópico à um documento ou texto não estruturado, dado seus atributos. Em documento, existem conjuntos de palavras relacionadas à tópicos. Uma técnica é pegar o maior conjunto de palavras relacionadas e inferir o tópico deste conjunto. Ideia: um documento é um mistura de tópicos. Um tópico pode ser entendido como um tema ou assunto de um discurso. Os tópicos podem ser representados como uma distribuição de palavras. Isso significa que uma palavra tem uma probabilidade de pertencer à um tópico. Modelagem de tópicos é uma análise abstrata do conteúdo de documentos. É útil quando o corpus é grande e o objetivo é entender, de forma rápido, o conteúdo dele. Modelagem de tópicos também pode ser utilizada para identificar como esses tópicos se conectam e como mudam ao longo do tempo. A modelagem de tópicos considera um corpus e uma coleção finita de tópicos. A priori, não sabemos quais são nomes dos tópicos e qual a distribuição de tópicos por documento. As duas técnicas mais conhecidas de modelagem de tópicos são Probabilistic Latent Semantic Analysis (PLSA) e Latent dirichlet allocation (LDA). Modelos generativos e LDA: dado um modelo, gera um documento e vice-versa. A geração de modelos é difícil pois existem diversos modelos. Redes de co-ocorrência: aplicação: caracterização de obras literárias. Utilizando técnicas de processamento de linguagem natural e grafos, é possível identificar gêneros literários de obras. Uma rede de co- ocorrência é um grafo criado linkando as k palavras mais próximas em uma frase, dado uma janela de tamanho k.
Rafael Correia de Lima O tema abordado nessa décima quinta aula de PLN foi “NLTL através de exemplos: Modelagem de Tópicos (topic modelling) e Redes de Co-ocorrência”. Um artigo ou documento pode ser composto por vocabulários de diversos temas ou tópicos diferentes que se relacionam para a elaboração de um tema central. Um tópico pode ser entendido como um assunto de desenvolvimento de discurso, e pode ser representado por uma distribuição de ocorrência de palavras. Dessa forma as palavras tem probabilidades de ocorrência de acordo com os tópicos ou temas do documento. A Modelagem de Tópicos (MT) é uma análise abstrata do conteúdo de documentos, e visa classificar de forma rápida os novos documentos analisados, servindo como base também para identificar a relação entre os tópicos e mudanças sofridas pelos tópicos ao longo do tempo. A MT é um problema de agrupamento de textos, que busca dado um conjunto de textos encontrar a categoria (tópico/assunto) a qual esse texto pertence. Na segunda parte da aula foi abordado o tema de “Redes de Co-ocorrência aplicadas a caracterização de obras literárias”, apresentado em torno do trabalho desenvolvido pela aluna Bruna Pereira Santos em seu projeto de Iniciação Científica. Neste trabalho foram classificadas as obras literárias de alguns autores brasileiro com a utilização de redes de co-ocorrência textual. Uma rede de co-ocorrência é a representação em forma de um grafo das relações das palavras usadas em conjunto em uma janela de tamanho delimitado. Palavras que coocorrem com maior frequência para dado tamanho de janela têm uma aresta com peso maior e se localizam próximas em um grafo que represente a rede de coocorrência.
Thiago Henrique Gomes Panini Resumo 15 – PLN Na aula de número quinze de Processamento de Linguagem Natural, o professor Jesús mencionou e demonstrou alguns grafos aplicados à obra de Machado de Assis e, para aplicar uma análise mais detalhadas nesses gráficos, é possível aplicar um algoritmo de redução de dimensionalidade, retornando assim características como número de vértices, número de arestas, tamanho, densidade, grau médio, diversidade lexical (número de palavras diferentes do vocabulário que estão presentes na obra), menor caminho médio, entre outros. Com isso, observa-se um resultado em duas dimensões. Como exemplo, foram coletadas todas as obras de Machado de Assis e plotadas em um gráfico bi dimensional. Para comparação, foram coletadas duas obras de Aluísio de Azevedo e duas obras de José de Alencar para serem plotadas no mesmo gráfico bi dimensional. O resultado obtido foi coerente: é possível perceber uma diferença entre os pontos relacionados a Machado de Assis e os pontos dos dois outros autores, ou seja, os pontos das respectivas obras ficaram visualmente separadas no gráfico. Tais medidas são extremamente importantes, pois servem para a análise dos dados, visualizando as características desses dados, como também na síntese dos dados, identificando alguns padrões característicos daqueles dados e podendo, quem sabe, simular tais características. Imagine que seja possível criar obras com a mesma característica das obras de Machado de Assis. Um outro ponto extremamente importante abordado durante a aula foi a demonstração de um método criado por uma aluna do professor Jesús. Caminhando para o final da aula, o professor comentou sobre a segunda entrega do projeto final, modificando assim o prazo de entrega e estipulando a data final para domingo.
Thiago Bruini Cardoso Silva A décima quinta aula da disciplina explorou mais a aplicação da biblioteca NLTK na análise de texto, a partir da modelagem de tópicos e visualização de redes de co-ocorrência. A modelagem de tópicos foi introduzida a partir de um artigo contendo diversos temas (ou tópicos) entrelaçados que, no fim, acabam por construir ideias e conclusões. A partir dessa introdução, é possível inferir que um documento é formado por mistura de diversos tópicos. A maneira de identificar tópicos em textos é por meio das palavras associadas aos tópicos: “Cada tópico tem palavras mais prováveis de aparecerem relacionadas a si.”. A modelagem de tópicos pode ser entendida como análise em alto nível dos diferentes temas presentes em documentos. Por meio dessa modelagem, é possível entender sobre o que se trata um grande texto e como os diferentes temas presentes em sua estrutura se relacionam. O problema de Modelagem de tópicos é, no fundo, um problema de agrupamento, em que não sabemos a distribuição de tópicos nos documentos de entrada, mas conhecemos os documentos e definimos um número finito de tópicos. As duas principais abordagens para realização dessa clusterização são PLSA e LDA. A LDA funciona por meio da atribuição aleatória de tópicos às palavras dos textos, atribuição de tópicos aos documentos e correções por meio de cálculo de probabilidade para atualização dessas classificações. Redes de co-ocorrência nos permitem visualizar as relações entre diferentes tópicos em documentos. Por meio de redes de co-ocorrência, é possível criar associações entre palavras normalizadas em um texto. Essa rede apresenta estrutura diferente a cada tópico diferente que possa representar um texto.
Ruan Fernandes A aula 15 abordou a segunda parte de NLTK através de exemplos, sendo Modelagem de tópicos (topic modeling) e redes de co-ocorrência. Foi exemplificado como um artigo ou documento científico pode estar composto de diferentes tópicos misturados para a elaboração de ideias (exemplo sobre Computação dentro dum artigo relacionado a genética, "computer", "numbers", "computational", "predictions"). "Um documento textual é uma mistura de tópicos." \- ao termos um novo documento a ser analisado, considerando apenas os 4 tópicos (do exemplo), podemos pensar que para esse documento, o mais provável é que ele seja de computação. Tópico pode ser entendido como um tema ou assunto de um discurso. Podem ser representados por uma distribuição de palavras (probabilidade que uma certa palavra tem de aparecer nesse tópico). Modelagem de tópicos é uma análise 'abstrata' do conteúdo de documentos. É apropriado quando, frente a corpus grandes, deseja-se entender de forma rápida o conteúdo - do que se trata o documento? - A MT pode ser usada para identificar: 1. como eles se conectam; 2. como mudam ao longo do tempo. Geralmente uma coleção de documentos (corpus) ou um número finito de tópicos são consideradas as entradas de um MT. Não podemos, no entanto, informar sobre a busca de tópicos em computação ou a sua distribuição para cada documento. Então, é um problema de agrupamento de textos, com a variante que documentos e palavras são agrupados simultaneamente. Dois métodos abordados para modelagem de tópicos mais famosos são o PLSA (Probabilistic Latent Semantic Analysis, Thomas Hofmann) e LDA (Latent Dirichlet Allocation, David Blei). Foi então dado um exemplo de texto classificado em tópicos.
Iasmin de Haro Pracchias Na aula do dia 01/08 os temas abordados foram Modelagem de Tópicos e Redes de Co-ocorrência. Um tópico pode ser entendido como um tema identificado dentro de um corpus, e um corpus pode conter diferentes tópicos. As palavras podem ser agrupadas conforme seus respectivos tópicos, e o tópico pode ser representado como uma distribuição de palavras, ou seja, qual a probabilidade de certa palavra pertencer a certo tópico. Nesta aula vimos um exemplo em um texto onde podia-se identificar tópicos como Genética, Computação, Evolução, etc. A modelagem de tópicos trata de, através da análise de tópicos em corpus consideravelmente grandes, entender quais os principais temas presentes no documento, e também permitem analisar como os tópicos estão relacionados entre si, e como variam ao longo do tempo. Como dados de entrada para uma modelagem de tópicos podemos definir quais são os documentos a serem analisados e um número finito de tópicos a serem analisados, porém não temos como saber quais são os tópicos e a distribuição deles em cada documento do corpus. Vimos o método de modelagem de tópicos LDA (Latent Dirichlet Allocation), que permite inferir os modelos utilizados para a geração dos documentos. Na segunda metade da aula vimos um exemplo de como classificar obras literárias utilizando-se de redes de co-ocorrência,onde as redes de co-ocorrência permitem, após a definição de uma janela de conexão, identificar quais as palavras com maior ocorrência dentro de um documento e quais suas relações com as outras palavras no documento, permitindo fazer uma análise mais quantitativa e qualitativa do texto.
Estevao Crippa da Veiga Um documento textual é uma mistura de tópicos. Um tópico pode ser entendido como um tema ou um assunto de um discurso e pode ser representado por uma distribuição de palavras. A modelagem de tópicos consiste em uma análise em alto nível de conteúdo de um documentos, identificando a conectividade entre os tópicos do texto e como evoluem ao longo do tempo, ou seja, consiste em identificar o assunto que possivelmente é tratado no texto. Para a modelagem de tópicos consideramos um corpus e um número finito de corpus, mas não sabemos os nomes dos tópicos e a distribuição de tópicos para cada documento. Assim, o resultado final da modelagem é o agrupamento dos textos. As abordagens mais conhecidas para a modelagem de tópicos são PLSA -- Probabilistic Latent Semantic Analysis (1999) -- e LDA -- Latent Dirichlet Allocation (2003). A partir de um modelo podemos gerar um documento, assim como podemos gerar o modelo a partir de um documento por inferência. Mas quando são vários modelos, essa tarefa se torna mais difícil, o que torna-se necessário o uso de mistura de modelos para tentar realiza tal inferência. O LDA consiste em atribuir os tópicos aleatoriamente às palavras, calcular as probabilidades posteriores do tópico dado o documento e dos tópicos dadas as palavras. Os rótulos são ajustados e os coeficientes são recalculados. Esse processo se repete. Existe a possibilidade de uso de redes de co-ocorrência para classificação de obras literárias usando suas características estruturais. A análise é feita qualitativamente, evidenciando palavras de maior relevância, tornando mais simples a identificação do tema do texto.
Luana Ferreira do Nascimento Um texto pode ser composto por diferentes tópidos - ou unidades - que podem se misturar para acontecer a elaboração de ideias. Um tópico é a mesma coisa que um tema ou assunto de um discurso ou texto. Estes tópicos podem vir a ser representados por distribuições de palavras. Ou seja, isso significa que uma palavra vai ter uma certa probabilidade de aparecer no tópico em questão. Modelagem de tópicos é uma análise abstrata, ou seja, em alto nível do conteúdo presente nos documentos, para que possamos saber qual o tema ou temas gerais que o texto aborda, principalmente quando foi um corpus grande. A modelagem de tópicos também pode ser usada para identificar como os tópicos de um texto se conectam e como eles mudam ao longo do tempo. As entratas para um modelador de tópicos geralmente são uma coleção de documentos também chamada de corpus e um número finito de tópicos a serem detectados. Mesmo assim não vai conseguir retornar os nomes dos tópicos nem a distribuição destes tópicos para cada documento. Este é um problema de agrupamento, portanto podemos tentar resolver atravez do PLSA e do LDA. Os modeladores vão retornar delimitações de grupos dentro do corpus textual indicando quais textos estão dentro da mesma categoria de tópicos e para cada tópico será avaliada a frequência de palavras utilizadas. Cada termo token dos textos analisados, tendo excluído as stop words, podem ou não estar associados ao um grupo de tópicos e em um mesmo texto podemos ter diversas palavras associadas a diversos temas diferentes.
Arthur Veloso Kamienski Um documento pode ser composto por diversos tópicos. Ao sabermos quais são os tópicos possíveis, podemos classificar um documento, identificando-o como pertencente a um desses tópicos, de acordo com a sua similaridade com esse tópico. A similaridade pode ser dada pela quantidade de palavras que identificam um determinado tópico, por exemplo. Um tópico, por sua vez, pode ser entendido como um tema ou um assunto que um determinado documento pode tratar sobre. Tópicos podem ser identificados pelas palavras que ocorrem comumente em documentos indentificados pelo tópico. Assim, tópicos podem ser identificados pela distribuição de palavras, e cada palavra tem uma determinada probabilidade de pertencer ao tópico. A modelagem de tópicos é a análise de alto nível de um documento para que o seu conteúdo possa ser entendido de forma rápida e facilitada. A modelagem de tópicos também pode identificar como tópicos se relacionam e como evoluem ao longo do tempo. A modelagem de tópicos utiliza como entrada uma coleção de documentos e um número finito de tópicos. No entanto, não é possível saber os nomes dos tópicos ou o a distribuição de tópicos por palavras. A modelagem de tópicos é um problema, portanto, de agrupamento simultâneo de palavras e tópicos. Atribuir palavras a tópicos é uma tarefa difícil. A técnica de Latent Dirichlet Allocation aborda esse problema ao alocar tópicos aleatórios à palavras e calcular a probabilidade condicional daquela palavras baseada nessa distribuição. A partir dessa probabilidade inicial, atualizamos os tópicos para cada palavra, ao atribuir o tópico mais provável para aquela palavra.
Eric Shimizu Karbstein Na aula passada estudamos o NLTK (Natural Language Toolkit). Para isso foram abordados dois exemplos: modelagem de tópicos (topic modeling) e redes de co- ocorrência. No primeiro exemplo começamos analisando o artigo “Seeking Life’s Bare (Genetic) Necessities”, dessa forma foi possível identificar que um artigo ou documento muitas vezes é composto por diferentes tópicos, no caso do artigo abordado: genética, computação e biologia. Portanto, podemos definir tópico como o tema de um discurso e são identificados por uma distribuição de palavras. Nesse contexto, a modelagem de tópicos é utilizada, primariamente, para identificar rapidamente o conteúdo de um texto e, secundariamente, pode ser utilizada para entender como tópicos se conectam e como mudam ao longo deste texto. Na modelagem de tópicos são utilizados como entrada uma coleção de documentos e um número finito de tópicos O segundo exemplo da aula, começa abordando o artigo de Bruna pereira Santos, “Caracterização de obras literárias usando redes de co-ocorrência”. Este artigo mostra como podemos classificar obras literárias em uma rede de co- ocorrência textual através de seus padrões topológicos.


Número de resumos processados: 65.

Observação:


Arquivo gerado por um programa.