Perfil Acadêmico: Jorge Janaite Neto

Doutor em Ciência da Informação (UNESP 2024)

Tese: Recuperação de Informação Textual Baseada em Cluster Conceitual

ÁREA DE CONCENTRAÇÃO: Informação, Tecnologia e Conhecimento.

LINHA DE PESQUISA: Informação e Tecnologia.

ORIENTADOR: Prof. Dr. Edberto Ferneda

Resumo

Resumo A atual abundância na produção de documentos torna necessário o desenvolvimento de novos esquemas de classificação que sejam capazes de organizar o enorme volume de material produzido incessantemente. Como uma parte expressiva deste material textual é produzido e armazenado em meios digitais, isso favorece bastante o uso de sistemas de indexação automáticos.

Recuperação de informação é um processo linguístico, ao passo que a indexação automática operada por computadores é um processo estatístico, tornando necessário uma aproximação destas áreas do conhecimento. Tradicionalmente, os textos são considerados como um conjunto de palavras portadoras de uma relevância tópica proporcional à frequência de ocorrência dentro de cada documento e à frequência entre os documentos que compõe o corpus documental, sendo esta representação denominada de bag-of-words. A principal deficiência destas representações clássicas baseadas no modelo bag-of-words é o tratamento dado às palavras ambíguas: elas são descartadas ou ignoradas; isso empobrece muito a qualidade da indexação e consequentemente a qualidade da recuperação. O problema da ambiguidade terminológica é um problema linguístico: algumas palavras ortograficamente idênticas possuem significados diferentes. Se superarmos a questão terminológica e operar- mos em nível conceitual, o problema da ambiguidade estaria solucionado: os conceitos são inequívocos.

O propósito desta tese é investigar e propor o uso de clustering a partir dos conceitos com o objetivo de melhorar a eficácia do processo de indexação automática e recuperação de informação, aperfeiçoando a representação dos textos que compõe o corpus documental e os representando por agrupamentos conceituais. Ao final é realizado um experimento para ilustrar a aplicação prática do algoritmo proposto bem como demonstrar os resultados promissores alcançados e lançar um base para uma futura implementação completa.

Abstract

The current abundance of document production makes it necessary to develop new classification schemes that can organize a large volume of material produced incessantly. Since a significant part of this textual material is produced and stored digitally, this greatly favors the use of automatic indexing systems.

Information retrieval is a linguistic process while automatic indexing operated by computers is a statistical process, making it necessary to bring these areas of knowledge closer together. Traditionally, texts are considered as a set of words with a topical relevance proportional to the frequency of occurrence within each document and the frequency between the documents that make up the document corpus, this representation is called bag-of-words. The main shortcoming of these classic representations based on the bag-of-words model is the treatment given to ambiguous words: they are discarded or ignored; this greatly reduces the quality of indexing and consequently the quality of retrieval. The problem of terminological ambiguity is a linguistic problem: some words that are orthographically identical have different meanings. If we overcome the terminological issue and operates at a conceptual level, the problem of ambiguity would be solved: the concepts are unambiguous.

The purpose of this dissertation is to investigate and propose the use of concept-based clustering to improve the effectiveness of the automatic indexing and information retrieval process by improving representation of the texts that make up the document corpus, representing them by conceptual groupings. At the end, an experiment is carried out to illustrate the practical application of the proposed algorithm, as well as to demonstrate the promising results achieved and lay the groundwork for a future full implementation of it.

Disponível em:

Mestre em Ciência da Informação (UNESP 2018)

Dissertação: Recuperação de Informação Baseada em Ontologia: Uma proposta utilizando o Modelo Vetorial.

ÁREA DE CONCENTRAÇÃO: Informação, Tecnologia e Conhecimento.

LINHA DE PESQUISA: Informação e Tecnologia.

ORIENTADOR: Prof. Dr. Edberto Ferneda

Resumo

A recuperação de informação ocorre por meio da comparação entre as representações dos documentos de um acervo e a representação da necessidade de informação do usuário. Um documento é recuperado quando sua representação coincidir total ou parcialmente com a representação da necessidade de informação do usuário. O processo de recuperação de informação pode ser visto como um problema linguístico no qual o conteúdo informacional dos documentos e a necessidade de informação do usuário são representados por um conjunto de termos. A eficiência do processo de recuperação de informação depende da qualidade das representações dos documentos e dos termos empregados pelo usuário para representar sua necessidade de informação. Quanto mais compatíveis forem essas representações maior será a eficiência do processo de recuperação. A partir de uma pesquisa exploratória e descritiva fundamentada em bibliografia específica, este trabalho propõe a utilização de ontologias computacionais em sistemas de recuperação de informação baseados no Modelo Espaço Vetorial. As ontologias são empregadas como estrutura terminológica externa utilizadas tanto na expansão dos termos de indexação quanto na expansão dos termos que compõe a expressão de busca. A expansão dos termos de indexação é feita logo após a extração dos termos mais representativos do documento em análise durante o processo de indexação, consistindo na adição de novos termos conceitualmente relacionados a fim de enriquecer a representação do documento. A expansão da consulta é obtida a partir da adição de novos termos relacionados aos já existentes na expressão de busca com o objetivo de melhor contextualizá-los. Nesta proposta utiliza-se apenas a estrutura terminológica e hierárquica oferecida por uma ontologia computacional OWL, sem considerar os demais tipos de relações possíveis nem as restrições lógicas que podem ser descritas, podendo esses recursos serem utilizados em trabalhos futuros na tentativa de melhorar ainda mais a eficiência do processo de recuperação. A proposta apresentada neste estudo pode ser implementada e futuramente tornar-se um sistema de recuperação de informação totalmente operacional.

Abstract

The information retrieval occurs by means of match between the representations of documents from a collection and the representation of user information’s needs. A document is retrieved when its representation matches totally or partially to the user information’s needs. The process of information retrieval can be seen as a linguistic issue in which the document information content and the user information need are represented by a set of terms. Its efficiency depends on the quality of the representations of the documents and the terms used to represent the user’s information need. The more compatible these representations were, the more efficient the retrieval process. Based on an exploratory and descriptive research substantiated in a specific bibliography, this paper offers to use computational ontologies in information retrieval systems based on the Vector Space Model. The ontologies are applied as external terminological structures used in the indexing terms expansion as well as in the expansion of the terms which compound the query expression. The indexing terms expansion is made as soon as the extraction of the more representative terms of the document in analysis during the indexing process, consisting on the adding of new conceptually related terms in order to improve the document representation. Query expansion is obtained from adding new related terms to the existent ones in the query expression to better contextualize them. In this propose, only the terminological and hierarchical structure offered by an OWL computational ontology was used, regardless other possible relations and logical restrictions that could be descripted, saving these resources to be used in further works in an attempt to improve the retrieval process efficiency. The shown proposition can be implemented and become a fully operational information retrieval system.

Keywords:

Recuperação de informação, Ontologia, Indexação automática, Expansão de consulta, OWL, OWL2, Information retrieval, Ontology, Automatic indexing, Query expansion

Disponível em

Publicações em periódicos cietíficos

JANAITE NETO, Jorge; FERNEDA, Edberto. O conceito de relevância na recuperação de informação. InCID: Revista de Ciência da Informação e Documentação, Ribeirão Preto, Brasil, v. 15, n. 1, p. e-206701, 2024. DOI: 10.11606/issn.2178-2075.incid.2024.206701. Disponível em: https://www.journals.usp.br/incid/article/view/206701.
JANAITE NETO, Jorge; FERNEDA, Edberto. Ontologia como recurso de padronização terminológica no processo de recuperação de informação. Informação em Pauta, [S. l.], v. 1, n. 1, p. 30-45, 2016. Disponível em: http://www.periodicos.ufc.br/informacaoempauta/article/view/2967.

O conceito de relevância na recuperação de informação

Resumo

Este trabalho tem por objetivo apresentar um levantamento bibliográfico sobre o conceito de relevância, suas propriedades e características, assim como sistematizar as suas manifestações e o seu uso na Ciência da Informação. Para isso, a pesquisa baseou-se no levantamento bibliográfico de diversos autores que tratam a relevância como objeto de estudo. Verificou-se que o conceito de relevância apresenta várias definições formais, podendo ser interpretada de diversas maneiras. A relevância também está fortemente ligada aos sistemas de recuperação de informações. Nesse contexto, a relevância pode ser classificada sobre dois enfoques: a relevância do usuário e a relevância do sistema. A partir dos resultados podemos concluir que o conceito de relevância desempenha um papel fundamental na avaliação pelo usuário, sendo utilizada, inclusive, como um padrão para avaliar a eficácia de algorítmicos e sistemas.

Abstract

This work aims to present a bibliographical survey on the concept of relevance, its properties and characteristics, as well as systematizing its manifestations and its use in Information Science, particularly in the process of information retrieval. To achieve this, the research was based on a bibliographical survey of several authors who have relevance as an object of study. It foundthat the concept of relevance has several formal definitions and can be interpreted in different ways. Relevance is also strongly linked to information retrieval systems. Inthis context,it canbe classified under two approaches: user relevance and system relevance. From the results, we conclude that relevance plays a fundamental role in Information Science, with emphasis on the information retrieval process,which often uses this concept as a metric to evaluate the effectiveness of algorithms and systems.

Keywords:

information retrieval;Information science;relevance;relevance models and theories.

Publicado em:

InCID Revista de Ciência da Informação e Documentação

ISSN: 2178-2075
QUALIS (2017-2020): A3
https://revistas.usp.br/incid

Citação:

JANAITE NETO, Jorge; FERNEDA, Edberto. O conceito de relevância na recuperação de informação. InCID: Revista de Ciência da Informação e Documentação, Ribeirão Preto, Brasil, v. 15, n. 1, p. e-206701, 2024. DOI: 10.11606/issn.2178-2075.incid.2024.206701. Disponível em: https://www.journals.usp.br/incid/article/view/206701.

Disponível em:

Ontologia como recurso de padronização terminológica no processo de recuperação de informação

Resumo

O processo de recuperação de informação envolve um acervo documental que deve ser representado por expressões linguísticas e usuários que tentam descrever linguisticamente as suas necessidades de informação a fim de obterem documentos relevantes para satisfazer tais necessidades. Um sistema de recuperação de informação é, portanto, um ambiente linguístico mediador na comunicação entre um estoque de informação e seus requisitantes. Sua eficiência depende de um controle adequado da linguagem de representação dos itens de informação e das requisições dos usuários. Este trabalho apresenta um método de utilização de ontologias na recuperação de informação. Utiliza-se o Modelo Espaço Vetorial como estrutura formal para a representação dos documentos e das buscas dos usuários. Os vetores dos documentos são criados durante o processo de indexação automática no qual uma ontologia fornece novos termos além daqueles extraídos do texto, enriquecendo, assim a representação do documento. O vetor de busca é criado a partir de um processo de expansão de consulta no qual, a partir de inferências em uma ontologia, novos termos são inseridos na expressão de busca inicialmente formulada pelo usuário. Pretende-se com isso uniformizar as representações dos documentos e das buscas, melhorando assim a precisão do processo de recuperação de informação.

Palavras-chave

Recuperação de informação. Indexação automática. Expansão de consulta. Ontologia. Modelos de recuperação de informação.

Abstract

Information Retrieval process involves a collection of documents that must be represented by linguistic expressions and users trying to describe linguistically their information need in order to obtain relevant documents that meet such needs. Therefore, an information retrieval system is a linguistic environment mediating the communication between a stock of information and its users. Its effectiveness depends on adequate control of language for representation of information items and requests of its users. This paper presents a method of using ontologies in information retrieval process. It uses the Vector Space Model as a formal structure for the representation of documents and queries. The documents vectors are created during the automatic indexing process, in which the ontologies provide new terms in order to enrich those representations. The search vector is created from a query expansion process in which, from inferences in ontology, new terms are entered in the search expression initially formulated by the user. The aim is standardize the representations of documents and searches, thus improving the information retrieval process.

Keywords:

Information retrieval. Automatic indexing. Query expansion. Ontology. Information retrieval models.

Publicado em:

InCID Revista de Ciência da Informação e Documentação

ISSN: 2525-3468
QUALIS (2017-2020): A4
http://www.periodicos.ufc.br/informacaoempauta

Citação:

JANAITE NETO, Jorge; FERNEDA, Edberto. Ontologia como recurso de padronização terminológica no processo de recuperação de informação. Informação em Pauta, [S. l.], v. 1, n. 1, p. 30-45, 2016. Disponível em: http://www.periodicos.ufc.br/informacaoempauta/article/view/2967.

Perfil Acadêmico: Jorge Janaite Neto

Identificação

Formação Acadêmica

Atuação

Publicações

Doutor em Ciência da Informação (UNESP 2024)

Tese: Recuperação de Informação Textual Baseada em Cluster Conceitual

Resumo

Abstract

Disponível em:

Mestre em Ciência da Informação (UNESP 2018)

Dissertação: Recuperação de Informação Baseada em Ontologia: Uma proposta utilizando o Modelo Vetorial.

Resumo

Abstract

Keywords:

Disponível em

Especialista Lato Sensu em Redes de Computadores (UTFPR 2015)

Trabalho de Conclusão: Um Sistema Especialista para Auxiliar no Diagnóstico de Problemas Relacionados à Configuração de VLANs em Switches Gerenciáveis

Resumo

Abstract

Disponível em:

Especialista Lato Sensu em Planejamento, Implementação e Gestão em EaD (UFF 2012)

Trabalho de Conclusão: Princípios de Arquitetura da Informação em Materiais Impressos para EaD

Resumo

Palavras-chave

Disponível em:

Pesquisador junto ao Grupo de Pesquisa "Representação Temática da Informação"

Dados da linha de pesquisa

Palavras-chave:

Acessível em:

Publicações em periódicos cietíficos

O conceito de relevância na recuperação de informação

Resumo

Abstract

Keywords:

Publicado em:

Citação:

Disponível em:

Ontologia como recurso de padronização terminológica no processo de recuperação de informação

Resumo

Palavras-chave

Abstract

Keywords:

Publicado em:

Citação:

Disponível em: