Multi-Dimensional Service-Oriented Ontology Mapping

Abstract

Ontology mapping is the process whereby semantic relations are defined between two ontologies at conceptual level, which in turn are applied at data level transforming source ontology instances into target ontology instances. Ontology mapping, as an information integration approach, faces new challenges with the advent of new technological and socio-organizational paradigms such as semantic web and virtual organizations, especially due to the unprecedented levels of distribution, heterogeneity and evolution.

The first contribution of this thesis is MAFRA – MApping FRAmework, a systematized interpretation of the ontology mapping process. MAFRA identifies, integrates and organizes the ontology mapping process phases and complemented modules into a meaningful reference model. Due to its wide coverage it further provides a classification artifact for works from distinct but interrelated research fields. While MAFRA identifies several other phases of the process, the rest of the research developed in scope of this thesis specially focuses on the core phases of the process: the specification and execution of semantic relations.

The Semantic Bridging Ontology (SBO) is the result of the research on analysis, characterization, specification and representation of semantic relations. SBO describes the semantic relations domain of knowledge, providing not only a reasoning mechanism but also a representation and exchange mechanism of semantic relationships, when instantiated. SBO is a very simple and compact ontology, but its extensional structure based on transformation services allows its adoption in very distinct and complex scenarios. While most of the syntactical relations are provided by transformation services, the structural relations are provided by the entities and their relationships defined by SBO. Furthermore, because SBO clearly and univocally characterizes the different types of semantic relations and their behaviors, it serves as a driving mechanism for the specification of semantic relations. SBO is further complemented by a software application with a graphical user interface that allows the definition and the automatic storage and verification of the semantic relationships.

The semantic relationships resulting from previous phase are then applied in the execution phase. The general-purpose transformation process proposed in this thesis conforms to and exploits the SBO conceptualization, namely concerning the notion of transformation service. The proposed transformation process distinguishes between the generic query and filtering of instances, and the specific transformation provided by the transformation services associated with each semantic relation. The query and filtering phases of the process require specific and extensive processing of data according to the semantic relationships specification, which have been specified recurring to the formal, well-known relational data model algebra, motivating a formal yet very explicit and especially very compact description of the process. Adopting the query-filtering-transformation method, the process exploits and promotes the notion of independent transformation service, allowing the inclusion and modification of the transformation capabilities of the system with no modification of other components of the system.

This independent transformation service approach is extrapolated into the notion of multi-dimensional service in which services capabilities are no longer limited to the transformation of instances but to other phases of the process, namely the semantic relation specification, verification, evolution and negotiation. This new notion of service is further integrated in the multi-dimensional service-oriented architecture, in which services represent and embody specific expertise on the application of the service itself along the semantic relationships life-cycle, providing competencies as requested to the core phases of the process.

The potential advantages of the multi-dimensional service-oriented architecture are tested and exploited in the researched process for automatic definition of semantic relationships. In this case test, services are expanded with competencies to judge the relevance of a set of similarities measures in the definition and confirmation of a semantic relation with which the service is associated.

The proposed ideas and processes have been implemented in scope of this thesis into the MAFRA Toolkit application, and tested with several ontology mapping scenarios. Additionally, MAFRA Toolkit has been applied and tested in scope of several third-part EU-funded projects.

TOC

Resumo Alargado

Sendo ontologia uma descrição das características do conteúdo de repositórios de dados, informação ou conhecimento, torna-se possível através da definição de equivalências semânticas entre os elementos das ontologias, relacionar esses repositórios. Mapeamento de ontologias é um processo que consiste na definição a nível ontológico dessas relações semânticas entre entidades duma ontologia de origem e duma ontologia de destino. Essas relações são posteriormente aplicadas na transformação das instâncias duma base de conhecimento conforme com a ontologia de origem em instâncias duma base de conhecimento conforme com a ontologia de destino.

O trabalho realizado nesta tese é genericamente dividido em sete partes, que correspondem ao longo da tese a outros tantos capítulos:

  1. Motivações;
  2. Ontologia;
  3. MAFRA – MApping FRAmework;
  4. Relacionamento semântico;
  5. Execução das relações semânticas;
  6. Arquitectura do sistema baseada em serviços multi-dimensionais;
  7. Desenvolvimento e experiências.

As secções seguintes descrevem sumariamente o trabalho desenvolvido e os resultados mais relevantes atingidos em cada uma delas, sendo a última secção reservada à apresentação duma síntese do trabalho desenvolvido e apresentação de alguns indicadores da relevância e utilidade da investigação realizada.

Motivações

Mapeamento de ontologias é considerada uma tecnologia fundamental em cenários em que a troca e partilha de informação sejam essenciais. Interoperabilidade entre sistemas de informação, web semântica, organizações virtuais e negócios electrónicos, migração de dados entre sistemas e evolução dos modelos de dados subjacentes aos sistemas de informação, são alguns desses cenários. Através da análise e sistematização das características e das necessidades de interoperabilidade associados a estes cenários, definiram-se os seguintes requisitos dum sistema de mapeamento de ontologias:

  1. Identificação, especificação e representação de relações sintácticas, estruturais e semânticas entre ontologias;
  2. Transformação da informação transmitida entre intervenientes na comunicação, de acordo com as relações anteriores;
  3. Negociação das relações anteriores;
  4. Manutenção das relações anteriores;
  5. Integração (mas minimização) da participação do ser humano no processo de mapeamento de ontologias, o que sugere a adopção dum sistema semi-automático de mapeamento de ontologias;
  6. Adopção de tecnologia e soluções do contexto da web semântica.

Estes requisitos serão posteriormente comparados com a investigação realizada e com os resultados atingidos, o que permite aferir da qualidade da investigação e dos resultados atingidos.

2. Ontologia

Não existe uma definição universalmente aceite de ontologia, mas a definição de Gruber - “ontologia é uma especificação explícita duma conceptualização” – tende a ser genericamente aceite no contexto dos sistemas de informação e conhecimento. No contexto desta tese porém, esta definição é demasiado genérica, o que motiva a análise de características e comparação com outros conceitos comumente relacionados, nomeadamente com o conceito de esquema de base de dados. Da comparação efectuada conclui-se que ambos partilham vários pressupostos e características, mas torna-se contudo evidente que, mesmo não sendo conceptualmente e formalmente universais, as capacidades de descrição e caracterização semântica do domínio de conhecimento de ontologia são superiores às do esquema de base de dados. Partindo desta observação conclui-se que ontologia é, de ambos, o artefacto potencialmente mais capaz de fornecer elementos de raciocínio para a definição de relações semânticas entre repositórios de dados, informação e/ou conhecimento.

Concluindo o tema sobre a caracterização do conceito de ontologias, introduz-se uma especificação formal do modelo de ontologia que será usada no decorrer da tese. Os elementos básicos de ontologia são:

Não sendo uma especificação universal, a formalização apresentada permite uma aceitação suficintemente alargada e com as características suficientes para o desenrolar do trabalho de investigação.

Uma vez definidos o contexto básico e os pressupostos do trabalho a desenvolver, inicia-se a investigação propriamente dita.

3. MAFRA - MApping FRAmework

A primeira contribuição desta tese é o MAFRA – MApping FRAmework. MAFRA é o resultado da análise e sistematização do processo de mapeamento de ontologias, não apenas sobre as suas duas fases principais (a definição e execução das relações semânticas), mas sobre uma perspectiva mais abrangente. Assim, foram identificados dois grupos distintos de tarefas ou componentes do processo:

  • Um conjunto de tarefas principais, (implícita ou explicitamente) comuns a qualquer cenário de mapeamento de ontologias, sem as quais o processo não faz sentido:
  • Um conjunto de tarefas complementares ao processo, nomeadamente relacionadas com a automatização das tarefas principais:

    Uma das ideias fundamentais subjacente ao MAFRA é a de que o conjunto de relações semânticas existente entre duas ontologias (documento de mapeamento) têm um ciclo de vida como um qualquer documento, sistema ou entidade, nomeadamente no que se refere ao processo iterativo de melhoria baseado nos resultados do próprio sistema. Nesse sentido, o comum ciclo de vida de um sistema é adaptado às fases específicas do processo de mapeamento de ontologias, em que:

    Assim, MAFRA é um modelo de organização do processo de mapeamento de ontologias, mas que devido à sua abrangência e generalidade é também um modelo de referência que permite e facilita a classificação de trabalhos distintos mas de domínios de investigação relacionados.

    Embora o MAFRA defina cinco fases principais como compondo o processo de mapeamento de ontologias, o resto do trabalho desenvolvido foca-se nas suas duas fases fundamentais: a definição e a execução de relações semânticas.

    4. Relacionamento semântico

    A investigação respeitante à definição de relações semânticas focou fundamentalmente dois assuntos:

    Do primeiro ponto o resultado mais relevante é a sistematização das várias dimensões das relações semânticas:

    Desta sistematização deduz-se que a única dimensão não universalmente caracterizada é a dimensão de transformação, o que significa que não é possível prever todas as necessidades de transformação. Assim sendo, as capacidades dum sistema de mapeamento de ontologias é dependente da capacidade de especificar, representar e posteriormente executar as transformações necessárias entre entidades ontológicas. É necessário portanto e além disso, que os mecanismos de especificação, representação e execução sejam dotados com capacidades de evolução e adaptação às diferentes necessidades de transformação impostas por diferentes cenários de mapeamento de ontologias.

    Entra-se assim na especificação e representação de relações semânticas. A Semantic Bridging Ontology (SBO) é o resultado mais visível da investigação desenvolvida nesta tese sobre este assunto e um dos mais relevantes de toda a tese. A SBO descreve (especifica) o domínio de conhecimento relacionado com as relações semânticas, fornecendo não só um mecanismo de raciocínio mas também, quando instanciada para um determinado cenário, um mecanismo de representação e partilha de relações semânticas. A SBO é uma ontologia simples e compacta, mas a sua estrutura baseada em serviços permite a extensão das capacidades de transformação conforme necessário e de uma forma conceptual, estando assim apta para aplicação em cenários de complexidade distintas, tal como estipulado anteriormente.

    Em particular a SBO adopta um modelo:

    No entanto, foram definidos ainda outros mecanismos:

    Enquanto alguma da heterogeneidade semântica entre ontologias é ultrapassada através da manipulação sintáctica das instâncias das propriedades, e são portanto suportadas por serviços de transformação específicos, as relações estruturais são suportadas directamente pelos conceitos e interrelações da SBO.

    Para além das capacidades de modelação e raciocínio, porque restringe as relações entre entidades explicitamente e univocamente, a SBO serve como mecanismo de orientação no processo de definição de relações semânticas, o que será explorado posteriormente num processo semi-automático de definição de relações semânticas.

    5. Execução das relações semânticas

    As relações semânticas resultantes da fase anterior são, então, aplicadas na transformação das instâncias.

    O resultado mais importante da investigação relacionada com este assunto é o processo genérico de execução de relações semânticas que conformem com a SBO. O processo proposto distingue três fases:

    Adoptando uma abordagem por fases (interrogação-filtragem-transformação), o processo explora a noção de serviço de transformação, potenciando a inclusão e modificação das capacidades de transformação do sistema, sem necessidade de alterar outros componentes do sistema. Esta característica será posteriormente explorada aquando da especificação da arquitectura do sistema.

    Nesta fase foi ainda desenvolvido um processo que permite ultrapassar determinadas heterogeneidades semânticas impossíveis de ultrapassar com os mecanismos propostos até aqui. Em geral, tais heterogeneidades advém da adopção de granularidade mais fina por parte da ontologia de destino que a granularidade da ontologia de origem. Por exemplo, quando “endereço” na ontologia de origem é definido como um atributo e na ontologia de destino é definido como um conceito composto por vários atributos (ex. Rua, Código Postal, País). O processo desenvolvido baseia-se na especificação extensional de entidades da ontologia de origem e, tal como o seu nome indica, recorre à classificação das instâncias da base de conhecimento de origem segundo um conjunto de condições baseadas nos seus valores. O processo desenvolvido é baseado no conceito de modelação proposto pelo paradigma Description Logics. A adopção desta abordagem não obriga a usar skolem terms, como noutras abordagens, o que por sua vez motivaria a necessidade de ordenação das relações semânticas. Se assim fosse, a complexidade dos processos de definição e de execução das relações semânticas seria necessariamente maior.

    Por fim foi desenvolvida uma abordagem de verificação de condições das relações semânticas verificáveis apenas após a fase de transformação, pelo que o processo foi expandido para cinco fases (interrogação-filtragem-transformação-filtragem-instanciação). Como a cardinalidade das entidades da ontologia de destino é uma dimensão da relação semântica paradigmática para este problema, a análise e solução proposta focam esta dimensão em particular. Nesse sentido foram definidos três novos operadores de comparação de cardinalidade para complementar os anteriormente definidos para a verificação da cardinalidade da base de dados de origem (operadores de comparação), de forma a que não surjam ambiguidades quer na definição quer na execução das relações semânticas.

    6. Arquitectura do sistema baseada em serviços multi-dimensionais

    A arquitectura do sistema de mapeamento de ontologias proposto nesta tese é baseado na extrapolação da noção de serviço de transformação independente, sugerido na SBO e posteriormente adoptado na fase de execução. A extrapolação ocorre em três dimensões distintas:

    A arquitectura do sistema desenvolvida nesta fase, denominada Multi-dimensional Service-oriented Architecture, adopta e promove este novo conceito de serviço como entidade fundamental no processo de mapeamento. Nesta arquitectura os serviços adquirem, representam e fornecem competências até agora representadas e fornecidas por peritos/utilizadores. Devido à modularidade dos serviços, o know-how dos peritos é modelado em múltiplos módulos, evoluindo e adaptando-se às necessidades de novos cenários de mapeamento independentemente de outros serviços e de outros componentes do sistema, o que parece ser benéfico na resposta às características de distribuição e dinamismo intrínsecas à web semântica. Evolução, negociação e relacionamento semântico (semi-)automático são apontados como fases do processo de mapeamento que mais vantagens potencialmente retiram da arquitectura proposta. Com o intuito de analisar e testar os benefícios e potencialidades da arquitectura proposta, decidiu-se aplicá-la na semi-automatização do processo de relacionamento semântico.

    A investigação realizada no âmbito deste caso de teste está longe de se limitar à aplicação da arquitectura, tendo a investigação obtido resultados importantes na forma como o problema da automatização da definição das relações semânticas é analisado e abordado.

    De uma forma genérica o processo desenvolvido usa entidades independentes (matchers) para a avaliação de semelhanças entre entidades das duas ontologias (matches). Dependendo da decisão do perito/utilizador (ou outra entidade responsável e competente nessa matéria), um conjunto de matches poderá dar origem a uma relação semântica. Cada match caracteriza a semelhança entre duas entidades das ontologias de acordo com uma determinada dimensão (ex. semelhança de nomes) o que é claramente insuficiente para atingir resultados aceitáveis. Assim, em vez de utilizar apenas um tipo de match como normalmente acontece noutras abordagens, o processo desenvolvido durante esta tese sugere a adopção de múltiplos tipos de matchs (e portanto de matchers) e a combinação das suas avaliações numa única, de acordo com as condições específicas definidas para/por cada serviço. Assim, para além de se poder utilizar novas formas de avaliação de semelhanças (novos matchers), é possível fazer depender do serviço a decisão de ser associado a determinada relação semântica.

    Em mais detalhe o processo desenvolvido é composto por três fases:

    As condições auto-definidas pelo serviço podem evoluir ao longo do tempo e em função de muitos factores, incluindo processos de aprendizagem por observação do comportamento do perito.

    7. Desenvolvimento e experiências

    Se bem que a parte teórica, descrita até agora, tenha sido a que requereu mais esforço e dedicação temporal, a parte de implementação e experimentação foi também muito importante, tanto mais que decorreu em paralelo com a parte teórica durante a maior parte do tempo de implementação. Esta relação tão próxima entre implementação e investigação teórica é considerada neste trabalho benéfica para as duas componentes, em particular porque permitiu:

    Foi portanto desenvolvida uma aplicação informática denominada MAFRA Toolkit, e que constitui o mais relevante resultado desta fase. Se bem que a grande maioria das funcionalidades implementadas no MAFRA Toolkit sejam o resultado da investigação teórica descrita, determinadas funcionalidades foram implementadas segundo uma abordagem pragmática. Esta observação é especialmente verdadeira no que se refere ao desenvolvimento da interface gráfica. Esta, tal como o resto, é fortemente influenciada pela adopção do KAON Workbench como tecnologia para a manipulação de ontologias e bases de conhecimento. Apesar de muitas competências relevantes o KAON Workbench não tem suporte para linguagens de interrogação, mas, porque mesmo as linguagens de interrogação não solucionariam o problema de interrogação encontrado, as capacidades de manipulação disponíveis acabaram por ser suficientes. Contudo, estas limitações acabaram por conduzir a um processo de implementação bastante moroso.

    No entanto o MAFRA Toolkit e as ideias preconizadas nesta tese estão agora estáveis e funcionais, tendo sido extensivamente e com sucesso aplicados em projectos terceiros, o que permitiu inferir com algumas evidências sobre a viabilidade e relevância da investigação realizada.

    8. Resultados atingidos

    Embora conclusões formais não possam ser retiradas devido principalmente à incapacidade de formular o problema completamente (a dimensão de transformação não pode ser completamente definida), é possível, através da comparação dos requisitos estipulados no início da tese bem como de indicadores usados pela comunidade científica, inferir que a qualidade da investigação e dos resultados atingidos é satisfatória.

    Em particular para os requisitos enunciados no final da análise das motivações, a investigação realizada forneceu o seguinte suporte:

    1. Identificação, especificação e representação de relações sintácticas, estruturais e semânticas entre ontologias. Este requisito é extensivamente suportado pela investigação realizada:
    2. Transformação da informação transmitida entre intervenientes na comunicação, de acordo com as relações anteriores. Este requisito é referido em duas fases da investigação:
    3. Negociação das relações anteriores é suportada pelo módulo de Negociação do MAFRA. Apesar de esta ser referida como uma tarefa que poderá beneficiar com a adopção da arquitectura baseada em serviços multi-dimensionais, nenhuma investigação sistemática foi realizada sobre este tópico;
    4. Manutenção das relações anteriores é suportada pela tarefa complementar do MAFRA denominada Evolução, sendo que, tal como para a negociação, nenhuma investigação sistemática foi realizada sobre este assunto;
    5. Integração (mas minimização) da participação do ser humano no processo de mapeamento de ontologias, o que sugere a adopção dum sistema semi-automático de mapeamento de ontologias. Este requisito é parcialmente suportado através dos seguintes elementos:
    6. Adopção de tecnologia e soluções do contexto da web semântica. Este requisito é amplamente referido e considerado durante a tese, nomeadamente:
    7. A SBO é representada em RDFS e DAML+OIL, duas das mais importantes linguagens de representação de ontologias no contexto da web semântica;
    8. O conjunto de relações semânticas definidas entre duas ontologias é representado através de RDF, o modelo de representação de base de todas as linguagens de representação na web semântica;
    9. A arquitectura baseada em serviços multi-dimensionais, nomeadamente a noção de serviços independentes, dinâmicos e auto-descritivos é adequada às características da web semântica.

    É portanto perceptível que enquanto o nível de suporte fornecido é difícil de determinar, por outro lado todos os requisitos foram alvo de investigação e suporte, e a grande maioria é, pelo menos parcialmente, suportado pela aplicação desenvolvida.

    Adicionalmente, outros indicadores científicos servem para confirmar a opinião defendida de que um trabalho válido e útil foi desenvolvido:

    Assim, embora seja difícil concluir formalmente acerca da validade das ideias propostas, é possível concluir que os resultados atingidos são úteis e relevantes para a comunidade científica, e a breve prazo para soluções comerciais.

    TOC

    Last update: 2005-05-12