“REACTION – Tecnologia de Recuperação, Extracção e Agregação de Informação para Integração e Organização de Notícias”

REACTION – Retrieval, Extraction, and Aggregation Computing Technology for Integrating and Organizing News
REfª: UTA-Est/MAI/0006/2009
Área científica principal: Digital Media Avançada e Interactiva

[O CIMJ desenvolveu a Tarefa 7 do projeto - Redacção Computacional, com coordenação do investigador António Granado].

Palavras chave: Jornalismo Computacional; Prospecção da Web Social; Descoberta de Informação; Media Digital

 

Síntese:

A Web não pode ser encarada como apenas "mais um canal" onde se apresentam ou agregam notícias, seguindo o modelo da imprensa tradicional. Com o recurso às novas tecnologias, as notícias poderão dar lugar à verdadeira notícia, que nunca termina e que pode ser integrada num contexto mais abrangente de informação. O manancial de informação com que somos confrontados requer novas práticas de jornalismo que permitam monitorizar, interpretar e resumir notícias, e novos modelos para apresentar conteúdos dinâmicos, interactivos e integrados. A apresentação de notícias deve reflectir fundamentalmente esta realidade, permitindo a organização constante dos últimos acontecimentos, e a actualização da notícia ao longo do tempo, procurando integrá-la num contexto mais abrangente de informação.

A nossa visão, articulada acima, está na vanguarda dos recentes trabalhos em "jornalismo computacional" (CJ), anteriormente designado como "jornalismo de bases de dados". Embora a ideia de os jornalistas usarem computadores como ferramentas de descoberta de informação remonte a várias décadas atrás, nunca antes se considerou a computação como sendo uma parte nuclear da prática jornalística. Hoje em dia, a excelência jornalística requer tecnologias avançadas de mineração de dados e pesquisa, juntamente com novos serviços Web integrados por “mashups”. Sites como o everyblock.com ou o Google “Living Stories” reflectem apenas passos iniciais de encontro a este novo conceito de CJ. Queremos levar esta área para o próximo patamar.

Alguns dos desafios que se colocam nesta área prendem-se com:

A) Análise automática de conteúdos, incluindo notícias, blogs, micro-blogues, comentários: reconhecer e correlacionar entidades mencionadas (por exemplo, figuras públicas); seguir essas entidades e eventos que as envolvam; avaliar a qualidade (p.e., legibilidade); detectar e classificar opiniões; detectar casos e padrões de re-utilização e fluxo de informação (p.e., através de "memes" ou blocos de texto similar).

B) Análise automática de redes sociais explícitas e implícitas: inferir redes sociais implícitas baseadas em padrões de fluxo de informação que envolvem os produtores dos conteúdos e os consumidores; descobrir comunidades; inferir autoridade e credibilidade das fontes; encontrar peritos; identificar membros influentes da comunidade.

C) Desenho de interfaces ricas em termos da visualização e interacção, para a apresentação de notícias dinâmicas e personalizadas e para a aprendizagem de relações implícitas entre notícias e comunidades de leitores.

D) Caso de estudo num ambiente de produção para avaliação das metodologias de CJ, fazendo uma análise crítica do impacto prático na qualidade, eficiência e economia (custo e receitas) do processo de redacção.

Esta proposta integra quatro unidades de investigação/universidades e duas empresas na área dos media. A nossa experiência conjunta inclui: técnicas de processamento de linguagem natural para a análise estatística e interpretação de texto formal e informal, recuperação de informação e mineração de dados, análise de redes sociais para inferir autoridade e influência, “hypermedia” adaptativo, jornalismo e agregação de conteúdos online. Os nossos parceiros industriais são dois líderes do mercado nacional nas publicações online: um como produtor de notícias e os outro como agregador de conteúdos.

O projecto inclui sete tarefas de investigação complementares que em conjunto respondem às quatro áreas problemáticas identificadas acima, que designámos como: (1) Recursos para Mineração, (2) Detecção de Entidades e Eventos, (3) Prospecção de Comunidades na Web, (4), Detecção de Fluxos de Informação (5), Interacção e Personalização, (6) Visualização e Pesquisa, e (7) Redacção Computacional.