Produção automática de texto jornalístico com IA: contributo para uma história

AI automated writing for journalism: contributions to a history

https://doi.org/10.56418/txt.17.1.2023.2

João Canavilhas
https://orcid.org/0000-0002-2394-5264
[jc@ubi.pt]
Universidade da Beira Interior (Portugal)

Recibido: 16-03-2023
Aceptado: 08-05-2023

Esta obra se publica bajo la siguiente licencia Creative Commons:
Atribución-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)
Imagen de la Licencia Creative Commons CC BY-NC-SA 4.0

Resumo

Nos últimos anos, a produção científica sobre a utilização da Inteligência Artificial no jornalismo tem aumentado substancialmente. A geração automática de texto é uma das temáticas mais habituais neste campo, mas continuam a verificar-se divergências em relação aos media pioneiros nesta aplicação do Processamento de Linguagem Natural (PLN)1, e muitas das referências identificadas pecam pela falta de datas ou de fontes que permitam certificar a informação. Para além disso, os trabalhos anteriores sobre a história da produção automática de texto jornalístico só identificam casos até 2018, ano após o qual aumentou o número de media que usam a automatização de texto. Este trabalho surge com o objetivo de contribuir para uma história da produção automática de texto jornalístico, procurando identificar as suas primeiras utilizações em vários pontos do globo.

Palabras clave: Inteligência Artificial, Texto Automático, Jornalismo, Processamento de Linguagem Natural

Abstract

In recent years, the scientific production on the use of Artificial Intelligence in journalism has increased substantially. The automated production of text is one of the most common themes in this field, but there is still divergence regarding the pioneering media in this application of Natural Language Generation (NLG), and many of the references identified in the texts are not associated with a date or, often, a source. Finally, previous papers on the history of journalistic automated text production only identify cases up to 2018, a period that coincides with a growth in the number of media that have started to use automated text. This paper aims to contribute to a history of the automatic production of journalistic text, seeking to identify its first uses in various parts of the globe.

Keywords: Artificial Intelligence, Automated Text, Journalism, Natural Language Generation

Sumario: 1. Introdução. 2. Metodologia 3. Produção automática de texto jornalístico: breve história. 3.1. 2007-2013: um admirável mundo novo. 3.2. 2014-2018: diversificação temática. 3.3. 2019-2022: Consolidação. 4.Considerações finais. 5. Referências.

1. Introdução

A crise económica global e as rápidas mudanças tecnológicas afetaram duramente o negócio dos media. As dificuldades financeiras conduziram a despedimentos (Graefe, 2016) e esta redução dos recursos humanos nas redações levou a um decréscimo da quantidade e da qualidade da informação jornalística.

Sem recursos financeiros para contratações, e sentindo a pressão de uma crescente procura informativa, os media procuraram uma solução tecnológica com potencial para resolver o problema, e é nesse contexto que surge a automatização como forma de responder aos novos desafios colocados aos media (de Lima-Santos & Ceron, 2022).

Numa primeira fase, as máquinas limitavam-se a executar tarefas rotineiras sempre de forma idêntica, mesmo nas situações em que os dados fornecidos ao sistema sofriam alguma variação. Por isso falava-se apenas em “automatização”, uma evolução interessante, mas que ficava aquém do que os media precisavam. A Inteligência Artificial veio responder às expectativas (Newman, 2020) por se aplicar nas várias fases do processo noticioso, entre as quais a produção automática de textos (Lokot e Diakopoulos 2016; Ufarte Ruiz e Manfredi Sánchez, 2019), tema deste trabalho.

As discussões sobre o uso de computadores para o desempenho de atividades humanas começaram nos anos 40 do século passado e tiveram um ponto alto em 1950, com a publicação do clássico Computing Machinery and Intelligence”, de Alan Thuring. Mas só em 1956 o termo Inteligência Artificial viria a ser cunhado por John McCarthy, tendo sido definido como a ciência de fazer máquinas inteligentes.

No caso específico do jornalismo, Broussard et al. (2019) definem a Inteligência Artificial como uma tecnologia capaz de processar grandes quantidade de dados estruturados, de aprender padrões e de imitar o raciocínio humano em vários processos, entre os quais a escrita automatizada. Esta definição permite compreender a razão pela qual as primeiras experiências com o texto automático ocorreram nos campos do desporto e da economia, pois são áreas onde existe grande quantidade de dados habitualmente divulgados de acordo com determinados padrões informativos.

Se até ao início dos anos 2000 alguns eventos destas áreas não eram noticiados por falta de espaço (imprensa) ou de tempo (rádio e TV), com o jornalismo na Web tudo se alterou e as dificuldades espaciais e temporais deixaram de ser uma condicionante. Em simultâneo, o público tornou-se mais exigente procurando informação com maior avidez, porém a fragilidade económica das empresas de media reduziu a sua capacidade de responder à crescente procura informativa.

É neste cenário que a IA generativa surge como alternativa à contratação de mais recursos humanos para aumentar o ritmo da produção, e, por isso, o número de jornais que usam a PLN na produção automática de textos tem vindo a aumentar todos os anos.

Mas nem tudo são vantagens: embora as empresas produtoras de algoritmos o neguem, a possibilidade de estas tecnologias substituírem os jornalistas (Wölker & Powell, 2021) e levarem a mais despedimentos nas redações (Beckett, 2019) é um dos riscos apontados a esta aplicação específica da IA ao jornalismo. Os jornalistas mostram alguma apreensão, mas para já destacam a sua preocupação com as consequências da produção automática na própria natureza da atividade, sentindo que ela poderá ser fortemente afetada (Noaim-Sánchez, 2022).

Por outro lado, este tipo de produção robótica coloca vários problemas no campo da ética, nomeadamente no que concerne à atribuição de responsabilidades relacionadas com a autoria dos textos (Tsamados et al, 2020), uma vez que resultam muitas vezes do trabalho conjunto entre os programadores informáticos que os desenvolveram e os jornalistas. Outro problema ético está relacionado com possibilidade de enviesamento da informação (Ventura-Pocino, 2022) porque a recolha e produção automática de informação pode privilegiar certas fontes em detrimento de outras, apresentando versões parciais dos acontecimentos. Por fim, devem ainda ser referidas as questões relacionadas com a privacidade associadas ao uso da IA, uma vez que ela se alimenta de dados obtidos de formas parcialmente desconhecidas.

2. Metodologia

Um dos problemas identificados por esta investigação foi a ausência de informações específicas sobre alguns exemplos de produção automática elencados em trabalhos anteriores. Nalguns casos existe apenas uma referência, sem que os autores tenham disponibilizado hiperligações ou imagens para os media em questão. Por isso, este trabalho baseia-se nas investigações desenvolvidas anteriormente, mas agrega informação que complemente e reforce os dados precedentes, atualizando ainda a cronologia com casos posteriores aos estudos já publicados.

Para isso fez-se um estudo descritivo usando as duas fases do método histórico: a análise e a síntese. Na fase de análise foram compiladas e validadas as fontes de informação, comparando os resultados obtidos em várias fontes e interpretando a informação recolhida. Efetuou-se uma pesquisa em livros, artigos, bases de dados e motores de busca, usando as palavras-chave “robot”, “automatização”, “algoritmo”, “texto automático” e “inteligência artificial”, em português, castelhano, inglês e francês. Foi ainda usada uma técnica de identificação de amostra ao estilo “bola de neve”, técnica que pode ser descrita como uma cadeia de referências ligadas entre si. Desta forma foram encontradas diferentes perspetivas sobre as mesmas referências, tendo sido possível identificar documentos que permitiram a construção de uma rede de referências para a validação de cada caso. Para confirmar algumas informações contraditórias foram ainda contactadas empresas produtoras de software com o objetivo de se validarem datas ou solicitarem informações adicionais. Estas informações foram assinaladas como “comunicação pessoal” em nota de rodapé, identificando-se o nome de quem respondeu e o seu cargo na empresa.

Por fim, os resultados foram organizados cronologicamente numa síntese que procura agrupar as primeiras utilizações da produção automática de texto por proximidade geográfica ou temática.

3. Produção automática de texto: breve história

As experiências iniciais com a produção de texto automático coincidem com crise do subprime nos Estados Unidos da América. A concessão de crédito de alto risco e as falhas no controlo do sistema financeiro norte-americano levaram centenas de bancos e fundos imobiliários estatais à falência, desencadeando uma crise que acabou por se alastrar a todo o mundo, prolongando-se durante anos.

Esta crise repercutiu-se em todos os setores e, evidentemente, também no jornalismo. Numa fase em que a atividade ainda procurava adaptar-se a um novo ecossistema mediático marcado pela emergência de novos concorrentes e de inovações tecnológicas, a redução de publicidade causada pela crise na economia global veio aprofundar ainda mais a difícil situação económica que os jornais já atravessavam.

Milhares de publicações em todo o mundo foram forçados ao encerramento, e a maioria dos que se mantiveram em atividade foram obrigados a reduzir custos, situação que conduziu a despedimentos. Forçados a manter o ritmo informativo, os jornais procuraram uma solução nas tecnologias, e é neste contexto que a Inteligência Artificial surge como uma alternativa capaz de substituir os jornalistas em algumas tarefas rotineiras.

No caso concreto deste trabalho interessa a produção automática de texto, uma das possibilidades de usar a Inteligência Artificial no jornalismo. Recorrendo ao processamento de linguagem natural (PNL), os dados estruturados são transformados automaticamente em notícias (Carlson, 2015; Lokot & Diakopoulos, 2016), sobretudo nas temáticas em que os dados abundam.

Este processo tem sido descrito por vários autores como automated content (Levy, 2012), automated journalism (Graefe, 2016), robot journalism (2018) ou algorithmic journalism (Kotenidis & Veglis, 2021), entre outras denominações. Apesar destas diferenças, todos os autores se referem à produção de conteúdos jornalísticos com pouca ou nenhuma intervenção humana no ato da transformação dos dados em narrativas. A participação de humanos ocorre na fase em que os programadores desenvolvem os algoritmos e pode também acontecer na revisão final dos textos, o que nem sempre acontece. Por isso diz-se que não há intervenção humana em referência à fase específica da redação.

Apesar de já existir uma interessante produção científica na área, sobretudo pelo interesse que o assunto despertou nos últimos anos, falta ainda fazer uma cronologia do fenómeno. Alguns autores (Dörr, 2016; Graefe, 2016; Carreira, 2017; Fanta, 2017) têm compilado dados, mas muitas vezes o foco é colocado nas empresas que desenvolvem os algoritmos e não na sua aplicação aos media. Para além disso, algumas vezes faltam datas e informações que permitam distinguir as fases de teste do período em que a produção é tornada pública, pelo que o trabalho começa por identificar alguns ensaios iniciais de produção automática sem aplicação periódica nos media, ou sem segunda confirmação, mas coloca-os fora da cronologia.

Assim, os primeiros registos foram identificados por Dörr (2016) e referem-se aos testes realizados a partir de 2007 pela empresa norte-americana Automated Insights (atual Wordsmith). Nesta fase inicial, a empresa usava dados dos relatórios de contas para produzir pequenas notícias destinadas à Associated Press e dados desportivos para o Sports Fantasy Football, da Yahoo.

Dois anos depois, em 2009, um projeto chamado Machine Generated Sports Stories (Gordon, 2009), que nasceu da cooperação entre a Medill School of Journalism e o Intelligent Information Lab, da McCormick School of Engineering (Northwestern University, EUA), desenvolveu o StatsMonkey, um algoritmo que produzia pequenas notícias sobre beisebol escolar usando informações disponíveis na Web. Ainda no mesmo ano de 2009, a empresa alemã Aexea começou a desenvolver o algoritmo AX Semantics para o Sports Information System (SID). Este robot produzia pequenos relatórios sobre questões económicas, desportivas e meteorológicas (Dörr, 2016).

As primeiras experiências permitiram vislumbrar o enorme potencial do texto automático para um setor que continuava em crise, possibilitando a manutenção de um fluxo noticioso constante sem que isso representasse um aumento de custos com recursos humanos.

3.1. 2010-2013: um admirável mundo novo

As experiências iniciais de automatização de texto jornalístico decorreram sobretudo nos Estados Unidos da América e restringiam-se a um pequeno grupo de media.

2010

Neste ano, os envolvidos no desenvolvimento do algoritmo StatsMonkey fundam a Narrative Science, (EUA) que é hoje uma das referências na área. A empresa começou a usar o seu robot na automatização de notícias destinadas à The Big Ten Network, uma parceria entre a Fox Networks e a Big Ten Conference (Bunz, 2010; Lohr, 2011). Depois de uma fase a cobrir desporto universitário, o programa informático foi aperfeiçoado e deu origem ao Quill, um algoritmo que a empresa tem continuado a desenvolver para outras aplicações (Latar, 2018).

2011

Este é o ano em que o Los Angeles Times começa a alimentar o seu blogue Homicide Report, com notícias semiautomáticas sobre os crimes ocorridos na região de Los Angeles. O algoritmo recolhia os dados nas esquadras de polícia e produzia notícias e mapas com os crimes (Young & Hermida, 2015; D'Andrea & Dalben, 2017).

Ainda neste ano de 2011, mais precisamente em outubro, a Forbes passou a disponibilizar notícias automáticas, sobre os resultados das empresas, usando para isso o algoritmo Quill, da Narrative Science, alimentado pela informação provinda dos relatórios de contas e outras informações disponíveis na Internet (Dörr, 2016). Em apenas meio mês foram produzidas 338 notícias divididas em seis partes: O que esperar, Classificações de Analistas, Tendências a ter em conta, Dividendos, Concorrentes, e Movimento Recente de Preços (Narrative, Science, 2011).

2012

Neste ano não foi identificado nenhum media que tenha começado a publicar textos produzidos por algoritmos.

2013

No ano de 2013, o media independente Propublica, nos EUA, passou a usar o robot Quill, da Narrative Science, para publicar automaticamente textos que descreviam 52 mil escolas secundárias norte-americanas (Klein, 2013). O site permitia ainda fazer comparações entre as escolas.

Também neste ano, a Rádio Hamburg, na Alemanha, começou a usar o RTR text engine, da empresa alemã Retresco, um algoritmo que passou a produzir notícias de desporto (Dörr, 2016; Carreira, 2017). Este robot foi igualmente usado por outros media alemães de menor dimensão.

3.2. 2014-2017: diversificação temática

Após um período em que a implementação de algoritmos na produção automática de textos aconteceu de forma discreta, a partir de 2014 o número de casos aumentou de forma substancial, com exemplos um pouco por todo o mundo.

2014

Depois de vários anos em experiências, a Associated Press (AP) passou a oferecer publicamente conteúdos automáticos sobre assuntos económicos, nomeadamente relatórios de empresas e, logo a seguir, iniciou igualmente a produção de notícias de desporto (AP, s/d; Graefe, 2016). Em ambos os casos, a AP recorreu ao robot Wordsmith, da empresa americana Automated Insight.

Aconteceu o mesmo com o Los Angeles Times, que depois do sucesso com a produção de notícias no campo do crime publicadas no Homicide Report, em 2014 passou a usar o Quakebot, um algoritmo que produzia informações noticiosa sobre tremores de terra (Oremus, 2014; D'Andrea & Dalben, 2017). A programa analisava a informação produzida pela U.S. Geological Survey e sempre que os tremores de terra atingiam um determinado grau, o sistema gerava automaticamente um “rascunho de artigo”. Este rascunho era depois analisado por um jornalista, que o completamentava com mais informação, caso fosse necessário.

Ainda em 2014, a empresa alemã TextOn desenvolveu um algoritmo com o mesmo nome destinado a produzir notícias de Economia para os jornais Berliner MorgenPost e Finanzen100.de (Dörr, 2016).

2015

Neste ano, a produção automática de texto jornalístico chegou ao jornal francês Le Monde pela mão da empresa Syllabs, também ela francesa. Nas eleições regionais de 2015, o algoritmo Data2content produziu centenas de notícias com resultados eleitorais (D'Andrea & Dalben, 2017; Syllabs, 2021). A mesma empresa forneceu ainda esta solução informática aos jornais L´Éxpress e Le Parisien, bem como à Rádio France, permitindo a cobertura automática em tempo real em todos os municípios do país.

Neste mesmo ano houve três outras experiências. Na Alemanha, a Textomatic desenvolveu um algoritmo com o mesmo nome destinado ao jornal alemão Handelsblatt. Para além dos já conhecidos conteúdos sobre desporto, economia e meteorologia, este algoritmo produzia igualmente notícias sobre viagens (Dörr, 2016).

Do outro lado do planeta, o portal chinês QQ.com publicou os seus primeiros conteúdos automáticos sobre economia, usando para essa finalidade um algoritmo desenvolvido pela tecnológica Tecent, dona do portal onde foi publicado o artigo em questão (Huifeng, 2015; Latar, 2018).

No mesmo país, a agência de notícias, no dia 18 de novembro a Xinhua News Agency lançou um robot chamado Kuai Bi Xiao Xin para produzir automaticamente conteúdos textuais (Dai, 2019; Tuulonen, 2019).

Ainda em 2015, o grupo de media locais sueco Mittmedia constatou não ter recursos humanos para fazer a cobertura de todos os desportos que gostariam de noticiar, e que a Everysport, a maior base de dados desportivos do país, recolhia todos os dados sobre esses mesmos desportos. Henning Johannesson, que na ocasião a trabalhava para o grupo de media, desenvolveu um algoritmo denominado Sigge que os dados da Everysport em notícias para a jornais da Mittmedia. O primeiro texto foi publicado no jornal Bandypuls.se e falava de um jogo de bandy, o antecessor do hóquei no gelo2. O sucesso da iniciativa levou à criação de uma empresa autónoma exclusivamente dedicada à produção automática de conteúdos, a United Robots (UR), que atualmente é uma das mais fortes da área e usa uma plataforma de produção de conteúdos denominada Rosalinda. Foi já com esta empresa que o jornal alargou a produção de conteúdos automáticos ao imobiliário (2017), empresas locais (2018) e trânsito (2019).

2016

O americano Washington Post, propriedade da Amazon, lançou, em 2016, o Heliograph, um algoritmo desenvolvido nos seus laboratórios e que tinha como finalidade produzir pequenas notícias e alertas sobre os Jogos Olímpicos do Rio de Janeiro. Depois disso, o algoritmo foi adaptado para outro tipo de conteúdos, tendo sido usado para cobrir as eleições presidenciais norte-americanas. No primeiro ano de atividade, este robot produziu 850 artigos, 500 dos quais exclusivamente dedicados às eleições. Para ilustrar o que se alterou com o recurso à IA basta dizer que nas eleições anteriores, em 2012, o Washington Post, tinha publicado apenas o equivalente a 15% das notícias sobre o ato eleitoral (Moses, 2017).

Quem também aproveitou os Jogos Olímpicos do Rio para lançar o seu robot foi o media online chinês Toutiao, propriedade da ByteDance. Chamado Xiaoming, este a algoritmo produziu 450 notícias que tinham entre 500 e 1000 palavras (Duan et al, 2020).

Neste mesmo ano, a agência de notícias norueguesa NTB, iniciou a produção automática de notícias sobre futebol. Cerca de 30 segundos após o final do jogo, os clientes da NTB recebiam uma notícia com seis a oito parágrafos, baseando-se em dados fornecidos por colaboradores e por uma base de dados com informação e contexto (Albeanu, 2016; Fanta, 2017).

Também a Ritzau, uma agência de notícias independente dinamarquesa, colocou neste ano em funcionamento um robot chamado Autoflash para produzir notícias sobre o desempenho das empresas (Jackson, 2016; Fanta, 2017).

Ainda na Europa, a revista Focus alemã recorreu à também alemã TextoMatic para começar a publicar notícias automáticas sobre meteorologia em todas as regiões da Alemanha (PT-Magazin, 2018).

Este ano de 2016 é igualmente importante na Coreia do Sul, onde quatro empresas começaram a produzir texto automático, mas cada uma usou um robot desenvolvido internamente. Finantial News (IamFNbot), The Herald Business (HeRo), eToday (Esbot) e Electronic Times (@News) iniciaram a produção automática de texto sobre empresas e resultados da bolsa (Kim & Kim, 2020).

Ainda em 2016, no último mês do ano, o operador público de televisão YLE, lançou um robot chamado Voitto para produzir texto automático sobre o campeonato local de hóquei no gelo (Hakkarainen, 2016). O robot foi programado com templates que eram preenchidos com os resultados dos jogos: após um ano de testes, foi aperfeiçoado e, no ano seguinte, disponibilizado pela YLE de forma aberta sob licença do MIT. Nesta nova fase, a empresa destacava os pontos fortes deste algoritmo - velocidade, alcance e precisão - salientando ainda a sua capacidade de aprendizagem com os erros. No ano seguinte, o Voitto foi também usado na cobertura das eleições municipais, produzido notícias sobre todos os municípios da Finlândia (Blencowe, 2017).

2017

Logo no início do ano, o jornal chinês Southern Metropolis Daily publicou o primeiro artigo produzido pelo seu robot Xiao Nan. Este artigo, com 300 carateres, tinha como tema o Festival de Primavera, momento em que os chineses viajam para as suas regiões de origem para celebrarem o novo ano com as famílias (Martin, 2017).

Na Finlândia, o consórcio Immersive Automation project, que reuniu informáticos, linguistas, jornalistas e várias empresas de media, aproveitou as eleições locais para lançar o Valteri. Este algoritmo usava os dados fornecidos pelo Ministério da Justiça finlandesa e apresentava uma característica interessante: decidia autonomamente quando publicar as notícias produzidas em três línguas: finlandês, sueco e inglês (Linden & Tuulonen,2019).

Na Suécia, o jornal Aftonbladet, pertencente ao grupo Schibsted News Media, começou a publicar notícias automáticas com um algoritmo da United Robots. Inicialmente, o algoritmo escrevia sobre desporto, mas em 2019 foi adaptado para outros temas, como trânsito e imobiliário3. E no ano seguinte, o Aftonbladet aproveitou o interesse dos utilizadores por informação relacionada com a pandemia de COVID-19 para produzir automaticamente conteúdos destinados a alimentar o espaço informativo CoronaWatchDesk (Kunova, 2020).

Ainda em 2017, em Inglaterra, nasceu o RADAR (Reporters and Data and Robots), um projeto resultante da parceria entre a Urbs Media e a Press Association, que foi financiado pelo Google News Initiative. Com um algoritmo desenvolvido pela empresa inglesa Arria, o RADAR produzia e distribuía automaticamente conteúdos locais sobre crime, educação, saúde e transportes (Granger, 2018). Este algoritmo usava bases de dados abertas para o preenchimento dos templates preparados pelos seis jornalistas contratados para o projeto, sendo produzidas cerca de 300/400 versões do mesmo tema usando dados locais (Linden & Tuulonen, 2019).

Do outro lado do Atlântico, no Brasil, a produção automática de texto deu os primeiros passos, no portal UOL graças a um algoritmo desenvolvido internamente.

Por fim, a agência de notícias coreana Yonhap começou neste ano de 2017 a produzir automaticamente notícias de jogos da Premier League inglesa. O robot foi desenvolvido internamente e os testes começaram ainda em 2016, com 380 artigos que serviram para melhorar o algoritmo e os templates desenvolvidos pelos jornalistas. Finalmente, em 2017 o serviço produziu o primeiro artigo público do jogo Arsenal vs Leicester City, um dos 380 previstos para essa época. A agência usou igualmente o robot para cobrir alguns desportos nos Jogos Olímpicos de inverno que se disputaram na Coreia (Colin, 2017; Fanta 2017).

3.3. 2018-2022: Consolidação

O sucesso do uso da IA levou a uma maior procura deste tipo de ferramentas: se em 2017 apenas 20% das empresas tinha adotado pelo menos uma solução de IA, no ano seguinte esse número mais do que duplicou, atingindo as 47% (Chui & Malhotra, 2018). Naturalmente, esta tendência verificou-se também no setor da informação, e embora tenha ocorrido a um ritmo mais lento (Sánchez-García, et al, 2023), abriu uma nova fase do jornalismo automático.

2018

Neste ano, o jornal alemão Stuttgarter Zeitung iniciou a produção automática com o algoritmo AX semantics, da Aexea. O jornal distribuiu sensores aos leitores, e os dados recolhidos em suas casas, conjuntamente com os dados oficiais, permitiram produzir conteúdos automáticos sobre a qualidade do ar na região de Estugarda (Pavlec, 2017; Weissgraeber, 2020).

Em França, a Agence Press passou igualmente a usar a produção automática de textos relacionados com futebol, tendo recorrido à empresa francesa Syllabs para o desenvolvimento do algoritmo4.

Espanha entrou igualmente no grupo de países que usavam oficialmente a tecnologia graças ao lançamento do robot AnaFut. Desenvolvido em 2017 pelo laboratório de inovação do jornal nativo digital El Confidencial, este algoritmo começou a publicar notícias desportivas no início de 2018 (Rojas-Torrijos & Toural-Bran 2019).

Neste ano, os meios do grupo suíço Tamedia, o maior do país, passaram a publicar textos automáticos. Com recurso à plataforma Wordsmith, a norte-americana Automated Insights desenvolveu o robot Tobi para produzir notícias sobre os resultados das eleições regionais de 2018. A cobertura noticiosa, que até aí se restringia a 10% das cidades (20% da população), passou para uma cobertura total e em duas línguas - alemão e francês – tendo produzido 40 mil artigos (Matthews, 2019).

Ainda em 2018, a agência de notícias austríaca APA lançou o robot Ego, desenvolvido internamente no seu laboratório de inovação para produzir textos sobre futebol nos campeonatos secundários. O algoritmo foi preparado para usar dados estruturados dos jogos, nomeadamente o número de espetadores, o histórico das equipas e as classificações, produzindo ainda alguns gráficos de contexto (DerStander, 2018; Fanta, 2017).

Neste ano, a Reuters começou também a produzir automaticamente texto com o seu algoritmo Lynx Insight. Para além de escrever parágrafos, este robot analisava dados e sugeria histórias (Kobie, 2018).

O ano de 2018 encerrou com uma revista francesa, Autoplus, a iniciar a produção de texto automático relacionado com a descrição de automóveis, usando para isso um algoritmo da Syllabs5.

2019

Logo no início do ano, o The Guardian (Austrália) começou a publicar textos produzidos por um robot chamado Reportmate. Com o apoio da Walkley Foundation, o jornal desenvolveu internamente esta solução baseada no projeto DisclosureBot, de Nick Evershed, editor de dados e interatividade do jornal australiano (Evershed, 2019; Schapals & Porlezza, 2020).

Na Bélgica, o L'Echo começou a publicar notícias da bolsa recorrendo ao Quotebot, um algoritmo desenvolvido pela francesa Syllabs. Usando dados fornecidos por uma empresa especialista, a VWD, o jornal passou a publicar periodicamente textos no Market Live Blog, após uma revisão feita por jornalistas (Becquet, 2019).

Também o jornal regional francês Ouest-France recorreu à Syllabs para produzir texto automático sobre o campeonato Mundial de Futebol realizado na Rússia, e optou pela produção automática com uma solução fornecida pela Syllabs. O sucesso levou o jornal a alargar a automatização para temas como a meteorologia (29 boletins regionais) a agenda cultural (Syllabs, s/d).

Outro jornal regional francês a entrar na era do texto automático foi o Nice Matin, que recorreu igualmente à Syllabs para disponibilizar informação meteorológica, tendo acrescentado no ano seguinte informação sobre tremores de terra.

Ainda no mesmo país, o site de informação de proximidade Actu-fr, do grupo de media regionais Publihebdo, recorreu à Syllabs6 para produzir texto automático sobre as eleições europeias de 2019, aproveitando para fazer a divulgação específica dos resultados de todos os municípios nas várias janelas regionais do site.

Foi também em 2019 que a BBC lançou o seu Salco – Semi-Automated Local Content - um projeto que tinha começado a desenvolver no ano anterior. Num contexto de limitação de recursos, a BBC recorreu ao seu News Labs para desenvolver um algoritmo destinado à produção automática de texto (Hutton, 2019) e começou por usar as estatísticas do sistema nacional de saúde (NHS). Recolhidos os dados, o algoritmo produzia uma notícia e gerava um gráfico que seguia para aprovação de um jornalista antes da publicação. Este sistema foi adaptado para permitir a cobertura global nas eleições em todos os círculos eleitorais (Green, 2019). Para isso, a BBC recorreu ao apoio da empresa inglesa Arria e fez a cobertura dos 650 círculos eleitorais, tendo produzido 689 notícias locais, num total de 100 mil palavras em 10 horas (Arria, 2019).

No ano de 2019, Portugal entra na era da produção automática de texto com a agência de notícias portuguesa, Lusa a iniciar a disponibilização de textos produzidos por um algoritmo. Especializado no mercado bolsista, o algoritmo começou a produzir notícias sobre a abertura e o encerramento da Bolsa de Lisboa, disponibilizando textos que antes da publicação passavam ainda pela revisão dos jornalistas (Nunes, 2019). Um estudo anterior (Fanta, 2017) referia que a agência testou a produção automática em 2015, mas o projeto foi abandonado, tendo sido retomado em 2018, e iniciado a produção pública no dia 18 de novembro de 2019.

Outra agência de notícias que passou por um processo semelhante foi a finlandesa STT: após experiências com o já referido Voitto, a STT lançou o seu próprio robot, o Scoopmatic (STT, s/d).

2020

Neste ano, a estação pública Radio France decidiu fazer a cobertura das eleições municipais em todos os círculos eleitorais usando os dados fornecidos pelo Ministério do Interior e publicando as notícias em real-time. A francesa Syllabs desenvolveu um algoritmo que, para além de produzir e indexar textos ao Google, gerava ainda gráficos com os resultados. Foram produzidos 72 mil textos em quatro horas e o site registou um tráfego de 700 mil visitantes durante a noite eleitoral (Syllabs, s/d).

Neste ano, mais 12 jornais regionais franceses passaram a usar um algoritmo da Syllabs7 para disponibilizar texto automático sobre estas eleições municipais. Foram eles NRCO, L'Alsace, Le Bien public, Le Dauphiné libéré. Dernières Nouvelles d'Alsace, L'Est républicain, Le Journal de Saône-et-Loire, Le Progrès, Le Républicain lorrain, Vosges Matin, Presse Ocean e Sud-Ouest.

Neste mesmo ano, o grupo sueco de media locais Gota Media, proprietário de vários jornais no sul do país, recorreu à United Robots para automatizar a produção de texto sobre desporto, imobiliário, trânsito e criação/falência de empresas (United Robots, 2020b)

Também o jornal local norueguês Bergens Tidende iniciou, em 2020, a produção automática relacionada com a oferta imobiliária na região. A United Robots desenvolveu um algoritmo (Boligrobot) que recolhia informação nos sites das imobiliárias juntando-lhe imagens aéreas retiradas do Google para complementar a informação escrita. Os utilizadores podiam fazer pesquisas por área, por tipologia, preço, etc, gerando ainda gráficos com as vendas da semana na cidade de Bergen, sede do jornal (Kunova, 2021). Os dados recolhidos permitiram ainda que os jornalistas escrevessem reportagens relacionadas com as vendas, registando-se um aumento de tráfego e de subscritores após a implementação desta valência. No ano seguinte, o jornal passou a oferecer igualmente relatórios financeiros sobre empresas locais8.

Ainda em 2020, o operador público de Rádio e Televisão Espanhola (RTVE) em conjunto com a agência de notícias EFE, começou a produzir texto automático com recurso a um algoritmo da empresa espanhola Narrativa9. O tema foram jogos de futebol que habitualmente não eram noticiados (2ª Liga e femininos). No primeiro ano foram produzidas 80 mil notícias, incluindo textos de antecipação do jogo e o resumo do mais importante no final da partida. Depois desta experiência, o algoritmo foi desenvolvido para cobrir resultados eleitorais (Corral, 2021).

2021

Em 2021, o grupo mediático neerlandês de jornais regionais NDC recorreu à United Robots para cobrir os 60 mil jogos amadores que decorrem anualmente no país. Para além das informações sobre as incidências do jogo, a NDC implementou igualmente valências de crowdsourcing, permitindo aos treinadores, enviarem os seus comentários por SMS, informações sobre o jogo e fotos (Campbell, 2021). O objetivo da NDC passava por oferecer uma parte da informação gratuita e esperar que estes leitores se tornassem subscritores das publicações do grupo para acederem a conteúdos mais elaborados sobre a sua equipa favorita. Este serviço tem vindo a evoluir e, atualmente, a United Robots oferece um produto chamado Publishing Timeline que permite aos adeptos de um determinado clube receber informação antes e depois do jogo.

Ainda em 2021, o grupo sueco de media locais NWT Media, proprietário de 16 jornais em papel e online, iniciou a produção automática de conteúdos sobre desporto, imobiliário, trânsito, tempo e criação/falência de empresas, usando para isso um algoritmo da United Robots. O objetivo principal foi cobrir eventos aos quais não dedicavam atenção por falta de recursos humanos (United Robots, 2021c)

Ainda em 2021, o The Wall Street Journal (WSJ) começou a usar a IA para a produção automática de texto. É um início tardio considerando que a especificidade do jornal coincide justamente com uma das áreas onde a IA é mais usada: a economia. Para esse efeito, o jornal usou o robot Gabriele, da Narrativa, para produzir textos automáticos sobre os mais importantes mercados financeiros dos Estados Unidos e da Europa, complementando-os com a análise dos jornalistas (Narrativa, 2021).

Também neste ano, o diário colombiano El Espectador, o mais antigo do país, iniciou a produção automática de notícias de futebol. O algoritmo, desenvolvido pela sueca United Robots, escrevia notícias sobre o campeonato colombiano e sobre campeonatos de outros países, produzindo um texto de antecipação e outro texto sobre o jogo, juntando ainda fotos, gráficos e estatísticas. (United Robots, 2021a; Laboratório de Periodismo, 2021).

Ainda em 2021, o jornal desportivo guatemalteco Antocha Deportiva começou igualmente a produzir automaticamente notícias de futebol, usando um algoritmo da United Robots. O objetivo do jornal era publicar anualmente cerca de quatro mil notícias sobre todos os escalões do futebol do país, tanto masculino como feminino (United Robots, 2021b).

Foi também o futebol que levou o desportivo online ZeroZero a iniciar a produção automática de texto neste ano de 202110. O jornal, que em 2003 começou a construir a maior base de dados portuguesa relacionada com este desporto, passou a usar o Prosebot, um robot que resulta da cooperação entre a Faculdade de Engenharia da Universidade do Porto e a ZOS, a empresa proprietária do jornal. Este algoritmo usa um template com sete campos (antetítulo, título, lead, introdução, eventos, próximas partidas e curiosidades) que são preenchidos com os dados fornecidos pela empresa proprietária do jornal. Os textos podem ser revistos por jornalistas ou por uma comunidade de colaboradores acreditada pelo jornal.

Também em 2021, o online nativo Nyheter24.se, uma publicação dedicada ao público jovem distinguida em 2010 com o prémio do jornal sueco do ano, decidiu automatizar parte da sua produção. Tendo como tema o imobiliário, o algoritmo criado pela United Robots produzia histórias com as transações mais caras em diferentes regiões e em diferentes períodos, cruzando essa informação com a identidades dos compradores para encontrar eventuais temas de notícia (United Robots, 2021d).

Ainda em 2021, o site alemão News.de passou a usar um algoritmo na produção automática de notícias. O jornal contratou a também alemã AX Semantics para lhe desenvolver um robot que permitisse aumentar a produção de notícias sem sobrecarregar os seus jornalistas. Usando dados fornecidos pela Instituto Robert Koch, o algoritmo produziu mais de 25 atualizações noticiosas específicas destinadas a todas as regiões alemãs, conseguindo ganhar 800 mil novos leitores todos os meses (AX Semantics, 2021).

No mesmo país, o Der Spiegel passou a usar um algoritmo da Retresco (Engine.io) para fazer a cobertura das eleições federais de março desse ano nos estados de Baden-Württemberg e Rheinland-Pfalz. Nesse período foram produzidos 122 textos e gráficos, um por cada círculo eleitoral (Pauly, 2021; Retresco, 2021).

Também o jornal digital catalão Crónica Global passou a dispor de texto automático no ano de 2021. O robot Gabrielle, da Narrativa, foi adaptado para produzir automaticamente textos sobre meteorologia e sobre o desemprego nos vários municípios da Catalunha11.

Por fim, referência para a MAP – Maghreb Arab Press Agency, de Marrocos, que em 2021 recorreu à francesa Syllabs para automatizar a produção de texto relacionada com notícias de futebol, basquetebol e informação económica sobre bolsas de valores12.

2022

O levantamento efetuado neste trabalho encerra no ano 2022, com a chegada da produção automática a três novos países. O primeiro é o Canadá, onde o jornal Toronto Star iniciou a produção automática de notícias sobre crimes com um algoritmo desenvolvido internamente. Usando dados da polícia, o jornal passou a oferecer informação relativa aos seis distritos de Toronto. A produção foi alargada a outras áreas, havendo uma aplicação de grande sucesso chamada DineSafe onde são publicadas notícias sobre as inspeções feitas pelas autoridades sanitárias a restaurantes, bares e lojas (Tamez, 2022).

Mais a sul, no México, o jornal El Imparcial começou a usar o robot Gabrielle, da Narrativa, na produção de notícias sobre desporto, entretenimento, economia e criptomoeda (Narrativa, 2022).

Na Argentina, o Diário Huarpe passou a usar um algoritmo da United Robots na cobertura de jogos de futebol nacionais e estrangeiros, nomeadamente do Chile, de Espanha e de algumas competições intercontinentais. Os conteúdos incluem textos antes e depois de cada jogo, havendo a possibilidade de complementar as notícias com gráficos (United Robots, 2022).

Esta cronologia encerra com o Le Figaro, que entrou finalmente na era do texto automático ao passar a usar um algoritmo da Syllabs nas eleições presidenciais de 202213.

Registos não confirmados

Durante a investigação foram ainda encontradas outras referências, mas por falta de confirmação ou do ano em que a atividade começou, acabaram por não ser incluídos na cronologia. Falamos do inglês The Guardian, que terá desenvolvido um algoritmo próprio (Guarbot) em 2010, mas do qual não há mais informação disponível. Acontece o mesmo com o The New York Times, que em 2016, poderá ter testado uma solução interna para produzir notícias automáticas sobre desporto, mas sobre o qual não foi encontrada informação segura. Destaque ainda para a Bloomberg, que usa um robot denominado Cyborg na produção de relatórios de empresas, sendo que neste caso não foi possível identificar o ano em que iniciou atividade.

4. Considerações finais

Desde as experiências iniciais, o uso da Inteligência Artificial na produção automática de texto jornalístico tem passado por várias fases, no entanto há particularidades que não se alteraram.

A primeira é o discurso dos produtores de algoritmos, que apresentam a IA como uma ferramenta para complementar o trabalho dos jornalistas e libertá-los de tarefas rotineiras (Wölker & Powell, 2021). Esta singularidade estará relacionada com uma história recente marcada pela resistência dos profissionais às novas tecnologias introduzidas na profissão. Perante uma tecnologia capaz de produzir texto sem intervenção humana, é natural que surjam alguns receios dos jornalistas, por isso as empresas têm feito uma abordagem mais cuidadosa do que nos casos de tecnologias anteriores. A questão que se coloca é simples: poderá haver jornalismo sem jornalistas? Concordamos com Peña-Fernández et al, (2023) quando respondem negativamente a esta questão, pois o jornalismo não se resume a uma lógica de produção textual baseada em dados conhecidos. O jornalismo exige fontes que forneçam dados desconhecidos, requer a interpretação qualitativa desses dados usando o raciocínio e precisa de criatividade para que o produto final tenha o cunho próprio e diferenciado.

A segunda particularidade está relacionada com as temáticas. Percebe-se que a existência de dados seja essencial na utilização da IA, mas nem só a economia, o desporto, a meteorologia e os resultados eleitorais têm esses dados. Atualmente, toda a atividade humana gera dados que são compilados pelas mais diversas organizações, e, cada vez mais, as leis da transparência têm obrigado as entidades públicas a disponibilizarem dados sobre as suas atividades. Porém, ainda são raros os casos em que os algoritmos produzem texto sobre outro tipo de temáticas, e embora neste levantamento surjam algumas exceções temáticas, os textos produzidos afastam-se do modelo de notícia, sendo parecidos com relatórios ou listagens. A concentração da IA num restrito grupo de temas confirma que a grande arma da informação automática é a rapidez e a precisão, salientando assim o seu papel como ferramenta de apoio ao jornalismo e não como um elemento de produção autónomo.

Se algumas particularidades apontam para um jornalismo de repetição, outras deixam antever algumas aproximações ao jornalismo feito por humanos. É o caso dos algoritmos que integram declarações recebidas via SMS, situação que conjugada com outras potencialidades da IA, poderá vir a melhorar o produto final num futuro próximo. Porém, o sucesso dependerá da redução dos custos associados à implementação destes algoritmos, das regulamentações que só agora começam a surgir e da resolução de algumas questões relacionadas com o campo da ética.

Por tudo isto, o trabalho conjunto entre homens e máquinas parece ser a opção mais viável pois junta o melhor de dois mundos: a rapidez e eficácia dos algoritmos no tratamento dos dados com o sentido critico-interpretativo dos humanos para contextualizar a informação.