Entrevista
Helena Caseli
Professora do Departamento de Computação da UFSCar fala sobre como "aprendem" os sistemas de processamento de linguagem natural (PLN), o papel das redes neurais, os desafios na pesquisa com PLN, especialmente no Brasil, e o que muda quando passamos a conversar em linguagem falada com os sistemas de inteligência artificial
Sobre
Helena de Medeiros Caseli é professora associada do Departamento de Computação da Universidade Federal de São Carlos (UFSCar), instituição na qual ingressou em 2008. Possui graduação em Ciência da Computação pela Universidade Federal de Uberlândia, mestrado, doutorado e pós-doutorado em Ciência da Computação pela Universidade de São Paulo (ICMC-USP). Realizou dois estágios na Universidade de Alicante (Espanha).
É uma das fundadoras do Brasileiras em PLN, grupo atuante na área de processamento de linguagem natural. É idealizadora e uma das organizadoras e autoras do livro “Processamento de Linguagem Natural: Conceitos, Técnicas e Aplicações em Português”.
Sua experiência de pesquisa na área de computação está relacionada com a área de inteligência artificial, atuando nos temas: aprendizado de máquina (tradicional e deep learning), processamento de linguagem natural (principalmente português e inglês), aprendizado multimodal e tradução automática, entre outros.
FCW Cultura Científica – Uma das áreas mais faladas atualmente na inteligência artificial é o processamento de linguagem natural (PLN), base do funcionamento de sistemas como o ChatGPT. Poderia explicar o que é o PLN?
Helena Caseli – O processamento de linguagem natural se concentra na interação entre computadores e linguagem humana e envolve pelo menos duas grandes áreas, que são computação e letras-linguística, além de reunir especialistas de outras áreas, por exemplo, na parte cognitiva de formação da linguagem ou no processamento de áudio. O PLN é naturalmente interdisciplinar e seu foco, falando de uma maneira bem resumida e generalizada, é processar automaticamente as línguas que nós humanos entendemos, produzimos e com as quais estamos acostumados desde que aprendemos o dom da linguagem. Esse processamento envolve desde o desenvolvimento de recursos, como um dicionário ou um glossário, que sejam variações no recurso lexical que um computador consegue ler, até o desenvolvimento de agentes conversacionais como Google Assistente, Siri ou Alexa. Podemos ir desde a elaboração de um recurso, passando pela elaboração de uma metodologia, do arcabouço de armazenamento de informação até a implementação do sistema final. O processamento de linguagem natural é uma área muito grande que abarca desde o profissional mais tradicional, que prefere desenvolver as próprias regras que serão lidas por um computador – transformadas em um sistema de processamento automático – ao profissional que prefere usar um conjunto de dados (corpus) para extrair informações e gerar modelos computacionais.
FCW Cultura Científica – Quais são os principais desafios no PLN?
Helena Caseli – O PLN é uma área muito desafiadora porque a língua é algo vivo. Novas palavras surgem ou surgem novos usos para as palavras enquanto outros usos desaparecem. É como estudar um ser que está em constante evolução. Por conta disso, há muita coisa que ainda não conseguimos mapear para que os modelos de linguagem possam processar. O livro Processamento de Linguagem Natural: Conceitos, Técnicas e Aplicações em Português, que publicamos, aborda as diversas mudanças de paradigma pelas quais o PLN já passou. Em especial, até os anos 1990 se usava o paradigma estatístico tradicional no qual os modelos são gerados com base em frequências e probabilidades extraídas a partir dos dados. Na atualidade, a maioria dos sistemas de PLN segue o paradigma neural. A minha formação em pesquisa foi inicialmente em tradução automática e quando comecei o mestrado, em 2000, o paradigma na tradução era bastante simbólico e estatístico. O primeiro tradutor do Google representou um grande avanço, mas produzia resultados do tipo “os meninos foi para escola”, plural com singular, porque da maneira como funcionava ele quebrava a sentença de origem em frases (sequências de tokens) e traduzia frase por frase, depois arranjava tudo e a combinação de maior probabilidade era dada como saída. Esse era o paradigma estatístico, usado em tradução e em muitas outras estratégias e aplicações de processamento de linguagem natural e também no aprendizado de máquina de maneira geral.
FCW Cultura Científica – Isso mudou com as redes neurais?
Helena Caseli – Todo aprendizado no fundo é estatístico, é probabilidade, inclusive nas redes neurais. Nas redes neurais, o funcionamento ocorre pela atualização de pesos e as unidades de processamento se comunicam por conexões – como os neurônios dos animais – e as conexões que ocorrem com mais frequência têm mais peso. De novo, é estatística, é probabilidade, mas o que o neural tem de diferente é que ele consegue, por exemplo, na tradução, olhar para a sentença como um todo. Consegue olhar não apenas as palavras que já viu mas também aquelas que estão no fim da sentença que está tentando traduzir. Com isso, ele não vai produzir um “os meninos foi para a escola” porque o “os” implica um “foram” e ele decide qual é a melhor tradução para o que está processando no momento. O paradigma neural não é novo, redes neurais vêm dos primórdios da inteligência artificial e voltaram a estar em alta nos últimos 15 anos por causa do poder computacional que temos hoje. Atualizar esses pesos é custoso computacionalmente, tanto que para treinar os grandes modelos de linguagem é preciso muito poder computacional, muitas horas de processamento em GPUs, as unidades gráficas de processamento. Estamos falando de muito cálculo matemático e de recursos computacionais que antes não existiam.
FCW Cultura Científica – Como os sistemas de PLN aprendem?
Helena Caseli – Antes, o conhecimento do linguista era mapeado em recursos e regras, por exemplo, regras de tradução ou dicionários bilíngues, e aquilo virava um sistema. Era o paradigma simbólico. Então, quando a quantidade de dados disponíveis aumentou, passou-se a usar o aprendizado de máquina para aprender a partir de dados e de corpus. Existem muitos exemplos de tradução disponíveis, então por que não usá-los? Com o novo paradigma baseado em dados, pegamos determinados conjuntos de dados e aprendemos a partir deles. Quanto mais dados representativos do problema em questão, quanto mais os sistemas olharem para as ocorrências, mais serão capazes de deduzir, por exemplo, que a palavra “casa” e a palavra “house” devem ser a tradução uma da outra porque são ambas usadas em contextos e circunstâncias similares.
FCW Cultura Científica – Isso deve ter mudado bastante com o crescimento da internet?
Helena Caseli – Com a popularização do uso da internet qualquer um começou a produzir conhecimento. Depois, com as redes sociais, isso escalou de maneira absurda. Imagine a quantidade de dados produzidos hoje no Twitter ou no Instagram. Cada um escreve o que quer, tem a liberdade de escrever do seu jeito, o que leva a uma quantidade de dados que faz com que o sistemas aprendam também com dados “errados”, de outras variações da linguagem. Não é mais essencial que ele aprenda somente com dados corretos segundo a norma culta da linguagem. Por isso, uma das etapas do processamento de linguagem, um dos processamentos possíveis, é a normalização, por exemplo, transformar um “vc” em “você” ou um “tb” em “também”. Mas, hoje, não sabemos se isso ainda é necessário, dependendo da aplicação é mas dependendo da aplicação não é. Se alimentarmos um sistema com um monte de dados que incluam “tb” e “vc”, o modelo de linguagem vai aprender. Para ele, “vc” vai ser “você”, independentemente de estar certo ou errado, o que importa é o que ele faz com aquilo, se é para traduzir ou se é para gerar algum tipo de conhecimento. Hoje, não é mais essencial, dependendo da aplicação, que os dados estejam perfeitos e corretos. Se vamos fazer, por exemplo, uma análise de sentimentos, interessam mais os adjetivos vinculados aos substantivos. As preposições ou as conjunções interessam menos, pois nem todas vão mudar o sentimento. Então, podemos fazer um processo que é uma anotação gramatical. A ferramenta olha para um determinado texto e diz quando ocorre um substantivo ou um verbo e se encontrar um “vc” não vai saber exatamente o que é aquilo, não vai saber que é um pronome. Mas as ferramentas também podem ser treinadas com esses novos tipos de escrita, tudo dependendo do dado que é oferecido. O mesmo dado que você der no treinamento será o dado da aplicação final. Se a ideia é uma aplicação em “norma culta” que faça correções em redações do Enem, então os dados têm que ser corretos de modo a que o sistema “grite” quando encontrar algo escrito de forma que não se encaixe na norma culta. Agora, se você quer processar dados do Twitter, então não pode treinar o seu sistema só com textos literários, porque ele vai estranhar muita coisa.
FCW Cultura Científica – Como a maior parte dos dados que alimentam sistemas de inteligência artificial está em inglês, qual é o cenário atual da pesquisa em PLN em outras línguas, como o português?
Helena Caseli – Até hoje, o grande carro-chefe do PLN tem sido o inglês, mas o chinês está chegando muito forte, por conta das muitas pesquisas feitas nessa área na China. Mas sempre foi o inglês, que é a língua da ciência, ou você se comunicava cientificamente em inglês ou você não se comunicava. Com as novas ferramentas de tradução, essa predominância do inglês tem diminuído e outras línguas estão ganhando força. No caso do português, particularmente no Brasil, sempre houve dificuldade para se fazer pesquisa. Tradicionalmente, as pesquisas e o desenvolvimento dos sistemas têm sido feitos nas universidades, mas hoje, felizmente, temos visto muitas empresas investindo em pesquisa com uso de PLN, temos notado um crescimento nos últimos anos. Quando vim para São Carlos fazer o mestrado em 2000, ingressei no Núcleo Interinstitucional de Linguística Computacional (NILC), com a professora Graça Nunes, com quem também fiz o doutorado. O NILC era não só o principal núcleo de PLN do país, mas também um dos únicos. Hoje, o cenário mudou e temos uma rede muito grande, basta você ver o livro Processamento de Linguagem Natural, que reuniu 51 autores de vários estados do país. Fico muito feliz de ver que o nosso grupo Brasileiras em PLN tem representantes espalhadas pelo mundo. A pesquisa em PLN que fazemos está indo ao exterior com essas nossas colegas, mas as dificuldades continuam as mesmas. No estado de São Paulo, a Fapesp é uma grande apoiadora de pesquisas, mas os recursos são limitados e as questões de pesquisas são muito mais amplas. Faltam recursos e braços para fazer o desenvolvimento, inclusive uma das missões do Brasileiras em PLN é justamente auxiliar na formação de mais profissionais que possam gerar mais recursos, porque não adianta você ter um recurso em inglês e tentar adaptar para o português. Não se trata de uma simples tradução, estamos falando de cultura. A maneira como se fala em uma língua é diferente da maneira com que se fala em outra.
FCW Cultura Científica – Como surgiu e quais são os principais objetivos do Brasileiras em PLN?
Helena Caseli – O Brasileiras em PLN surgiu em 2020, quando estávamos no primeiro ano da pandemia de covid. Fui palestrante em um evento internacional online, o WiNLP, e a Brielen Madureira, uma brasileira que faz doutorado na Alemanha, entrou em contato e perguntou se havia um grupo de mulheres brasileiras que trabalham em PLN. Respondi que não e decidimos criar o grupo que já surgiu online, o que foi interessante porque eu acho que se não fosse aquele contexto da pandemia não teríamos tido essa iniciativa. Eu, por exemplo, estou em São Carlos, que é um núcleo de PLN, então se tiver necessidade de conversar com outras pessoas sobre o assunto é fácil, porque elas estão próximas. No Brasileiras em PLN, fomos chamando as pessoas que conhecíamos, que trouxeram outras e o grupo cresceu rapidamente. Hoje, somos cerca de 200. Nosso principal meio de comunicação é uma lista de e-mail, mas também estamos nas redes sociais, como o Twitter (@AsBPLN) e um canal no YouTube (@brasileiraspln), onde recebemos o pessoal para seminários ou bate-papos. Em 2023, esses canais foram essenciais para conversar sobre o ChatGPT, por exemplo. Uma de nossas principais iniciativas é o livro que mencionei, Processamento de Linguagem Natural: Conceitos, Técnicas e Aplicações em Português, que foi lançado em 2023 no Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL), o principal congresso de processamento de linguagem natural no Brasil. O livro está disponível gratuitamente na internet e é um trabalho em constante atualização. No grupo, fizemos também um levantamento para saber quem são as mulheres que trabalham com PLN no Brasil. O trabalho resultou em artigo que apresentei no Women in Information Technology (WIT), um workshop do congresso da Sociedade Brasileira de Computação. Conseguimos também apoio do North American Chapter of the Association for Computational Linguistics (NAACL) para levar jovens brasileiras para participarem do STIL 2023. Estamos planejando realizar este ano, em São Carlos, uma escola de inverno com o conteúdo do livro. Serão três dias de imersão em conteúdos teóricos e práticos sobre PLN. Em linhas gerais, a nossa ideia com o Brasileiras em PLN é gerar uma comunidade, fortalecer a área e fazer um PLN de qualidade. Com o sucesso do ChatGPT, tem surgido muitos ditos “especialistas” em inteligência artificial e que passam informações erradas, é preciso mudar isso.
FCW Cultura Científica – Poderia falar sobre as possibilidades e atuais limites dos sistemas baseados em PLN?
Helena Caseli – Um sistema de PLN, dependendo da abordagem e dos dados disponíveis, permite fazer coisas variadas. Hoje, estamos vendo as atividades do primeiro nível de conhecimento de língua, por exemplo, gerar texto seguindo estrutura, formato e frequência, como faz o ChatGPT. Já conseguimos fazer uma análise de sentimentos em um nível de polaridade, às vezes até de emoções. Isso permite saber, por exemplo, se um determinado comentário é bom ou ruim e se é bom ou ruim em relação a quê, o que é bastante útil na revisão e avaliação de produtos ou de serviços. Um sistema que tenha essa capacidade pode, por exemplo, saber se um restaurante tem uma comida ótima mas com preços altos. Pode avaliar como ótimo para o restaurante e sua comida, mas com preço elevado, um ponto positivo e outro negativo. Os sistemas são capazes de reconhecer que uma mesma palavra em contextos diferentes muda de polaridade. Se você fala “comprei um filé mignon pesado” é algo positivo, porque tem bastante carne ali naquele filé mignon. Agora, se eu tiver que carregar uma “caixa pesada”, isso não é bom. Os modelos como o ChatGPT conseguem reconhecer isso por causa da recorrência. Se é pesado com caixa, ele sabe que é ruim, se é pesado com carne, ele sabe que é algo bom. Só que nessa sequência de caracteres ele não infere que carne é algo para comer e que caixa é para carregar. Ele não compreende o mundo. Muita gente acha que os modelos de linguagem têm capacidade de raciocinar, de inferir, mas não é o caso. O que eles fazem tem base em frequências do que viram, a que foram expostos, no processo de treinamento. Se o comando dado a um modelo com o ChatGPT for o de gerar um programa, ele vai gerar um código com uma combinação de trechos de códigos de programação que ele já viu antes. Repetir o que foi decorado não é raciocinar e se você pedir para ele raciocinar junto com você, o que ele vai fazer é apenas reproduzir sequências que viu. Se você pedir algo mais elaborado, de inferências que nós humanos fazemos facilmente, ele não vai conseguir. Algo que fazemos com tranquilidade e que qualquer sistema probabilístico baseado em dados não é capaz de fazer são casos de aprendizado a partir de uma instância. Por exemplo, basta colocar uma única vez a mão em uma vela acesa para entender que aquilo queima. Os sistemas de inteligência artificial não têm essa capacidade, eles precisam ser expostos a várias instâncias para aprender. Para a detecção de fake news ou de emoções, isso é algo que está além do que está ali no texto e na recorrência. Uma pessoa com depressão não precisa dizer muitas vezes que não está bem ou que tem ideações suicidas para você dar apoio a ela, para você perceber a gravidade do contexto. Da mesma forma, se eu disser uma fake news, por exemplo, “o mar no Guarujá secou”, você imediatamente vai saber que não é verdade. Por uma questão de conhecimento de mundo sabemos que não dá para o mar secar assim de uma hora para outra. Há conhecimentos que extrapolam, coisas que a gente sabe mas que não foram ditas em lugar algum e isso é algo com que as máquinas ainda não conseguem lidar.
FCW Cultura Científica – Quais são as dificuldades para a expansão do PLN do texto escrito para a linguagem falada?
Helena Caseli – Isso implica uma variação maior de dificuldades. Por exemplo, eu uso a Alexa em casa e quando falo ela identifica que sou eu, mas quando as minhas filhas falam, o sistema também acha que sou eu, não é capaz de discernir. No texto falado há muitos detalhes a se considerar, como a maneira de falar, tonalidade, timbre, encadeamento, sotaque, que não temos no texto escrito. Em um texto escrito, eu posso usar “vc” no lugar de “você”, mas não tenho tantas maneiras diferentes de falar a palavra. Eu coloco “Helena” e tudo bem, mas na hora de falar há diferenças, por exemplo, entre o Sul e o Nordeste do Brasil, onde sou chamada de “Hélena”. O processamento da voz traz novas dificuldades, mas são dificuldades que os recursos computacionais e as ferramentas de inteligência artificial estão conseguindo superar.
FCW Cultura Científica – Temos visto pessoas usando os chatbots apenas para bater papo, mas ainda no formato de texto escrito. A capacidade de poder falar e ouvir parece ser o próximo grande recurso desse tipo de sistema de inteligência artificial?
Helena Caseli – Acho que a comunicação textual vai deixar de ser a nossa primeira maneira de se comunicar no modo digital. Eu ainda sou adepta às mensagens de texto no WhatsApp, mas tem muita gente que só manda áudio ou o aplicativo transcreve o que ele falou e manda como texto. Com a crescente capacidade de processamento de áudio, isso se tornará cada vez mais frequente. No futuro, vamos querer sistemas como aquele do filme Her, que conversam com a voz da Scarlett Johansson, por exemplo. No filme, o protagonista, interpretado por Joaquin Phoenix, não digita e-mails ou mensagens, ele pede para o assistente pessoal. Já estamos começando a fazer isso com o ChatGPT e ferramentas semelhantes. Podemos conversar com esses sistemas e pedir, por exemplo, um texto mais formal ou mais informal, dependendo do que precisamos. Isso é uma comunicação muito mais natural. A interação homem-máquina (IHC) está sendo interseccionada com a área de processamento de linguagem natural e vai ser cada vez mais nos próximos anos. Se agora estamos vivendo um boom de PLN, eu acho que o IHC, a interação homem-máquina, é o próximo boom. No projeto Amive, Amigo Virtual Especializado, conduzido na UFSCar, empregamos sensores (smartwatches) para obter sinais fisiológicos, escalas de avaliação psicométrica e outros dados que permitam identificar problemas como a depressão. A nossa vida vai ser isso, vai ser computação vestível, para poder nos ajudar. “Está na hora de tomar água. A temperatura subiu dois graus, está na hora de se refrescar”, eles vão dizer. Teremos esses assistentes com a gente o tempo todo. É um cenário que há poucos anos estava apenas em filmes de ficção científica mas que vai acontecer daqui a pouco.
FCW Cultura Científica – Qual é a sua opinião sobre o risco de que tais tecnologias, que mudarão a vida de milhões, sejam controladas por poucas empresas?
Helena Caseli – Sou totalmente a favor do código aberto. Quando se começou a falar em código aberto em computação, as grandes corporações disseram “como assim, abrir o código do meu programa? Aí qualquer concorrente pode ver e copiar?”. Mas foi essa justamente a grande sacada que impulsionou toda a revolução tecnológica que estamos vendo, porque em vez de você ter uma pessoa ou uma equipe trabalhando no seu código proprietário, você abre isso e tem o mundo todo trabalhando. Há os protecionistas, como sempre, mas tem também toda uma vertente dos que são favoráveis ao código aberto. Em nossas pesquisas com PLN usamos modelos de linguagem abertos, então a minha visão é que não adianta alguns quererem fechar os seus códigos e seus modelos, porque o que vai deslanchar será o aberto. A cultura do código aberto já está muito intrínseca na comunidade que desenvolve sistemas computacionais. Mas o código em si me preocupa menos do que a parte ética de como os dados serão usados. Por exemplo, quando clicamos naquelas páginas com captcha para escolher as imagens com semáforo e mostrar que não somos robôs, essas respostas podem estar sendo usadas para treinar modelos de linguagem, modelos de aprendizado de máquinas, grandes modelos. Não sabemos para que esses dados estão sendo usados. Eu tenho colegas que não colocam dados na nuvem, porque não sabem o que outros vão fazer com aquilo. Eu fico no meio termo e uso muito a nuvem para trabalho. Assino o termo de uso porque acho aquele ferramental uma boa contrapartida, mas não fico, por exemplo, expondo minha vida nas redes sociais. Acho que temos que dosar, porque hoje é terra de ninguém, as pessoas pegam os dados e usam e acham que está tudo bem e divulgam e publicam e geram sistemas. Então, o grande cuidado que precisamos ter é mais com os dados do que com o código. Ter um cuidado também de anonimização dos dados, por exemplo, quando falamos de depressão ou de questões de saúde, os dados dos voluntários não podem cair na mão de outros, ninguém pode reconhecer que aquela pessoa disse aquilo. É preciso anonimizar, temos que tirar a identificação, temos que impossibilitar que alguém descubra de onde veio aquele dado. Os modelos são gerados a partir dos dados e precisamos de muito cuidado para saber que nem tudo o que está ali é verdadeiro. Desinformação e fake news são problemas importantes da internet que podem ser ampliados com os novos sistemas de inteligência artificial.
Edições anteriores:
Os casos de doenças, fome e mortes na Terra Indígena Yanomami, provocados pela destruição causada pelo garimpo ilegal e pela ausência do poder público, colocam em evidência a difícil situação da saúde na Amazônia Legal. Poucos hospitais, postos de saúde distantes, falta de médicos e equipamentos, além do aumento das doenças crônicas somados à ainda alta presença das doenças infecciosas e parasitárias são alguns dos problemas que atingem a região
Por que os programas que simulam conversas, como o ChatGPT, estão sendo considerados a maior inovação na computação desde o Google ou até mesmo a internet? Outro programa seria capaz de ter sentimentos. Ficção ou fato, o certo é que em 2023 novos chatbots e muitas aplicações serão lançadas para explorar o potencial da inteligência artificial em diferentes áreas e poderão mudar a forma como os humanos se relacionam com a tecnologia.