Tecnologia

Formatos de dados necessários para treinar seu chatbot

14/07/20 por Simon Scudder

Deixe seu contato e acompanhe os Insights e as novidades do mundo da tecnologia e da transformação digital

Antes de começar a ler este artigo, é importante que você esteja familiarizado com alguns termos e explicações que demos em outros textos anteriormente. Por isso, leia também Integrando chatbot Rasa com outras aplicações e RASA: Conheça o software em python utilizado para criação de chatbots.

Neste artigo vamos começar a examinar os formatos de dados necessários para você treinar seu chatbot. Basicamente, o treino vai pegar informações de NLU (que é a compreensão de linguagem natural - Natural Language Understanding), dados de estórias (fluxos de conversa), e o arquivo de domínio (respostas do chatbot e organização das conversas) e vai aplicar o processo definido no arquivo de configuração. Então temos:

NLU + Estórias + Domínio -> Config -> Modelo

O RASA espera que os arquivos estejam organizados da seguinte forma: Domain.yml e config.yml na pasta "raiz". NLU e estórias (com extensão .md) na subpasta "data". Você também pode criar duas subpastas dentro de "data" (chamados "core" e "nlu") e colocar os arquivos dentro das respectivas subpastas. Caso não for fazer isso, o arquivo com NLU deve se chamar nlu.md e o arquivo de estórias, story.md.

Se você separar nas subpastas "data/nlu" e "data/core", pode dividir os exemplos e estórias por assunto e separar em vários arquivos, com qualquer nome desde que estejam nas pastas corretas.

Os arquivos Domain e Config são no formato yml e os arquivo de exemplo (nlu) e estórias (core) são no formato md (de markdown). Numa versão próxima do RASA provavelmente todos os arquivos serão no formato yml, mas aqui vamos ver o formato atual, md.

Para você começar com um conjunto de arquivos base, pode executar o comando "rasa init", mas cuidado: isto vai limpar dados que já existirem na pasta onde você executar o comando.

O arquivo domain.yml

O arquivo domain é dividido em várias "seções": Declaração de intenções; Declaração de ações; Declaração de entidades; Declaração de slots; Respostas do chatbot; Dados sobre seção do usuário.

Veja os exemplos de cada seção

Cada seção começa com uma linha com o nome da seção seguido de dois pontos. Vamos ver um exemplo da seção de intenções:

intents:
- saudação
- despedida
- feliz
- triste

Observe que cada nome de intenção começa com um - e um espaço. Isto tem de ser obrigatoriamente dessa forma. Todas as intenções que for usar nas conversas devem estar relacionadas aqui. Logo mais vamos ver melhor como define uma intenção, mas por enquanto basta saber que uma intenção é composta de um nome e vários exemplos. Aqui colocamos o NOME. Deve estar escrita exatamente da mesma forma que no arquivo NLU.

Para nomes de ações, intenções, slots e entidades, recomenda-se usar apenas as 26 letras do alfabeto (sem acentos) e números de 0 a 9 e o underscore (símbolo do sublinhado), sempre começando com uma letra. Use nomes que têm a ver com o assunto, como procura_hospital, escolher_filmes e assim por diante. Não há limite para o comprimento do nome, mas nomes compridos demais podem dificultar na hora de digitar o nome.

Depois de listar todas as intenções, vamos colocar as ações, que podem ser ações personalizadas ou então respostas do chatbot.

Um exemplo da seção de ações está abaixo:

actions:
- utter_saudacao
- utter_despedida
- utter_alegrar
- action_busca_hospital

Temos o nome da seção "action", seguido de dois pontos, e cada uma das ações na sua linha, começando com hífen seguido de espaço. Repare como separamos as palavras com sublinhado (_). Os nomes não podem conter espaços, então use o sublinhado (_) para separar as palavras. Não junte tudo (comoAlgumaLinguagensDeProgramacaoFazem), e dê nomes que tem a ver com o que a ação faz.

Por padrão, uma resposta do chatbot começa com "utter" que quer dizer "falar" ou "expressar". Pronuncia-se “a-ter”. A pronúncia correta é essencial. Se você for falar “u-ter” com qualquer estrangeiro, ele não vai entender do que está falando e provavelmente achar engraçado. Existem alguns nomes "padrões" para utter que veremos quando formos falar a respeito de formulários.

Assim como uma resposta do chatbot começa com "utter", uma ação personalizada por padrão começa com "action".

Depois de listar todas as ações do seu projeto, vamos definir as entidades e os slots.

Veja um exemplo de seção de entidades:

entities:
- grupo
- cor
- cidade

Entidades são informações que serão extraídas de frase. Um exemplo seria extrair a cor da frase "Estou procurando uma caixa verde".

Na parte onde formos falar de NLU (exemplos para o chatbot) falaremos mais sobre entidades. Por enquanto, basta saber que você atribui um nome a uma entidade. Se não tiver nenhuma entidade a ser extraída de frases, não é necessário ter uma seção de entidades no domain.

Depois de declarar entidades, deve declarar os slots. Caso queira que o slot seja preenchido automaticamente por uma entidade, basta defini-lo com o mesmo nome.

Um exemplo de seção de slots:

slots:
nome:
type: unfeaturized
perfil:
type: categorical
values:
- anonimo
- basico
- vip
descricao:
type: unfeaturized

Na hora de declarar os slots, você precisa informar o tipo, que pode ser:

Text: irá guardar uma informação texto;
Boolean: irá guardar uma informação verdadeiro/falso;
Categorical: irá guardar a seleção entre uma lista de possibilidades (sexo masculino, feminino ou não informado);
Float: irá guardar uma informação numérica;
List: irá guardar uma lista de valores;
Unfeaturized: este é o ÚNICO tipo que não influencia no fluxo da conversa.

Para todos os tipos exceto unfeaturized, boolean e categorical, só é possível saber que há um valor no slot, mas não comparar com outros valores. O unfeaturized, por definição, não influencia no andamento da conversa. É possível verificar o valor de um slot categórico ou boolean e influenciar no andamento da conversa.

No domain também declaramos formulários da mesma forma:

forms:
- registro_form

A Viceri desenvolveu uma ferramenta que você pode usar para criar estes arquivos automaticamente, sem se preocupar com a formatação das informações. Basta preencher os exemplos com as frases que o chatbot irá falar, montar as conversas de uma forma interativa, e a partir de um painel administrativo solicitar para treinar um modelo.

Nos próximos artigos continuaremos vendo como declarar respostas ao usuário no arquivo domain.yml, e como são formatados os arquivos de exemplos (NLU) e estórias. Gostou?

Confira nossos próximos posts ou fale agora com o time da Viceri. Estamos sempre prontos para auxiliar você sempre que precisar.

Tags: chatbot, dados, rasa