As maneiras como interagimos com a tecnologia estão em constante evolução. Todos nós nos lembramos de como a digitação de comandos DOS em um teclado deu lugar à simplicidade WYSIWYG do Windows navegado pelo mouse e, hoje, há um uso crescente de telas sensíveis ao toque.
O próximo grande passo evolutivo em interfaces de usuário, e é grande, inclui comandos de voz, tecnologias de reconhecimento facial e inteligência artificial (IA).
As máquinas habilitadas para IA usarão essas interfaces para antecipar, prever e executar uma infinidade de tarefas, acelerando os processos e, na verdade, minimizando o tempo que os usuários dedicam ao processo de interface.
Embora isso aponte para um futuro muito promissor, recentemente os freios foram aplicados a muitos projetos baseados em IA. Por que? Porque os dados coletados não são mais necessariamente claros, precisos ou confiáveis.
Foi acumulado em um mundo pré-COVID-19 e foi baseado em suposições retiradas de um mercado pré-pandêmico.
Assim, como um arquiteto descobrindo que todas as medições no plano de seu projeto estão incorretas, ele está de volta à prancheta para uma série de iniciativas de IA.
Vamos examinar mais de perto o desafio.
Acessibilidade em primeiro lugar
O objetivo é facilitar o acesso a informações e serviços para todos.
Para isso, a tecnologia de reconhecimento facial cresceu exponencialmente, agora sendo amplamente implantada para check-ins em aeroportos, como um recurso de segurança para desbloquear nossos telefones e tablets, e para permitir o acesso a áreas restritas.
As experiências ativadas por voz também estão se tornando mais comuns. Estamos vendo quiosques inteligentes ativados por voz em nossos restaurantes de fast food, por exemplo, onde suas batatas fritas são pedidas usando apenas sua voz e seus chatbots ativados por voz, e não funcionários ocupados atendendo pedidos, que agora oferecem suporte ao cliente e todos aqueles upsell para supersize.
Todas essas são ótimas maneiras de acessar informações e, assim que começamos a assimilá-las em nossas vidas normais, essas tecnologias podem precisar ser alteradas, drasticamente, à medida que foram desenvolvidas e treinadas para um mundo pré-pandêmico.
Como a pandemia afeta a IA?
As tecnologias de voz foram desenvolvidas partindo do pressuposto de que um anúncio razoavelmente claro seria fornecido pelo cliente.
Os modelos de IA que interpretam os dados vocais não foram treinados para lidar com comandos abafados por uma máscara facial - pois eles funcionam principalmente comparando sons recebidos com corpus de fala com transcrições vinculadas a amostras de voz de fala clara.
Isso significa que em um mundo pandêmico, uma experiência de cliente baseada em voz de sucesso ficou muito mais difícil de entregar.
Da mesma forma, como uma máscara facial cobre a maior parte do rosto de uma pessoa, os modelos de visão computacional agora estão recebendo informações apenas da metade superior do rosto do cliente, um cenário de dados que eles não deveriam ter que lidar.
Na verdade, um estudo do Instituto Nacional de Padrões e Tecnologia dos Estados Unidos (NIST) descobriu que os algoritmos de reconhecimento facial desenvolvidos antes do surgimento da pandemia COVID-19 têm “grande dificuldade” em identificar pessoas com precisão.
O estudo do NIST revela: “Mesmo o melhor dos 89 algoritmos comerciais de reconhecimento facial testados teve taxas de erro entre 5% e 50% ao combinar máscaras faciais aplicadas digitalmente com fotos da mesma pessoa sem máscara.”
Como resultado, o cliente fica com uma experiência de usuário desagradável que obriga a reverter para interfaces “manuais”, dificultando significativamente o processo de identificação.
Como a IA permanece relevante em um mundo pandêmico moderno?
Os modelos de IA usam dados para treinar, fazer suposições e em seguida fornecer uma resposta ao usuário. Esses dados constituem então o conjunto de dados que é todo o lote de dados com o qual a operação atual é comparada.
Até recentemente, os modelos de IA eram treinados com dados que pertenciam a um mundo não pandêmico, onde os rostos eram totalmente visíveis e as vocalizações não eram obstruídas por máscaras.
A pandemia COVID-19 pegou nossas plataformas de IA desprevenidas e a IA precisará de tempo para se adaptar ao novo ambiente. Para que as experiências de voz e o reconhecimento facial permaneçam relevantes, os conjuntos de dados precisam se ajustar ao novo hoje.
Como a tecnologia de voz AI está sendo reprojetada?
Um truque rápido para mitigar palavras-chave e palavras problemáticas em um aplicativo de voz é usar os dados coletados pelo próprio aplicativo para identificar as palavras que foram transcritas incorretamente e permitir que o aplicativo faça suposições que corrijam a transcrição para fornecer o significado pretendido ao usuário.
Por exemplo, um aplicativo acionado por voz em um ambiente de fast food que transcreve "Posso comprar sapatos laranja?" deve considerar que o usuário quis dizer (provavelmente) "suco de laranja" e consertar a falha do modelo ao nível do o aplicativo ou solicitar a confirmação ao usuário final.
Em última análise, os desenvolvedores precisarão reprojetar o aplicativo para aumentar o conjunto de dados e coletar amostras de voz que, na verdade, imitam cenários da vida real; que neste ponto precisará incluir vozes de fala abafada em uma ampla variedade de ambientes.
Fique por dentro: Como a IA evoluiu na indústria de marketing e para onde vai
Como o reconhecimento facial de IA está sendo reprojetado?
No momento, certas soluções alternativas estão sendo adotadas para evitar a dependência apenas de reconhecimento facial. Por exemplo, os iPhones da Apple agora desativam a opção ID facial quando uma máscara facial é detectada.
“Se as empresas (de reconhecimento facial) não estão olhando para isso, não estão levando a sério, não prevejo que elas existam por muito mais tempo”, disse Shaun Moore, CEO da Trueface, que cria tecnologia de reconhecimento facial usada por a Força Aérea dos EUA.
Os resultados já estão se mostrando, a tecnologia Computer Vision agora é usada para reconhecer pessoas usando máscaras em locais públicos ou antes de entrarem em uma loja e por isso está mostrando que a tecnologia pode ser usada para sua própria segurança.
Conclusões
Para superar o desafio definido pela pandemia, os cientistas de dados estão coletando e analisando dados novos e relevantes para adaptar com sucesso seus modelos para atender adequadamente aos clientes finais.
Enquanto no passado a coleta de dados de voz de fala abafada era regulamentada em casos raros e específicos, agora está se tornando uma prioridade.
O mesmo é verdade para conjuntos de dados de reconhecimento de rosto que estão se expandindo para reconhecer imagens de pessoas com máscaras, basicamente trabalhando com a área ao redor dos olhos.
Vai demorar, mas as empresas estão se movendo mais rápido para se adaptar a essa nova realidade.
Conforme a quantidade de dados coletados aumenta, os modelos de IA se tornarão mais inteligentes e terão menos dificuldade em atender aos clientes finais e tornar a tecnologia facilmente acessível novamente.
Traduzido e adaptado por equipe: Nomadan
Fonte: ClickZ