A Microsoft anunciou um misterioso evento de IA para 16 de março, e parece que estamos recebendo uma grande atualização do ChatGPT esta semana na forma do GPT-4, que virá com suporte multimodal.
Isso pode não significar nada para a maioria das pessoas, dado que o ChatGPT invadiu o cenário tecnológico há apenas três meses, e ainda estamos aprendendo o que ele pode fazer e como pode interromper a tecnologia como a conhecemos.
Um chatbot multimodal ChatGPT é uma atualização maciça para a IA que já fornece respostas semelhantes às humanas às suas consultas.
Atualmente, o ChatGPT suporta apenas entrada de texto ou um modo de interação.
Mas o GPT-4 suportará texto, áudio, vídeo e imagens como entrada. Isso é o que o torna multimodal, um recurso que poderia aumentar significativamente as capacidades da IA.
A Microsoft USA não revelou detalhes sobre a atualização GPT-4 do ChatGPT na semana passada, apenas provocando o evento de 16 de março. Mas a Microsoft Alemanha deu um passo adiante, essencialmente lançando o GPT-4 de forma suave.
A empresa organizou um evento na semana passada na Alemanha, onde detalhou a atualização do GPT-4, de acordo com Heise.de.
Não está claro se o GPT-4 será uma atualização interna do ChatGPT ou se será exclusivo do mecanismo de pesquisa Bing da Microsoft que já suporta o ChatGPT.
No entanto, a Microsoft Alemanha confirmou que o GPT-4 está chegando esta semana e que será multimodal.
“Vamos apresentar o GPT-4 na próxima semana, lá teremos modelos multimodais que oferecerão possibilidades completamente diferentes – por exemplo, vídeos“, disse o CTO da Microsoft, Andreas Braun.
Braun chamou a tecnologia subjacente, a IA que entende a linguagem natural, de “divisor de águas”. E ele revelou que o ChaGPT funcionará em todos os idiomas, incluindo suporte a vários idiomas.
Você pode querer perguntar algo em alemão e, em seguida, obter uma resposta em italiano.
Além disso, Holger Kenn, outro executivo da Microsoft Alemanha, explicou que um bot multimodal do ChatGPT pode traduzir texto em imagens, músicas e vídeos, se solicitado.
Como a tecnologia multimodal do ChatGPT GPT-4 ajudará os usuários?
Embora muitos detalhes sobre o GPT-4 ainda não estejam claros, os usuários presumivelmente poderão usar vários tipos de entrada para obter as respostas de que precisam.
Ir além do texto significa que a IA pode olhar para clipes do YouTube ou ouvir gravações de áudio e, em seguida, fornecer respostas a perguntas.
A Microsoft ofereceu um exemplo de como a multimodalidade do ChatGPT poderia ajudar as empresas. A IA poderia resumir automaticamente as chamadas de suporte com texto depois de ouvir as gravações.
Isso economizaria 500 horas de trabalho por dia para um grande cliente da Microsoft na Holanda, que recebe 30.000 chamadas por dia que precisam ser resumidas. Configurar o ChatGPT para tal tarefa levaria apenas algumas horas.
Ainda assim, a Microsoft avisa que o ChatGPT nem sempre será confiável, mesmo após a atualização GPT-4. A Microsoft está trabalhando em métricas de confiança para melhorar a confiabilidade do chatbot.
Não está claro, no entanto, como os usuários poderão testar o GPT-4 e se o OpenAI apenas o disponibilizará no ChatGPT no final desta semana.
A Microsoft revelou silenciosamente o Kosmos-1 no início de março, uma IA multimodal que suporta entrada de imagem. E é a Microsoft que está realizando um evento centrado em IA na quinta-feira.
Então, novamente, a Microsoft pode ser um dos grandes investidores em tecnologia OpenAI, mas a OpenAI continuará a atualizar seu chatbot. E isso significa tornar o GPT-4 disponível para as massas.