Inicia Soluciones

Te contamos cómo funciona la transcripción de la llamada telefónica, sus etapas, requisitos y elementos que influyen en la misma.

La conversión de voz a texto o STT (Speech To Text) es una de las características más relevantes para los centros de llamadas a la hora de elegir una solución de software. Este proceso es el pilar fundamental para la aplicación posterior de speech analytics. Por este motivo, si no se realiza de forma correcta, impactará de forma determinante y muy negativa en la operativa posterior.

Hay muchos elementos que influyen en la calidad de la transcripción y que pueden alterar el proceso. Algunos son ajenos al sistema y son difíciles de controlar, por ejemplo:

  • Pérdida de señal
  • Que el cliente hable con una tercera persona durante la llamada y no con el operador
  • Bajo volumen de una o ambas partes
  • Baja calidad de la señal
  • Ruido ambiente
  • Mala pronunciación o dicción de alguna de las partes
  • Acentos particulares

Por ello, aunque hay variables que no se pueden dominar, la parte que sí está bajo nuestro control depende en gran medida de la naturaleza del sistema de grabación del que se disponga. Éste ha de ser solvente y ofrecer grabaciones de alta calidad para que la transcripción de la llamada telefónica sea óptima.

Asimismo, los archivos de audio deben poder subirse al sistema y exportarse de forma ágil y eficiente. Preferiblemente mediante SFPT o API.

Una vez que se disponga de este audio, se aplican tecnologías ASR (reconocimiento automático de voz) y PLN (Procesamiento del Leguaje Natural). Herramientas de inteligencia artificial basadas en la identificación automática de secuencias de audio.

 

Este proceso está compuesto de cuatro etapas fundamentales.

1. Detección de la actividad

En primer lugar, el sistema debe ser capaz de reconocer y segmentar los momentos en los que se habla y en los que no. Identifica, por ejemplo, el ruido discriminándolo de la voz y trabajando solo sobre los segmentos que contengan información de interés.

2. Diarización

Seguidamente, es importante identificar a los participantes de la conversación de forma independiente. Es decir, hay que diferenciar a los interlocutores y saber quién habla y cuándo. Para esto es crucial que la grabación sea realizada en estéreo.

3. Descodificación

De esta forma comienza en proceso de transcripción propiamente dicho. En esta fase, el sistema establece una lista de posibles sílabas o fonemas y, mediante IA, los agrupa buscando la opción más probable dentro de una larga lista de posibilidades.

4. Transcripción final

En este momento, el sistema elige de entre toda su lista de palabras aprendidas, las que tienen más probabilidad de conformar una frase precisa o con más sentido. Se basa en todo lo aprendido por la máquina en un proceso previo de machine learning que puede devenir en un deep learning más evolucionado.

 

En consecuencia, evaluando todo lo expuesto anteriormente, un buen sistema de transcripción de llamada telefónica para contact center debe cumplir los siguientes requisitos:

– Integración

En primer lugar, la herramienta ha de ser capaz de efectuar la carga de las grabaciones de forma sencilla a través de SFTP o API para un funcionamiento ágil.

– Precisión

El sistema debe ser lo suficientemente eficiente como para trabajar sobre las grabaciones de audio para obtener resultados con una precisión superior al 90%, indistintamente del formato con el que se trabaje.

– Velocidad

Independientemente del volumen de grabaciones que se transfiera, la GPU debe tener la capacidad de alcanzar la velocidad de conversión de voz a texto (STT) que se requiera.

– Multilenguaje

Lo ideal es que el proceso de transcripción pueda realizarse en cualquier idioma. Con un proceso previo de machine learning, el software es sometido a un entrenamiento exhaustivo en diferentes idiomas.

– Seguridad

Cumplir con los requerimientos de la protección de datos es imprescindible. Más aún, cuando hablamos de almacenar y transcribir información confidencial y, en muchos casos, altamente sensible.

 

El sistema de transcripción de llamada telefónica de Inicia Soluciones, además de haber obtenido la certificación ISO 27001, está avalado por nuestro equipo legal que ha implementado las políticas y procedimientos necesarios para cumplir con el RGPD de la UE.

Asimismo, cumplimos con todos los requisitos antes expuestos y contamos con la ventaja de partida de contar entre nuestros productos con un sistema de grabación de altísima calidad y líder en el mercado.

Para más información sobre nuestra solución de transcripción para contact center, o contacta con nosotros y daremos respuesta a todas tus dudas.