Midiendo la calidad de un Asistente Virtual: 3 formas de medir la Tasa de Asertividad

Cuando un Asistente Virtual sale al público, las empresas enfrentan múltiples preguntas que tienen que ver en última instancia con la calidad. ¿Cómo medir la calidad de mi solución conversacional?

Un camino para medir la calidad del entrenamiento de nuestro Asistente Virtual, consiste en aplicar una prueba de medición de asertividad. Si bien el significado de este último término expresa una habilidad social, actualmente se utiliza dentro de la comunidad para describir la capacidad de los asistentes virtuales de dar una respuesta correcta o adecuada ante una pregunta puntual de un usuario que se haya expresado en una forma que no fue entrenada directamente en el chatbot o asistente virtual.

Existen varias formas de medir correctamente la asertividad, pero se pueden agrupar en tres principales formas para medir que aumentan en complejidad y costos.

Tasa indirecta de asertividad
Cuando hablamos de fallback, hablamos de una respuesta donde el asistente no estaba entrenado y respondió un mensaje del estilo “no entendí”. De esta manera, se puede crear el indicador más fácil de asertividad, que sería tomar el total de fallbacks y dividirlo por la cantidad de interacciones que entraron al bot durante un período. Esto en realidad daría una tasa de fallback, y su complemento sería la asertividad, por lo que hablamos en realidad de una Tasa indirecta de asertividad. Sirve para saber a grosso modo cuánto volumen de preguntas está entrando para las que el bot no haya sido entrenado, respondiendo que no entiende.
Tasa estricta de asertividad
En el otro extremo, la forma más compleja de medir la asertividad requiere el común acuerdo de dos o más partes que seleccionan una muestra representativa de inputs o ejemplos reales de usuarios con los que se medirá el sistema y luego anotar manualmente cada uno de los inputs con sus outputs, es decir, la respuesta que dio el sistema efectivamente, e identificar si la frase pertenece al dominio de conocimiento del bot y si la clasificación o respuesta que entregó fue adecuada o no. Una vez que el grupo de anotadores ha realizado la evaluación pertinente del mismo conjunto de datos, se evalúa el grado de acuerdo entre ellos, porque es posible que alguno haya considerado que todo era pertinente y adecuado de forma aleatoria. Una simple prueba estadística permite resolver eso, creando una colección anotada de gran valor para posterior mejoramiento del entrenamiento. El trabajo es engorroso y consume mucho tiempo y se requiere incluso algún tipo de entrenamiento para los anotadores. Esta forma de medir la Tasa Estricta de Asertividad se recomienda solamente en casos donde el indicador esté vinculado a alguna obligación que requiera demostración formal.
Tasa semi-automatizada de asertividad

Un enfoque intermedio es el procedimiento de cálculo de la Tasa Semi-Automatizada de Asertividad, que permite ahorrar tiempo y suele ser una fórmula idónea en contextos ágiles donde haya que medir y actualizar la calidad de nuestro Asistente Virtual demostrando su valor.

Dependiendo del tipo de solución conversacional, el cálculo se realizará identificando primero todo el entrenamiento, vinculándolo con las respuestas se medirán. Con este insumo, se genera una tabla donde están las frases reales y la respuesta que “debería” haber recibido. Esta tarea generalmente se abrevia utilizando simplemente el intent que debería haber clasificado esa oración. Debido a que en la práctica suele requerirse algún tipo de esfuerzo manual en esta parte, es que surge la parte de “semi” en el nombre del indicador. En algunos casos es posible automatizar todo el flujo de inicio a fin, pero suelen haber condiciones que dificultan la tarea.

Luego, un segundo bot externo, realizará el “envío” de las frases al asistente virtual. El asistente responderá con su respuesta y esa respuesta quedará guardada dando pie a una colección de datos que contendrá cada uno de los inputs reales de usuarios, la clasificación que debería haber entregado y la clasificación que entregó.

Finalmente, se crea una matriz con la frecuencia de clasificaciones correctas y no correctas, creando así el indicador de tasa de asertividad por excelencia, que permite identificar con un buen nivel de detalle y de forma relativamente rápida cuáles son los dominios de conocimiento que el bot no maneja y en cuáles el entrenamiento falla más en un indicador familiar expresado en porcentaje.

El primer insight que hemos visto que se genera en estas experiencias de medición, es la necesidad de fusionar algunas respuestas entre sí, para evitar la confusión del motor de diálogo que hace funcionar el asistente.

Existe una cantidad infinita de formas de combinar estas mediciones y los tres niveles son más bien didácticos para describir su complejidad. Por lo general se agregan más pasos a la medición a medida que van surgiendo los requisitos propios de cada asistente virtual.

Contar con una medición adecuada de la asertividad de nuestro bot asegurará su calidad con el respaldo de un indicador que impacta sobre la experiencia de usuario y sobre la evaluación final del asistente virtual. Con la medición viene consigo un posterior proceso de re-entrenamiento que debe ser realizado con cuidado para evitar disminuir la capacidad de generalización del modelo sobre nuevos casos para los que no fue entrenado.

Article Tags:

Midiendo la calidad de un Asistente Virtual: 3 formas de medir la Tasa de Asertividad

Oportunidades profesionales

Oportunidades en otros países