¿Ya tenemos día teclear? Los avances en el reconocimiento de habla son lo que es posible | Tecnología

¿Ya tenemos día teclear?  Los avances en el reconocimiento de habla son lo que es posible |  Tecnología

La tecnología existe: si es necesario, este informe se puede redactar sin necesidad de escribirlo, basta con dictar el texto al procesador. Sin embargo, aún queda algo por hacer: hay que volver al texto para corregir (posiblemente añadir) la puntuación y modificar las palabras que se han escuchado mal. Y tras la reflexión, además, es probable que tengamos una visión general del resultado, porque no podemos escribirlo como lo escribimos. Incluso si, según las directrices, creemos que el resultado será un texto escrito. Estos son algunos de los problemas que enfrenta el diseño gráfico de Miriam Inza, quien diseña para la revista. Diseño intangible el artículo Escribir con la hoja: el dictado por voz como práctica de escritura. En el texto se detectan algunas de las consecuencias de la escritura: la máquina repetidamente no detecta ciertas palabras: “Para que este artículo se sienta, para que realmente suponga la puesta en práctica de un tipo de escritura jaja con la boca, me culpo a mi mismo la norma de no corregir lo que se va a escribir”.

“Quizá uno de los aspectos en los que (las tecnologías de voz a texto) pueden tener un enorme cambio cualitativo es en la puntuación automática”, confirmó Inza en un correo electrónico que escribió tecleando. “En este momento, para escribir por voz es necesario dictar los signos de puntuación o, en el caso de transcribir una entrevista, por ejemplo, introducirlos manualmente. Algunas herramientas disponibles para apuntar automáticamente; sola en algunos idiomas, pero estás ahí para trabajar con ella”, dice. Pero además, lo correcto son “minucias: quizá escribir a la velocidad que deben usar las manos sea para el futuro en el presente”, asegura.

Una de las claves del gran avance que ha permitido dominar las tecnologías de voz en texto en los últimos años ha sido el llamado Whisper, el modelo de reconocimiento automático de Habla (ASR, por sus siglas en inglés) que lanzó OpenAI. la final de 2022 La herramienta tiene su polémica: una investigación de la New York Times, OpenAI creó Whisper cuando se envió sin texto a través de Internet para potenciar su IA. Con Whisper se abre la puerta a todo YouTube, ofreciendo material más natural y conversacional que ingresa a GPT-4, su modelo de lenguaje más avanzado. Este uso, sin embargo, podría violar los estándares de YouTube, sin tener que garantizar la privacidad de los usuarios que aparecen en estos vídeos (Google, propietario del servicio de vídeos online, también utiliza este material para registrarse en su propio sitio).

Al margen de los guerreros tecnológicos, “Whisper lo ha cambiado todo”, sostiene José María Fernández Gil, jefe de la Unidad de Accesibilidad Digital de la Universidad de Alicante. “La IA intentó transcribir frases enteras, con sus puntos, sus comas, exclamaciones, interrogaciones… Y no hay errores de contexto angulosos, ni residuales, como ‘la cana es muy cómoda’, porque no hay distinción entre ene y eme”, ejemplifica. Por sí sola, la Universidad de Alicante utilizó el modelo para subtitular alrededor de 1.800 horas de vídeo con una precisión «impresionante».

Si bien hoy es preferible, Fernández Gil indica que todo el mundo tiene mal vocabulario y que algunos símbolos son equívocos, pero “mucho menos que los sistemas tradicionales”. Es cierto, el coste informático de Whisper es muy elevado, algo que está «a la par de la mayoría».

Otro tema que no tiene resultado es el proceso de diferentes aspectos y dialectos, «sobre todo lo relacionado con el uso local o regional», agregó Dayana Ribas, directora científica de Empresas de Servicios de Telecomunicaciones (BTS), empresa de telecomunicaciones que también utiliza estas tecnologías. diversos proyectos. Se menciona que la transcripción también cae cuando se usa en diferentes idiomas, situación «frecuente en la comunidad de países prácticamente bilingües, como es el caso de Puerto Rico». Lo que está pasando hoy, este tipo de detalles es un claro ejemplo del problema de tus amigos, lo sabes.

Además, se trata de temas como la transcripción de audios en escenarios realistas y cotidianos «que presentan una mezcla de distorsiones de diversa índole, por ejemplo, llamadas telefónicas con tus feeds ambientales», la corrección automática de errores y la necesidad «constante y creciente» de responder. al tema de la seguridad y la privacidad, añade el experto.

¿Pasamos a escribir mientras dictamos?

Con la tecnología y el punto caramelo, tendrás la siguiente pregunta: ¿habrá un momento donde la primera opción sea cuando queramos desarrollar un texto escrito que dictaremos a una máquina? Todos los expertos entrevistados coinciden con quienes los elogiaron y escribieron de forma distinta, porque es algo que siempre se debe tener en cuenta. Dayana Ribas cree que el dictado puede dar lugar a prácticas para las personas más creativas o para la escritura de emprendedores, porque «facilita la rapidez y la naturalidad en la producción y protección de las ideas» y nos permite hacer para que podamos hacer «otros». cosas semiautomáticas para la humanidad, como puedo cocinar u hornear, y necesito menos esfuerzo». Sin embargo, «para generar ideas más específicas y enfocar a los buscadores, como escribir un informe técnico o un cuento, es probable que el docente brinde el tiempo adecuado para pensar y producir las ideas con mayor control», agregó.

Al respecto, Miriam Inza recordó a Roland Barthes, quien le dijo “que la distancia entre la cabeza y la mano es mayor que la que existe entre la cabeza y la caja, y este tiempo se puede aprobar para la reflexión”. Una de las cosas que ha notado en sus investigaciones sobre «escribir con la caja» es que también cambia la forma de hacerlo. “Para escribir un texto con dictado por voz, hay que adoptar una forma específica de dictar”, explica.

También es posible que en todo esto se llegue a un receso generacional. Frente a la gente que llegó a escribir rápidamente en el teclado de un ordenador, “las nuevas generaciones han visto el icono del micrófono para dictar a los más pequeños y utilizarlos mucho”, afirmó José María Fernández Gil. Pienso, por ejemplo, en su mujer, que es adolescente y que, cuando utiliza el teléfono móvil, “prefiere dictarle sus solicitudes al escritor”. Por eso comentar tu obra es algo muy extendido en tu generación.

Por otro lado, un cambio en el instrumento de escritura para crear textos con características diferentes. Virginia Woolf, por ejemplo, está escribiendo una tarjeta con una máquina de escribir (con la intención de no hacerlo) como instrumento de lectura y rompiendo frases que establecen claridad y precisión en su cabeza. Respecto a todo esto, utilizar para escribir herramientas con IA también tiene su impacto: una encuesta reciente de la Universidad de Harvard concluyó que los textos escritos que ayudan con la predicción son “más deliciosos, más predecibles y menos coloridos” que aquellos que no las utilizan. ¿Cómo serán entonces los textos escritos “de boca” hoy en los estudios?

Una revolución para la accesibilidad

Desarrollar la tecnología de voz en texto no implica un solo avance en cuestiones de comodidad o rapidez en la realización de tareas específicas, pero será una opción que también ayudará a muchas personas. El responsable de la Unidad de Accesibilidad Digital de la Universidad de Alicante puso algunos ejemplos: se ayudará a las personas con déficit de auditoría, gracias a la generalización de los subtítulos automáticos, a «leer (leer)» lo que no se puede oír; mejorar la integración de personas de otros países y culturas combinando el reconocimiento de la lengua aprendida con la traducción; permitir “escribir bien a las personas que no saben escribir bien (nivel educativo, cultural, socioeconómico, etc.)”, además de facilitar la vida a las personas que, por problemas motores, no pueden tener dificultades para escribir. escribe usando tus manos.

Por su parte, Dayana Ribas también tiene las posibilidades que se abren desde el punto de vista del aprendizaje, porque “el sistema educativo con herramientas facilita calificar y estudiar”. También puedes cambiar muchas cosas en el área de atención al cliente. En un centro de salud, por ejemplo, los médicos podían atender mejor a los pacientes mientras el ordenador transcribía lo informado.

Al simplemente escribir un texto como este, el dictado será una mejor opción. “Tener opciones siempre es una venta. La elección de una forma u otro texto a producir será muy personal y en cualquier caso se filtrará por las características auditivas, visuales o reproductivas de cada persona para inspirar o preservar las mejores ideas», indica el director científico de BTS.

Quizás las imágenes de escritoras y escritoras, que pasaron de representar sus plumas a mano a exhibirlas en una pantalla, se convirtieron en un año en fotografías de personajes caminando y hablando al mismo tiempo. El cuestionario nro. “La tecnología dictada por voz está teniendo un fuerte impacto positivo en diversos trabajos de escritura. Pero incluso si algunos prefieren escribir a mano para determinar lo que sucede antes de que los profesores estén en el móvil o en una computadora, también tendrán la oportunidad de encontrar las claves más utilizadas por dictado. Una vez más, sólo el placer de poder escribir en silencio”, concluye Inza.

puedes seguir EL PAÍS Tecnología fr. Facebook Y X o haga clic aquí para recibir el nuestro boletín semestral.