martes, 8 de febrero de 2022

Oraciones reunidas Vs anexionadas

Me ha costado bastante, pero la obsesión por dar un primer paso óptimo ha conseguido perfeccionarse mediante un proceso de documentación y estudio como para alcanzar un pasito muy meticuloso. 

Es bien sabido que la manera más eficiente a la hora de almacenar datos suele ser mediante un modelo relacional, sin embargo Donald Davidson tenía un mecanismo para representar afirmaciones que reducía las relaciones a sólo dos argumentos. Hasta aquí podríamos decir, bueno, no pasa nada: trabajamos con ambos enfoques. Pues bien, craso error: los expertos en bases de datos saben que el modelo relacional puede ofrecer información espúrea cuando los datos no estén bien reunidos, es decir se trata de los estudios en 5FN. O dicho de otra manera, o se normalizan las correspondencias de manera que todo sea de una única manera o tendremos información falsa que se hace pasar por verdadera o, simplemente, se tendrá que gestionar de manera poco eficiente toda la información para perder algunos servicios.

El problema que estoy citando es exactamente el mismo que tienen los físicos cuando usan la palabra "enmarañar". Es decir, en ocasiones aparece una información a modo de alias que subyace de una manera no muy correcta de reunir los datos. 

Por tanto, o Davidson o no Davidson . Es decir, o representamos las cosas de dos en dos, o no. Para alguien como yo que tiene desarrollado la conexión entre match3D y SAT mediante un algoritmo polinomial, y que además asegura todo lo que asegura sobre los problemas NP, mi opinión sobre cómo afrontar esta implementación puede ser tremendamente interesante. Así que ni se trata de un tema trivial entre filósofos, ni tampoco es un tema oficialmente cerrado entre informáticos.

Muchos dirán, "obviamente Davidson tenía razón porque sus asertos ayudan a responder más fácilmente las preguntas (entailment)", otros apuntarán a que hay aspectos que el propio Davidson ignoraba como interesantes a la hora de resolver el Pascal Challenge que se abrió tras su muerte. Así que parecería que si el Pascal Challenge (saber si una pregunta puede ser respondida en un texto y de qué manera) está más cerca de esa representación con una filosofía conectivista cabe esperar que esa representación es hegemónica.

Ahora bien, te pones a trabajar en bases de datos y nadie almacena así las cosas. La razón es simple: las consultas en SQL necesitan más velocidad, acceder a información mediante indexaciones y la "basura" que usa Davidson no permite hacer clusters indexados, ni optimiza la dispersión de los datos para aprovechar el Principio de optimabilidad de la información. Es decir, es bueno para pensar de forma lógica, pero no para procesar la información a la hora de almacenarla.

Así que, una vez dicho esto hay que sintetizar toda la información y tomar una decisión. He estado leyendo por aquí, por allá..., pero no he visto nada. Parecería que soy el primero en pensarlo, cuando a mí me parece que no es para tanto...

Se puede encontrar un ensayo..., que no recuerdo ahora la referencia (tendría que buscarlo) que nos contaba que a la hora de responder preguntas interesa distinguir en las frases qué rol ocupa dentro del diálogo: podía ser un protocolo como un saludo, un enunciado, una respuesta a una pregunta, una pregunta que espera confirmación, o una pregunta misma, así como un anexo al tema principal (como cuando aparece una subtrama a la historia de nuestro héroe). Ese enfoque se convirtió en una buena aproximación, y presentó un estudio empírico interesante sobre cómo incorporar cada uno de esos tipos de frases.

Digamos que hay que ir un poquito más allá, pero sin complicar demasiado. Cabe esperar que al final el número de frases que incorporan un rol dentro del diálogo, o de cualquier texto, sea finito y sencillo a la hora de representar como si fueran un patrón dentro del idioma el marco de pensamiento que usa el sujeto.

Así que ya lo tengo: una cosa son las frases enunciadas que reunen todos los datos para almacenarlos, y otra cosa son las anexiones a esas frases que son citadas para reunir tal información. Cada una tiene su representación, una sin Davidson , y otra con Davidson . La base de datos será 100% SQL, y tiraremos de Codd para normalizarlo a 3FN - como nos dice la experiencia que es lo mejor. Pero a la hora de meter información desde la auditoría lo que tenemos son pares de datos que deben ser reunidos. Más sencillo no se puede hacer, porque sería tremendamente ineficiente para los objetivos deseados.

Ahora bien, no me quedaré aquí. Ya tengo preparado la dinámica y cómo se montará dentro de una aplicación. La gamificación necesaria para que la computadora adquiera el lenguaje postulo que coincide con la misma gamificación que necesitaría un adulto o niño. Y es aquí donde me meto en un viaje fascinante: ¿con mis anotaciones de 6 patrones de anexo de negación podría crear un juego que convierta el L2 en un lenguaje a adquirir? Es decir, creo que separando las partes de la gramática la información se metería de una manera más natural con este enfoque (porque es la manera más eficiente de usar la información desde la auditoría).

Así que, empero, tengo un sistema de falsación.

Todo esto combinado con un sistema que genera una gramática supuestamente tan potente como la del lenguaje natural mediante piezas que se conectan en paralelo parece encajar con el sistema de control motor, cuya administración neuronal funciona en paralelo y no en serie (cuando usamos los esquemas de Chomsky) según los estudios de, por ejemplo, Alexander y Cruncher?? (¿se escribe así?) por el 86. No tengo ganas de comprobar si era exactamente esos.

Por lo que parecería que todo encaja..., que no es por verificación, sino que realmente encaja porque no hay otra. No sé.


Ahora solo queda que quiera implementar esa parte de la gramática para comprobar con alguna clase de prueba de ciego que funciona para aprender los casos del..., ruso, por ejemplo. Y es que no hay que olvidar que nosotros aprendimos el castellano antes de que nos "enseñaran" castellano en el colegio "oficialmente". Por lo que la manera aprender castellano no es la oficial. De donde urge la duda: ¿entonces cómo lo aprendimos (o más bien, adquirimos)? Obviamente el listillo que salga con una fórmula lo acribillan a insultos - de eso estoy plenamente seguro.

Así que solo me queda este blog para desahogarme.



No hay comentarios:

Publicar un comentario

Tierra: Día 19/07/24 punto de inflexión

Ayer se produjo el punto de inflexión a escala mundial. Dependiendo de lo que hagan y no hagan los gobiernos tras lo sucedido ayer las dos c...

Entradas populares