![]() |
![]() |
||||||||||||||
Está en:
OEI - Programación-
CTS+I - Sala
de lectura -
![]()
Segundo Taller Iberoamericano sobre Indicadores en Ciencia y Tecnología, 24-26 de Abril de 1996, Cartagena de las Indias, Colombia
Publicado en Hernán Jaramillo y Mario Albornoz (Compiladores), El universo de la medición : La perspectiva de la Ciencia y la Tecnología. COLCIENCIAS, CYTED, RICYT. Bogotá, Tercer Mundo Editores (ISBN 958-9037-54-2), 1997, p. 335-350.
![]()
RESUMEN: Se presenta una infometría (alternativa a la cientometría tradicional) fundada en las tecnologías de la inteligencia. Basada en indicadores de conocimiento e instrumentos infométricos (NEURODOC, SDOC) que permiten de tratar el contenido de los datos bibliográficos y el lenguaje natural de los textos científicos y técnicos (plataforma ILC). La explotación de bases de datos gracias a motores de clasificación automática (generación de clusters) y mecanismos de representación en mapas, y aún más su integración en un sistema abierto al Internet (sistema HENOCH), constituye un instrumento potente de ayuda al análisis estratégico de la información científica y técnica.
![]()
1. Introducción
La cantidad de información acumulada en las bases de datos es considerable. Dar un sentido a toda esta información constituye un desafío para los investigadores en ciencias y tecnologías de la información y de la comunicación. Y por sobre todo, es un desafío para los responsables de política científica (en la toma de decisiones y en la definición de programas estratégicos).
El punto de vista que expondré, lo llamamos "Infometría", puesto que se apoya en métodos de estadística descriptiva multidimensional (multivariate data analysis). La infometría se inscribe, tal que nosotros la concebimos y la practicamos, en lo que se llama "Descubrimiento de Conocimientos en las Bases de Datos" (DCBD), se emplea igualmente el término "Data Mining" es decir Explotación de Datos (ED), para designar esta actividad de extracción de conocimientos. El DCBD se define como "la extracción, a partir de datos, de una información implícita, desconocida, potencialmente útil" (Kodratoff & Moulet 1995).
La perspectiva que deseo destacar es la de una ingeniería del conocimiento (knowledge engineering), capaz de hacer que el procesamiento estadístico de la información científica y técnica (ICT), cientometría tradicional, evolucione hacia el campo de las ciencias y tecnologías del conocimiento (inteligencia artificial y ciencias cognitivas). Esta ingeniería tiene por objetivo la creación de indicadores, métodos e instrumentos de naturaleza matemática, informática y lingüística permitiendo el análisis y la representación cartográfica de la ICT.
2. Tecnologías de la inteligencia
Objetivo de esta sección: definir la naturaleza particular de las tecnologías que hemos desarrollado en vista de un trabajo de "inteligencia" en el campo de la ICT. Definición: "social intelligence is the ability to gather, analyze, and apply information to ensure viability or success in a particular environment" (Cronin & Davenport, 1993).
Si llamamos inteligencia a las operaciones de análisis, evaluación y decisión relativas a la definición de estrategias, entonces podemos llamar tecnologías de la inteligencia, las tecnologías de la información al servicio de estas operaciones.
Las tecnologías de la inteligencia son instrumentos informáticos complejos de ayuda a la inteligencia, en este caso particular, en el terreno de la ICT.
Me referiré a dos sistemas concebidos para el análisis de la información, y que hemos desarrollado en el programa de investigación: la plataforma lingüística-infométrica ILC (sección 8) y el système infométrico HENOCH (sección 7). Los cuales se apoyan en dos programas infométricos NEURODOC y SDOC (sección 6). Estos sistemas constituyen tecnologías de la inteligencia al servicio del análisis, la evaluación y la programación estratégica. Pero antes precisaré la noción de análisis de la información (sección 5) y la cuestión de los indicadores de conocimiento (sección 4)
3. El universo de las bases de datos y la red Internet
Objetivo de esta sección: señalar el contexto actual, y que resumimos a estos dos factores, [a] el universo de las bases de datos, [b] el Internet como un nuevo espacio de comunicación y trabajo.
Las nuevas tecnologías de la información y la comunicación (TIC) contribuyen al hecho que la "sociedad industrial" progrese hacia lo algunos llaman la "sociedad de la información" (o "post-industrial"), en la cual la información juega un rol económico mayor. Es en este horizonte que las bases de datos constituyen verdaderos yacimientos de conocimientos y que el Internet abre un nuevo espacio de comunicación, intercambios y trabajo.
a) Bases de datos
La fuente de los datos estadísticos aquí expuestos es Williams (1995). Me limito a citarlos con el solo objeto de que tengamos una idea del contexto que ellas representan, su incremento, sus magnitudes, los tipos de bases y de datos acumulados.
Entre 1975 y 1995, las bases de datos (BD) pasan de 301 a 8.776. Los productores, de 200 a 2.778. Los vendedores, de 105 a 1.691. El número de datos acumulados presenta un incremento todavía más espectacular. En 1975, las 301 BD contienen cerca de 52 millones de datos. Las 8.776 BD en 1994 contienen aproximadamente 6,3 billones de datos, un crecimiento que se multiplica por un factor de 120,5.
Distribución de las bases según la naturaleza de los datos (1995) : las BD Bibliográficos representan 72%; las BD Numéricos 18%; BD Iconográficos 5%; las BD Fonográficos 2%; Otras, 3%. De 1985 a 1994, el desarrollo de las BD bibliográficos es de 67% y el incremento de las BD en texto integral es de 547 %. En 1995, el número de BD en texto integral es aproximadamente de 3.462.
Distribución de las BD por categoría: Economia y negocios, 32%; Ciencia, tecnología, ingeniería, 19%; Juridicas (derecho, leyes), 12%; Salud y ciencias de la vida, 9%; Otras 3%
En cuanto a la distribución geopolítica de las BD: en 1994, la distribución es de 63% en los Estados Unidos de América y 37 % en el resto del mundo. Por otra parte, se observa una evolución de los productores de BD del sector público hacia el privado. En los años 1970, los gobiernos eran responsables del 56% de las BD, los sectores no lucrativos y académicos e industriales privados del 22%; en 1994, las BD producidas por el comercio y la industria representan 76%; el sector público, 14%; el sector no lucrativo y académico, 10%.
b) Internet
El desarrollo de Internet se mide por el número de computadoras conectados a la red en el mundo, estas cifras no son exactas, sin embargo permiten de apreciar el orden exponencial de la evolución entre 1971 y 1995. Las fuentes son: CNRS & Universités (1995); NSF (National Science Foundation), ftp://NIC.MERIT.EDU/nsfnet/statistics/ (datos según el trafico observado sobre la red NSFnet). NCC (Network Coordination Center) de RIPE (Réseaux IP Européens) ftp://ftp.ripe.net/ripe/hostcount.
| 1971 |
23 |
1990 |
313.000 |
| 1974 |
62 |
1991 |
617.000 |
| 1981 |
213 |
1992 |
1.136.000 |
| 1983 |
562 |
1993 |
2.056.000 |
| 1985 |
1.981 |
1994 |
3.864.000 |
| 1987 |
28.174 |
1995 |
4.000.000 |
| 1989 |
159.000 |
1996 |
La evolución del número de computadores conectados al Internet en Europa: 1990, 29.230; 1991, 129.652; 1992, 284.374; 1993, 553.357; 1994, 1.029.270
De acuerdo a los datos que se encuentran en los anuarios del Internet (DNS), el número de computadores y de redes sobre el Internet dobla cada año. El número de utilizadores sigue esta misma curva: éste sería en 1995 del orden de 20 a 30 millones.
No me extrañaría, si hiciéramos un estudio estadístico de estos datos, que este nuevo universo responde al modelo de distribución de la ley de Pareto o de las leyes bibliométricas bien conocidas de Bradford, Lotka, Zipf; y por lo tanto, al modelo general de Price (1976) de la "distribución de ventajas acumulativas".
Es en este contexto que postulamos la infometría como una ingeniería del conocimiento (sección 4) al servicio del análisis estratégico de la ICT (sección 5), utilizando tecnologías capaces de asegurar un trabajo cooperativo en línea sobre el contenido cognitivo de los datos (secciones 6, 7 y 8). Se dice que para la economía de la información, el valor esencial no reside en el soporte físico (papel o electrónico) sino que en el contenido de la información. De ahí, entonces, el interés de la orientación de nuestro programa de investigación en infometría y de las tecnologías que hemos concebido y desarrollado.
4. Indicadores de conocimiento
Objetivo de esta sección: la adquisición de conocimientos no se realiza a partir de un experto o de varios, sino que del conocimiento existente en las BD bibliográficos, con el objeto de construir bases de conocimientos. Y este trabajo lo llamamos ingeniería del conocimiento.
El conocimiento por el cual aquí nos interesamos no es el conocimiento subjetivo, es decir aquél que posee cada uno de nosotros como "know-how" (o "expertise"). Es el "conocimiento objetivo" en el sentido de Popper (1979). En particular, aquél que se hace objeto en las publicaciones científicas, y sobre el cual podemos trabajar a partir de los artículos científicos y patentes (data-texts).
De acuerdo con esta perspectiva, el ingeniero debe ocuparse no del conocimiento en acción en la competencia de los individuos (sujetos del conocimiento), sino que del conocimiento producido y almacenado en las BD. El objetivo es la creación de bases de conocimiento adaptadas para la toma de decisiones, la definición de estrategias, y la evaluación del estado de la ciencia y la tecnología a un momento dado.
Además es necesario, en este trabajo, apoyarse en una ingeniería lingüística (sección 8), puesto que el "conocimiento objetivo" es un conocimiento escrito, es decir, expresado en el lenguaje escrito y que descubrimos en las publicaciones.
Se estima que es necesario, en la sociedad de la información, crear un sistema métrico de lo inmaterial. Podemos considerar que la infometría representa esta tarea de creación de una métrica de lo inmaterial, es decir, del conocimiento. Y como he dicho, las técnicas infométricas que hemos desarrollado tienen por objetivo explorar, analizar y representar los conocimientos no manifiestos pero contenidos en las BD.
Pero para trabajar en esta métrica de lo inmaterial necesitamos definir indicadores de conocimiento. Con respecto a la bibliometría y cientometría tradicionales, podemos invocar esta distinción: "document and knowledge are not identical entities" (Brookes 1980). A la diferencia de la bibliometría y de la cientometría tradicionales, nuestro objetivo no es la realización de operaciones estadísticas sobre documentos o datos bibliográficos. Los datos (es decir, referencias bibliográficas) constituyen la materia prima de la cual nos proponemos extraer el conocimiento, utilizando indicadores de conocimiento.
El objetivo es pasar del análisis de documentos (nivel 1 o bibliográfico), de autores o investigadores (nivel 2 o sociológico), al estudio del conocimiento que ellos producen y difunden a través de sus escritos (nivel 3 o del conocimiento objetivo). Para hacerlo, necesitamos un dispositivo capaz de representar el conocimiento publicado y contenido en los documentos. En las secciones siguientes expongo justamente este dispositivo.
Los lazos que existen entre estos tres niveles de análisis (pues ellos forman una red) permiten de realizar el análisis global de un frente de investigaciones (textos + autores + conocimientos).
Desde un comienzo, fue notorio que había necesidad de desarrollar indicadores de conocimiento (ver la introducción general, así que la contribución de Holton, en Elkana y al. 1978). La estadística bibliográfica (o bibliometría), el análisis de citaciones y de co-citaciones, representan a mi juicio lo que podríamos calificar como cientometría "externalista". La alternativa de las palabras asociadas, propuesta al comienzo de los años 1980 (Callon y al, 1983), simboliza la apertura hacia una cientometría "internalista" o "cognitiva" y en la cual las palabras claves son indicadores de conocimiento. Es en esta tradición que se inscribe nuestro programa de investigación en infometría. Y que podemos resumir así: [1] empleo de las palabras claves para representar el conocimiento contenido en los documentos; [2] agrupamiento de las palabras claves en clases o clusters para representar los temas alrededor de los cuales se agrega el conocimiento contenido en los datos bibliográficos, asimismo que los autores, laboratorios, países, y periódicos científicos; [3] colocación de los temas o clusters en un espacio bidimensional (Y,X), afin de darles una representación estratégica sobre una carta o mapa del campo científico o tecnológico que se analiza.
5. Análisis de la información
Objetivo de esta sección: la noción de análisis de la información desde el punto de vista de la infometría, es decir, de un modelo que tiene sus bases en la estadística descriptiva multidimensional. Definición: la aplicación de técnicas de clasificación automática y de representación gráfica (cartografía) del contenido cognitivo y factual de los datos. Esta definición del análisis de la información es operacional a través de los programas NEURODOC y SDOC (ver sección 6).
El análisis de la información se acerca de lo que se llama "data mining" (Holsheimer & Siebes 1994): "technology used to extract useful information from vast amounts of accumulated data, in order to maximize the amount of useful information extracted, by means of inductive learning techniques and knowledge representations". En efecto, nosostros buscamos a extraer una información que no es "necessarily a faithful copy of information stored in the database, rather, it is information that can be inferred from database, but it is hidden among vast amounts of data".
Para realizar esta función de análisis de la información, o "knowledge discovery", utilizamos métodos de clasificación automática que desde el punto de vista de las matemáticas pertenecen, al igual que los métodos factoriales, a la estadística descriptiva multidimensional o análisis multidimensional de datos (multivariate data analysis). Los métodos de clasificación automática (cluster analysis) no pueden ser aplicados que a partir de la representación vectorial de los datos bibliográficos. Por ejemplo, una matriz de 7.000 documentos (líneas) y 350 palabras claves (columnas).
El objetivo de las técnicas de clasificación automática es de producir el agrupamiento de líneas o de columnas de una matriz. En general, se trata de objetos o individuos (i. e. artículos científicos) descritos por un cierto número de variables (i.e. fecha, países, autores, laboratorios, revistas) o caracteres (i.e. palabras claves significando el contenido). El recurso a las técnicas de clasificación automática supone que ciertos agrupamientos deben existir (bottom-up), o al contrario se exige que sean realizados (top-down).
No basta una visualización plana y continua de las asociaciones estadísticas, lo que nos interesa aquí es la "mise en évidence" de las clases de individuos o de caracteres. Las clasificaciones se manifiestan bajo diversas formas: sea como particiones de los conjuntos estudiados (líneas o columnas de la matriz), sea como jerarquía de particiones, o bien como árboles (en el sentido de la teoría de grafos).
Las técnicas de clasificación son esencialmente algorítmicas, es decir que la definición de las clases se realiza de acuerdo a una formulación algorítmica, esto es, una serie recursiva y repetitiva de operaciones. Existen diferentes familias de algoritmos de clasificación: [1] algoritmos que producen directamente particiones como los métodos de agregación por centros moviles; [2] algoritmos ascendentes o aglomerativos que proceden a la construcción de clases mediante una aglomeración sucesiva de los objetos de dos en dos, produciendo una jerarquía de las particiones de los objetos; [3] algoritmos descendentes o divisores que proceden por dicotomías sucesivas del conjunto de objetos, y que pueden incluso dar lugar a una jerarquía de particiones.
Hemos desarrollado dos técnicas de análisis fundadas en métodos de clasificación que reúnen los objetos en clases por medio de algoritmos que pertenecen a [1] y [2]. Son respectivamente los programas NEURODOC y SDOC desarrollados en lenguaje C y en UNIX (Grivel & François 1995). El primero, de inspiración neuronal, está basado en el método de "k-means axiales" (Lelu 1993). El segundo utiliza la técnica standard "single linkage" para realizar lo que en cientometría se conoce como "co-word analysis", es decir el "método de las palabras asociadas" (Callon y al. 1993). El objetivo común es de señalar los temas contenidos en una masa de información bibliográfica, alrededor de los cuales se agrega esta información (i.e. artículos, periódicos, autores, laboratorios). En seguida, de visualizar estos temas sobre una carta o mapa, cuestión de poder apreciar sus posiciones relativas en el espacio de conocimiento.
Además, los dos programas utilizan, en tanto que tecnologías de la inteligencia, la técnica hipertexto (red activa de nodos y relaciones), que permite al usuario de navegar, o desplazarse, al interior de los temas, sirviéndose de cartas interactivas. Lo que representa una ayuda importante para la visualización y explotación de los resultados de la clasificación automática.
La difusión de las aplicaciones de NEURODOC y SDOC puede hacerse de dos maneras, sea utilizando como soporte diskettes para Hypercard-MacIntosh y Winhelp-PC, sea directamente por Internet mediante una interface W3 (ver seccion 7).
6. Generación de clusters y mapas
Objetivo de esta sección: los algoritmos de clasificación empleados para la generación de los clusters; la propiedades de los clusters producidos por NEURODOC y SDOC, asimismo que de los mapas, en tanto que instrumentos de análisis estratégico de la ICT. Definición: entendemos por análisis estratégico de la ICT, aquél cuyo propósito es de responder a la cuestión ¿quiénes trabajan sobre qué temas, en dónde, y cuándo? (qui fait ou sait quoi, où et quand?; who is doing what, where, and when?).
a) Métodos
K-means axiales (NEURODOC): El método de "k-means axiales" (Lelu 1993) pertenece a la familia de algoritmos de clasificación por centros mobiles, y es una variante del algoritmo bien conocido "k-means" de MacQueen, en su version adaptativa, y del algoritmo de Forgy, en el caso iterativo. Formalmente, este método está ligado a los modelos neuronales aplicando una ley de aprendizaje no supervisado de tipo "winner takes all" (Lelu & François 1992). En lugar de construir los clusters en función de la definición de centros de gravedad como es habitual, las clases son aquí definidas por medio de K semi-ejes (maximizando el criterio de inercia inter-ejes).
Co-ocurrencia & Single Linkage (SDOC): A partir de la co-ocurrencia, este método utiliza coeficientes estadísticos para normalizar el valor de la asociación entre dos términos (o palabras claves). El índice utilizado, es Ci2 / Ci*Ci, cuyos valores varían entre 0 y 1, Cij es la suma de las co-ocurrencias de las palabras claves i y j, Ci la frecuencia de la palabra clave i, Cj la frecuencia de la palabra clave j. Este índice llamado de "equivalencia" (Michelet 1988) se asemeja a los coeficientes bien conocidos de Dice, de Jaccard, o del cosinus (o coeficiente de Salton). Para la generación de clusters, SDOC aplica un algoritmo de "single-linkage" (clasificación jerárquica ascendente), cuyo parámetro es la definición de la talla maximal (número de palabras claves) por cluster.
b) Clusters
Los clusters NEURODOC: El algoritmo de k-means axiales, parametrado por el número maximal de clusters deseados, y el umbral de las coordenadas de los documentos y de las palabras claves sobre los ejes representando las clases, permite de construir clusters que tienen la propiedad de recubrirse, en el sentido que un documento o una palabra clave puede pertenecer simultáneamente a varios clusters. Además, los documentos y las palabras claves de cada cluster están ordenados de acuerdo a un grado de semejanza al tipo ideal del cluster (que es un documento o una palabra clave, ficticios y que se encuentran colocados exactamente sobre el eje de la clase en el espacio geométrico).
Los clusters SDOC: Los clusters están constituidos de palabras asociadas entre ellas (asociaciones internes o intra-cluster). Los clusters pueden presentar además asociaciones entre ellos (inter-clusters), cuando existe una asociación entre dos palabras claves perteneciendo a dos clusters diferentes (asociación externe), y la talla del nuevo cluster que habría resultado de la reunión de estos dos clusters es superior a la talla maximal definida. De esta manera, cada clusters representa un grafo de palabras asociadas (micro-red) ligado a otros por las asociaciones inter-cluster o externas (macro-red).
Después del proceso de clasificación de las palabras claves, los documentos son afectados a los clusters. Un documento es afectado a un cluster si en las la palabras claves (de son indización) existe al menos una pareja de palabras claves que pueden constituir una asociación interna o externa del cluster.
c) Mapas
Para visualizar la posi¢ión de los clusters en un mapa, NEURODOC utiliza un método factorial standard, el análisis en componentes principales (ACP). La interpretación (o lectura) del mapa obedece entonces a los criterios del ACP. La proximidad entre dos temas sobre el mapa indica que ellos están definidos por palabras claves caracterizando temas conexos. La posición de los temas en el espacio se interpreta en función de los ejes factoriales. En principio, los temas mejor representados se sitúan en las extremidades de los dos ejes.
SDOC utiliza los valores de "densidad" y "centralidad" propios a cada cluster y que son los valores de las asociaciones intra-clusters (densidad) e inter-clusters (centralidad); de esta forma la gráfica no es una distribución de puntos en función de las coordenadas factoriales, sino que es un red que el hipertexto permite al usuario de actualizar y navegar siguiendo las asociaciones inter-clusters, de un cluster a un otro, asimismo que al interior del clusters como hemos visto en [b].
La "densidad" de un cluster es el valor medio de las asociaciones internes del cluster (sobre Y). La "centralidad" es el valor medio de sus asociaciones externas (sobre X).
7. El sistema HENOCH
Objetivo de esta sección: presentar la integración de la infometría (sección 4, 5 y 6) en un sistema de información abierto al Internet y al servicio del análisis estratégico de la ICT.
Este sistema responde al proyecto de incorporar el análisis infométrico de la ICT en el proceso de producción del INIST: [1] interrogación periódica de las bases de datos, [2] procesamiento de los datos utilizando los instrumentos infométricos (NDOC, SDOC), de manera periódica y regular, [3] descargar estas aplicaciones en una BD organizada de acuerdo a un SGBD, (por ejemplo ORACLE, es decir, relacional, podemos por cierto considerar la posibilidad de evolución hacia un sistema orientado-objeto), [4] acceso a la BD infométrica a través de una arquitectura cliente-servidor, [5] una interface usuario WWW en el Internet permite la visualización y exploración de los resultados (a distancia y en línea).
En la figura 1 se llama "sistema infométrico" a los elementos que han sido presentados en las secciones 4, 5 y 6, cuando se trata de los programas NDOC y SDOC, podemos hablar de "motores de clasificación automática y de cartografía". De la aplicación de estos motores sobre los datos (materia prima) resulta una información elaborada que es almacenada en una BD. El SGBD permite la organización, el acceso y la gestión de esta BD. La interface usuario pone en forma los datos del SGBD para presentarlos al usuario, y transmite las demandas del usuario al SGBD. El sistema de gestión (SGBD) interpreta la demanda y obtiene les informaciones contenidas en los datos bibliográficos y en los clusters (BD).
Se trata de un dispositivo que permite, a una escala industrial, y abierto a la red mundial del Internet, de practicar metodicamente el procesamiento infométrico de la ICT, y de trabajar en cooperación y a distancia. Este sistema es multibase (en input), es decir, independiente de las BD de donde provienen los datos bibliográficos. Los resultados de las aplicaciones constituyen "perfiles" (output) y el derecho de acceso puede ser reservado o público según los casos.

Figura 1: El sistema HENOCH
7. La plataforma lingüística-infométrica ILC
Objetivo de esta sección: el aporte de la ingeniería lingüística al sistema infométrico, ¿como acercarse y representar el conocimiento escrito apoyándose en instrumentos lingüísticos capaces de revelar las formas terminológicas utilizadas por los investigadores en los textos científicos y técnicos?.
Definición: llamamos lingüística computacional o informática (o informática lingüística), el procesamiento informático del lenguaje natural (en inglés, NLP, es decir: "natural language processing"), permitiendo a los instrumentos infométricos (NEURODOC, SDOC) de operar a partir del texto integral (full-text) y definir indicadores lingüísticos. ILC significa "Infometría, Linguística, Conocimento". En esta sección resumo lo ya expuesto en (Polanco y al. 1995a ; 1995b).
La plataforma ILC, ver figura 2, permiten detectar los términos que varían y aquellos que no varían en el lenguaje científico empleado por los autores de los textos. Cuando se trata del lenguaje natural, debemos tener en cuenta el idioma, su sintaxis (inglés, francés, español). Así, por ejemplo, el término científico "Electron Loss" es reconocido a partir de las formas lingüísticas concretas "electron beam losses" (variación de inserción), "loss of fe 3d electrons" (variación de permutación) y "electron and energy loss" (variación de coordinación).

Figura 2: La plataforma ILC
La hipótesis que guía nuestro trabajo en el terreno de la lingüística computacional, es que la "variación" es un fenómeno lingüístico que puede ser utilizado como indicador de conocimiento en el análisis infométrico de la información.
Identificamos tres categorías de variación: [1] la "variación flexional", las formas singular y plural de los sustantivos ("deficiency - deficiences"), y las formas verbales ("acoustic test - acoustic testing"); [2] la "variación sintáctica" que con la anterior es central en nuestro procedimiento de análisis lingüístico de los textos científicos; [3] la "variación morfo-derivacional" integra en una terminología los fenómenos de sustantivación y de adjetivación (sustantivación del adjetivo, sustantivación del verbo, adjetivación de los sustantivos).
Tratamos tres clases de variación sintactica: [1] la "variación de inserción", ella concierne toda palabra al interior de un grupo nominal, ejemplo: "X ray absorption spectroscopy" es asociado al término "X ray spectroscopy"; [2] la "variación de permutación", ella concierne todas las formas coordinadas entre palabras (adjetivos o sustantivos), ejemplo: "differential and integrated cross sections" es asociado al término "Differential cross section"; [3] la "variación de coordinación", ella implica todas las palabras o los grupos de palabras que pueden permutar alrededor de un elemento (preposiciones o secuencias verbales), ejemplo: "range of power modulation fequency" es asociado al término "Frequency range"
Dándole a estos fenómenos lingüísticos una formulación cuantitativa, buscamos producir un nuevo tipo de indicador, un indicador lingüístico de conocimiento mucho mas rico (desde el punto de vista de la información que aporta) que las simples palabras claves que representan verdaderos estereotipos.
Para utilizar la variación desde un punto de vista infométrico, hemos definido índices de variación. Se trata del "índice de variación" de los términos, Vari=n/N, es decir, la variación del término i se expresa por el cociente del número de documentos indexados por este mismo término i bajo una forma invariante, n, y el número total, N, de documentos indizados por el mismo término i. Y el "índice de productividad de la variación en los clusters", esto es, el número total de la formas variantes de los términos de un cluster dividido por el número de términos del cluster.
El aspecto lingüístico del análisis infométrico consiste en utilizar el índice de variación para caracterizar los clusters, en función del fenómeno lingüístico de la variación que hemos observado en los textos mismos. Ello permite de ordenar los clusters según el "índice de productividad de la variación en los clusters". La intención es de utilizar este índice para detectar, al interior de esta unidad (cluster=indicador de un tema de investigación), el grado de estabilidad o de variación de los términos utilizados en los textos científicos y que componen un cluster.
Asociando lingüística computacional e infometría, avanzamos en el terreno de una ingeniería al servicio del análisis estratégico de la ICT, interesada por captar su contenido, es decir, el conocimiento. Puesto que ahora disponemos de instrumentos, métodos e indicadores para responder al problema de cómo abordar y representar el conocimiento escrito: técnicas lingüísticas capaces de tratar las formas terminológicas utilizadas por los investigadores en los textos científicos y tecnológicos. La cuestión de fondo es poder distinguir las formas "normales" a través de las cuales se expresa un cierto consensos científico o tecnológico, la nomenclatura invariante de una disciplina, de las formas "variantes" que detectamos empíricamente al nivel del lenguaje escrito.
B. Brookes, [1980] "The foundations of information science. Part I. Philosophical aspects", Journal of Information Science, vol. 2, 1980, p. 125-133.
M. Callon, J-P Courtial, W A Turner, S. Bauin [1983] >From Translation to Problematic Networks: An Introduction to Co-Word Analysis, Social Science Information, vol. 22, 1983, p. 191-235.
M. Callon, J-P. Courtial, H. Penan [1993] La Scientométrie. Paris, Presses Universitaires de France, Que sais-je? n· 2727, 1993.
CNRS & Universités [1995] L'Internet professionnel. Paris, Editions du CNRS, 1995.
B. Cronin & E. Davenport [1993] "Social Intelligence", Annual Review of Information Science and Technology, vol. 28, 1993, p. 3-44.
Y. Elkana, J. Lederberg, R.K. Merton, A. Tackray, H. Zuckerman (éds.) [1978] Toward a Metric of Science: The advent of Science Indicators. New York, Wiley, 1978.
L. Grivel & C. François [1995] "Une station de travail pour classer, cartographier et analyser l'information bibliographique dans une perspective de veille scientifique et technique", SOLARIS 2, Presses Universitaires de Rennes, 1995, p. 81-112.
M. Holsheimer & A.P.J.M. Siebes [1994] Data Mining: the serach for knwoledge in databases. Amsterdam, Centruum voor Wiskunde en Informatica (CWI), Report CS-R9406 (ISSN 0169-118X), 1994.
Y. Kodratoff & M. Moulet [1995] "Découverte de connaissances dans les bases de données : présentation du problème et état de l'art", Actes des 5èmes Journées Nationales PRC-GDR Intelligence Artificielle, Nancy, 1,2,3 février 1995, p. 283-296.
A. Lelu & C. François [1992] "Automatic Generation of Hypertext in Information Retrieval Systems", Proceedings ECHT'92 (Milan, Italy). D. Lucarella et al. (eds). New York: ACM Press, 1992, p. 112-121.
A. Lelu [1993] Modèles neuronaux pour l'analyse de données documentaires et textuelles. Thèse de Doctorat, Université de Paris 6, 1993.
Michelet [1988] L'Analyse des Asocciations. Thèse de Doctorat. Université de Paris 7, 1988.
X. Polanco L. Grivel, J Royauté [1995a] "How to Do Things with Terms in Informetrics: Terminological Variation and Stabilization as Science Watch Indicators", Proceedings 5th International Conference on Scientometrics and Informetrics, River-Forest (Chicago), USA, June 7-10, p. 435-444.
X. Polanco, J. Royauté, L Grivel, A. Courgey [1995b], "Infométrie et Linguistique Informatique : Une approche linguistico-infométrique au service de la veille scientifique et technologique", Les systèmes dinformation élaborée, Mai 30-Juin 2, Ile Rousse, Corse, France.
K.R. Popper [1979] Objective Knowledge. Oxford, The Clarendon Press, 1979.
de Solla Price [1976] "A General Theory of Bibliometric and Other Cumulative Advantage Processes", Journal of the American Society for Information Science, vol. 27, sept-oct. 1976, p. 292-306.
M. Williams [1995] "Database Publishing Statistics", Publishing Research Quarterly, vol. 11, n· 3, 1995, p. 3-9.
![]()
Formulario de suscripción gratuita a las Novedades del Programa CTS+I
![]()
| Sala de lectura CTS+I | |
| Ciencia, tecnología, sociedad e innovación |
![]()
Organización de Estados
Iberoamericanos
Buscador |
Mapa del sitio |
Contactar
| Página inicial OEI|