![]() |
![]() |
||||||||||||||
Está en:
OEI - Programación-
CTS+I - Sala
de lectura -
![]()
![]()
Ponencia Taller Andino de Indicadores de Ciencia, Tecnología e Innovación. CAN, República de Francia, COLCIENCIAS, OcyT, RICYT, PUJ, 19-20 de Junio de 2001, Bogotá, Colombia.
RESUMEN: Se aborda en primer lugar el tema de los indicadores. Enseguida, nos referimos a la vigilancia científica y técnica. Y en conclusión, al sistema informático que hemos desarrollado y que está siendo utilizado para este trabajo de vigilancia CyT en el INIST.
Introducción
La expresión "indicadores infométricos" se utiliza para designar en su acepción la más general el uso de indicadores en el campo de la información. El concepto de informetría es mucho más vasto que el concepto de bibliometría o de cienciometría. Estos dos últimos designan sectores específicos en el campo de la información. En ambos casos, se trata del estudio cuantitativo de las publicaciones (documentos, textos). En el sector de la cienciometría, los indicadores bibliométricos son una parte solamente del análisis estadístico de la ciencia y tecnología como podemos observarlo, por ejemplo, en los informes de la RICYT.
Hemos adoptado el término infometría para significar las matemáticas aplicadas al análisis de la información, de la información científica y tecnológica, de aquélla que se materializa en las publicaciones científicas y patentes. Para nosotros las matemáticas aplicadas al análisis de la información constituyen un tema de investigación y de desarrollo. Como lo indican, por ejemplo, nuestras publicaciones sobre la redes neuronales. Y nuestro trabajo sobre los algoritmos de clasificación y de representación.
En este texto presentamos la experiencia de la unidad de investigación e innovación (URI) del INIST-CNRS. Esta experiencia se resume en la trío "métodos, indicadores e instrumentos informáticos". Es decir, nuestra preocupación está orientada por los problemas relativos a los métodos, la definición y formulación de indicadores, la programación informática de estos métodos e indicadores. La programación nos conduce al desarrollo de sistema informáticos.
Nuestro objetivo no es la publicación de indicadores de la ciencia y tecnología. Nuestro objetivo es el uso de indicadores bibliométricos (publicaciones científicas y patentes) en el marco de operaciones de vigilancia o inteligencia en el campo de la ciencia y de la tecnología. Aquí los indicadores no son un objetivo sino un medio al servicio de un análisis estratégico, de inteligencia, sobre las actividades científicas y tecnológicas tal que éstas son visibles en las publicaciones almacenadas en las bases de datos multidisciplinarias y temáticas (públicas o privadas).
Familias de indicadores
Nuestra experiencia enseña que debemos trabajar con tres familias de indicadores. La primera familia reúne los indicadores que están destinados a la evaluación y control de calidad de las fuentes de información. En el campo de la bibliometría científica estas fuentes la constituyen principalmente las revistas científicas de donde se extraen los datos bibliográficos que son almacenados en las bases de datos. El ejemplo más célebre de este tipo de indicador es el "factor de impacto" propuesto por el ISI y fundado en la citación.
La segunda familia de indicadores la constituyen aquellos indicadores con los cuales se realizan los análisis estadísticos de las publicaciones científicas y de las patentes, es decir, de los datos bibliográficos. Pertenecen a esta familia, el nombre de publicaciones como índice de actividad o de producción. Asimismo que los indicadores basados en las citaciones y las co-citaciones, o en las palabras claves asociadas.
La tercera familia está aún en germinación. Son los indicadores de conocimiento. Al respecto, véase la nota sobre estos indicadores en la conclusión de nuestro artículo: Using artificial neural networks for mapping of science and technology: A multi-self-organizing maps approach (Scientometrics, vol. 51, n· 1, 2001, p. 267-292). Este tipo de indicadores es indispensable cuando se trabaja en la vigilancia e inteligencia de la ciencia y la tecnología. Aquí no interesa tanto producir una información estadística. Importa mucho más, explotar el contenido de los textos para extraer los conocimientos que ellos representan. Y para lo cual necesitamos entonces los indicadores de conocimiento.
Es en el campo de los indicadores de conocimiento que desde ya hace bastante tiempo proponemos de considerar las palabras claves, enseguida los clusters y después los mapas como índices que nos permitien de extraer, medir y representar el conocimiento.
La base de datos PASCAL e indicadores
El INIST es el productor de la base de datos PASCAL. La RICYT produce indicadores bibliométricos a partir de esta base al mismo tiempo que de la base Science Citation Index (SCI) en tanto que bases de datos multidisciplinarias.
Por nuestra parte, con el objetivo que PASCAL sea una base de datos aún mas apta para la producción de indicadores bibliométricos, en el último año, hemos elaborado un conjunto de indicadores de calidad, es decir, de la primera familia. Estos indicadores permitirán en el futuro de calibrar las revistas analizadas en la base PASCAL. Estos indicadores son:
Factor FDP. El uso de las revistas para producir fotocopias de artículos científicos permite el cálculo de este factor de utilización. El número de copias de artículos de una revista en el lapso de un periódo T, en relación a la suma total de artículos publicados por esta misma revista durante T. El INIST es el segundo productor mundial de fotocopias de artículos científicos (mas o menos 700 000 fotocopias por año).
Factor IEL. Se trata de la interrogación "on line" de article@inist.fr en la Web. Es el cálculo de la visualización "on line" de los artículos consultados de una revista en un período T, en relación al número total de artículos publicados por esta misma revista durante T.
Factor CEL. Sobre la base de la consultación "on line" de las revistas en article@inist.fr es posible, igualmente, obtener este otro factor, aplicando un cálculo análogo al factor FDP: la suma de pedidos "on line" de fotocopias de artículos publicados en una revista en el período T, en relación al número total de artículos publicados por esta misma revista durante T.
Factor I. El cálculo de este indicador permitirá de medir el grado de internacionalización de las revistas. Este indicador tiene por base la distribución geopolítica (por países) de las afiliaciones de los autores de los artículos publicados por una revista. Para ello es necesario establecer un perfil de referencia según la especialidad (o disciplina científica) escogida, teniendo en cuenta que una revista pertenece simultáneamente a varias disciplinas. Se comparará el perfil de la revista con el perfil de referencia. Se considerará que una revista es más o menos internacional en la medida que su perfil es más o menos próximo del perfil de referencia.
Nos limitamos a expresar el concepto de estos indicadores cuyos modos de cálculo han sido definidos y su puesta en marcha es en curso de realización. Pienso que hacia fines del año podremos hacer un artículo basándonos en las primeros resultados obtenidos mediante la aplicación de dichos indicadores. Estos indicadores permiten evaluar las fuentes de información: las revistas científicas analizadas por la base PASCAL.
Los indicadores basados sobre la demanda y el uso de las revistas reflejan al menos el interés que los usuarios acuerdan a éstas como fuente de información. En cuanto al indicador de visibilidad internacional, la diversidad de países de afiliación de los autores de los artículos publicados en una revista, proporcionará una indicación de su importancia en el seno de la comunidad científica internacional según las disciplinas científicas consideradas.
Las citaciones no están excluidas. En estos momentos trabajamos en un proyecto para poder incorporar las citaciones en los datos bibliográficos de la base PASCAL. Los primeros resultados están previstos para fines del 2002.
Un indicador que interesa particularmente la vigilancia es el de la relación justamente entre ciencia y tecnología vista a través de los textos científicos y las patentes. Sobre este punto estamos trabajando igualmente (Elise Bassecoulard, Xavier Polanco, Michel Zitt, Science-Tecnology Relationship: The Lexical Connection. En: Book of Abstracts de la 6th International Conference on Science and Technology Indicators, Leiden, The Netherlands, 24-27 May 2000, p. 25).
Indicadores, métodos, instrumentos
La imagen que proponemos es el modelo del prisma. Se parte de una información que se considera "materia prima" y que, mediante la aplicación de métodos, indicadores e instrumentos informáticos, es transformada en información "elaborada", es decir, "manufacturada" en función de ciertos objetivos.
De esta forma, la información existente en las bases de datos es materia prima, y las bases de datos son yacimientos de donde se la extrae con el fin de ser elaborada.
El prisma que descompone la información-materia prima en sus diversos componentes está constituido por los métodos aplicados, los indicadores utilizados y los sistemas informáticos empleados.
Esta visión, que corresponde a la situación que llamamos "sociedad de la información", ha generado una práctica que conocemos bajo el nombre de "data mining", es decir, "minería de datos". Esto significa, la explotación de las bases de datos, en tanto que yacimientos de informaciones potencialmente útiles para la toma de decisiones estratégicas en los más diversos sectores de actividad (por ejemplo: investigación, comercio, finanzas, marketing).
Vigilancia científica y tecnológica
En nuestro caso, se trataría del "data mining" en el campo del conocimiento y al servicio de decisiones estratégicas en investigación científica y tecnológica. Es decir:
[1] Analizar la información con el objetivo de resolver un problema determinado. Por ejemplo en microbiología la resistencia a los antibióticos; o a propósito de las enfermedades de prión o bien el caso de las plantas transgénicas. Cito estos ejemplos porque ellos son trabajos que hemos realizado.
[2] Comparar posiciones para identificar las principales temáticas y actores (individuos o instituciones) involucrados en esas temáticas de investigaciones y que se encuentran en las artículos científicos, los informes, las tesis de doctorado, las patentes. Es decir, en diferentes tipos de publicación.
[3] Producir una información útil o bien rara y que interesa un campo de investigación. Se dice que una información es útil cuando ésta sirve las intenciones de un destinatario en particular. Lo que es útil para un físico puede no serlo para un biólogo. Lo que es útil para decidir al nivel de un director de investigación puede ser inútil para un administrador o un diputado. En suma, la utilidad está asociada al destinatario de la información. Se dice que una información es rara si es escasa, no abundante en las fuentes de información. En la teoría de la información, la entropía mide si una información es rara o no. En nuestro caso, no es un valor absoluto, la información "rara" es aquélla que no es frecuente, que no se encuentra a primera vista o en las publicaciones "mainstream".
[1] [2] [3] son las operaciones que englobamos aquí bajo la apelación de vigilancia científica y tecnológica. Estas operaciones determinan los indicadores así que los métodos que debemos utilizar. Los indicadores bibliométricos tradicionalmente producidos bajo la forma de datos estadísticos constituyen un elemento limitado de información. El paso siguiente es el uso de indicadores de contenido, es decir, aquellos que puedan expresar y medir, por ejemplo, los temas de investigación. Y el empleo de métodos capaces de producir estos temas a partir de grandes cantidades de datos bibliográficos, y de mostrar la posición relativa de estos temas en un espacio de representación.
Investigadores, textos y conocimientos
Les investigadores producen conocimientos que se encuentran materializados en publicaciones (es decir textos). De ahí la idea de contar las publicaciones como un indicador de producción o de actividad. Sin embargo, decir que el número de conocimientos es igual al número de publicaciones producidas en el periódo T es un enunciado absurdo. Necesitamos entonces indicadores que a partir de las publicaciones sean capaces de expresar los conocimientos contenidos en esa cantidad de información bibliográfica.
Nuestra experiencia es que las palabras claves son indicadores de contenido. Las palabras claves nos están señalando el contenido conceptual del documento. Los datos bibliográficos indexados constituyen la materia prima de donde se puede extraer el conocimiento utilizando los siguientes indicadores. Las clases o clusters generados por medio de una clasificación automática. Estos son indicadores de los temas de investigación, o de los centros de interés, alrededor de los cuales se agrega la información. El mapa representa un indicador estratégico en la medida que permite de apreciar la posición relativa de las clases o clusters en un espacio de conocimiento.
Este enfoque nos ha llevado hacia lo que hoy día se llama "knowledge discovery in databases" (véase Fayyad et al., 1996, p. 6-9: "A Definition of Knowledge Discovery in Databases". En: U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy (editors), Advances in Knowledge Discovery and Data Mining. Menlo Park: AAAI Press The MIT Press, 1996).
Análisis asistido por computador
Para concluir, nos referiremos al sistema informático que hemos concebido y desarrollado para realizar las tareas de análisis de la información científica y tecnológica en el marco de la vigilancia. Desde el momento que se trabaja con grandes cantidades de datos es entonces necesario utilizar la fuerza de ejecución de los computadores. Los computadores realizan tareas de acuerdo con programas. La elaboración de programas especialmente concebidos para ejecutar las tareas de análisis de la información constituye una parte central de nuestro trabajo de investigación y desarrollo. Llamamos aquí análisis de la información justamente la extracción de conocimientos por medio del análisis estadístico, la extracción de términos e indización de los datos, la clasificación automática o algorítmica y luego la representación de los clusters en cartas temáticas.
El resultado de nuestro trabajo en este campo es la estación de análisis de nombre STANALYST. Y para no repetirnos inútilmente, aquí se adjunta como documento anexo el texto en inglés que será publicado en la sección posters de los Proceedings de la 8th International Conference on Scientometrics & Informetrics, Sydney, Australia, 16-20 July 2001.
Una vez que la información ha sido analizada sirviéndonos de STANALYST es posible almacenarla y dar acceso a ella por medio del sistema llamado HENOCH, que reúne un sistema de gestión de bases de datos relacional (SGBD-R) y una interface gráfica WWW que posibilita interrogar y navegar al interior de la base de datos desde cualquier computador conectado a Internet utilizado Netscape o Explorer. Este sistema es accesible en http://henoch.inist.fr Ahí pueden consultarse algunos ejemplos. Otros están limitados para ciertos usuarios bajo un password.
Este es, en resumen, el dispositivo intranet y extranet que actualmente estamos usando para cumplir con tareas de vigilancia científica y tecnológica. La propiedad industrial de este sistema es del CNRS.
STANALYST: An Integrated Environment for Clustering and Mapping Analysis on Science and Technology
Xavier Polanco, Claire François, Jean
Royauté, Dominique Besagni, Ivana Roche
Unité de Recherche et
Innovation (URI)
Institut de l'Information Scientifique et Technique
(INIST)
Centre National de la Recherche Scientifique (CNRS)
2,
allée du Parc de Brabois 54514 Vanduvre-lès-Nancy
France
http://www.inist.fr
We have designed and developed STANALYST® which is used as Intranet form at the INIST in the domain of the scientific and technical information, for: [a] to search a data corpus from a given database, [b] to accomplish the descriptive statistical analysis of data, [c] to apply terminological recognition and extraction (in French and English) from titles and abstracts, [d] to detect in data their organization by themes using hierarchical and non hierarchical clustering procedures, [e] to picture the clusters organization in the forms of maps.
An Integrated Environment.
STANALYST is a computer system that provides specific means for the analysis of the scientific and technical information. The modules that compose STANALYST user interface are the following: [1] Reception, [2] Project, [3] Corpus, [4] Bibliometrics, [5] Indexation, [6] Informetrics
A Brief Description of the Modules.
The Reception is the access to system, here the user declares a name inscription and defines the password. The Project provides the way of defining the work under a project name. The user is the proprietary and has the possibility of giving access to his or her project to associated users. The Corpus provides the means for extracting from databases a bibliographic data set. The next module is called Bibliometrics because it provides the means to realize a descriptive statistic analysis of the collected bibliographic data. The Indexation provides the user with tool for an automatic indexation. The last module is Informetrics. Under this generic label, the system proposes two different methods for cluster analysis and mapping. The modules Corpus, Bibliometrics, Indexation and Informetrics present the possibilities of visualization of the results and unloading them on a file.
Linguistic-based Techniques.
The computational linguistic-based techniques used by STANALYST are designed to automatically extract the terminology used in a specialized language, on the basis of existing normalized nomenclature and its syntactical variations. This module supplies the tools for extracting terms (in English and French) and to dispense with manual indexing.
The linguistic analysis uses two categories of variations for identifying terms and their variants: inflectional and syntactical. The inflectional variation is used to identify the singular and plural noun forms for each term (deficiency / deficiencies), and the infinitive, past participle and gerundive forms of nouns / verbs (acoustic test / acoustic testing). Three types of syntactical variation are used for identifying terms: [a] "Insertion variation" concerns the addition of any word, other than the majority of grammatical words, within the noun group; for example, the sequence electron beam losses is associated with the term Electron loss. [b] "Coordination variation" concerns all paired word forms (adjectives and nouns) within a noun group; for example, the sequence electron and energy loss is associated with the same term Electron loss. [c] "Permutation variation" takes all the words or word groups that can be permuted around a pivotal element (prepositions and verb sequences); for example, the sequence loss of Fe 3D electrons is associated also to the term Electron loss.
Clustering and Mapping Programs.
These programs are called NEURODOC and SDOC and they are integrated in the STANALYST informetrics module. The first uses the axial k-means algorithm and building the maps with the help of the principal components analysis. The second applies co-word analysis and hierarchical agglomerative single linkage algorithm to generate clusters, and then uses cluster density and centrality parameters for locating them on the map.
The axial k-means method (AKM) is an unsupervised winner-take-all algorithm. The maximum number of clusters required is defined. The threshold of the document coordinates and keywords on the axes representing the classes allows to construct overlapping clusters: a document or a keyword can belong simultaneously to different clusters. In addition, the documents and keywords of each cluster are ordered according to a degree of similarity to the ideal type of the cluster (an ideal document or keyword located exactly on the axis of the class in the geometric space). The principal component analysis (PCA) displays the cluster positions on a map. Interpretation of the map therefore obeys PCA criteria. The position of the themes in space is interpreted based on the factorial axes.
The co-word analysis is based on co-occurrence and uses standard statistical coefficients to normalize the value of the association between two terms (or keywords). The Equivalence coefficient is used which is similar to the well-known coefficients of Dice and Jaccard or the cosine (also known as Salton coefficient). A single-linkage algorithm generates a bottom-up hierarchical clustering whose parameter is the definition of the maximum size (number of keywords) by cluster. The density and centrality values specific to each cluster are used to map them. These values correspond to the intra-cluster associations (density) and inter-cluster associations (centrality).
From Information to Knowledge.
How to convert information into knowledge using quantitative analysis of scientific and technical information? STANALYST provides four different information levels about the data under analysis. One is the descriptive statistical information about records items. The other is the linguistic information about the terms extracted from the data. The third is the clusters analysis information. The last is the spatial information provides by the maps about the relative position of the clusters. All these levels of information are provided by the system. The user must then analyze, cross and assess them in order to produce a useful knowledge. The task will be successful according to the interaction between the human users and the system. The human performance is relative to quality of the graphic user interface in this computer-assisted analysis environment.
L. Grivel, P. Mutschke, X. Polanco, Thematic Mapping on Bibliographic Databases by Cluster Analysis: A Description of the SDOC Environment with SOLIS, Knowledge Organization, vol. 22, num. 2, 1995, p. 70-77.
X. Polanco, L. Grivel, J. Royauté, How to Do Things with Terms in Informetrics: Terminological Variation and Stabilization as Science Watch Indicators, in Proceeding of the Fifth International Conference of the International Society for Scientometrics and Informetrics. Edited by M. E. D. Koening and A. Bookstein. Medford, N.J., Learned Information Inc., 1995, p. 436-444.
X. Polanco, C. François, and M.A. Ould Louly, For Visualization-Based Analysis Tools in Knowledge Discovery Process: A Multilayer Perceptron versus Principal Components Analysis. A Comparative Study, in J. M. Zytkow and M. Quafafou (editors) Principles of Data Mining and Knowledge Discovery. Berlin, Springer, Lectures Notes in Artificial Intelligence 1510, 1998, p. 28-37.
![]()
Formulario de suscripción gratuita a las Novedades del Programa CTS+I
![]()
| Sala de lectura CTS+I | |
| Ciencia, tecnología, sociedad e innovación |
![]()
Organización de Estados
Iberoamericanos
Buscador | Mapa del sitio | Contactar
| Página
inicial OEI|