banner
Hogar / Blog / El punto de referencia de respuesta a preguntas científicas de SciQA para el conocimiento académico
Blog

El punto de referencia de respuesta a preguntas científicas de SciQA para el conocimiento académico

May 24, 2024May 24, 2024

Scientific Reports volumen 13, número de artículo: 7240 (2023) Citar este artículo

2289 Accesos

12 altmétrico

Detalles de métricas

Los gráficos de conocimiento han ganado cada vez más popularidad en la última década en ciencia y tecnología. Sin embargo, los gráficos de conocimiento son actualmente estructuras semánticas relativamente simples a moderadas que son principalmente una colección de declaraciones fácticas. Hasta ahora, los sistemas y puntos de referencia de respuesta a preguntas (QA) estaban orientados principalmente a gráficos de conocimiento enciclopédicos como DBpedia y Wikidata. Presentamos SciQA, un punto de referencia científico de control de calidad para el conocimiento académico. El punto de referencia aprovecha el Open Research Knowledge Graph (ORKG), que incluye casi 170 000 recursos que describen las contribuciones de investigación de casi 15 000 artículos académicos de 709 campos de investigación. Siguiendo una metodología ascendente, primero desarrollamos manualmente un conjunto de 100 preguntas complejas que se pueden responder utilizando este gráfico de conocimiento. Además, diseñamos ocho plantillas de preguntas con las que generamos automáticamente otras 2465 preguntas, que también pueden responderse con el ORKG. Las preguntas cubren una variedad de campos de investigación y tipos de preguntas y se traducen en las consultas SPARQL correspondientes a través de ORKG. Con base en dos evaluaciones preliminares, mostramos que el punto de referencia SciQA resultante representa una tarea desafiante para los sistemas de control de calidad de próxima generación. Esta tarea es parte de las competencias abiertas en la 22a Conferencia Internacional de Web Semántica 2023 como el Desafío de respuesta académica a preguntas sobre datos vinculados (QALD).

Los gráficos de conocimiento han ganado cada vez más popularidad en la última década en ciencia y tecnología. Permiten una representación semántica versátil y en evolución del conocimiento en la encrucijada de varios

niveles de estructuración de la información: no estructurada, semiestructurada, estructurada;

niveles de abstracción: conceptual versus operativo;

formalismos de representación del conocimiento: gráficos, hechos, entidad-relación, lógica; y

ecosistemas tecnológicos.

Sin embargo, la mayoría de los gráficos de conocimiento disponibles públicamente, como DBpedia o Wikidata, son estructuras semánticas relativamente simples a moderadas1. Aunque varían en contenido, tamaño, cobertura y superposición, todos representan principalmente una colección de declaraciones fácticas organizadas en descripciones de entidades, posiblemente enriquecidas por jerarquías de clases y definiciones de propiedades correspondientes. Hasta ahora, los sistemas y puntos de referencia de respuesta a preguntas (QA) estaban orientados principalmente a gráficos de conocimiento enciclopédicos como DBpedia y Wikidata2,3. Actualmente, está surgiendo un nuevo tipo de gráfico de conocimiento, denominado gráfico de conocimiento de investigación, cuyo contenido son metadatos bibliográficos y elementos científicos, como ideas, teorías, enfoques y afirmaciones tal como se transmiten en contribuciones académicas4,5 o estructuras de datos OMICS para la personalización. medicina6. Estos novedosos gráficos de conocimiento de investigación entrelazan cada vez más tres aspectos que antes estaban en gran medida aislados: representaciones semánticas (inteligencia semántica), aprendizaje automático (inteligencia automática) y abastecimiento público y experto (inteligencia humana). En particular, la comunicación académica es un dominio de aplicación más desafiante para el control de calidad debido a:

La heterogeneidad de la representación del conocimiento;

La deriva de conceptos y la evolución del conocimiento junto con el discurso científico;

La diferente granularidad del conocimiento utilizada para describir las contribuciones de la investigación;

Las novedosas estructuras de conocimiento que van más allá de las simples descripciones de entidades.

Presentamos SciQA, un punto de referencia de control de calidad científico para el conocimiento académico. El punto de referencia aprovecha el Open Research Knowledge Graph (ORKG)4,7 (https://orkg.org), que actualmente comprende casi 170 000 recursos que describen las contribuciones de investigación de casi 15 000 artículos académicos de 709 campos de investigación. Estas contribuciones de investigación contienen, entre otras cosas, detalles sobre el proceso de investigación, los métodos y materiales utilizados y resultados específicos. La Figura 1 muestra un ejemplo concreto de un artículo de Budde et al.8 descrito en el ORKG9. Este artículo informa sobre cuatro procesos mecánicos para la fabricación de componentes sólidos híbridos. En la Fig. 1, mostramos solo partes de la descripción de uno de los cuatro procesos descritos en el ORKG. En general, cada una de las cuatro descripciones incluye detalles sobre todo el proceso mecánico en relación con los pasos individuales, su secuencia y, por paso, los componentes entrantes y salientes, los métodos de medición y los resultados de las mediciones.

Ejemplo concreto de un artículo8 descrito en ORKG9: Las formas azules son recursos y predicados del esquema ORKG. Las formas amarillas son recursos y predicados generados por el usuario. Las etiquetas legibles por humanos de las clases están representadas en color azul. Los ID de los recursos dentro del ORKG se muestran en magenta.

Siguiendo una metodología ascendente, primero desarrollamos manualmente un conjunto de 100 preguntas que pueden responderse con el ORKG. Posteriormente, diseñamos ocho plantillas de preguntas con las que generamos automáticamente otras 2465 preguntas que también pueden responderse con ORKG. Las preguntas de SciQA elaboradas a mano y generadas automáticamente cubren varios campos de investigación que van desde informática, ingeniería, química y geología en ciencia y tecnología, pasando por inmunología y genética en las ciencias de la vida hasta economía y estudios urbanos en las ciencias sociales. Las preguntas cubren numerosos tipos de preguntas, incluidas preguntas factoides y no factoides, y tienen consultas SPARQL correspondientes de diferentes formas de consulta y tamaños de patrones triples. Tradujimos las preguntas a consultas SPARQL a través de ORKG y proporcionamos un conjunto completo de resultados de consultas reales relacionados.

Demostramos la aplicabilidad y viabilidad del punto de referencia SciQA presentando dos evaluaciones preliminares, ambas dirigidas a las 100 preguntas elaboradas a mano. Primero, presentamos una implementación de prueba de concepto de un sistema de control de calidad académico basado en el sistema JarvisQA10. JarvisQA opera exclusivamente con tablas o vistas tabulares de gráficos de conocimiento, y la parte generada automáticamente de SciQA no se basa en tablas o vistas tabulares. Por esta razón, la evaluación se realiza únicamente para la parte artesanal de SciQA. Sin embargo, el sistema JarvisQA solo puede recuperar respuestas correctas para un subconjunto de preguntas hechas a mano debido a que los datos y tipos de preguntas en SciQA son más diversos en comparación con los datos sobre los que se construyó JarvisQA10. En segundo lugar, presentamos ideas iniciales sobre el uso del modelo de lenguaje grande (LLM) ChatGPT11 para responder las preguntas hechas a mano. Esta evaluación tiene como objetivo comprender qué tan bien uno de los LLM más famosos actuales es capaz de responder consultas complejas sobre conocimiento académico (con superlativos, comparaciones, etc.). En esta evaluación, también nos centramos en las 100 preguntas elaboradas manualmente para comparar los resultados de JarvisQA con los de ChatGPT. En ambas evaluaciones preliminares, encontramos que los sistemas tienen un rendimiento bastante bajo. En la configuración de mejor rendimiento (\(Jarvis_{XLS2}\)), la implementación de prueba de concepto de JarvisQA pudo responder 52 preguntas con 12 respuestas correctas. ChatGPT proporcionó respuestas a 63 preguntas, de las cuales sólo 14 fueron correctas. Estas bajas cifras corroboran que responder preguntas sobre el conocimiento académico es un desafío para los sistemas de garantía de calidad y los LLM actuales12. Por esta razón, concluimos que el punto de referencia SciQA representa una tarea desafiante para los sistemas de control de calidad de próxima generación, ya que los sistemas de control de calidad ahora también deben abordar el conocimiento científico además del conocimiento enciclopédico.

El problema de responder preguntas expresadas en lenguaje natural ha recibido mucha atención recientemente. Dependiendo del tipo de consultas del sistema, por ejemplo documentos de texto, gráficos de conocimiento, bases de datos relacionales o archivos de imágenes, se han desarrollado puntos de referencia para evaluar los respectivos sistemas de control de calidad. Dado que este artículo se centra en el control de calidad sobre los gráficos de conocimiento académico, nos concentramos en los puntos de referencia de control de calidad sobre los gráficos de conocimiento y los datos vinculados. En la Tabla 1 se presenta una descripción general de los puntos de referencia relevantes.

Uno de los primeros conjuntos de datos es WebQuestions14, que contiene 5810 pares de preguntas y respuestas factoides y está dirigido a Freebase. Fue creado utilizando la API de Google Suggest para obtener preguntas que comienzan con una palabra "wh". Se enviaron 100.000 preguntas seleccionadas al azar a Amazon Mechanical Turk, pidiendo a los trabajadores que anotaran aquellas que Freebase puede responder. En términos de complejidad estructural, WebQuestions es simple, ya que muchas preguntas solo contienen una clase, una propiedad y una instancia. En 2016, WebQuestions se amplió a WebQuestionsSP15, proporcionando consultas SPARQL para las 4737 preguntas que los anotadores podían procesar completamente para encontrar las respuestas.

El conjunto de datos SimpleQuestions16 también apunta a Freebase. Fue creado manualmente por anotadores de habla inglesa y consta únicamente de preguntas factoides. Es mucho más grande que WebQuestions y contiene 108.442 preguntas sencillas junto con sus correspondientes respuestas y explicaciones. Diefenbach et al.17 crearon el punto de referencia SimpleQuestionsWikidata convirtiendo SimpleQuestions en Wikidata de destino.

El conjunto de datos LC-QuAD18 se diferencia de los anteriores en que incluye no sólo preguntas simples y factoides, sino también preguntas complejas, es decir, las respectivas consultas SPARQL contienen múltiples patrones triples. El conjunto de datos contiene 5000 pares de preguntas: consultas SPARQL dirigidas a DBpedia. Las preguntas se generaron de forma semiautomática extrayendo subgráficos que contenían triples dentro de una distancia de 2 saltos desde una entidad semilla. La generación de consultas y preguntas SPARQL se facilitó de forma automática, mediante plantillas, y, luego, se refinó manualmente. Después del desarrollo de LC-QuAD, sus desarrolladores procedieron al desarrollo de LC-QuAD 2.019, que contiene 30.000 preguntas, sus paráfrasis y sus correspondientes consultas SPARQL. LC-QuAD 2.0 está dirigido tanto a Wikidata como a DBpedia 2018, y se creó de manera similar a LC-QuAD. LC-QuAD 2.0 también contiene preguntas de mayor complejidad: preguntas no factoides, preguntas con calificadores, agregados, aspectos temporales (como calificadores) y superlativos. El punto de referencia ComplexWebQuestions20 (34.689 preguntas) tiene una complejidad similar: contiene preguntas de composición, superlativos y comparativos. Se generó a partir de WebQuestionsSP muestreando pares de preguntas y consultas y creando automáticamente consultas SPARQL más complejas. A partir de estas consultas, se generó automáticamente un conjunto de preguntas utilizando 687 plantillas y, luego, los trabajadores de Amazon Mechanical Turk las reformularon.

Los puntos de referencia generados para los desafíos QALD (http://qald.aksw.org/) también son de alta complejidad. El punto de referencia QALD-10, generado para las pruebas en el último desafío (NLIWoD, ESWC2022), contiene 394 preguntas basadas en Wikidata creadas manualmente de diversa complejidad y cada una está anotada con una consulta SPARQL especificada manualmente y su resultado. Cada pregunta puede contener recuentos, superlativos, comparativos y agregadores temporales. Las preguntas están disponibles en 4 idiomas diferentes, entre otros, inglés, alemán, chino y ruso. Las preguntas en inglés fueron recopiladas de hablantes con al menos un nivel de dominio del idioma C1 de acuerdo con el Marco Común Europeo de Referencia para las Lenguas y, según los participantes, expresan necesidades de información del mundo real. Los hablantes nativos tradujeron las preguntas a otros idiomas.

Todos los puntos de referencia de esta sección se dirigen a Freebase, DBpedia o Wikidata y, por lo tanto, principalmente a gráficos de conocimiento enciclopédicos. SciQA es el único punto de referencia que se centra esencialmente en el conocimiento académico. Una ventaja importante de utilizar ORKG como base es que permite la generación de consultas sofisticadas, por ejemplo, con superlativos y comparaciones, sobre el conocimiento académico, como las presentadas en el SciQA Benchmark y, si es necesario, proporciona la evidencia relevante. Esta ventaja se ve reforzada aún más por la clase de “comparaciones” entre los resultados de la investigación que contiene el ORKG. Las comparaciones proporcionan resúmenes condensados ​​del estado del arte para una pregunta de investigación particular. De esta manera, SciQA incluye preguntas sofisticadas sobre estas comparaciones, es decir, sobre agregaciones de descripciones de contribuciones semánticas de varios artículos científicos. Como ha demostrado nuestra evaluación de aplicabilidad y viabilidad, los sistemas de control de calidad sofisticados y los LLM, como ChatGPT, tienen dificultades para responder este tipo de preguntas que requieren conocimientos académicos. De hecho, sólo 12 y 14 de las 100 preguntas SciQA elaboradas a mano fueron respondidas correctamente por el sistema de control de calidad y el modelo de lenguaje grande, respectivamente.

En cuanto a su estructura, SciQA cumple con el estándar actual de puntos de referencia de control de calidad, ya que contiene preguntas en lenguaje natural, consultas SPARQL y respuestas. Finalmente, también es el único punto de referencia que incluye las características de las consultas SPARQL, por ejemplo, forma de consulta, componentes de consulta y tamaños de patrón triple.

ORKG4 es un gráfico de conocimiento de investigación que incluye descripciones semánticas de artículos de investigación y servicios complementarios (https://orkg.org) para la producción, curación y (re)utilización de estos datos. El conocimiento estructurado en el ORKG es aportado, es decir, de origen colaborativo, por investigadores y parcialmente también extraído automáticamente de la literatura o integrado de otros recursos que comprenden descripciones estructuradas de contribuciones de investigación21. La Figura 2 proporciona una descripción general de la estructura central de ORKG. Cada artículo agregado al ORKG contiene sus metadatos bibliográficos, es decir, autores, título, año de publicación, DOI, campo de investigación y la descripción semántica generada por el usuario de su contribución científica. En la Fig. 1, mostramos un ejemplo concreto de un artículo de Budde et al.8 descrito en el ORKG9.

Esquema ORKG básico para artículos: las formas azules son recursos y predicados del esquema ORKG. Las formas amarillas son recursos y predicados generados por el usuario. Por motivos de brevedad, se omiten los ID y las clases de recursos y predicados.

La entidad central del ORKG son las contribuciones presentadas en forma de trabajos de investigación. Una contribución suele estar vinculada a un campo y problema de investigación, y su descripción incluye varias propiedades que son específicas del campo o problema de investigación. No existe un conjunto fijo y predefinido de propiedades para describir las contribuciones de la investigación, pero los curadores pueden definir estas propiedades sobre la marcha. Por un lado, esta apertura y extensibilidad permiten seleccionar y definir una representación del conocimiento muy apropiada para el trabajo de investigación en cuestión. Por otro lado, plantea importantes desafíos para posibles aplicaciones de control de calidad. A partir de los artículos descritos y sus contribuciones, las contribuciones que tratan de un problema de investigación específico en la literatura académica se pueden comparar en las llamadas comparaciones. Las comparaciones son representaciones tabulares de las propiedades de todas las contribuciones comparadas22. Estas comparaciones proporcionan una visión general de información clave sobre un problema de investigación a través de docenas o cientos de contribuciones. De este modo, las comparaciones son una herramienta valiosa para, por ejemplo, determinar el algoritmo de clasificación líder o saber qué tan peligroso es un virus en comparación con otros virus.

La Tabla 2 proporciona algunas estadísticas sobre el gráfico de conocimiento de ORKG. El ORKG es todavía relativamente pequeño en comparación con otros gráficos de conocimiento, que a menudo incluyen millones de entidades1. Sin embargo, anticipamos que estas nuevas estructuras de conocimiento académico en el ORKG ya plantean una tarea desafiante para los sistemas de garantía de calidad.

En esta sección, describimos nuestro enfoque para crear el punto de referencia SciQA. La creación de un punto de referencia de control de calidad requiere una colección de preguntas que cubran diferentes aspectos y escenarios sobre los cuales un gráfico de conocimiento contiene datos. En particular, nuestro enfoque consta de dos pasos principales: (1) Creación manual de 100 preguntas hechas a mano y (2) Generación automatizada de 2465 preguntas autogeneradas. Este enfoque está inspirado en los procedimientos de trabajos relacionados que también combinaron el uso de la creación manual de preguntas y la generación automatizada de preguntas16,18,19,20. Para crear el punto de referencia SciQA, seguimos una metodología detallada que aborda los siguientes aspectos clave: objetivos, estructura de datos y recopilación de datos.

Objetivos El objetivo del punto de referencia no es sólo crear un conjunto de datos sino también proporcionar una variedad de escenarios de base de conocimiento, es decir, qué preguntas se pueden formular en el gráfico de conocimiento o qué tipo de casos de uso pueden utilizar los datos.

Estructura de datos El ORKG4 representa información en forma de artículos y una colección de contribuciones. La Figura 2 muestra el esquema central de los datos académicos en el ORKG que se siguió para consultar los datos de la fuente.

Recopilación de datos Realizamos la recopilación de datos en dos pasos principales: (1) Creación manual y (2) Generación automatizada. La Figura 3 ilustra todo el enfoque en forma de diagrama de actividades para resaltar las principales actividades que llevamos a cabo para crear el punto de referencia SciQA.

Flujo de trabajo para las 100 preguntas hechas a mano

Comenzamos con el primer flujo de trabajo seleccionando campos de investigación y las listas correspondientes de comparaciones de ORKG24 en estos campos para limitar el alcance de los datos que se consultan. Posteriormente, definimos varias preguntas en lenguaje natural según diferentes tipos, por ejemplo, preguntas de comparación única, preguntas de Verdadero/Falso, preguntas de agregación (mínimo, máximo, promedio), etc. Para cada pregunta en lenguaje natural, creamos una consulta SPARQL en dos variaciones. (legible por humanos y legible por máquinas). A medida que se crearon las preguntas y consultas, recopilamos metadatos asociados para ellas, por ejemplo, tipo, forma de consulta, etc. Finalmente, las preguntas en lenguaje natural, las consultas SPARQL estructuradas y los metadatos recopilados fueron revisados ​​por pares varias veces en términos sintácticos y semánticos. exactitud.

Los 13 autores de cinco países y tres continentes participaron en este flujo de trabajo para dar cabida a diferentes perspectivas. Además, estos investigadores consultaron a expertos en el campo de sus redes personales, cuando estaban disponibles, para garantizar que las preguntas creadas fueran relevantes e importantes para los respectivos campos de investigación e investigadores. Además, aprovechamos la experiencia de los 21 expertos en el dominio que participaron en las subvenciones de curación de ORKG25,26 para crear preguntas relevantes, realistas y útiles.

Flujo de trabajo para las 2465 preguntas generadas automáticamente

Realizamos este segundo flujo de trabajo para enriquecer el punto de referencia SciQA ya que, aunque las 100 preguntas hechas a mano se crearon intencionalmente, esta cantidad de preguntas es bastante pequeña para un punto de referencia. Para este propósito, ampliamos el punto de referencia SciQA mediante la integración con un conjunto de preguntas generadas automáticamente, que se crearon utilizando un enfoque estructurado que involucra una combinación de preguntas y consultas hechas a mano, y la utilización de un LLM (en este caso, GPT- 327). El objetivo de las preguntas generadas automáticamente es apuntar a partes específicas del ORKG mediante la creación de consultas con marcadores de posición que pueden completarse con varias entidades, facilitando así la generación de numerosas preguntas en lenguaje natural.

Para crear las preguntas generadas automáticamente, seguimos un proceso estructurado. Al crear las preguntas artesanales observamos que los datos en el ORKG son muy heterogéneos, lo que complica la generación automática de preguntas y consultas. Por este motivo, decidimos establecer ciertas restricciones en la generación de las preguntas y consultas. Primero, decidimos centrarnos en un conjunto de datos específico de papers-with-code28 que está disponible en ORKG. Aunque este conjunto de datos pertenece a un solo campo de investigación (Ciencias de la Computación), es extenso, con 2236 artículos (alrededor del 15% del número total de artículos en el ORKG) que se describen de manera homogénea. Esta homogeneidad es importante ya que facilita la generación automática de dudas y consultas. En segundo lugar, decidimos centrarnos en las preguntas y consultas con forma de árbol, la clase cuál-qué y el tipo factoide para limitar aún más el alcance de la generación automática. Esta forma, clase y tipo son los más comunes en las preguntas hechas a mano y también coinciden con la naturaleza de los documentos seleccionados con datos de código.

Inicialmente, elaboramos un conjunto de ocho consultas y 32 preguntas. Para cada consulta, creamos una pregunta manualmente y tres variaciones usando GPT-327 con una cuidadosa validación manual. A continuación, recopilamos todas las entidades posibles para los marcadores de posición en las consultas del ORKG. Luego llenamos los marcadores de posición de las consultas con todas las entidades posibles, seleccionando una pregunta al azar para cada consulta. Finalmente, recopilamos los resultados de las consultas creadas y extrajimos metadatos para el conjunto final de preguntas.

La adición de preguntas generadas automáticamente amplía el conjunto de datos de SciQA a un total de 2565 preguntas y consultas, lo que proporciona un corpus más grande para entrenar sistemas de respuesta a preguntas basados ​​en aprendizaje automático. Este enfoque puede ser particularmente útil en comparación con confiar únicamente en preguntas hechas a mano, que a menudo son limitadas en número y pueden no capturar el alcance completo de los datos subyacentes. Por el contrario, el uso de preguntas generadas por máquinas proporciona un conjunto de preguntas más diverso y extenso que puede ayudar a mejorar la precisión y solidez de los modelos de aprendizaje automático al responder preguntas en grandes gráficos de conocimiento.

Flujo de trabajo detallado para el desarrollo y generación del benchmark SciQA.

En esta sección, proporcionamos una descripción general de las preguntas de SciQA y sus consultas SPARQL correspondientes. Primero explicamos cómo clasificamos las preguntas para extraer los metadatos, antes de presentar con más detalle algunos ejemplos de preguntas hechas a mano y generadas automáticamente.

Una tipología de preguntas adecuada ayuda a satisfacer dos objetivos principales del desarrollo de puntos de referencia de control de calidad. Es decir, (1) una cobertura extensa de los diferentes temas en diversas áreas temáticas que aparecen en el gráfico de conocimiento, y (2) la validación de los patrones utilizados para escribir preguntas y consultas para garantizar una distribución mejor y más equilibrada de las preguntas en todo el mundo. posibles diferentes tipos de información solicitada.

Existen muchos enfoques para definir taxonomías de tipos de preguntas. Wendy Lehnert29 propuso una taxonomía conceptual con 13 clases conceptuales, por ejemplo, antecedente causal, orientación a objetivos, habilitación, etc. Li y Roth30 desarrollaron una taxonomía de dos capas basada en la semántica del tipo de respuesta: seis clases generales (abreviatura, entidad, descripción, humano). , ubicación, valor numérico) y 50 clases finas (las subclases de diferentes clases gruesas no se superponen). Singhal et al.31 diseñaron un pequeño conjunto de tipos de respuestas simples correspondientes a clases de preguntas, palabras y tipos de respuestas esperadas: Persona, Ubicación, Organización, Fecha, Cantidad, Duración, Medida lineal. Por ejemplo, si una pregunta comienza con quién o quién, su tipo será Persona. El sistema Quarc32 define una categorización de preguntas basada en el uso de ciertos pronombres interrogativos, por ejemplo, quién, qué, cuándo, dónde o por qué. El sistema AskBill33 utilizó un enfoque similar, donde se definieron once tipos de preguntas con patrones de preguntas como el tipo “QTemporalAge” identificado con el patrón “Cuántos años/a (qué/qué) edad”.

Los datos de la investigación y sus descripciones tienen una estructura y una semántica muy complejas. Al desarrollar preguntas para buscar información dentro de estos datos, es útil definir los tipos de respuestas esperadas y el enfoque de las preguntas. La definición de los tipos necesarios de respuestas esperadas se basa en los resultados de las campañas de evaluación de QALD34 y el análisis de los problemas característicos asociados con la tarea de mapear el lenguaje natural a consultas formales presentadas en Cimiano y Minock35. Estos problemas incluyen:

Las ambigüedades léxicas surgen cuando una palabra puede interpretarse de diferentes maneras, es decir, puede referirse a diferentes entidades o conceptos.

Expresiones ligeras como los verbos “to be” y “to have”, y las preposiciones “of” y “with” se refieren a una propiedad ontológica de una manera muy poco especificada o no corresponden a ninguna propiedad en absoluto.

Brecha léxica entre el vocabulario del usuario y el de la ontología.

Preguntas complejas que solo se pueden expresar mediante consultas que involucran funciones de agregación, comparaciones, superlativos y razonamiento temporal.

La definición del foco de una pregunta hace más específica la búsqueda de una respuesta. Moldovan et al.36 definieron el enfoque de la pregunta como una palabra o secuencia de palabras que indican sobre qué información se pregunta en la pregunta. Ferret et al.37 definieron el enfoque de la pregunta como “un sintagma nominal que probablemente esté presente en la respuesta” que consta de un sustantivo principal y una lista de sus modificadores. Por ejemplo, la pregunta "¿Qué tipos de nanoportadores tienen efecto terapéutico?" se centra en los “tipos de nanoportadores”. Según Mikhailian et al.38 existen dos tipos de focos de preguntas:

Asking Point (AP), que se indica explícitamente, por ejemplo, con las palabras “problemas de investigación” en la pregunta “¿Cuáles son los problemas de investigación con los que se relaciona el efecto Vernier?”.

ExpectedAnswerType (EAT) es una respuesta implícita que se puede inferir de la información proporcionada por la pregunta; por ejemplo, el tipo de respuesta "persona" es el EAT para la pregunta "¿Quiénes son los autores de la ontología SOSA?".

Para nuestra metodología, modificamos el enfoque de Moldovan et al.36 combinando los tipos de preguntas, por ejemplo, QUÉ, QUIÉN, QUÉ, etc., correspondientes a clases del esquema ORKG, por ejemplo, Papel, Problema, etc., y el patrones de preguntas que definen la respuesta esperada (BOOLEAN, QUÉ-QUIÉN, QUÉ-CUÁNDO, QUÉ-DÓNDE, QUÉ-QUÉ y QUIÉN-QUÉ). Por ejemplo, la pregunta "¿Quién es el autor del artículo más reciente sobre insectos?" tiene el patrón QUIÉN-QUÉ. También clasificamos las preguntas según las siguientes dimensiones:

Contenido ORKG Esta clasificación se basa en la estructura del esquema ORKG.

Basado en artículos: preguntas sobre el contenido de uno o varios artículos de investigación, por ejemplo, "¿Qué artículos utilizan DBLP como conjunto de datos?".

Basado en comparaciones: Preguntas sobre el contenido de una comparación, es decir, sobre las propiedades que comparten las contribuciones que participan en una comparación, por ejemplo, “¿Cuál es el método de representación del conocimiento más común en las representaciones semánticas de la comunicación académica?”.

Contenido de la pregunta Siguiendo el enfoque de Mikhailian et al.38, clasificamos las preguntas en factoides, es decir, AP, o no factoides, es decir, EAT. Las preguntas factoides asumen un mapeo AP explícito a las entidades de la ontología ORKG. Si la respuesta a una pregunta requiere inferir una secuencia de hechos, contar o filtrar, consideramos que dichas preguntas no son factoides. Además, los clasificamos según superlativos, por ejemplo, "¿Cuál es el compuesto líder más común en la actividad y el mecanismo de los péptidos antimicrobianos de anuro contra diferentes membranas biológicas?", preguntas de negación, por ejemplo, "¿Qué porcentaje de comparaciones carecen de un vínculo de clase?", preguntas con recuentos, por ejemplo, "¿Cuál es el número total de especies examinadas en Biología de invasión-hipótesis de liberación del enemigo?", preguntas de clasificación, es decir, pidiendo un valor mínimo/máximo, por ejemplo, "¿Cuál es el porcentaje femenino máximo en Psicoterapia breve para ¿Estudios sobre la depresión?”, preguntas temporales, por ejemplo, “¿Cuántos estudios se publican después de 2019?”, o una combinación de varios tipos de contenido, por ejemplo, “¿Cuál fue el enfoque más popular para resumir hasta 2002?”.

Finalmente, caracterizamos las preguntas en función de propiedades importantes de sus respectivas consultas SPARQL:

Número de patrones triples A diferencia de las preguntas simples, la consulta SPARQL de preguntas complejas consta de más de un único patrón triple18. Como se presenta en las Tablas 3 y 4, el conjunto de datos contiene preguntas simples y complejas con hasta 14 patrones triples.

Forma de la consulta: Identificamos la forma (arista única, cadena, estrella, ciclo, árbol, etc.) de las consultas según Bonifati et al.39. Tenga en cuenta que en esta clasificación se incorpora la clasificación basada en el número de patrones triples, ya que las preguntas simples se pueden clasificar como consultas de un solo borde.

Componentes de la consulta Hemos anotado las palabras clave y los operadores que se utilizan para crear cada consulta, por ejemplo, SELECCIONAR, PREGUNTAR, DESCRIBE, CONTAR, REGEX, STR, FILTER. Estos componentes dan una idea de lo complicada que es una consulta y qué característica debería admitir un sistema de control de calidad para generar dichas consultas estructuradas.

Las partes clave del punto de referencia SciQA son preguntas en lenguaje natural, que se traducen en consultas formales en el lenguaje de consulta SPARQL y se clasifican según una clasificación de consultas integral (presentada en la sección "Métodos"). Primero damos una descripción general de las 100 consultas de SciQA, antes de presentar en detalle tres preguntas ejemplares y las consultas correspondientes. Si bien la Tabla 3 proporciona algunas estadísticas sobre las consultas artesanales de SciQA, la Tabla 4 proporciona las mismas estadísticas para las consultas generadas automáticamente de SciQA. Publicamos el conjunto de datos completo de SciQA y una instantánea correspondiente de los datos de ORKG en Zenodo23.

A continuación, presentamos tres ejemplos de preguntas hechas a mano y dos ejemplos de preguntas generadas automáticamente con sus correspondientes consultas SPARQL para diferentes campos de investigación. Aunque ORKG utiliza identificadores alfanuméricos (similares a Wikidata), aquí presentamos las consultas con identificadores legibles por humanos para propiedades obtenidas de las etiquetas de recursos correspondientes. Para mayor comodidad, SciQA va acompañado de un preprocesador de consultas SPARQL, que convierte las consultas legibles por humanos en aquellas con identificadores alfanuméricos.

Pregunta hecha a mano ¿Cuál es la generación de energía promedio para cada fuente de energía considerada en intervalos de 5 años en los escenarios de reducción de gases de efecto invernadero para Alemania?

La primera pregunta (ID 55 en SciQA-Handcrafted) pertenece al campo de investigación Sistemas Energéticos del dominio de Ingeniería Mecánica. Esta pregunta no factual se basa en la comparación de escenarios de reducción de gases de efecto invernadero para Alemania40,41, que resume los resultados de varios estudios que analizan un futuro sistema energético bajo en carbono con un enfoque en la generación de electricidad para Alemania. La cuestión de los valores medios de generación de energía para diferentes fuentes de energía en intervalos de 5 años es típica de este campo de investigación. Los expertos consultados confirmaron que estos valores medios son necesarios, por ejemplo, para el análisis de tendencias. La consulta SPARQL correspondiente incluye siete patrones triples, utiliza ocho componentes de consulta y tiene forma de árbol.

Pregunta hecha a mano ¿Cuál es el método de representación del conocimiento más común en las representaciones semánticas de la comunicación académica?

La segunda pregunta (ID 3 en SciQA-Handcrafted) pertenece al campo de investigación Bases de datos/Sistemas de información del dominio Informática. Esta pregunta no factual se basa en la comparación de ORKG Representaciones semánticas de la comunicación académica22. Esta comparación proporciona una visión general de las publicaciones sobre representaciones semánticas de la comunicación académica centrándose en la comunicación académica en su conjunto y no en datos específicos como las citas. La pregunta es típica sobre la aparición más frecuente de información. En concreto, se trata del modelo de datos de representación del conocimiento más utilizado para la comunicación científica, que en este caso es el Marco de Descripción de Recursos (RDF, cf. https://www.w3.org/RDF/). La consulta SPARQL incluye tres patrones triples, utiliza siete componentes de consulta y tiene forma de cadena.

Pregunta hecha a mano ¿Dónde se llevó a cabo el estudio con escala geográfica máxima en variabilidad genética (variación COI) en estudios con muestras grandes (>1000 secuencias)?

The third question (ID 78 in SciQA-Handcrafted) belongs to the research field Ecology and Biodiversity of Animals and Ecosystems, Organismic Interactions from the domain of Zoology. This non-factoid question is based on the comparison Genetic Variability (COI Variation) in Studies Large Sampled (>1000 Sequences)1000 sequences). https://doi.org/10.48366/R149849 (2022)." href="/articles/s41598-023-33607-z#ref-CR42" id="ref-link-section-d14718875e2936"> 42 que compara la variabilidad genética en estudios que contienen más de 1000 secuencias de códigos de barras de citocromo c oxidasa I (COI). La pregunta tiene como objetivo identificar dónde se llevó a cabo el estudio de máximo alcance geográfico, que en este caso es un estudio realizado en Estados Unidos de América, México y Canadá. La consulta SPARQL tiene seis patrones triples, utiliza seis componentes de consulta y tiene forma de árbol.

Pregunta generada automáticamente ¿Puede proporcionar el resultado de referencia más alto, incluida la métrica y la puntuación, para el conjunto de datos Sequential MNIST?

La cuarta pregunta (ID 1355 en SciQA-Autogenerated) pertenece al campo de investigación Informática. Esta pregunta no factual se basa en el contenido del ORKG importado de artículos con código28. La pregunta es acerca de obtener el puntaje de evaluación más alto (o el mejor) registrado en el ORKG; los resultados deben obtenerse para cada métrica de evaluación distinta utilizada en la evaluación. La consulta SPARQL relacionada incluye diez patrones triples, utiliza nueve componentes de consulta y tiene forma de árbol.

Pregunta generada automáticamente ¿Enumere el título y el ID de los trabajos de investigación que contienen un punto de referencia sobre el conjunto de datos de clasificación binaria SST-2?

La quinta pregunta (ID 524 en SciQA-Autogenerated) pertenece al campo de investigación Informática. Esta pregunta factoide se basa en el contenido del ORKG importado de artículos con código28, que describe los resultados de la evaluación de modelos de aprendizaje automático comparados con conjuntos de datos comúnmente utilizados en las comunidades de procesamiento de lenguaje natural y aprendizaje automático. La pregunta solicita los ID y títulos de los artículos que tienen modelos que compararon un conjunto de datos en particular, en este caso, el conjunto de datos de clasificación binaria SST-2. La consulta SPARQL relacionada incluye seis patrones triples, utiliza cuatro componentes de consulta y tiene forma de árbol.

En esta sección, presentamos dos evaluaciones preliminares utilizando la parte artesanal del punto de referencia SciQA. Primero, mostramos los resultados de una implementación de prueba de concepto de un sistema de control de calidad basado en el sistema JarvisQA10. En segundo lugar, mostramos ideas iniciales sobre el uso de ChatGPT11 para responder las preguntas elaboradas.

En un análisis preliminar, nuestro objetivo es comprender cómo SciQA puede ser utilizado por un sistema de control de calidad centrado en el conocimiento académico. Para ello, investigamos el rendimiento de una implementación de prueba de concepto basada en JarvisQA10.

JarvisQA está diseñado fundamentalmente para responder preguntas sobre el conocimiento académico. El sistema se basa en BERT43 pero solo funciona en tablas y vistas tabulares de gráficos de conocimiento académico, como las comparaciones ORKG. SciQA no se basa únicamente en tablas y vistas tabulares (comparaciones), sino que tiene un espectro más amplio de tipos de preguntas y respuestas. Por este motivo, podemos responder 52 de las preguntas artesanales (52%) con JarvisQA ya que corresponden a su formulario de entrada. Configuramos nuestra implementación de prueba de concepto de JarvisQA para que se ejecute en las preguntas compatibles de SciQA y utilizamos siete configuraciones experimentales distintas que proporciona JarvisQA. Debido a la cobertura limitada de preguntas que el sistema puede responder, limitamos los resultados a dos categorías de preguntas. La evaluación se realiza en términos de métricas precisión@k, recuperación@k y f1@k.

La Tabla 5 muestra los resultados de la evaluación de estos experimentos para dos categorías principales de preguntas: normal y general. Si bien la categoría normal se refiere a preguntas de respuesta única, la categoría general agrega preguntas de respuesta única y todos los demás tipos de preguntas que JarvisQA puede responder, como preguntas booleanas y de lista. Observamos que el rendimiento disminuye en todas las configuraciones para la categoría general debido a la naturaleza compleja del punto de referencia SciQA y las respuestas que espera, a diferencia de con lo que se entrenó JarvisQA y, por lo tanto, puede responder10.

Además del uso de SciQA con un sistema de control de calidad centrado en el conocimiento académico, realizamos una evaluación preliminar adicional basada en todas las preguntas hechas a mano utilizando ChatGPT11. Se han lanzado numerosos LLM expertos en resolver tareas comunes de lenguaje natural, como ChatGPT11, Galactica44, LaMDA45, Codex46 o Sparrow47. Algunos de ellos muestran un mejor desempeño en tareas de conocimiento técnico, por ejemplo, Galactica44, algunos en el dominio médico, por ejemplo, PubMedQA48 y MedMCQA49, etc. En este experimento, no pretendemos probar todos estos LLM en SciQA, sino estimar la línea de base. desempeño de LLM para preguntas académicas sobre diversos temas. Elegimos ChatGPT para nuestro experimento porque es uno de los LLM más destacados en este momento y no es un dominio específico. ChatGPT debería poder responder las preguntas de SciQA, ya que los textos fuente de los artículos y los temas de las preguntas que se utilizaron para desarrollar el conjunto de datos están en su mayoría disponibles de forma abierta en Internet. Por este motivo, asumimos que las preguntas de SciQA pueden ser potencialmente procesadas y respondidas por LLM como ChatGPT. De esta manera, esta evaluación tiene como objetivo obtener una idea inicial de qué tan bien uno de los LLM más famosos actualmente, que no está capacitado específicamente en datos ORKG, es capaz de responder consultas complejas sobre conocimientos académicos (con superlativos, comparaciones, etc.).

El modelo subyacente de ChatGPT está diseñado para generar respuestas detalladas a las preguntas de un usuario. Por esta razón, hemos agregado el mensaje adicional "corto:" a cada una de las 100 preguntas elaboradas manualmente para obtener respuestas más cortas similares a las respuestas en SciQA. Aunque las respuestas de ChatGPT fueron más breves, aún así fueron muy detalladas. En el futuro, será necesario un ajuste individual más refinado del mensaje para obtener respuestas en un formato más similar a las respuestas de nuestro conjunto de datos. Sin embargo, decidimos que esta forma de recuperar las respuestas es suficiente para nuestra evaluación preliminar de SciQA. Después de recopilar las 100 respuestas a todas las preguntas, se realizó la evaluación de su exactitud con la opinión de expertos.

Cuatro expertos compararon las respuestas del ChatGPT con la respuesta del conjunto de datos SciQA. Si se mencionaron hechos correctos en el texto devuelto por ChatGPT, esa respuesta se consideró "correcta". En caso contrario, el resultado se valoró como “Incorrecto”. Además, si el sistema devolvía una respuesta de que no podía responder la pregunta, se evaluaba como "Sin respuesta". Después de que los expertos evaluaron todas las respuestas de forma independiente, compararon sus resultados y discutieron cualquier desacuerdo en una reunión. Durante esta discusión, surgieron situaciones en las que los expertos no podían ponerse de acuerdo sobre si la respuesta se derivaba del artículo o fuente de datos mencionados en la pregunta o si la respuesta se había generado a partir del sentido común o del conocimiento general. Como resultado, los expertos calificaron esta respuesta como “Incierta”. En la Tabla 7, mostramos cuatro ejemplos de cada uno de los cuatro tipos de evaluación: "Correcto", "Incorrecto", "Incierto", "Sin respuesta". Estos ejemplos incluyen la pregunta de SciQA con la respuesta de SciQA, la respuesta de ChatGPT y la evaluación de los expertos de la respuesta de ChatGPT con una explicación.

En la Tabla 6, proporcionamos una descripción general de los resultados de la evaluación de los expertos. A partir de este análisis, descubrimos que ChatGPT pudo generar respuestas para 63 de las 100 preguntas hechas a mano. Catorce de estas 63 respuestas son correctas, 40 respuestas son incorrectas y nueve respuestas son inciertas. Aunque estos resultados son ligeramente mejores en comparación con los resultados de la configuración de mejor rendimiento de la implementación de prueba de concepto de JarvisQA (\(Jarvis_{XLS2}\): 12 respuestas correctas), el rendimiento de ChatGPT al responder preguntas sobre conocimiento científico sigue siendo bajo con sólo 14 respuestas correctas. Esta evaluación preliminar muestra la aplicabilidad limitada y la baja precisión incluso del actual LLM ChatGPT de vanguardia para responder preguntas específicas sobre el conocimiento académico.

En esta sección, analizamos tres aspectos clave de SciQA: (1) la mayor complejidad del conocimiento académico; (2) la insuficiencia de los LLM para abordar el conocimiento académico, y (3) el avance de los gráficos de conocimiento hacia gráficos de conocimiento cognitivo para facilitar la integración de enfoques semánticos y de aprendizaje automático.

Sostenemos que el conocimiento académico es más complejo que el conocimiento del sentido común, por ejemplo, el conocimiento enciclopédico. Ilustramos esta complejidad con algunos ejemplos, por ejemplo, Fig. 1. En estos ejemplos, las unidades semánticas de conocimiento no son simples descripciones de entidades, donde una entidad, como una organización, lugar o persona, se describe con un conjunto de triples RDF. declaraciones que tienen el identificador de entidad como asunto común. Por el contrario, para los gráficos de conocimiento académico como el ORKG, una descripción de contribución académica comprende numerosas descripciones de entidades entrelazadas, que incluyen, por ejemplo, descripciones de procesos y pasos de procesos, características de materiales, componentes, mediciones, simulaciones, así como metadatos bibliográficos. Una sola unidad semántica en el ORKG comúnmente consta de más de una docena de descripciones de entidades estrechamente interconectadas, que solo juntas transmiten información razonablemente, en comparación con el conocimiento enciclopédico o de sentido común, donde a menudo una sola descripción de entidad ya contiene suficiente información. Esta estructura inherentemente más compleja de los gráficos de conocimiento académico hace que responder preguntas sea significativamente más desafiante, lo que hemos demostrado con nuestra evaluación de aplicabilidad y viabilidad. En particular, los resultados de las dos evaluaciones preliminares muestran cuán desafiante es para un sistema de control de calidad y un LLM responder preguntas sobre el conocimiento académico. Ni un sistema de control de calidad destinado al conocimiento académico e incluso capacitado con datos ORKG ni el LLM ChatGPT pudieron funcionar bien al responder las 100 preguntas elaboradas manualmente por SciQA. En ambos casos, los sistemas no pudieron resolver adecuadamente el desafío de la garantía de calidad académica (Tabla 7).

En nuestras evaluaciones preliminares, observamos que incluso los sistemas de control de calidad diseñados específicamente para datos académicos, incluido uno de los LLM más avanzados disponibles en el momento de escribir este artículo, tienen dificultades para sobresalir en el punto de referencia SciQA. El conjunto de datos de SciQA abarca varios tipos de preguntas que surgen de distintas entidades dentro del gráfico de conocimiento, en lugar de depender únicamente de vistas tabulares, que es el formato principal en el que opera JarvisQA. Además, para responder con precisión a las consultas de SciQA, un sistema de control de calidad debe comprender el contexto de cada pregunta, que está integrado en la estructura gráfica de ORKG. Un factor que contribuye a este desafío es la deficiencia de los componentes de la PNL adaptados a los datos académicos, como los enlazadores de entidades y los creadores de consultas50. Otra limitación importante es que los LLM como ChatGPT y BERT no poseen la comprensión contextual específica de un gráfico de conocimiento, como el ORKG, lo que dificulta aún más su desempeño en el punto de referencia SciQA. Teniendo en cuenta todos los factores mencionados anteriormente, resulta cada vez más claro que existe una necesidad apremiante de que la comunidad de investigación respalde el punto de referencia SciQa. Al colaborar para desarrollar sistemas que funcionen bien en SciQA, los investigadores pueden contribuir a mejorar y ampliar este conjunto de datos de control de calidad, así como avanzar en este campo del control de calidad para el conocimiento académico. Con este objetivo en mente, lanzamos el Desafío de respuesta académica a preguntas sobre datos vinculados (QALD) con una tarea que utiliza SciQA como una de las competencias abiertas en la 22.ª Conferencia Internacional de Web Semántica 202351,52. Con este desafío, esperamos generar más líneas de base e inspirar a la comunidad a crear una variedad de herramientas y sistemas de control de calidad con orientación académica. En última instancia, este esfuerzo de colaboración fomentará avances significativos en el campo, beneficiando al mundo académico en su conjunto.

Una razón de este desafío, incluso para los LLM, radica en el hecho de que estos modelos son muy buenos para recrear el conocimiento del sentido común, que se puede encontrar en diversas formas en varias fuentes diferentes. Sin embargo, debido a su naturaleza de emplear distribución de probabilidad sobre secuencias de palabras, no son buenos para tratar con conocimientos que se encuentran sólo en una o muy pocas fuentes. Este problema también se demostró recientemente con el fallido LLM Galactica entrenado en literatura científica, que tuvo que ser desconectado después de tres días cuando quedó claro que la relación del modelo entre alucinaciones y respuestas razonables es demasiado desafortunada para ser de alguna utilidad53. Consideramos que esta es una característica inherente de los LLM, que tampoco puede abordarse con mayores mejoras de los propios modelos. Sin embargo, una combinación de LLM con enfoques de representación simbólica del conocimiento (como ORKG y SciQA) puede ser una vía prometedora para aprovechar el potencial de la IA y también para dominios con una producción de conocimiento más singular, como la ciencia.

Los gráficos de conocimiento académico como ORKG demuestran el avance del concepto de gráfico de conocimiento hacia gráficos de conocimiento más cognitivos, que permiten la integración confiable de la inteligencia artificial y humana. En los gráficos de conocimiento cognitivo, los constituyentes serán elementos más complejos, como ideas, teorías, enfoques y afirmaciones tal como se transmiten, por ejemplo, en contribuciones académicas, pero también en otras áreas como los modelos de productos industriales54, las vulnerabilidades comunes y la exposición. descripciones en seguridad del desarrollador55 o datos OMICS para medicina personalizada6. Consideramos que estos constituyentes básicos de los gráficos de conocimiento cognitivo son tejidos complejos de descripciones de entidades dispuestas según ciertos patrones, como los grafitos. En el análisis de redes y la teoría de grafos, las nociones de grafito56 y motivo57 se introdujeron para proporcionar un elemento estructurante entre gráficos completos y nodos y aristas individuales. Por lo tanto, para poder representar y gestionar eficazmente artefactos de conocimiento más complejos, la noción de grafitos se puede aplicar a los gráficos de conocimiento (como lo hicimos en SciQA con contribuciones de investigación). Los gráficos de conocimiento cognitivo pueden ser de particular importancia para respaldar el paso de la correlación a la causalidad; si bien la correlación surge de la detección de relaciones y patrones estadísticos en los datos, planeamos utilizar el rico conocimiento contextual de los gráficos de conocimiento como señales adicionales para las pruebas de causalidad. Esta integración de inteligencia simbólica y subsimbólica como la IA híbrida (cf. Breit et al.58 para un estudio reciente de enfoques) puede ayudarnos a anclar sistemáticamente la transparencia, la trazabilidad, la explicabilidad, la confiabilidad y la confiabilidad en la ciencia de datos y los métodos de IA.

En esta sección, extraemos algunas conclusiones y señalamos direcciones para trabajos futuros. Abordamos el problema de la falta de puntos de referencia de control de calidad para el conocimiento académico. Hasta ahora, los sistemas de control de calidad y los correspondientes puntos de referencia estaban orientados principalmente hacia conocimientos enciclopédicos compuestos de estructuras semánticas relativamente simples a moderadas1. Por el contrario, la consideración del conocimiento científico combinado con gráficos de conocimiento es bastante nueva y desafiante debido a las representaciones heterogéneas, las derivas y la evolución de los conceptos a lo largo del tiempo, los diferentes niveles de granularidad y las estructuras semánticas novedosas.

Por estas razones, desarrollamos el punto de referencia SciQA para el conocimiento académico como una nueva tarea desafiante para los sistemas de control de calidad de próxima generación con 13 investigadores diferentes que utilizan una metodología ascendente definida. SciQA contiene 100 preguntas en lenguaje natural elaboradas a mano con paráfrasis, las correspondientes consultas SPARQL legibles por humanos y máquinas con sus resultados. Estas preguntas y consultas se analizan según varias clasificaciones y cubren 48 campos de investigación diferentes, como Ciencias de la Computación, Ingeniería, Química, Geología, Inmunología y Economía (ver Tabla 3). Además de los pares de preguntas y respuestas elaborados a mano, creamos de forma semiautomática un conjunto de 2465 preguntas derivadas de ocho plantillas de preguntas. Este enfoque se limita actualmente al dominio de la informática, donde tenemos un gran conjunto de datos estructurados y descritos de forma homogénea. Sin embargo, una vez que el ORKG incluya descripciones de contribuciones estructuradas más homogéneamente, el enfoque SciQA se podrá ampliar fácilmente a otros campos de investigación.

Los resultados iniciales de la evaluación de SciQA utilizando JarvisQA y ChatGPT demuestran las dificultades del conocimiento académico en general para un sistema que está diseñado para responder preguntas sobre conocimiento académico, o un modelo de lenguaje grande capaz de razonamiento y comprensión del lenguaje avanzados. Con base en estos conocimientos, concluimos que el punto de referencia SciQA representa una tarea desafiante para los sistemas de control de calidad, pero su implementación es realista y factible.

Este trabajo es la base de una agenda más amplia de investigación y desarrollo tecnológico. Prevemos avanzar el concepto de gráficos de conocimiento desde descripciones de entidades atómicas bastante simples hacia gráficos de conocimiento estructurados más ricos, que comprendan tejidos de estructuras de conocimiento complejas, como celdas de gráficos de conocimiento59. Planeamos actualizar SciQA anualmente a medida que ORKG evolucione para incluir más contenido para más preguntas, consultas y respuestas. Actualmente también lanzamos el desafío Scholarly Question Answering over Linked Data (QALD) con una tarea que utiliza SciQA como una de las competencias abiertas en la 22.ª Conferencia Internacional de Web Semántica 202351,52. Una extensión de este trabajo es realizar control de calidad en gráficos de conocimiento académico federados que vinculan el contenido de ORKG con metadatos sobre artículos, conjuntos de datos, personas, organizaciones, etc. publicados por otras infraestructuras académicas60. Dada la estandarización avanzada de la identificación, descripción, interconexión e intercambio persistentes de metadatos sobre estas entidades, así como la provisión de acceso (programático) a metadatos a través de sistemas como PID Graph basado en GraphQL, la integración federada de contenido ORKG con Los metadatos sobre entidades contextuales son sencillos. Esto permitirá que la garantía de calidad del conocimiento académico sea entendida de manera amplia e incluya tanto el conocimiento científico publicado en artículos interrelacionados con el conocimiento contextual sobre su producción y consumo.

El conjunto de datos completo de SciQA y una instantánea de los datos de ORKG están disponibles en Zenodo (https://doi.org/10.5281/zenodo.5845197)23 y Hugging Face (https://huggingface.co/datasets/orkg/SciQA)61.

El código fuente de JarvisQA10 está disponible en GitHub (cf. https://github.com/YaserJaradeh/JarvisQA).

Heist, N., Hertling, S., Ringler, D. & Paulheim, H. Gráficos de conocimiento en la web: descripción general. Gráficos de conocimiento para una inteligencia artificial explicable. 3–22 (2020).

Chakraborty, N. et al. Introducción a la respuesta de preguntas basada en redes neuronales sobre gráficos de conocimiento. Wiley Interdisciplinario. Rev. Datos Min. Conocimiento. Descubrimiento. 11 (2021).

Diefenbach, D., López, V., Singh, KD & Maret, P. Técnicas básicas de sistemas de respuesta a preguntas sobre bases de conocimiento: una encuesta. Conocimiento. inf. Sistema. 55, 529–569 (2018).

Artículo de Google Scholar

Jaradeh, MI y cols. Gráfico de conocimiento de investigación abierto: infraestructura de próxima generación para el conocimiento académico semántico. K CAP, 243–246 (2019).

Stocker, M. y col. SKG4EOSC: Gráficos de conocimiento académico para EOSC: establecimiento de una columna vertebral de gráficos de conocimiento para información académica FAIR en EOSC. Res. Ideas Resultados 8, e83789 (2022).

Artículo de Google Scholar

Kim, D. y col. Impulso del conocimiento: un enfoque de integración basado en gráficos con datos multiómicos y conocimiento genómico para la predicción de resultados clínicos del cáncer. Mermelada. Medicina. Informar. Asociación. 22, 109-120 (2015).

Artículo PubMed Google Scholar

Stocker, M. y col. Información científica FAIR con el gráfico de conocimiento de investigación abierto. Conexión FAIRhttps://doi.org/10.3233/FC-221513 (2023).

Artículo de Google Scholar

Budde, L. y col. Investigación de la combinación de materiales 20mncr5 y x45crsi9-3 en el conformado a medida de ejes con asientos de rodamiento. Producto. Ing. 16, 661–671 (2022).

Artículo MathSciNet Google Scholar

Karras, O. Investigación de la combinación de materiales 20mncr5 y x45crsi9-3 en la formación a medida de ejes con asientos de rodamientos. https://doi.org/10.48366/R288295 (2023).

Jaradeh, MY, Stocker, M. y Auer, S. Respuesta a preguntas sobre gráficos de conocimiento académico. TPDL.19–32 (2020).

Leiter, C. y col. Chatgpt: un metanálisis después de 2,5 meses. https://doi.org/10.48550/ARXIV.2302.13795 (2023).

Saikh, T., Ghosal, T., Mittal, A., Ekbal, A. y Bhattacharyya, P. Scienceqa: un recurso novedoso para responder preguntas sobre artículos académicos. En t. J. Bibliotecas digitales 23, 289–301. https://doi.org/10.1007/s00799-022-00329-y (2022).

Artículo de Google Scholar

Cortes, E. & Karras, O. Respuesta a preguntas sobre comparación de datos vinculados. https://doi.org/10.48366/R161787 (2022).

Berant, J., Chou, A., Frostig, R. y Liang, P. Análisis semántico en base libre a partir de pares de preguntas y respuestas. EMNLP. 1533-1544 (2013).

Yih, W.-T., Richardson, M., Meek, C., Chang, M.-W. & Suh, J. El valor del etiquetado de análisis semántico para responder preguntas de la base de conocimientos. LCA. https://doi.org/10.18653/v1/P16-2033 (2016).

Bordes, A., Usunier, N., Chopra, S. y Weston, J. Respuesta a preguntas simples a gran escala con redes de memoria. CORR. abs/1506.02075 (2015).

Diefenbach, D., Tanon, TP, Singh, KD y Maret, P. Consulta de respuesta a puntos de referencia para Wikidata Demostraciones de carteles de ISWC. (2017).

Trivedi, P., Maheshwari, G., Dubey, M. y Lehmann, J. Lc-quad: un corpus para responder preguntas complejas sobre gráficos de conocimiento. ISWC. 210–218 (2017).

Dubey, M., Banerjee, D., Abdelkawi, A. y Lehmann, J. LC-QuAD 2.0: un gran conjunto de datos para responder preguntas complejas a través de Wikidata y DBpedia. ISWC. 69–78 (2019).

Talmor, A. & Berant, J. La web como base de conocimientos para responder preguntas complejas. NAACL. 641–651 (2018).

Karras, O., Groen, EC, Khan, JA y Auer, S. ¿Investigador o miembro del público? ¡Por qué no los dos! El gráfico de conocimiento de investigación abierto para aplicar y comunicar la investigación de CrowdRE. en 2021 Talleres de la 29a Conferencia Internacional de Ingeniería de Requisitos (REW) de IEEE. https://doi.org/10.1109/REW53955.2021.00056 (2021).

Oelen, A. Representaciones semánticas de la comunicación académica. https://doi.org/10.48366/R8364 (2022).

Auer, S. y col. Punto de referencia de Sciqa: conjunto de datos y volcado de rdf. https://doi.org/10.5281/zenodo.7729047 (2023).

Oelen, A., Jaradeh, MY, Stocker, M. y Auer, S. Genere encuestas de literatura FAIR con gráficos de conocimiento académico. en la Conferencia Conjunta ACM/IEEE sobre Bibliotecas Digitales. (2020).

Primer programa de becas de curación de orkg. https://orkg.org/page/1st-curation-grant-program (2021). (Consultado el 13/03/2023).

2do programa de becas de curación de orkg. https://orkg.org/page/2nd-curation-grant-program (2021). (Consultado el 13/03/2023).

Brown, TB y cols. Los modelos de lenguaje son aprendices de pocas oportunidades. https://doi.org/10.48550/ARXIV.2005.14165 (2020).

Papeles con código. https://paperswithcode.com/about (2020). (Consultado el 13/03/2023).

Lehnert, W. Una teoría conceptual de la respuesta a preguntas. en Lecturas en el procesamiento del lenguaje natural (Morgan Kaufmann, 1986).

Li, X. y Roth, D. Clasificadores de preguntas de aprendizaje. LCA. (2002).

Singhal, A. y col. AT&T en TREC-8. TREC 8, 317–330 (1999).

Riloff, E. y Thelen, M. Un sistema de respuesta a preguntas basado en reglas para pruebas de comprensión lectora. en el Taller ANLP/NAACL sobre pruebas de comprensión lectora como evaluación de sistemas de comprensión del lenguaje basados ​​en computadora (2000).

Leidner, JL Respuesta a preguntas sobre datos no estructurados sin restricciones de dominio. Preimpresión de arXiv cs/0207058 (2002).

López, V., Unger, C., Cimiano, P. y Motta, E. Evaluación de la respuesta a preguntas sobre datos vinculados. Semántica web. 21, 3-13 (2013).

Cimiano, P. & Minock, M. Interfaces de lenguaje natural: ¿Cuál es el problema? Un análisis cuantitativo basado en datos. en Int. Conf. en Apl. de Lengua Natural. a Inf, Sistemas (Springer, 2009).

Moldovan, D. et al. La estructura y el rendimiento de un sistema de respuesta a preguntas de dominio abierto. LCA 563–570 (2000).

Hurón, O. et al. Encontrar una respuesta a partir del reconocimiento del foco de la pregunta. TREC. (2001).

Mikhailian, A., Dalmas, T. y Pinchuk, R. Focos de aprendizaje para responder preguntas sobre mapas temáticos. ACL-IJCNLP 325–328 (2009).

Bonifati, A., Martens, W. y Timm, T. Un estudio analítico de grandes registros de consultas SPARQL. VLDB J. 29, 655–679 (2020).

Kullmann, F. y col. Comparación de estudios sobre el suministro de energía de Alemania en 2050 (Tech. Rep Technoökonomische Systemanalyse, 2021).

Google Académico

Kullmann, F. y col. Comparación de estudios sobre el suministro energético de Alemania en 2050. https://doi.org/10.48366/R153801 (2021).

Marín, MA Variabilidad genética (variación COI) en estudios con muestreos grandes (>1000 secuencias). https://doi.org/10.48366/R149849 (2022).

Devlin, J., Chang, M.-W., Lee, K. y Toutanova, K. Bert: Entrenamiento previo de transformadores bidireccionales profundos para la comprensión del lenguaje. https://doi.org/10.48550/ARXIV.1810.04805 (2018).

Taylor, R. y col. Galáctica: un gran modelo de lenguaje para la ciencia. https://doi.org/10.48550/ARXIV.2211.09085 (2022).

Thoppilan, R. y col. Lamda: modelos de lenguaje para aplicaciones de diálogo. https://doi.org/10.48550/ARXIV.2201.08239 (2022).

Chen, M. y col. Evaluación de grandes modelos de lenguaje entrenados en código. https://doi.org/10.48550/ARXIV.2107.03374 (2021).

Glaese, A. y col. Mejorar la alineación de los agentes de diálogo a través de juicios humanos específicos. https://doi.org/10.48550/ARXIV.2209.14375 (2022).

Jin, Q., Dhingra, B., Liu, Z., Cohen, WW y Lu, X. Pubmedqa: un conjunto de datos para responder preguntas de investigación biomédica. https://doi.org/10.48550/ARXIV.1909.06146 (2019).

Pal, A., Umapathi, LK y Sankarasubbu, M. Medmcqa: un conjunto de datos de opción múltiple, múltiples sujetos y a gran escala para responder preguntas en el ámbito médico. https://doi.org/10.48550/ARXIV.2203.14371 (2022).

Jaradeh, MY, Singh, K., Stocker, M., Both, A. y Auer, S. Canales de extracción de información para gráficos de conocimiento. Conocimiento. Informar. Sistema.https://doi.org/10.1007/s10115-022-01826-x (2023).

Artículo de Google Scholar

Desafío académico qald. https://kgqa.github.io/scholarly-QALD-challenge/2023/ (2023). (Consultado el 13/03/2023).

Repositorio de Github: desafío académico qald. https://github.com/KGQA/scholarly-QALD-challenge (2023). (Consultado el 13/03/2023).

Por qué el último modelo de lenguaje grande de Metas solo sobrevivió tres días en línea | MIT revisión de tecnología. https://www.technologyreview.com/2022/11/18/1063487/meta-large-language-model-ai-only-survived-tres-days-gpt-3-science/. (Consultado el 13/03/2023).

Grangel-González, I. et al. Un enfoque basado en rdf para implementar componentes de la industria 4.0 con shells de administración. En 21ª Conferencia Internacional IEEE sobre Tecnologías Emergentes y Automatización de Fábricas, ETFA 2016, Berlín, Alemania, 6 al 9 de septiembre de 2016, 1–8. https://doi.org/10.1109/ETFA.2016.7733503 (IEEE, 2016).

Fischer, F. y col. ¿El desbordamiento de pila se considera perjudicial? El impacto de copiar y pegar en la seguridad de las aplicaciones de Android (2017).

Prxžulj, N., Corneil, DG y Jurisica, I. Modelado del interactoma: ¿sin escalas o geométrico? Bioinformática 20, 3508–3515. https://doi.org/10.1093/bioinformatics/bth436 (2004).

Artículo CAS Google Scholar

Milo, R. y col. Motivos de red: bloques de construcción simples de redes complejas. Ciencia 298, 824–827. https://doi.org/10.1126/science.298.5594.824 (2002).

Artículo ADS CAS PubMed Google Scholar

Breit, A. y col. Combinando aprendizaje automático y web semántica: un estudio de mapeo sistemático. Computación ACM. Supervivencia. https://doi.org/10.1145/3586163 (2023).

Artículo de Google Scholar

Vogt, L., D'Souza, J., Stocker, M. y Auer, S. Hacia la representación de las contribuciones de la investigación en gráficos de conocimiento académico utilizando celdas de gráficos de conocimiento. JCDLhttps://doi.org/10.1145/3383583.3398530 (2020).

Artículo de Google Scholar

Haris, M., Farfar, KE, Stocker, M. y Auer, S. Federación de infraestructuras académicas con GraphQL. ICADLhttps://doi.org/10.1007/978-3-030-91669-5_24 (2021).

Artículo de Google Scholar

Cara de abrazo—orkg/sciqa. https://huggingface.co/datasets/orkg/SciQA (2023). (Consultado el 13/03/2023).

Descargar referencias

Este trabajo fue cofinanciado por el Consejo Europeo de Investigación para el proyecto ScienceGRAPH (ID del acuerdo de subvención: 819536) y por el Ministerio Federal Alemán de Educación e Investigación (BMBF) en el marco del proyecto LeibnizKILabor (Subvención no. 01DD20003), Fundación Alemana de Investigación DFG. para NFDI4Ing (Nº 442146713) y NFDI4DataScience (Nº 460234259). También ha recibido financiación del programa de investigación e innovación Horizonte 2020 de la Unión Europea en virtud del acuerdo Marie Skłodowska-Curie Grant nº 101032307. También está financiado en parte por la Coordenação de Aperfeiçoamento de Pessoal de Nível Superior-Brasil ( CAPES)-Código de Finanzas 001.

Financiamiento de Acceso Abierto habilitado y organizado por Projekt DEAL.

TIB—Centro de Información Leibniz para la Ciencia y la Tecnología, Hannover, Alemania

Sören Auer, Mohamad Yaser Jaradeh, Oliver Karras y Markus Stocker

Centro de Investigación L3S, Universidad Leibniz de Hannover, Hannover, Alemania

Sören Auer, Mohamad Yaser Jaradeh y Markus Stocker

Instituto de Informática, Universidad Federal de Rio Grande do Sul, Porto Alegre, Brasil

Dante AC Barone, Cassian Bartz y Edward G. Courts

Departamento de Informática y Telecomunicaciones, Universidad Nacional y Kapodistriana de Atenas, Atenas, Grecia

Manolis Koubarakis y Eleni Tsalapati

Laboratorio de Ciencias de la Información y Tecnologías Semánticas, Universidad ITMO, San Petersburgo, Rusia

Dmitry Mouromtsev, Dmitrii Pliukhin, Daniil Radyush & Ivan Shilin

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

SA y DM concibieron y diseñaron el análisis, SA, MYJ, OK, DP, DR y ET recopilaron los datos, DACB, CB, EGC, MYJ, OK, DP, DR, IS y ET contribuyeron con datos o herramientas de análisis, SA , MYJ, OK, DM, DP, DR, IS realizó el análisis, SA, EGC, MYJ, OK, MK, DM, ET escribieron el artículo, SA, DACB, EGC, MYJ, OK, MK, DM, DR, IS , MS revisó el manuscrito.

Correspondencia a Oliver Karras.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado a los autores originales y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Auer, S., Barone, DAC, Bartz, C. et al. El punto de referencia de respuesta a preguntas científicas de SciQA para el conocimiento académico. Representante científico 13, 7240 (2023). https://doi.org/10.1038/s41598-023-33607-z

Descargar cita

Recibido: 28 de septiembre de 2022

Aceptado: 15 de abril de 2023

Publicado: 04 de mayo de 2023

DOI: https://doi.org/10.1038/s41598-023-33607-z

Cualquier persona con la que comparta el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.