Los científicos computacionales generan d molecular

Un equipo de científicos computacionales del Laboratorio Nacional Oak Ridge del Departamento de Energía ha generado y publicado conjuntos de datos de una escala sin precedentes que proporcionan las propiedades espectroscópicas ultravioleta-visible de más de 10 millones de moléculas orgánicas. Comprender cómo interactúa una molécula con la luz es esencial para revelar sus propiedades electrónicas y ópticas, que a su vez tienen aplicaciones fotónicas potenciales en productos como células solares o sistemas de imágenes médicas.

Utilizando recursos informáticos de alto rendimiento en Oak Ridge Leadership Computing Facility, el equipo de ORNL realizó cálculos de química cuántica para crear conjuntos de datos masivos. Para cada una de estas moléculas orgánicas, el equipo realizó cálculos de modelado de materiales atómicos con diferentes aproximaciones para tener en cuenta diferentes propiedades interesantes del estado excitado. Los hallazgos del equipo fueron Publicado en Datos científicos naturales.

El uso final previsto de los conjuntos de datos de código abierto es entrenar un modelo de aprendizaje profundo para identificar moléculas con propiedades optoelectrónicas y fotorreactivas, un enfoque que es mucho más rápido y fácil de implementar que los métodos existentes.

«El uso de modelos DL para el diseño molecular es esencial porque el espacio químico que debe explorarse para buscar estas moléculas es muy grande», dijo el autor principal Massimiliano Lopo Pasini, científico de datos del Departamento de Ciencia e Ingeniería Computacional de ORNL.

«Tanto los experimentos existentes como los cálculos de primeros principios, que se basan en leyes físicas que determinan cómo interactúan la materia y la energía a nivel subatómico, son inasequibles por varias razones. Los experimentos requieren mucha mano de obra y los cálculos de primeros principios pueden destruir fácilmente las instalaciones de supercomputación. » Lupo Pasini dijo: «Los modelos de aprendizaje a distancia proporcionan herramientas muy prometedoras para superar estas barreras».

READ  Spinosaurus probablemente no era un dinosaurio nadador

El proyecto despegó cuando Stefan Earle, líder del grupo de Química Computacional y Ciencia de Nanomateriales del ORNL, identificó los espectros ultravioleta y visible de las moléculas como una propiedad útil para la predicción utilizando modelos DL. Construir un modelo DL lo suficientemente complejo como para determinar las propiedades moleculares deseadas requiere entrenarlo con enormes cantidades de datos que exploren todas las diferentes regiones del espacio químico. Cuantos más datos se recopilen, más podrá el modelo DL en el que está entrenado lograr el poder y la generalización necesarios para funcionar de manera efectiva. Sin embargo, recopilar cantidades tan grandes de datos científicos para DL escalable puede generar problemas de flujo de datos, especialmente en instalaciones con múltiples usuarios como el OLCF, una instalación para usuarios de la Oficina de Ciencias del DOE ubicada en ORNL.

«Uno de los desafíos que se presenta al crear grandes cantidades de datos es que la cantidad de archivos a administrar aumenta dramáticamente. Si no se administra adecuadamente, un volumen tan grande de datos puede dañar el funcionamiento del sistema de archivos paralelo, que es un elemento «, dijo Lupo Pasini. Importante en las modernas instalaciones informáticas de alto rendimiento.

Para abordar este desafío, Lupo Pasini colaboró ​​con el informático Kshitij Mehta en ORNL para desarrollar Software de flujo de trabajo escalable Garantiza que los archivos generados por código de mecánica cuántica se manejen correctamente sin estresar el sistema de archivos, como OLCF. OriónEs un recurso compartido que maneja la entrada, salida y almacenamiento de datos en sistemas de supercomputadoras.

READ  El topógrafo de exoplanetas Ariel supera un hito importante

Como prueba de concepto, el equipo creó un conjunto de datos GDB-9-Ex de 96.766 moléculas compuestas de carbono, nitrógeno, oxígeno y flúor, con como máximo nueve átomos distintos de hidrógeno. Se ha demostrado que el flujo de trabajo diseñado es eficaz y que el entrenamiento DL predice con precisión la posición e intensidad de los picos más relevantes del espectro ultravioleta-visible. Desde este éxito inicial, el equipo ha ampliado su escala utilizando el conjunto de datos ORNL_AISD-Ex, que contiene 10.502.917 moléculas de carbono, nitrógeno, oxígeno, flúor y azufre, con un máximo de 71 átomos distintos de hidrógeno. Belson Yu, investigador postdoctoral asociado del grupo de Earle, desarrolló herramientas para analizar los conjuntos de datos resultantes.

El espectro ultravioleta-visible, que describe los modos de excitación de una molécula, se calculó para cada una de más de 10 millones de moléculas. Esta información revela la frecuencia de la luz necesaria para apuntar a la molécula y romper algunos de los enlaces del compuesto químico. Otra propiedad interesante calculada para cada molécula es la brecha HOMO-LUMO (la brecha de energía entre el orbital molecular ocupado más alto y el orbital molecular desocupado más bajo) que mide de manera confiable la estabilidad de una molécula. Utilizando esta información, el modelo DL puede examinar eficazmente los datos para identificar moléculas prometedoras para diferentes usos potenciales.

De hecho, Lupo Pasini y su equipo en ORNL, incluido el científico computacional de aprendizaje automático Pei Zhang y el científico de investigación de datos HPC Jong Youl Choi, están desarrollando un modelo DL como este: Hidrágono.

«La arquitectura HydraGNN toma la estructura atómica, la convierte en un gráfico y luego intenta predecir lo que el código de primeros principios producirá como resultado. Es un modelo alternativo al costoso cálculo de primeros principios», dijo Lupo Pasini.

READ  ¿Está listo el sistema de salud de China para poner fin a la propagación del nuevo coronavirus?

Los resultados del entrenamiento de HydraGNN en los conjuntos de datos y sus descubrimientos moleculares se detallarán en un próximo artículo.

Esta investigación está patrocinada por la Iniciativa de Inteligencia Artificial como parte del programa de investigación y desarrollo dirigido por laboratorio en ORNL. El premio al tiempo de computadora se entregó a través del Programa de Reconocimiento del Director de la OLCF.

UT-Battelle administra ORNL para la Oficina de Ciencias del Departamento de Energía, el mayor patrocinador de investigación básica en ciencias físicas en los Estados Unidos. La Oficina de Ciencias del DOE está trabajando para abordar algunos de los desafíos más apremiantes de nuestro tiempo. Para obtener más información, visite: energy.gov/science.

Descargo de responsabilidad: AAAS y EurekAlert! ¡No somos responsables de la exactitud de los boletines publicados en EurekAlert! A través de instituciones contribuyentes o para utilizar cualquier información a través del sistema EurekAlert.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *