La supercomputación semántica saca una ventaja competitiva de los datos de patentes - Calendae | Informática, Electrónica, CMS, Ciberseguridad

La supercomputación semántica saca una ventaja competitiva de los datos de patentes

Hola, ¿qué tal colega?. Te habla Simón Sánchez y esta vez vamos a hablar sobre La supercomputación semántica saca una ventaja competitiva de los datos de patentes

Mark Twain escribió: «Un país sin una oficina de patentes y buenas leyes de patentes es simplemente un cangrejo, y no puede viajar de otra manera que no sea de lado y de regreso». Pero una buena infraestructura de patentes sin buenos métodos para buscarla no hace avanzar la industria de un país.

Twain debería saberlo. En 1871 libró una larga disputa de patentes con otro hombre por la invención de una correa elástica. Finalmente, Twain ganó, pero podría haber ahorrado una gran cantidad de dinero, tiempo y frustración si hubiera sabido de antemano sobre la patente competidora.

Cada año se desperdician miles de millones de dólares en investigación y desarrollo de invenciones que ya están protegidas por la ley de patentes: unos 20 mil millones de dólares en los Estados Unidos y 60 mil millones de euros en Europa, lo que equivale aproximadamente a los ingresos anuales combinados de Microsoft y Manzana. De hecho, estos mismos titanes cibernéticos libraron costosas guerras de propiedad intelectual debido a la poca inteligencia de patentes, como la disputa de la patente de la interfaz de usuario del iPod de 2004, que Apple finalmente perdió ante Microsoft.

No es de extrañar que la información sobre patentes sea tan cara y difícil de adivinar. El volumen de datos sobre patentes es enorme. La colección de patentes mundial incluye el mayor depósito de información sobre los logros más importantes de la humanidad. Desde que se emitió la primera patente para una estatua veneciana en 1471, se han otorgado 60 millones de patentes en todo el mundo, con cuatro millones de patentes actualmente en vigor en todo el mundo. Y cada año se registran 800.000 nuevos inventos. Aunque los datos son públicos, las herramientas de investigación actuales son engorrosas e inadecuadas para las necesidades de los profesionales. E incluso si resuelve el problema de la recuperación de patentes, eso no es suficiente: los investigadores de hoy necesitan vistas integradas de la información de patentes relacionada, como afiliaciones corporativas, información científica, documentos de la técnica anterior y las últimas noticias sobre propiedad intelectual. .

Para abordar este desafío, los investigadores están desarrollando algoritmos de procesamiento del lenguaje natural (NLP) intensivos en computación en el nuevo campo de la supercomputación semántica. Una empresa que aprovecha la nueva tecnología es Matrixware Information Services (www.matrixware.com). La compañía está combinando sistemas HPC con el software Interactive Supercomputing, Inc. (ISC) Star-P para abordar el desafío cada vez mayor de encontrar información sobre patentes oculta en las vastas bases de datos y bibliotecas de patentes del mundo.

Las patentes y la propiedad intelectual juegan un papel cada vez más importante como activos intangibles de las empresas industriales. Más de 250.000 empresas de todo el mundo dependen de los datos de patentes. Como resultado, la gestión profesional de patentes y la recuperación precisa de información sobre patentes son procesos comerciales esenciales para las industrias de todo el mundo.

Las empresas pioneras en informática semántica suelen emplear equipos de ingenieros informáticos, matemáticos, lingüistas y especialistas en patentes para ayudar a las empresas a extraer información de propiedad intelectual en los archivos de patentes. Las técnicas de supercomputación semántica y la tecnología HPC que utilizan permiten a los usuarios recuperar información relevante sobre patentes de forma más rápida, sencilla y económica.

Matrixware, por ejemplo, utiliza servidores blade multinúcleo SGI Altix 4700 y clústeres de Linux que ejecutan Star-P para desarrollar y ejecutar sus algoritmos de PNL en conjuntos de datos de patentes a escala de terabytes. Star-P permite al equipo de Matrixware codificar y refinar continuamente los algoritmos de NLP en sus escritorios utilizando Python o MATLAB, y luego ejecutarlos de forma interactiva en sistemas HPC con poca o ninguna modificación. El modelo de supercomputación semántica elimina la necesidad de reprogramar aplicaciones en C, Fortran o MPI para que se ejecuten en sistemas paralelos, lo que genera enormes ganancias de productividad.

La recuperación de patentes presenta dos niveles de desafíos computacionales. El primer desafío se centra en los datos. La información sobre patentes se encuentra dispersa en varios cientos de archivos que datan de la década de 1700. Estas diversas colecciones de patentes han evolucionado a través de 200 generaciones de métodos de archivo de documentos desde entonces. Parte de la información son datos digitales; otros se derivan de documentos que se han escaneado y convertido con sistemas OCR, y otros son meras imágenes de documentos. Los investigadores deben lidiar con enormes lagunas e inconsistencias en el formato de 100 millones de documentos.

Otro desafío se centra en la base de datos. Hoy en día, la mayoría de los datos de patentes se almacenan en bases de datos relacionales. Pero el arte de gestionar la información de patentes se basa en 4.000 años de métodos bibliotecarios, que entran en conflicto con las restricciones impuestas por las bases de datos relacionales. Esto limita severamente la accesibilidad de los datos.

Por ejemplo, la mayoría de los documentos de patentes se clasifican mediante un esquema de taxonomía establecido por la Organización Mundial de la Propiedad Intelectual (OMPI) que contiene aproximadamente 70.000 clases, denominada taxonomía de Propiedad Intelectual y Comercialización de Tecnología (IPTC). Varía ampliamente desde clasificaciones de patentes químicas a mecánicas con muchas subclasificaciones en cada clase principal (por ejemplo, la automoción es una subclase de mecánica).

«Queríamos ver si hay términos específicos característicos de clases específicas dentro de la taxonomía», dijo Francisco Weber, director ejecutivo de Matrixware. Su equipo intentó utilizar bases de datos relacionales que se ejecutaban en un servidor convencional, tomando una muestra de alrededor de 1,5 millones de documentos de patente, de los que extrajeron 10 mil millones de términos. Luego crearon una simple unión a la base de datos para agregar los términos en función de sus clasificaciones. El resultado fue una unión de base de datos de 1,5 millones X 10 mil millones de filas. «Terminamos rompiendo todos los sistemas de bases de datos comerciales que probamos», agregó.

Para resolver este problema, Matrixware desarrolló el sistema Alexandria, un depósito de almacenamiento central para datos sin procesar y datos enriquecidos que se ejecutan en sistemas HPC. Requiere un enfoque diferente para almacenar y administrar grandes cantidades de datos de documentos. El acceso a los datos de Alexandria se basa en métodos establecidos de bibliotecología y se incorpora a un sistema de flujo de trabajo. El servidor de Alexandria también proporciona al usuario recuentos de documentos precisos y constantemente actualizados en las colecciones de las que el investigador recupera.

Para que la información de patentes sea utilizable, accesible y significativa, el sistema Alexandria genera de forma recursiva metadatos a partir de datos y metadatos a partir de metadatos. Estos procesos de refinamiento alimentan y actualizan continuamente el repositorio de Alexandria y permiten a los usuarios «cultivar activamente el corpus», para usar el término de la industria para crear una rica colección de datos lingüísticos.

Para proporcionar un marco de desarrollo de front-end en Alexandria, Matrixware creó una infraestructura de software llamada Leonardo Ecosystem. Dentro de este marco, los tecnólogos pueden crear y perfeccionar simultáneamente nuevas herramientas y métodos de investigación, así como colaborar con otros usuarios de la comunidad de usuarios para resolver problemas. Esto beneficia a los usuarios al permitirles elegir la mejor herramienta disponible para necesidades de información específicas y flujos de trabajo existentes.

Los enormes modelos de memoria requeridos por el corpus de patentes contenido en Alexandria requerían un sistema SGI Altix con 80 nodos de procesador y 380 GB de memoria. El sistema Alexandria presentó dos desafíos computacionales que solo los sistemas HPC podrían abordar. El primero fue en el nivel de cadena de texto puro. El proceso de dividir texto, extraer y tokenizar palabras de una colección de 1,5 millones de documentos de patente genera 10 mil millones de términos, que requieren varios modelos de memoria de terabytes para su procesamiento. Además, el proceso de investigación es intrínsecamente iterativo y experimental, y requiere un refinamiento constante de los algoritmos de PNL y ejecuciones repetidas por lotes en la computadora. En consecuencia, se necesitaban velocidades de supercomputación para que el flujo de trabajo fuera razonable.

El segundo desafío fue manejar las enormes matrices. Las cadenas de texto extraídas crean recuentos de ocurrencia de términos dentro de los documentos de patente, que están codificados numéricamente. Esto da como resultado matrices de hasta 10 millones por 10 mil millones. La aplicación de los algoritmos a estas matrices requirió una plataforma de software capaz de escalar los datos requeridos en cualquier medida.

La supercomputación semántica procesa los datos de patentes en función de su significado contextual para transformarlos en información valiosa para los usuarios. Su propósito es aumentar su productividad y abrirles nuevas oportunidades utilizando información de propiedad intelectual. Pero aunque los usuarios suelen ser expertos en recuperación de información, no son expertos en programación paralela. La supercomputación semántica les permite aprovechar el poder de los sistemas HPC para refinar y ejecutar sus aplicaciones de procesamiento de lenguaje natural, así como para mejorar la calidad de los datos de las solicitudes de patente.

Acerca de

David Rich es el vicepresidente de marketing de Interactive Supercomputing. David aporta a ISC más de 23 años de experiencia en marketing, ventas y servicio a empresas de alta tecnología tanto grandes como emprendedoras. En AMD, lideró la entrada de la compañía en el mercado de clústeres de HPC y obtuvo grandes logros como el sistema Red Storm en Sandia National Laboratories y Dawning 4000A en el Shanghai Supercomputer Center. Durante su mandato en AMD, fue presidente del HyperTransport Consortium, una organización de estándares para la tecnología de interconexión de alta velocidad. La experiencia previa de David incluye ser el gerente fundador de la línea de productos TotalView, que se ha convertido en el estándar de facto para la depuración paralela y distribuida. Fue vicepresidente de Fujitsu System Technologies, que desarrolló tecnología de redes de alta velocidad que fue precursora de InfiniBand. Su experiencia en procesamiento paralelo comenzó en BBN Technologies, donde trabajó en la serie de computadoras Butterfly. David tiene una licenciatura en ciencias de la computación de la Universidad de Brown.

Deberías compartir en una historia de tu Instagram para que tus amigos lo flipen

??? ? ? ???

Comparte