Pregunta al experto
Hannah Linder
Gerente senior, datos y análisis
¿Cómo los pipelines de datos alimentan el mapa de Global Fishing Watch y cómo la última versión ha estandarizado el proceso para futuras actualizaciones?
Nuestro mapa se basa en datos satelitales que contienen información clave sobre la identidad y la posición de las embarcaciones. Un canal de datos toma estos datos crudos y utiliza una serie de procesos automatizados para convertirlos en un formato que se pueda utilizar para visualización, análisis y elaboración de informes.
Por ejemplo, uno de nuestros pipelines de datos utiliza información del sistema de identificación automática de los embarcaciones (AIS). Estos datos iniciales son simplemente mensajes de posición global y mensajes de identidad separados de los buques que se registran diariamente. A menudo, los datos tienen «ruido» (errores o inexactitudes), lo que significa que algunos mensajes de posición y de identidad son incorrectos, falta información o no son válidos. Por lo tanto, para que se puedan utilizar en nuestra plataforma, los datos deben procesarse a través de nuestro canal, donde se limpian, organizan y agregan en rutas de buques distintas fusiinadas con con información de identidad de embarcaciones. Luego, podemos aplicar información adicional a los datos. Esto puede incluir la estimación de diferentes actividades de los buques, como la pesca, o indicadores específicos que se comparten a través de API y se muestran en nuestro mapa.
Nuestro equipo actualiza y revisada periódicamente el flujo de datos AIS de Global Fishing Watch. Sin embargo, para mejorar la precisión y la facilidad de uso, recientemente actualizamos el flujo de datos mediante cambios en la infraestructura técnica, la organización y los datos subyacentes. Esto marca la culminación de nuestra primera revisión integral del flujo de datos: un proceso de dos años que incluyó la mejora de elementos de procesamiento e implementación de monitoreo y evaluación de garantía de calidad en todo el flujo de datos.
Estas mejoras incluyeron:
Modificación de nuestros métodos de procesamiento y la arquitectura del canal para garantizar la estabilidad y flexibilidad futuras. Como resultado, somos mucho más rápidos en la resolución de errores o inconsistencias en el pipeline. Por ejemplo, antes se necesitaban casi dos meses para volver a ejecutar todo el pipeline; ahora se necesitan unos días.
Actualización de nuestras fuentes de límites por primera vez. Hemos actualizado más de la mitad de nuestras etiquetas de fondeadero después de una revisión interna y hemos conectado la información de límites a nuestra información de posición AIS con una resolución más fina para ser más precisos. También actualizamos a la última versión de los shapefiles para los límites regionales, que ahora incluyen metadatos identificables para los límites de las organizaciones regionales de ordenación pesquera (OROP), las áreas marinas protegidas (AMP) y las zonas económicas exclusivas (ZEE).
Estabilización de la denominación, el linaje y la organización de nuestros conjuntos de datos para proporcionar más transparencia internamente y para los usuarios de nuestros conjuntos de datos.
Identificación y resolución de un error imprevisto en nuestras clases de embarcaciones estimadas. Esto dio como resultado una clasificación adicional de 263.627 buques, de los cuales clasificamos 29.619 como pesqueros.
Los cambios en un pipeline pueden tener un impacto significativo en los productos de datos que nuestros usuarios utilizan y aplican para resolver problemas del mundo real. Esto hace que sea esencial mantener y mejorar la salud de nuestros datos a través de lanzamientos regulares de pipelines. Global Fishing Watch también se ha expandido significativamente desde una pequeña empresa emergente a una organización mucho más grande y, con este crecimiento, ahora tenemos la capacidad de desarrollar estructuras de gobernanza de datos más consistentes, mejorar la comunicación de datos y brindar una garantía de calidad de datos continua y exhaustiva.
Ahora tenemos la base para resolver rápidamente cualquier error que pueda ocurrir a partir del procesamiento diario de un conjunto de datos en constante crecimiento y mejorar nuestros productos de datos. A partir de este lanzamiento, actualizaremos nuestras versiones de datos aproximadamente una vez al año. También continuaremos mejorando nuestra comunicación para aumentar la accesibilidad y la transparencia de nuestros datos para todos los usuarios, mientras nos esforzamos por garantizar siempre la calidad, la confiabilidad y las innovaciones de los datos.