Más

¿Contando el número de puntos en un polígono particular para la lista de individuos que usan R?

¿Contando el número de puntos en un polígono particular para la lista de individuos que usan R?


Tengo puntos de distribución para un conjunto de individuos y un archivo de polígonos, con identificaciones coincidentes.

Lo que me gustaría hacer es revisar y para cada individuo encontrar el número total de puntos y el número que cae dentro del polígono apropiado, luego tener la salida en forma de hoja de cálculo con una columna para ID; Número total de puntos; puntos en polígono.


Puedes usar elpoly.countsherramienta en el paquete GISTools.


require (GISTools) # Usa un conjunto de datos de muestra data (newhaven) # Traza los datos de muestra (para propósitos de ilustración) traza (bloques) traza (brecha, agrega = VERDADERO) # Cuenta puntos dentro de cada polígono cuenta = poli.conta (brecha, bloques ) # Convierta los conteos a un marco de datos df = data.frame (conteos) #Escriba el marco de datos a un archivo .csv setwd ("C: / temp") write.table (df, file = "dataframe.csv", sep = ",", col.names = NA) # Para divertirse: Calcule las densidades y mapee en un mapa de coropletas coropletas (bloques, conteos / poly.areas (bloques))

El paquete rgeos tiene la función

g Contiene

Su página de ayuda dice

gContains devuelve TRUE si ninguno de los puntos de spgeom2 está fuera de spgeom1 y al menos un punto de spgeom2 cae dentro de spgeom1.

Si ejecuta esto sobre cada punto de distribución dentro de la función 'which', obtendrá un vector que luego puede analizar con 'table'

Danos un ejemplo reproducible (usando los shapefiles en maptools, etc.) y podríamos dar un código para una respuesta reproducible ...


Resumir valores medios en ArcGIS Pro a través de R-ArcGIS Bridge

Si alguna vez ha deseado "mediana" como una opción en la lista desplegable de la herramienta "Resumir dentro" de Esri cuando trabaja con datos que no se distribuyen normalmente, ¡no espere más! Utilice este script y R-ArcGIS Bridge para satisfacer sus necesidades de funciones no paramétricas.

Cuando sus datos no se distribuyen normalmente, busque fuera de las limitadas opciones desplegables una solución que mantenga la integridad de sus datos. R-ArcGIS Bridge ofrece la capacidad de utilizar R en la creación de scripts de un modelo estadístico (en este caso, el cálculo del valor medio en función de la ubicación geográfica) y ArcGIS Pro para ejecutar e incorporar el script en su flujo de trabajo de Esri más grande.


¿Contando el número de puntos en un polígono particular para la lista de individuos que usan R? - Sistemas de Información Geográfica

La latitud y la longitud se informan para cada aeropuerto en el conjunto de datos.
Dibujemos el mapa de Europa con la ayuda del paquete rworldmap, como se mostró en la publicación anterior sobre mapas:

Entonces podemos colocar fácilmente los aeropuertos sobre el mapa:

Añadiendo dimensiones

En la publicación introductoria mencioné que ggmap en realidad se basa en el motor de gráficos ggplot, por lo que todas las fortalezas de ggplot están disponibles al mapear datos con ggmap.
Aquí mostraré un par de ejemplos sobre cómo aprovechar esto.

Carguemos otro conjunto de datos de OpenFlights en R.

A partir del conjunto de datos de rutas, contemos el número de rutas que salen y llegan a un aeropuerto en particular. Estoy usando otro paquete muy útil de Hadley Wickham para esta tarea.

Luego, agreguemos la información sobre vuelos de salida y llegada al conjunto de datos de los aeropuertos (que contiene los datos de coordenadas).

El objetivo ahora es trazar los aeropuertos en el mapa de Europa como círculos cuya área es proporcional al número de vuelos que salen.

El primer paso es obtener el mapa de Mapas de Google (o uno de los otros servicios disponibles), como se mostró la última vez.

Las siguientes líneas ya nos acercan bastante a producir el gráfico deseado.

El comando ggmap prepara el dibujo del mapa. La función geom_point agrega la capa de puntos de datos, como se haría normalmente en un ggplot. Una explicación detallada de ggplot está más allá del alcance de esta publicación, pero aquí hay detalles rápidos sobre lo que se pasa a geom_point:
- aes indica cómo se va a generar la estética (puntos en este caso) la variable lon se asocia al eje x, lat a y, y el tamaño de los puntos es proporcional al valor de la variable vuelos (en realidad a su raíz cuadrada )
- los datos indican el conjunto de datos donde se encuentra la variable pasada a aes
- el parámetro alfa controla la transparencia de los puntos trazados (cierto grado de transparencia hará que los círculos superpuestos sean distinguibles).

Y esto es lo que aparece en la ventana de trazado de R cuando se escribe mapPoints en la consola.

Unos pocos ajustes a la leyenda (para que informe el número real de salidas en lugar de la raíz cuadrada) y el gráfico está listo para su publicación.


6 respuestas 6

La imagen muestra algunos contraejemplos, incluido uno que muestra que el problema no es tan fácil como comprobar que todos los vértices de un polígono están dentro del otro polígono.

Un posible enfoque sería verificar que ninguno de los lados de los dos polígonos se interseque y que un vértice esté adentro.

Sea $ p_1 $ el cuadrilátero con vértices $ (1,0), (0,1), (-1,0), (0, -1) $. Entonces sus condiciones son para el cuadro delimitador $ b $ de $ p_1 $, no para $ p_1 $ en sí. En particular, un pequeño $ p_0 $ cabe en una esquina de $ b $ pero está completamente fuera de $ p_1 $.

Ni siquiera es suficiente usar un algoritmo de punto en polígono para probar si los vértices de $ p_0 $ están todos dentro de $ p_1 $ porque $ p_1 $ podría no ser convexo.

La única forma general es comprobar que su unión es $ p_1 $. Para eso, es posible que necesite una herramienta de recorte de polígonos como gpc. Consulte también el algoritmo de recorte de Weiler-Atherton y las operaciones booleanas en polígonos.

No, esto no funciona en absoluto.

Esta prueba de cuadro delimitador garantiza que los polígonos estén disjuntos, cuando los cuadros lo estén. De lo contrario, no dice nada.

Una prueba relativamente simple y correcta es verificar que no haya intersecciones laterales por pares, lo cual se realiza mediante pruebas exhaustivas de intersección segmento-segmento. Entonces, o los polígonos están separados o uno totalmente incluido en el otro. Usted toma la decisión final tomando algún vértice y aplicando una prueba de punto en polígono con el otro polígono.

Si busca una solución eficiente, puede recurrir a un algoritmo de línea de barrido, durante el cual barre una línea horizontal a través de todos los vértices y mantiene una lista de los segmentos horizontales que están cortando los polígonos. Luego se reduce a un problema de contención de segmento 1D.


Error de análisis y medición de delitos geográficos

Hay cuatro fuentes principales de sesgo de datos que pueden afectar la precisión de las diferencias de la comunidad en el crimen documentadas a través de estadísticas policiales. En primer lugar, se sabe que la voluntad de los residentes de denunciar delitos a la policía está asociada con factores individuales y contextuales que varían según las áreas geográficas (Hart y Rennison 2003). Hay factores demográficos, sociales, económicos y ambientales que afectan las tasas de denuncia de delitos. Por ejemplo, el sexo, la edad, la situación laboral, el nivel de educación y el grupo étnico de las víctimas son buenos indicadores de su probabilidad de denunciar delitos a la policía (Hart y Rennison 2003). Dado que algunas de estas características de los residentes se concentran en áreas particulares, también esperamos que las tasas de denuncia de delitos varíen entre las áreas. En general, los vecindarios desfavorecidos y las áreas con grandes concentraciones de inmigrantes tienen tasas de denuncia de delitos más bajas que las áreas de clase media (Baumer 2002 Xie y Baumer 2019a Goudriaan et al.2006), y los delitos que tienen lugar en áreas cohesivas tienen una mayor probabilidad de ser conocidos. a la policía (Goudriaan et al. 2006 Jackson et al. 2013). Además, los residentes de áreas rurales generalmente están más dispuestos a cooperar con los servicios policiales que los ciudadanos urbanos (Hart y Rennison 2003). La investigación también ha encontrado que la gravedad y el daño del incidente están estrechamente relacionados con la decisión de notificación (Baumer 2002 Xie y Baumer 2019b).

En segundo lugar, los estudios han encontrado que la tasa general de delincuencia y las percepciones de los ciudadanos sobre las fuerzas policiales, que también varían entre áreas, afectan la disposición de los residentes a cooperar con la policía (por ejemplo, Xie 2014). Berg y col. (2013) muestran que el factor contextual más importante para explicar la denuncia de delitos es el nivel de delitos en el área. Jackson y col. (2013) argumentan que el nivel de confianza en la justicia policial y las percepciones de los residentes sobre la legitimidad policial es clave para predecir la voluntad de cooperar con las fuerzas policiales.

En tercer lugar, el control policial desigual en todas las áreas puede inflar las estadísticas delictivas en algunos lugares, pero no en otros. Schnebly (2008) muestra que las ciudades con más agentes de policía capacitados en vigilancia comunitaria generalmente tienen tasas más altas de notificación a la policía, mientras que McCandless et al. (2016) argumentan que las prácticas de detención y registro mal manejadas pueden disuadir a los residentes de interactuar con la policía.

Cuarto, puede haber diferencias entre las reglas de recuento aplicadas por diferentes fuerzas policiales (Aebi y Linde 2012). No se espera que esto sea una fuente importante de error en Inglaterra y Gales, ya que las 43 fuerzas policiales siguen reglas de conteo comunes (Estándares nacionales de registro de delitos y Reglas de conteo del Ministerio del Interior para delitos registrados). Sin embargo, observamos que, en 2014, la Inspección de Policía y Servicios de Bomberos y Rescate de Su Majestad realizó una inspección sobre las estadísticas policiales y concluyó que el grado en que se seguían ciertas prácticas de conteo variaba entre las fuerzas policiales (HMIC 2014).

Algunas de estas fuentes de error de medición fueron mencionadas por Skogan (1977: 41) para argumentar que la figura oscura del crimen “limita la capacidad disuasoria del sistema de justicia penal, contribuye a la mala asignación de los recursos policiales, hace que las víctimas no sean elegibles para los servicios públicos y privados. beneficios, afecta los costos del seguro y ayuda a moldear el papel de la policía en la sociedad ". Además, la administración pública del Reino Unido también reconoce que “se están acumulando pruebas que sugieren que los datos subyacentes sobre los delitos registrados por la policía pueden no ser confiables” (Autoridad de Estadísticas del Reino Unido, 2014: 2). Como consecuencia, en 2014, los datos sobre delitos se eliminaron de la designación de Estadísticas Nacionales del Reino Unido.

Dado que muchos de los factores que generan disparidades en el sesgo y la precisión de los datos sobre delitos registrados por la policía no se distribuyen de manera uniforme en el espacio, incluso en la misma ciudad, es plausible que el sesgo que afecta a los datos sobre delitos varíe considerablemente entre áreas pequeñas. De hecho, los problemas de sesgo y precisión pueden incluso agravarse a medida que la resolución geográfica se vuelve más precisa. Oberwittler y Wikström (2009: 41) argumentan que, para analizar el crimen, “las unidades geográficas más pequeñas son más homogéneas y, por lo tanto, miden los entornos con mayor precisión. En otras palabras, cuanto más pequeño, mejor ". Se dice que las unidades de análisis más pequeñas son mejores para explicar los comportamientos delictivos, ya que el delito está determinado por las oportunidades que ocurren en el entorno inmediato. Sin embargo, también se pueden preferir unidades de análisis más pequeñas para explicar la cantidad de delitos que permanecen ocultos en las estadísticas policiales (ya sea porque las víctimas y los testigos no informan o porque la policía no registra). El "sesgo de agregación", que argumenta que lo que es cierto para un grupo también debe ser cierto para los individuos dentro de ese grupo, tiende a utilizarse para justificar la selección de unidades espaciales más pequeñas en el análisis del crimen geográfico debido a esta homogeneidad en las características residenciales. Y, sin embargo, la alta homogeneidad interna y la heterogeneidad entre unidades pueden generar una mayor variabilidad en el sesgo y la precisión entre unidades. Sería paradójico y contraproducente si, al tratar de evitar el sesgo de agregación con el uso de unidades de microescala, los estudios incrementaran el riesgo de que las estadísticas delictivas se vieran afectadas por el sesgo y la imprecisión. Esto tendría repercusiones significativas para el esfuerzo académico y las prácticas policiales que documentan y explican las diferencias de la comunidad en materia de delincuencia.


¿Contando el número de puntos en un polígono particular para la lista de individuos que usan R? - Sistemas de Información Geográfica

Consorcio Geoespacial Abierto

Fecha de publicación: 2017-08-18

Formatos adicionales (informativos):

Consulte la errata de este documento,
que puede incluir algunas correcciones normativas.

Versión anterior (informativa): html

Número de referencia interno de este documento OGC ®: 17-002r1

Categoría: Estándar comunitario OGC ®

Estándar de codificación OGC GeoRSS

aviso de copyright

Copyright © 2017 Consorcio Geoespacial Abierto
Para obtener derechos de uso adicionales, visite http://www.opengeospatial.org/legal/.

Este documento es un estándar comunitario internacional aprobado por los miembros de OGC. Este estándar comunitario se desarrolló fuera de la OGC y la parte que lo originó puede continuar actualizando su trabajo; sin embargo, este documento tiene un contenido fijo. Este documento está disponible sin derechos de autor y no discriminatorio. Se invita a los destinatarios de este documento a enviar, con sus comentarios, una notificación de cualquier derecho de patente relevante del que tengan conocimiento y proporcionar documentación de respaldo.

Tipo de Documento: Estándar de la comunidad OGC
Subtipo de documento:
Etapa de documento: Aprobado para divulgación pública
Idioma del documento: inglés

Reconocimiento-CompartirIgual
CC BY-SA

Esta licencia permite que otros mezclen, modifiquen y desarrollen el trabajo de GeoRSS incluso con fines comerciales, siempre que le otorguen crédito y licencian sus nuevas creaciones bajo los mismos términos. Esta licencia a menudo se compara con licencias de software de código abierto y gratuitas "copyleft". Todas las obras nuevas basadas en el estándar GeoRSS llevarán la misma licencia, por lo que cualquier derivado también permitirá el uso comercial. Esta es la licencia utilizada por Wikipedia y se recomienda para materiales que se beneficiarían de la incorporación de contenido de Wikipedia y proyectos con licencias similares. https://creativecommons.org/licenses/by-sa/4.0/ y https://creativecommons.org/licenses/by-sa/4.0/legalcode

GeoRSS está diseñado como una forma liviana e impulsada por la comunidad para extender los canales RSS existentes con información geográfica simple. El estándar GeoRSS proporciona la codificación de la ubicación de una manera interoperable para que las aplicaciones puedan solicitar, agregar, compartir y mapear feeds de etiquetas geográficas.

ii. Fuente del contenido de este documento OGC

La mayor parte del contenido de este documento de OGC es una copia directa del contenido de www.georss.org. No se han realizado cambios normativos en el contenido. Este documento de OGC incluye contenido que no se encuentra en www.georss.org. Específicamente, aunque se derivan del sitio web georss.org, las secciones Resumen, Palabras clave, Prefacio, Organizaciones remitentes, Promotores, Términos y definiciones y Referencias de este documento no se encuentran en el sitio web georss.org.

Este documento fue creado a partir del contenido de www.georss.org a fines de enero de 2017. El contenido de este documento ha sido revisado por el equipo de presentación original y se declara exacto y verdadero.

Las siguientes son palabras clave que utilizarán los motores de búsqueda y los catálogos de documentos.

ogcdoc, documento OGC, georss, rss, feeds

La especificación original de GeoRSS fue el resultado de una colaboración de profesionales de Geo-IT, personal y miembros de OGC y otras personas altamente creativas. Este grupo se propuso definir la codificación geográfica más simple posible que aún fuera lo suficientemente expresiva y amigable con los estándares para satisfacer a la comunidad geoespacial profesional y, al mismo tiempo, lo suficientemente simple como para obtener una rápida aceptación por parte de los principales desarrolladores web y RSS. La primera versión comunitaria de GeoRSS se lanzó en 2006.

Se llama la atención sobre la posibilidad de que algunos de los elementos de este documento puedan estar sujetos a derechos de patente. El Consorcio Geoespacial Abierto no será responsable de identificar ninguno o todos los derechos de patente.

Se solicita a los destinatarios de este documento que envíen, con sus comentarios, una notificación de cualquier reclamo de patente relevante u otros derechos de propiedad intelectual de los que tengan conocimiento y que puedan ser infringidos por cualquier implementación del estándar establecido en este documento, y que proporcionen apoyo. documentación.

vi. Organizaciones que envían

Las siguientes organizaciones enviaron este documento al Consorcio Geoespacial Abierto (OGC):

Carl Reed and Associates Mikel Maron (como individuo) Tumblingwalls Galdos IBM

Todas las preguntas relacionadas con este envío deben dirigirse al editor o los remitentes:


Parámetros

La clase de entidad de punto de entrada que se agregará en bins de espacio-tiempo.

El cubo de datos netCDF de salida que se creará para contener recuentos y resúmenes de los datos de puntos de características de entrada.

El campo que contiene la fecha y la hora (marca de tiempo) de cada punto. Este campo debe ser de tipo Fecha.

Un cubo de espacio-tiempo de referencia que se utiliza para definir la extensión de análisis del cubo de espacio-tiempo de salida, las dimensiones y la alineación de la ubicación. La información del intervalo de paso de tiempo, intervalo de distancia y tiempo de referencia también se obtiene del cubo de plantilla. Este cubo de plantilla debe ser un archivo netCDF (.nc) creado con esta herramienta.

Un cubo de espacio-tiempo creado mediante la agregación en ubicaciones definidas no se puede utilizar como un cubo de plantilla.

La cantidad de segundos, minutos, horas, días, semanas o años que representarán un solo paso de tiempo. Se agregarán todos los puntos dentro del mismo intervalo de tiempo e intervalo de distancia. (Cuando se proporciona un cubo de plantilla, este parámetro se ignora y el valor del intervalo de paso de tiempo se obtiene del cubo de plantilla).

Define cómo se producirá la agregación en función de un intervalo_paso_tiempo determinado. Si se proporciona un template_cube, time_step_alignment asociado con template_cube anula esta configuración de parámetro y se utiliza el time_step_alignment de template_cube.

  • Hora de finalización: los pasos de tiempo se alinean con el último evento y se agregan en el tiempo.
  • Hora de inicio: los pasos de tiempo se alinean con el evento de la primera vez y se agregan hacia adelante en el tiempo.
  • Hora de referencia: los pasos de tiempo se alinean con una fecha / hora particular que especifique. Si todos los puntos en las entidades de entrada tienen una marca de tiempo mayor que la hora de referencia que proporcionaste (o cae exactamente en la hora de inicio de las entidades de entrada), el intervalo de intervalo de tiempo comenzará con esa hora de referencia y se agregará hacia adelante en el tiempo (como ocurre con una alineación de hora de inicio). Si todos los puntos en las entidades de entrada tienen una marca de tiempo menor que el tiempo de referencia que proporcionaste (o cae exactamente en la hora de finalización de las entidades de entrada), el intervalo de intervalo de tiempo terminará con ese tiempo de referencia y se agregará hacia atrás en el tiempo (como ocurre con una alineación de hora de finalización). Si el tiempo de referencia que proporciona está en el medio de la extensión de tiempo de sus datos, se creará un intervalo de intervalo de tiempo que finaliza con el tiempo de referencia proporcionado (como ocurre con una alineación de tiempo de finalización) se crearán intervalos adicionales tanto antes como después el tiempo de referencia hasta que se cubra la extensión de tiempo completo de sus datos.

La fecha / hora que se utilizará para alinear los intervalos de tiempo. Si desea agrupar sus datos semanalmente de lunes a domingo, por ejemplo, puede establecer una hora de referencia del domingo a la medianoche para garantizar que los contenedores se rompan entre el domingo y el lunes a la medianoche. (Cuando se proporciona un cubo de plantilla, este parámetro está deshabilitado y el tiempo de referencia se basa en el cubo de plantilla).

El tamaño de los contenedores utilizados para agregar las Entidades de entrada. Se agregarán todos los puntos que se encuentren dentro del mismo intervalo de distancia y intervalo de tiempo. Al agregar en una cuadrícula hexagonal, esta distancia se usa como la altura para construir los polígonos hexagonales. (Cuando se proporciona un Cubo de plantilla, este parámetro está deshabilitado y el valor del intervalo de distancia se basará en el Cubo de plantilla).

El campo numérico que contiene los valores de los atributos que se utilizan para calcular la estadística especificada cuando se agrega en un cubo de espacio-tiempo. Se pueden especificar múltiples combinaciones de estadísticas y campos. Los valores nulos en cualquiera de los campos especificados darán como resultado que esa característica se elimine del cubo de salida. Si hay valores nulos presentes en sus entidades de entrada, se recomienda encarecidamente que ejecute la herramienta Rellenar valores perdidos antes de crear un cubo de espacio-tiempo.

  • SUM: agrega el valor total para el campo especificado dentro de cada contenedor.
  • MEDIA: calcula el promedio para el campo especificado dentro de cada ubicación.
  • MIN: busca el valor más pequeño para todos los registros del campo especificado dentro de cada contenedor.
  • MAX: busca el valor más grande para todos los registros del campo especificado dentro de cada contenedor.
  • STD: busca la desviación estándar de los valores en el campo especificado dentro de cada contenedor.
  • MEDIANA: busca el valor medio ordenado de todos los registros del campo especificado dentro de cada contenedor.
  • ZEROS: llena los contenedores vacíos con ceros.
  • SPATIAL_NEIGHBORS: llena los contenedores vacíos con el valor promedio de los vecinos espaciales
  • SPACE_TIME_NEIGHBORS: llena los contenedores vacíos con el valor promedio de los vecinos del espacio-tiempo.
  • TEMPORAL_TREND: llena bins vacíos usando un algoritmo de spline univariante interpolado.

Los valores nulos presentes en cualquiera de los registros de campo de resumen darán como resultado que esas características se excluyan del cubo de salida. Si hay valores nulos presentes en sus Entidades de entrada, se recomienda encarecidamente que primero ejecute la herramienta Rellenar valores perdidos. Si, después de ejecutar la herramienta Rellenar valores perdidos, todavía hay valores nulos presentes y tener el recuento de puntos en cada contenedor es parte de su estrategia de análisis, es posible que desee considerar la creación de cubos separados, uno para el recuento (sin campos de resumen) y uno para Campos de resumen. Si el conjunto de valores nulos es diferente para cada campo de resumen, también puede considerar la posibilidad de crear un cubo separado para cada campo de resumen.

La forma de la malla poligonal en la que se agregarán los datos del punto de entidad de entrada.

  • Cuadrícula de red: las entidades de entrada se agregarán en una cuadrícula de celdas cuadradas (red de pesca).
  • Cuadrícula hexagonal: las entidades de entrada se agregarán en una cuadrícula de celdas hexagonales.
  • Ubicaciones definidas: las características de entrada se agregarán a las ubicaciones proporcionadas.

Las entidades poligonales en las que se agregarán los datos del punto de entrada. Estos pueden representar los límites de los condados, la policía o los territorios de ventas, por ejemplo.

El campo que contiene el número de identificación para cada ubicación única.

La clase de entidad de punto de entrada que se agregará en bins de espacio-tiempo.

El cubo de datos netCDF de salida que se creará para contener recuentos y resúmenes de los datos de puntos de características de entrada.

El campo que contiene la fecha y la hora (marca de tiempo) de cada punto. Este campo debe ser de tipo Fecha.

Un cubo de espacio-tiempo de referencia que se utiliza para definir la extensión de análisis de output_cube, las dimensiones del contenedor y la alineación del contenedor. Los valores time_step_interval, distance_interval y reference_time también se obtienen del cubo de plantilla. Este cubo de plantilla debe ser un archivo netCDF (.nc) creado con esta herramienta.

Un cubo de espacio-tiempo creado agregando en DEFINED_LOCATIONS no se puede usar como template_cube.

El número de segundos, minutos, horas, días, semanas o años que representarán un solo paso de tiempo. Se agregarán todos los puntos dentro del mismo time_step_interval y distance_interval. (Cuando se proporciona un template_cube, este parámetro se ignora y el valor de time_step_interval se obtiene del cubo de plantilla). Ejemplos de entradas válidas para este parámetro son 1 semana, 13 días o 1 mes.

Define cómo se producirá la agregación en función de un intervalo_paso_tiempo determinado. Si se proporciona un template_cube, time_step_alignment asociado con template_cube anula esta configuración de parámetro y se utiliza el time_step_alignment de template_cube.

  • END_TIME: los pasos de tiempo se alinean con el último evento y se acumulan en el tiempo.
  • START_TIME: los pasos de tiempo se alinean con el evento de la primera vez y se agregan en el tiempo.
  • REFERENCE_TIME: los pasos de tiempo se alinean con una fecha / hora particular que especifique. Si todos los puntos en las entidades de entrada tienen una marca de tiempo mayor que el tiempo de referencia que proporcionaste (o cae exactamente en la hora de inicio de las entidades de entrada), el intervalo de intervalo de tiempo comenzará con ese tiempo de referencia y se agregará hacia adelante en el tiempo (como ocurre con una alineación START_TIME). Si todos los puntos en las entidades de entrada tienen una marca de tiempo menor que el tiempo de referencia que proporcionaste (o cae exactamente en la hora de finalización de las entidades de entrada), el intervalo de intervalo de tiempo terminará con ese tiempo de referencia y se agregará hacia atrás en el tiempo (como ocurre con una alineación END_TIME). Si el tiempo de referencia que proporciona está en el medio de la extensión de tiempo de sus datos, se creará un intervalo de intervalo de tiempo que finaliza con el tiempo de referencia proporcionado (como ocurre con una alineación END_TIME) se crearán intervalos adicionales antes y después de la tiempo de referencia hasta que se cubra la extensión de tiempo completo de sus datos.

La fecha / hora que se utilizará para alinear los intervalos de tiempo. Si desea agrupar sus datos semanalmente de lunes a domingo, por ejemplo, puede establecer una hora de referencia del domingo a la medianoche para garantizar que los contenedores se rompan entre el domingo y el lunes a la medianoche. (Cuando se proporciona un template_cube, este parámetro se ignora y el reference_time se basa en template_cube).

El tamaño de los contenedores utilizados para agregar in_features. Se agregarán todos los puntos que caen dentro del mismo intervalo_distancia y intervalo_paso_tiempo. Al agregar en una cuadrícula hexagonal, esta distancia se usa como la altura para construir los polígonos hexagonales. (Cuando se proporciona un template_cube, este parámetro se ignora y el valor del intervalo de distancia se basará en template_cube).

El campo numérico que contiene valores de atributo que se usa para calcular la estadística especificada cuando se agrega en un cubo de espacio-tiempo. Se pueden especificar múltiples combinaciones de estadísticas y campos. Los valores nulos en cualquiera de los campos especificados darán como resultado que esa característica se elimine del cubo de salida. Si hay valores nulos presentes en sus entidades de entrada, se recomienda encarecidamente que ejecute la herramienta Rellenar valores perdidos antes de crear un cubo de espacio-tiempo.

  • SUM: agrega el valor total para el campo especificado dentro de cada contenedor.
  • MEDIA: calcula el promedio para el campo especificado dentro de cada ubicación.
  • MIN: busca el valor más pequeño para todos los registros del campo especificado dentro de cada contenedor.
  • MAX: busca el valor más grande para todos los registros del campo especificado dentro de cada contenedor.
  • STD: busca la desviación estándar de los valores en el campo especificado dentro de cada contenedor.
  • MEDIANA: busca el valor medio ordenado de todos los registros del campo especificado dentro de cada contenedor.
  • ZEROS: llena los contenedores vacíos con ceros.
  • SPATIAL_NEIGHBORS: llena los contenedores vacíos con el valor promedio de los vecinos espaciales
  • SPACE_TIME_NEIGHBORS: llena los contenedores vacíos con el valor promedio de los vecinos del espacio-tiempo.
  • TEMPORAL_TREND: llena bins vacíos usando un algoritmo de spline univariante interpolado.

Los valores nulos presentes en cualquiera de los registros de campo de resumen darán como resultado que esas características se excluyan del cubo de salida. Si hay valores nulos presentes en sus Entidades de entrada, se recomienda encarecidamente que primero ejecute la herramienta Rellenar valores perdidos. Si, después de ejecutar la herramienta Rellenar valores perdidos, todavía hay valores nulos presentes y tener el recuento de puntos en cada contenedor es parte de su estrategia de análisis, es posible que desee considerar la creación de cubos separados, uno para el recuento (sin campos de resumen) y uno para Campos de resumen. Si el conjunto de valores nulos es diferente para cada campo de resumen, también puede considerar la posibilidad de crear un cubo separado para cada campo de resumen.

La forma de la malla poligonal en la que se agregarán los datos del punto de entidad de entrada.

  • FISHNET_GRID: las características de entrada se agregarán en una cuadrícula de celdas cuadradas (red de pesca).
  • HEXAGON_GRID: las entidades de entrada se agregarán en una cuadrícula de celdas hexagonales.
  • DEFINED_LOCATIONS: las características de entrada se agregarán en las ubicaciones proporcionadas.

Las entidades poligonales en las que se agregarán los datos del punto de entrada. Estos pueden representar los límites de los condados, la policía o los territorios de ventas, por ejemplo.

El campo que contiene el número de identificación para cada ubicación única.

Muestra de código

La siguiente secuencia de comandos de la ventana de Python demuestra cómo utilizar la herramienta CreateSpaceTimeCube.

La siguiente secuencia de comandos de Python independiente demuestra cómo utilizar la herramienta CreateSpaceTimeCube.


Análisis del espacio de actividad del individuo basado en los datos de señalización celular

En la planificación general de una ciudad, es importante formular la estructura razonable del espacio urbano que necesita muchos estudios de investigación como sólidos apoyos. Uno de estos apoyos es la relación entre el entorno urbano construido y el comportamiento humano, y esto ha sido de interés para el campo de la planificación del transporte urbano. El elemento esencial en este campo de investigación es el desarrollo de medidas adecuadas para el espacio de actividad del individuo en función de los datos recopilados. Este estudio introdujo un nuevo conjunto de datos, los datos de señalización celular (CSD) y las medidas correspondientes para analizar la relación entre el entorno urbano construido y el espacio de actividad del individuo. El CSD tiene sellos de tiempo-espacio más detallados de las actividades individuales en comparación con las encuestas tradicionales, cuestionarios e incluso datos de registro detallado de llamadas (CDR). El espacio de actividad del individuo se define con base en la teoría del punto de anclaje. El enfoque de polígono convexo se utilizó para describir la forma geométrica del espacio de actividad del individuo. La metodología propuesta se verificó con el CSD recolectado en Shanghai. Los resultados muestran que el número total de usuarios de teléfonos móviles investigados en este estudio se puede categorizar en tres grupos diferentes con características específicas de espacios de actividad. Los resultados pueden beneficiar a las agencias urbanas relacionadas para implementar políticas personalizadas con el propósito de gestionar la demanda de transporte.

1. Introducción

La política espacial estratégica urbana ha planteado una serie de temas, por ejemplo, durante la etapa de esbozo de la planificación maestra urbana, cómo desarrollar la estructura del espacio urbano. Sabemos que lo que necesitamos no son solo los medios de transporte saludables, sino también una estructura espacial saludable. Los patrones de tráfico con prioridad de autobús no pueden reemplazar una estructura de espacio urbano razonable, que también debe ser el foco del control estratégico. En estas circunstancias, es necesario discutir la relación entre el entorno urbano construido (BE) y el espacio de actividad del individuo. Y esto plantea dos cuestiones relacionadas: cómo discutir el espacio de actividad del mismo tipo de residentes bajo diferentes entornos construidos y cómo discutir el espacio de actividad de diferentes tipos de residentes bajo el mismo entorno construido.

La relación entre el entorno urbano construido y el espacio de actividad del individuo ha sido de interés para el campo de la planificación del transporte urbano [1-3]. Por ejemplo, estudios recientes [4, 5] se han centrado en los impactos del uso de la tierra y las políticas de diseño en el uso de diferentes modos de transporte, como el tránsito, caminar y andar en bicicleta. Los planificadores urbanos pueden utilizar los resultados de dicha relación para evaluar las políticas adecuadas para orientar las actividades de los viajes humanos. El elemento esencial en este campo de investigación es el desarrollo de medidas adecuadas para el espacio de actividad del individuo en función de los datos recopilados. Es decir, hay dos claves en este campo de investigación: los datos y las correspondientes medidas adecuadas.

Los estudios anteriores sobre el vínculo entre el entorno urbano construido y el espacio de actividad individual se basan principalmente en encuestas y cuestionarios de tráfico tradicionales y las medidas correspondientes, incluidos los patrones de comportamiento de viaje [6], los patrones de movilidad humana [7] y los patrones de actividad [8]. Sin embargo, la recopilación de datos de tráfico tradicional lleva mucho tiempo y es costosa, y los resultados de las encuestas y cuestionarios de tráfico son específicos para cierta área de investigación durante un período de tiempo determinado. Todas las deficiencias anteriores de la recopilación de datos tradicional restringen el desarrollo de los patrones temporales y espaciales de las actividades individuales.

Recientemente, los dispositivos inteligentes ampliamente implementados, por ejemplo, GPS, GIS, Internet y especialmente el teléfono móvil, ofrecen una gran oportunidad para investigar la relación detallada entre el entorno urbano construido y el espacio de actividad del individuo. Generalmente, hay dos tipos diferentes de datos generados desde teléfonos móviles. Uno son los datos del registro detallado de llamadas (CDR), que se generan con la información de la hora y la ubicación cuando una persona realiza una llamada o envía un mensaje. Este conjunto de datos se utiliza actualmente en algunos estudios [9-12]. Sin embargo, debido a que los individuos hacen llamadas o envían mensajes al azar, el principal inconveniente de los datos CDR es que los datos no se generan de manera uniforme. El tamaño de la muestra de los datos del CDR puede no ser suficiente para analizar la distribución temporal y espacial del espacio de actividad de los individuos. The other data generated from mobile phones are the cellular signaling data (CSD), which are generated not only when people make phone calls or send messages but also when the location of the device changes, e.g., from the coverage of the current base station to the adjacent station (please see the details in the data section). Thus, compared with CDR data, the CSD contain much more temporal and spatial records of individuals. Yet, the questions of what and how to use the CSD on the link between the urban built environment and individual’s activity space remain largely unexplored.

2. Literature Review

Under the background of the big data, the research emphasis transferred from “based on OD” to “individual’s regular activity pattern caused by the external environment effect.” So, how to describe the individual’s activity space effectively and comprehensively has become a necessity. And there are two main tasks for us to do: to describe the activity space and to mark the category attributes according to activity patterns.

The data collected from mobile phones are the emerging widely and used in current studies, such as the road travel speed [13], the acquisition of OD matrices [9, 14], and the traffic predication and path selection for urban road network [15]. Meanwhile, lots of work based on mobile phone data have been done for urban and traffic planning (like the decision support system [10]) and transportation construction and management [16]. Besides the cell phone data, traditional surveys have contributed to the research of travel behavior, like pedestrian behavior, driving behavior [6, 7, 17], and consumers’ trip [18].

Some studies have attempted to figure out the human mobility patterns or to what extent can we predict human mobility patterns. By measuring different entropies of individuals’ trajectories, the distribution of actual entropy was captured. And there was a 93% potential predictability (the distribution is narrowly peaked) in user mobility which conflicts with intuition that is the relative regularity of users who travel the most is higher the others [19]. The gyration radius was calculated to interpret the user’s characteristic distance, and its distribution follows the truncated power-law as the same as the travel step size. Furthermore, after removing the anisotropy and rescaling the trajectories, all human mobility collapsed into a same pattern and researchers found that individual trajectories can be characterized by the same gyration radius-independent two-dimensional probability distribution [11, 20]. For the verification of results from mobile phone data, studies find that trajectories estimated by models are similar to the real ones, and the radius of gyration is an appropriate way to present human mobility [12].

From the view of a large scale, human mobility patterns and the corresponding travel behavior form the individuals’ activity space. Researchers have described the activity space from different aspects, most of which relied on the anchor point theory [21]. To obtain the human activity space, trips were reconstructed and the distribution of reconstructed starting time and duration of activities was discussed [22]. Another method is to study the spatial density and distribution of individuals’ activity [23] or the intensity and entropy of activity [24]. To describe the geometrical shape of the activity space, the standard deviational ellipse (SDE) technique was used [25]. However, the SDE technique will overestimate the spatial spread. Now, in this paper, we found a convex polygon to solve the problem, and it can also show the direction as well as the SDE. Furthermore, geographers have tried to explain human activity space from the aspect of time geography [26, 27], and visualization of human mobility patterns was made in 2D and 3D dimension [28, 29]. Table 1 concludes the typical articles relating these issues with new data resources.

3. Data and Methods

3.1. Conjunto de datos

The data we used are cellular signaling data (CSD) which were recorded from September 1th, 2011, to September 30th, 2011, and the detailed format of the data is shown in Table 2. The column “MSID” is the only identification of the mobile phone user which is encrypted. The “Date Time” is the timestamp of the signal. And the combination of “LAC” and “CI” can identify the base station through which we can locate the mobile phone user (obtain the latitude and longitude coordinates).

The great advantage of cellular signaling data is that they not only contain CDR data but the location update data and the handover data. The location update data include normal location update, periodic location update, and IMSI attach (caused by cell phone power on). The handover data include the CDR data and the switch data between base stations. In more general words, these following activities will generate CSD: the cell phone powers on the user makes a call or sends a message and the user moves from the coverage of a base station into another one (Figure 1). So, we can obtain detailed information of an individual’s trajectory and cell phone usage.

Two datasets were used in this study. The first dataset (D1) has a total of 6441389 logs, which were collected from 1500 people who are randomly in Shanghai. Figure 2 shows the spatial distribution of the D1. The second dataset (D2) consists of 18844 people who lived in three communities (Jingan, Dahua, and Gucun) (see Figure 2(c)) along Shanghai Metro Line7. These 3 communities locate, respectively, around the inner, central, and outer ring, and others characteristics are shown in Table 3. We use the dataset D2 as comparison group to the dataset D1. A detailed description can be seen in the section of methodology.


9.5 Spatial Raster Data

R has a fantastic package, called raster , written by Robert Hijmans (who was a collaborator with Kristen when they were both at Berkeley, check this out!). The raster package provides a nice interface for dealing with spatial raster types and doing a variety of operations with them.

We are going to start with an example: shaded relief of Carmel Bay avaiable through NOAA’s Digital Elevation Model Global Mosaic (Color Shaded Relief). I have already downloaded it to the inputs directory because, to be quite honest, obtaining it through R was not as straightforward as I would have hoped. This raster has multiple layers. It is a color image stored as a multi-layer (or “band”) file. Accordingly we can use the brick function to read it in as a “rasterBrick”:

Once we have done that we can read about it by printing it:

That tells us a lot of useful things, like (from the “dimensions” line) there are 3 layers, each with 3.24 million cells, on a grid that is 1800 x 1800 cells. It also gives us information about the coordinate reference system (on the “coord. ref.” line).

That is all well and good. Now, let us see what that looks like. ggspatial has the function geom_spraster_rgb() for plotting the entire extent of a three-banded raster, interpreting the bands as red, green and blue.

That is pretty, and could conceivably make a nice background for some of Diana’s rockfish plots.

There is another function in ggspatial called annotation_spraster that plots a raster, but does not change the plot boundaries. This is very useful if you have a lot of points that you wish to plot, and you want the plot boundaries to be sized to contain all your points, and you, accordingly, only want that particular piece of your background raster in the plot. Let’s see it in action by grabbing Diana’s rockfish data, but filtering it only to those points in the Stillwater Cove area.

Then plot those. Here they are by themselves:

And here they are with the raster in the background:

Eso es muy bueno. It might have been nice to have downloaded a higher resolution raster, which is available, but would have been quite large at the full, zoomed out scale.

One very important thing to note here is that when you are using ggspatial you can still plot regular ggplot2 geoms on top of it. We happened to have some points in a tibble (not, a SpatialPointsDataFrame) with Latitudes and Longitudes, so we just hucked ’em on there using geom_point .


Classification and clustering are often confused with each other, or used interchangeably. Clustering and classification are distinguished by whether the number and type of classes are known beforehand (classification), or if they are learned from the data (clustering). The overarching goal of classification and clustering is to place observations into groups that share similar characteristics while maximizing the separation of the groups that are dissimilar to each other. Clusters are found in environmental and social applications, and classification is a common way of organizing information. Both are used in many areas of GIS including spatial cluster detection, remote sensing classification, cartography, and spatial analysis. Cartographic classification methods present a simplified way to examine some classification and clustering methods, and these will be explored in more depth with example applications.

Lamb, D. (2020). Classification and Clustering. El cuerpo de conocimientos sobre ciencia y tecnología de la información geográfica (Edición del primer trimestre de 2020), John P. Wilson (ed.). DOI: 10.22224/gistbok/2020.1.11.

This entry was published on March 20, 2020.

An earlier version can also be found at:

DiBiase, D., DeMers, M., Johnson, A., Kemp, K., Luck, A. T., Plewe, B. y Wentz, E. (2006). Spatial Cluster Analysis. El cuerpo de conocimientos sobre ciencia y tecnología de la información geográfica. Washington, DC: Asociación de Geógrafos Estadounidenses. (2nd Quarter 2016, first digital).

Agrupación: Methods that seek to identify groupings or place data into groups.

Clasificación: Methods that seek to place data into known groupings or categories.

Observación: Observations are the individual data points in a larger dataset. In GIS&T, an observation may be a row in an attribute table.

Variable: A variable is a property or characteristic that has been measured about one or more observations. In GIS&T these may be referred to as attributes, or columns in an attribute table.

Univariate / Multivariate: Univariate refers to a single variable or attribute, and multivariate refers to more than one variable.

Mutually Exclusive: Mutually exclusive is a term in probability that means two events cannot occur at the same time. With flipping a coin, the two events are heads and tails. A coin flip cannot be both heads and tails at the same time.

Average or Mean: The mean is calculated as the sum of the values for a variable, divided by the number of observations. It is one way of representing the center of the data.

Classification and clustering are often confused with each other, or used interchangeably. Their definitions changing slightly depending on the discipline or sub-discipline. In either case, the goal is to generalize detailed information contained in attributes into a smaller number of classes (categories or groups). If an observation is part of a category, it is said to be a member of that group. Membership in a category means an observation cannot be a member of any other category, or the categories are said to be mutually exclusive. That is, there is no overlap between the boundaries of each class.

Clustering and classification are distinguished by whether the number and type of classes are known beforehand (classification), or if they are learned from the data (clustering). This is sometimes distinguished as supervised learning (classification), and unsupervised learning (clustering). Geographic location may or may not be incorporated into either approach.

An example of pre-defined categories used in remote sensing classification are land cover classes, such as Water or Barren Land. There is an existing number of categories for land cover (potentially several hundred different categories). Each of these land cover classes has certain characteristics associated with it (color, reflectance, etc…). This information can be used to place new observations into these classes. Many of these classification methods aprender to differentiate between classes based on a training dataset where an observation’s class membership and attributes are defined. Many classification methods are probabilistic in nature, meaning they estimate the probability of being a member of a particular group.

Clustering attempts to create categories based on the similarities between observations’ attributes more similar observations are placed in the same group together. Sometimes clustering methods will attempt to determine the number of groups, and other times the analyst or researcher will need to provide this information. Spatial clustering examines the distribution of spatial features, and non-spatial clustering relies on characteristics of observations to group them. Spatial and non-spatial may be combined in different methods.

As can be seen in Table 1, classification and clustering approaches touch many different areas of GIS&T. Since there is topic has such a large scope, this section will focus on univariate cartographic classification. This will provide a general overview of how data is placed into different categories that might be extrapolated to more complex applications. Before moving to those examples, the underlying concept of similarity should be discussed.

Supervised classification: Logistic Regression, Support Vector Machines, or Random Forest Classifier

Unsupervised classification: K-means clustering

Supervised learning: Logistic Regression, Support Vector Machines, or Random Forest Classifier.

Unsupervised learning: K-means, hierarchical clustering, or density-based (e.g., DBSCAN)

2.1 Applications of Clustering and Classification

It may be tempting to identify clusters visually, but this can be misleading. Consider Figure 1 which presents the same point data in different scales. With Figure 1A (left) the distribution of the points might be considered clustered, but when the scale is changed in Figure 1B (right), the distribution might be considered dispersed, or even random. How the boundary of a study area is defined can influence how spatial clusters are defined, and this is called edge effects. The methods described in Table 1 use statistical procedures to measure the degree of clustering in many different types of data. This avoids the problem of relying on a visual interpretation.

Figures 1a and 1b. The same distribution of points viewed at different scales (A) appears to be clustered, and (B) appears to be disperse. Source: author.

Some spatial clustering relies on the x and y coordinates of points to determine whether clustering is present, or where the clusters are. data may be able to use the x and y coordinates of the points and distance between them to identify the clusters. More complex cluster detection requires understanding the spatial relationships between features or phenomena, typically with polygons. Usually this relationship is described through a neighborhood graph or matrix that will tell the clustering method which features are neighbors or not. These relationships and distances can be compared to a theoretical random distribution to tell the degree of clustering (e.g. the Poisson distribution), or a different type of metric (Silhouette score).

Spatial clustering may include non-spatial attributes or variables. Non-spatial clustering will rely entirely on attributes of the observed data, but use ideas already familiar to GIS users such as Euclidean distances (see below). Clustering is seen in many real-world phenomena. The concept of Agglomeration in geography is the idea that similar businesses will be located near one another in order to share resources or customers (e.g. car dealerships). Another example, Similar types of crimes tend to be located near each other. Epidemiologists may be interested in where there are groups of infected individuals that are near each other in space and time that are not normal. These clusters may point to a source of exposure, or some unknown reason for their illness.

Similarly, classification methods might be used to predict if someone has a particular disease. Different diseases are treated as separate classes, and many variables (e.g. height, weight, age, career, etc…) are used to predict which class a person would be in. Classification is used in GIS and Cartography to develop thematic maps the group similar types of data together and color coded (explored in more depth below). Finally, both classification and clustering are used in remote sensing applications to group similar raster cells into homogeneous areas as in land cover analysis, creating categories like Deciduous Forests, Water, or Barren Land.

2.2 Similarity and Distance

The overarching goal of classification and clustering is to place observations into groups that share similar characteristics while maximizing the separation of the groups that are dissimilar to each other. This naturally leads to the question: how are two observations similar (or dissimilar)? One approach is to use a distance metric that can be interpreted as a measure of similarity between pairs of observations. The shorter the distance the more similar the two will be. There are many ways to calculate the distance, but one often used in GIS&T is Euclidean distance. Given the location of two different observations or points each with a coordinate pair XI,yI , the distance can be calculated as in equation 1.

If we expand the view of what a location is, it can incorporate not just a physical geographic location, but any a place in any numeric variable. In this view, Euclidean distance is calculated between any number of variables. Another common distance metric is Manhattan distance, shown in equation 2, and there are many others.

There are other common approaches that may or may not use distance as a measure of similarity or proximity. A comparison of some of the major spatial clustering and classification algorithms is presented in Table 2.

Table 2. Common Clustering and Classification Techniques and Their Approaches
Example Algorithm or Method Utilizar Approach
Quadrat Analysis Measurement of spatial clustering of points Segments the study area into a grid, then counts the number of points in each cell
K-Function Presence of spatial clustering of points Multiple lags or distances are used from each point (imagine ripples in a pond from a handful of pebbles thrown in at once), and points are counted within eac ring. This is compared to a simulation of random points within the same area (Monte Carlo simulation).
Moran's I Combines spatial information with an attribute Similar to more traditional statistical methods and hypothesis testing.
K-Means Spatial or non-spatial clustering Relies on a measure of similarity to detect which data belong to which cluster. Explored in more depth below in this entry.
DBSCAN Non-spatial clustering (but could use if for spatial) Similar to a k-function, it looks for points within a distance. It also tries to find “noise” or random points that do not fall within clusters. It requires setting parameters like the minimum number of points to be considered for a cluster. These parameters can be difficult to set, and will change the outcome.
Random Forest Clasificación A popular artificial intelligence classification technique. Uses decision trees to identify the most important variables that sort data into different classes.

Cartographic classification methods present a simplified way to examine some classification and clustering methods. Within cartography, classification is a process of simplifying or aggregating information into groups to be displayed on a map. Table 3 presents some of the most common approaches used in cartography. To distinguish these classes, every member of a group is assigned the same map symbol to their geographic information. As an example, for this type of mapping, univariate values are taken from a polygonal geographic unit like the United States (U.S.) Census Tract, and a color is assigned to each category (choropleth mapping). The cartographer selects the number of categories for the map. Then, the classification method selected will determine the boundaries of the classes (Figure 2). The boundaries define the lower/starting and upper/ending values for each group, sometimes these values are called ‘breaks’ (Brewer & Pickle, 2002). For additional information, see Statistical Mapping (Enumeration, Normalization, Classification).

Table 3. Common Classification Methods Used in Cartography and Choropleth Mapping
Type of Classification Descripción
Unique values Each value is its own class or group, and each group is assigned a color. Typically reserved for categorical data (e.g. nominal level data).
Manual Classification The cartographer designates the bounds of each class as mutually exclusive groups.
Equal Interval Uses the range from the variable and divides this by the number of classes, creating an interval.
Defined Interval With this method the interval is selected first, and the number of classes derived from how many intervals are needed to cover the range.
Quantile or Percentile Uses the percentage of values that fall in particular ranges, based on the number of classes selected. The same number of observations will exist in each category.
Natural Breaks / Jenks An algorithmic approach to identify “natural” break points in the data (Jenks & Caspall, 1971). It is similar to the K-means clustering approach.
Desviación Estándar A statistical approach using the mean of the data, and the standard deviation. Often used to show extreme values or deviations from the mean (a diverging pattern in the symbology).
Área igual This approach uses the area of the polygons to determine the class breaks so that each group contains an equal proportion of the overall area (Brewer & Pickle, 2002 Lloyd & Steinke, 1977). An alternative to normalizing the variable by the polygon’s area.
Head/tail Breaks Relatively new technique that is designed for variables with a skewed distribution (heavy tailed) (Jiang, 2013).

Figures 2A - 2D. Data classification methods for grouping data using (A) manual classification, (B) equal interval classification, (C) defined interval, and applied to median age data (D). Source: author.

The most basic case is the unique value approach where each value is assigned a unique symbol, creating a class or category for each value. While it is possible to do this for numeric data, it is usually reserved for categorical (nominal level) data, otherwise there could be many different unique classes. Manual classification allows the cartographer to define the upper and lower limits of the boundaries, or the break points. Figure 2A presents two “breaks” at 50 and 60, creating three classes. Because these upper and lower limits are mutually exclusive, the first class runs from 18 to 50, the second class runs from 51 (or possibly 50.000001) to 60, and the third group runs from 61 (or possibly 60.0000001) to 86. Each group is assigned a color value, and in the case of sequential data, the colors progress from light to dark.

Equal Interval and Defined Interval present a simple classification scenario based on the characteristics of the data. Equal Interval sets the number of classes and the data range is divided by this number (e.g. (86-18)/5=17), creating an interval of 17. The values are placed in these known classes, as shown in Figure 2B. In the Defined Interval approach the cartographer selects the interval then the software determines the number of classes that will fit. In Figure 2C, the interval is 34 creating two classes.

Other approaches rely on the distribution of the variable. Frequency distributions are visualized as a histogram. Histograms divided the data into bins of equal widths (e.g. between 40 and 45), and count the number of values that fall inside each bin. This count is reflected in the bar height. Figure 3 shows a histogram for the median age variable. Percentiles are the percentage of the data that falls below the corresponding value. To define class breaks using percentile the number of classes is selected, then the range 0 to 100% is divided by this number. In Figure 3A, 3 classes result in percentiles at 25%, 50%, and 75%. These correspond to values of 33, 38, and 44 respectively. This means that 25% of the observations fall to the left of 33 on the histogram, 50% fall to the left of 38, and 75% fall to the left of 44. Keep in mind the height of the bar indicates the actual total number of observations. At 86, 100% of the observations fall to the left of the histogram. Figures 2B presents percentiles for 5 classes, but the idea remains the same.

Figures 3a - 3c. Frequency distribution of median age data and the breaks associated with (A) 3 class percentiles, (B) 5 class percentiles, and (C) 5 class Jenks’ Natural Breaks method. Source: author.

Finally, Jenks’ method is an iterative algorithmic approach that identifies ‘natural’ break points in the data (Jenks & Caspall, 1971). This method is closer to the idea of identifying clusters (groups) in the data, resulting in uneven intervals. The result of Jenks’ method applied to the median age variable are shown in Figure 3C. The algorithm is complex, but a there is a similar approach called K-means clustering that can be demonstrated. K-means is also widely used in other areas. The k refers to the number of classes. There are approaches to help choose k, but these are not widely available in GIS packages (silhouette scores, or elbow plots).

Beginning with a smaller dataset, Figure 4 shows 20 observations along a number line. K-means clustering begins by selecting k, and three is used in this example. The algorithm begins the first iteration by generating three random values that fall within the variable’s range. In Figure 5, there are three random values generated (a light blue, yellow, and dark grey point). These will serve as the center of each of the groups for a first iteration. Next, the algorithm calculates the distance from the original observation to each of the cluster centers. Figure 6 presents this distance as an arrow from the first observation on the left to each of the centers.

Figure 4. Twenty observations along a number line to demonstrate K-means algorithm. Source: author.

Figure 5. Twenty observations with three randomly generated cluster centers along the number line. This demonstrates the first step in the K-means algorithm. Source: author.

Figure 6. Calculation of the distance from the first observation on the left of the number line to each random cluster center. Source: author.

Next, the algorithm assigns each observation to the nearest cluster center based on the distance (Figure 7A). These create the first set of clusters, and the algorithm calculates the mean within each cluster (the vertical lines in Figure 7B represent the mean of each cluster). Now, the mean becomes the center of each cluster, and the distance is recalculated from each observation to these new centers. Again, observations are moved to different groups based on the distance. The mean for each of the clusters is calculated again, and the distance again, and so on. This process repeats until there are no changes to which cluster an observation belongs to. The algorithm begins a new iteration, creating random values for each cluster center. After many iterations, it will return the ‘best’ fitting clusters. It may turn out the first iteration was the best, but it will repeat the process as many times as the analyst will specify.

Figure 7a - 7b. During the K-means algorithm observations are assigned to their closest cluster center, (A) the leftmost observation is assigned to the closest cluster center (A), and (B) all observations are assigned to their closest cluster center and the mean of each group is calculated. Source: author.

At each iteration, the algorithm calculates a measure to determine how well those clusters fit the data. To do this, the algorithm uses the variance of each cluster and the total variance. The variance measures the distance of each group member to the mean of the cluster. The variance is a measure of the spread of the data. Figure 8 shows this spread as arrows, and each group has a different width. The total variance is the sum of the group variances, and the iteration that had the smallest total variance is returned as the best option. The result is class bounds that can have different interval widths, and unusual beginning and end points.

Figure 8. The K-means algorithm uses the variance of the different clusters (as demonstrated by the arrows) to determine the performance of these groupings. Source: author.

Which method should you use? Which method chosen and how many classes selected will have consequences on the map’s final appearance and potentially the way the data are interpreted. This can be considered from both ethical and practical considerations (Harley, 1991 Monmonier, 1991). For comparison, Figure 9 presents the median age data for Hillsborough County, Florida using U.S. Census Tracts. Each tract is placed in a class depending on the median age for that tract. The class bounds change depending on the method, and the results can create very different interpretations of the underlying data. For example, Figure 9B shows class breaks using the Equal Interval method for 5 classes. This map creates the impression that most of the county falls in the 27 to 41 median age group. Whereas, the Natural Breaks method (Figure 9A) has varying class intervals (40 to 47 is small, compared to 62 to 86), and results in a more diverse county.

It can be difficult to choose which method to apply. Slocum et al. (2009, p. 68) provide some guidelines for mapping. Sometimes the shape of the frequency distribution (e.g. a normal distribution is appropriate for the percentile), or other characteristics of the data, might help. Monmonier (1991) suggests presenting the reader with a “dynamic sequence” of maps that show the extreme views of the data (Monmonier, 1991, p. 4).

Regardless of the method, one should take care to balance the interpretability of the classes, while letting the data speak for itself. In the case of the median age variable, using manually selected classes that reflect life stages (e.g. voting age in the United States is 18, or retirement age is 66) is logical and easily understood by the map reader. This implies some artistic license that is not always available or appropriate in other areas of classification and clustering.

Figure 9A-9D. Comparison of cartographic classification methods using (A) Jenks’ Natural Breaks, (B) Equal Interval, (C) Manual, and (D) Percentile / Quantile. Source: author.

Many classification and clustering methods are applied to multivariate data. The K-means approach can be expanded to include many attributes, and the algorithm remains the same. It still seeks the center of each cluster. Figure 10 shows clusters of observations from three variables in three-dimensions. The cluster that is shaded blue with a triangle shape overlaps with the green dot cluster along the first variable, but has very different results for the third variable (z-axis). It is the combination of characteristics that can create mutually exclusive clusters when dealing with multivariate data.

Figure 10. Multivariate clustering and classification attempts to separate groups based on more than one variable.​​​​​​ Source: author.

Alexiou, A., & Singleton, A. D. (2015). Geodemographic Analysis. In C. Brundson & A. D. Singleton (Eds.), Geocomputation. A Practical Primer (pp. 137–151). London: Sage.

Bailey, T. C., & Gatrell, A. C. (1995). Interactive spatial data analysis: Longman Scientific & Technical Essex.

Brewer, C. A., & Pickle, L. (2002). Evaluation of Methods for Classifying Epidemiological Data on Choropleth Maps in Series. Anales de la Asociación de Geógrafos Estadounidenses, 92(4), 662–681.

Harley, J. B. (1991). Can there be a cartographic ethics? Perspectivas cartográficas. (10), 9–16.

Jenks, G. F., & Caspall, F. C. (1971). Error on Choroplethic Maps: Definition, Measurement, Reduction. Annals of the Association of American Geographers, 61(2), 217–244.

Jiang, B. (2013). Head/Tail Breaks: A New Classification Scheme for Data with a Heavy-Tailed Distribution. The Professional Geographer, 65(3), 482–494.

Lloyd, R., & Steinke, T. (1977). Visual and Statistical Comparison of Chropleth Maps. Annals of the Association of American Geographers, 67(3), 429–436.

Lu, D., & Weng, Q. (2007). A survey of image classification methods and techniques for improving classification performance. International Journal of Remote Sensing, 28(5), 823–870.

Miller, H., & Han, J. (2009). Geographic Data Mining and Knowledge Discovery (Second): CRC Press.

Monmonier, M. (1991). Ethics and Map Design: Six Strategies for Confronting the Traditional One-Map Solution. Perspectivas cartográficas. (10), 3–8.

O'Sullivan, D., & Unwin, D. (2010). Geographic information analysis (Second). Hoboken, New Jersey: John Wiley & Sons.

Slocum, T. A., McMaster, R. M., Kessler, F. C., Howard, H. H., & McMaster, R. B. (2009). Cartografía temática y visualización geográfica (3rd). Upper Saddle River, New Jersey: Prentice hall.

Smith, M. J. de, Goodchild, M. F., & Longley, P. (2007). Geospatial analysis: a comprehensive guide to principles, techniques and software tools: Troubador Publishing Ltd.


Ver el vídeo: CLASIFICACIÓN DE UN POLÍGONO SEGÚN SU NUMERO DE LADOS +JEANS MURILLO+