Suite

Comment trouver les coordonnées moyennes d'un groupe de points à partir d'une couche de points dans QGIS ?

Comment trouver les coordonnées moyennes d'un groupe de points à partir d'une couche de points dans QGIS ?


J'ai un ensemble de points de coordonnées. Les points sont répartis de telle manière que certains points sont regroupés autour d'une zone spécifique. Il existe une option pour connaître les coordonnées moyennes de l'ensemble de la couche de points. J'aimerais savoir s'il existe un moyen dans QGIS de connaître les coordonnées moyennes des points d'une zone spécifique à partir d'une couche de points.


Vous devez le faire en deux étapes en utilisant leVecteur->Outils d'analyse->Coordonnées moyennesoutil dans la deuxième étape. Cet outil renverra les coordonnées moyennes des ensembles de points dans une couche s'ils ont un champ ID unique. Donc, si vous avez une couche de polygones qui définit vos zones, faites une jointure spatiale (Vecteur->Gestion des données->Rejoindre les attributs par emplacement) pour attribuer à vos points l'identifiant de polygone (surface), puis utilisez l'outil Coordonnées moyennes en spécifiant le nouveau champ.

Vous avez peut-être déjà des identifiants uniques ou une couche de polygones, mais si ce n'est pas le cas, vous pouvez créer un quadrillage (Vecteur->Outils de recherche->Grille vectorielle) pour superposer les points comme une méthode pour définir les zones. Alternativement, si vos zones sont définies par une couche raster, vous pouvez utiliser leÉchantillonnage ponctuelplugin pour attribuer les points en fonction de votre raster. Ou, si vous souhaitez les attribuer par emplacement sans couche vectorielle ou raster, vous devrez créer un algorithme pour donner un nouvel attribut basé sur les coordonnées de chaque point (éventuellement en utilisant une approche basée sur le module).


Points en coordonnées et shapefile en ft - Ne pas aligner même dans la même projection

J'essaie d'exécuter un nombre de points dans un polygone dans QGIS. J'ai un fichier de formes de codes postaux de San Diego en NAD83 (2230 EPSG). J'ai un fichier texte délimité de points avec des coordonnées lat/lon.

Dans QGIS, je peux faire en sorte que les points se superposent correctement sur les polygones dans la visionneuse dans la projection OTF de base. Mais je ne peux pas exécuter le nombre de points dans le polygone alors qu'ils sont dans des projections différentes. J'ai reprojeté chaque fichier (en enregistrant les points sous forme de fichier de formes) avec des projections identiques dans QGIS, mais les géographies ne correspondent pas du tout.

Je suppose que mon problème est que les coordonnées lat/lon sont en degrés et que la projection NAD83 est en pieds. Je pensais que la reprojection résoudrait ce problème ? Clairement, les fichiers peuvent être facilement lus ensemble, ils apparaissent au bon endroit dans la visionneuse avec la projection OTF. Cela ne fonctionne qu'avec un CRS personnalisé par défaut pour OTF qui semble gérer le conflit ft/lat-lon. Si j'enregistre tout dans une couche WGS comme EPSG4326 ou EPSG3857, rien ne s'aligne.


Abstrait

L'importance de l'optimisation ne peut pas être surestimée. Il est littéralement invoqué ou responsable d'une grande partie de ce que nous voyons et faisons quotidiennement, avec de nombreux systèmes de service conçus et gérés pour fonctionner le mieux possible. Ce document de synthèse met en évidence l'application accrue de l'optimisation par le biais des systèmes d'information géographique (SIG) pour soutenir la gestion et la prise de décision. Une perception large dans les cercles des sciences de gestion et de l'optimisation est que le SIG est simplement un système de base de données facilitant l'accès aux données, la cartographie et l'analyse sommaire. Cependant, l'optimisation est en fait disponible via des fonctionnalités de base dans de nombreux packages SIG. Cette revue identifie de nombreuses capacités d'optimisation disponibles dans les SIG, et est importante car il existe une tendance constante et croissante de publication dans les universités et autres points de vente faisant état d'efforts d'application qui reposent sur l'optimisation basée sur SIG. L'utilisation du SIG est facilitée par un accès convivial par pointer-cliquer. Cela explique sans aucun doute l'augmentation de la planification de la gestion impliquant le SIG, ce qui rend cet examen important pour de nombreuses raisons. La disponibilité d'outils et de techniques d'optimisation dans les SIG se traduit par une utilisation, souvent par des personnes qui ne comprennent probablement pas les modèles et méthodes sous-jacents. L'importance croissante des logiciels SIG contemporains en tant que moyen d'analyse de gestion et d'entreprise en fait un sujet d'examen opportun et important, et suggère qu'un intérêt accru pour les capacités fournies dans le SIG est essentiel afin de garantir que les méthodes d'optimisation sont appliquées de manière appropriée et significative dans la pratique. .


Télécharger les données sous forme de fichier CSV¶

  1. Téléchargez les données au format CSV dès que des données ont été collectées. Après avoir envoyé les formulaires finalisés, accédez au menu Paramètres, sélectionnez « Projets » et cliquez sur le projet que vous souhaitez télécharger sous forme de fichier CSV.

  1. Sous « Sélectionner le type d'exportation », cliquez sur « CSV (héritage) » dans le menu déroulant. Vous pouvez également modifier le format de la valeur et de l'en-tête en valeurs et en-têtes XML.

  1. Sélectionnez les liens sous « Nom du fichier ». Les données doivent être téléchargées sous forme de fichier Excel. Ouvrez les données dans Excel. Chaque question doit avoir une colonne. Avec la réponse dans la cellule ci-dessous.

  1. Ce fichier CSV transforme les données en un fichier texte qui peut être étiqueté comme des points x et y. Ces points peuvent être téléchargés dans un tableau vers QGIS qui tracera les données pour vous.

Importer des fichiers CSV vers QGIS¶

  1. Dans la boîte de dialogue Créer un calque à partir d'un fichier texte délimité, cliquez sur « Parcourir » pour spécifier le chemin du fichier texte que vous avez téléchargé. Ajoutez un nom de calque. Dans la section « Format de fichier », sélectionnez « Délimiteurs personnalisés » et sélectionnez « Tabulation ». La section « Définition de la géométrie » sera remplie automatiquement si elle trouve des champs de coordonnées X et Y appropriés. Dans notre cas, il s'agit de LONGITUDE et LATITUDE. Vous pouvez le modifier si l'importation sélectionne les mauvais champs. Cliquez sur OK.

  1. Le sélecteur de système de coordonnées de référence vous demandera de sélectionner un système de référence de coordonnées. Étant donné que les coordonnées sont en latitudes et longitudes, vous devez sélectionner un WGS 84.

Télécharger des formulaires à partir d'un compte¶

  1. Cliquez sur le projet sur la page d'accueil de KoBoToolbox et sélectionnez "Application Android" sous "collecter des données".

  1. Ouvrez ou installez l'application sur l'appareil Android. L'application s'appelle KoBo Collect. Le logo doit ressembler à celui ci-dessous.

  1. Accédez à l'option Paramètres généraux en haut à droite de l'application ouverte. Cliquez sur « Serveur » et entrez l'URL fournie en ligne et vos informations de connexion.

  1. Saisissez le nom d'utilisateur et le mot de passe du compte kobotoolbox sur la page qui s'affiche. Sélectionnez « KoBo Toolbox » comme plate-forme.

  1. Une liste de tous les formulaires des différents projets sera affichée. Cliquez sur Toggle All (ou sélectionnez ceux que vous souhaitez télécharger), puis cliquez sur Get Selected.


Cet outil identifie des groupes spatiaux statistiquement significatifs de valeurs élevées (points chauds) et de valeurs faibles (points froids). Il crée une classe d'entités en sortie avec un champ de score z, de valeur p et de niveau de confiance ( Gi_Bin ) pour chaque entité de la classe d'entités en entrée .

Les scores z et les valeurs p sont des mesures de signification statistique qui vous indiquent s'il faut ou non rejeter l'hypothèse nulle, caractéristique par caractéristique. En effet, ils indiquent si le regroupement spatial observé de valeurs élevées ou faibles est plus prononcé que ce à quoi on pourrait s'attendre dans une distribution aléatoire de ces mêmes valeurs. Les champs z-score et p-value ne reflètent aucun type de correction FDR (False Discovery Rate).

Le champ Gi_Bin identifie les points chauds et froids statistiquement significatifs, que la correction FDR soit appliquée ou non. Les caractéristiques dans les classes +/-3 reflètent une signification statistique avec un niveau de confiance de 99 % les caractéristiques dans les classes +/-2 reflètent un niveau de confiance de 95 % les caractéristiques dans les classes +/-1 reflètent un niveau de confiance de 90 % et le regroupement des caractéristiques dans le bac 0 n'est pas statistiquement significatif. Sans correction FDR, la signification statistique est basée sur les champs de valeur p et de score z. Lorsque vous cochez le paramètre facultatif Appliquer la correction du taux de fausse découverte (FDR), les valeurs p critiques déterminant les niveaux de confiance sont réduites pour tenir compte des tests multiples et de la dépendance spatiale.

Un score z élevé et une valeur p faible pour une caractéristique indiquent un regroupement spatial de valeurs élevées. Un faible score z négatif et une faible valeur p indiquent un regroupement spatial de valeurs faibles. Plus le score z est élevé (ou inférieur), plus le clustering est intense. Un score z proche de zéro n'indique aucun regroupement spatial apparent.

Le z-score est basé sur le calcul de l'hypothèse nulle de randomisation. Pour plus d'informations sur les scores z, consultez Qu'est-ce qu'un score z ? Qu'est-ce qu'une valeur p ?

Lorsque la classe d'entités en entrée n'est pas projetée (c'est-à-dire lorsque les coordonnées sont données en degrés, minutes et secondes) ou lorsque le système de coordonnées en sortie est défini sur un système de coordonnées géographiques, les distances sont calculées à l'aide de mesures de corde. Les mesures de distance à la corde sont utilisées car elles peuvent être calculées rapidement et fournissent de très bonnes estimations des vraies distances géodésiques, au moins pour des points situés à environ 30 degrés les uns des autres. Les distances de corde sont basées sur un sphéroïde aplati. Étant donné deux points quelconques à la surface de la Terre, la distance à la corde qui les sépare est la longueur d'une ligne passant par la Terre en trois dimensions pour relier ces deux points. Les distances en cordes sont indiquées en mètres.

Mise en garde:

Assurez-vous de projeter vos données si votre zone d'étude s'étend au-delà de 30 degrés. Les distances à la corde ne sont pas une bonne estimation des distances géodésiques au-delà de 30 degrés.

Lorsque des distances de corde sont utilisées dans l'analyse, le paramètre Bande de distance ou Distance de seuil, s'il est spécifié, doit être donné en mètres.

Pour les entités linéaires et surfaciques, les centroïdes d'entités sont utilisés dans les calculs de distance. Pour les multipoints, les polylignes ou les polygones avec plusieurs parties, le centroïde est calculé en utilisant le centre moyen pondéré de toutes les parties d'entités. La pondération pour les entités ponctuelles est 1, pour les entités linéaires est la longueur et pour les entités surfaciques est la surface.

Le champ d'entrée doit contenir une variété de valeurs. Le calcul de cette statistique nécessite une certaine variation dans la variable analysée qu'il ne peut pas résoudre si toutes les valeurs d'entrée sont 1, par exemple. Si vous souhaitez utiliser cet outil pour analyser le modèle spatial des données d'incident, envisagez d'agréger vos données d'incident ou d'utiliser l'outil d'analyse optimisée des points chauds.

Les données d'incident sont des points représentant des événements (criminalité, accidents de la circulation) ou des objets (arbres, magasins) où vous vous concentrez sur la présence ou l'absence plutôt que sur un attribut mesuré associé à chaque point.

L'outil d'analyse optimisée des points chauds interroge vos données pour sélectionner automatiquement les paramètres qui optimiseront vos résultats de points chauds. Il regroupera les données d'incident, sélectionnera une échelle d'analyse appropriée et ajustera les résultats pour les tests multiples et la dépendance spatiale. Les options de paramètres qu'il sélectionne sont écrites sous forme de messages, et ceux-ci peuvent vous aider à affiner vos choix de paramètres lorsque vous utilisez cet outil. Cet outil vous permet un contrôle total et une flexibilité sur vos réglages de paramètres.

C'est la valeur par défaut. La bande de distance ou la distance seuil garantira que chaque entité a au moins un voisin. Ceci est important, mais souvent cette valeur par défaut ne sera pas la distance la plus appropriée à utiliser pour votre analyse. Des stratégies supplémentaires pour sélectionner une échelle appropriée (bande de distance) pour votre analyse sont décrites dans Sélection d'une valeur de bande de distance fixe.

Lorsque zéro est entré pour le paramètre Distance Band ou Threshold Distance, toutes les entités sont considérées comme voisines de toutes les autres entités lorsque ce paramètre est laissé vide, la distance par défaut sera appliquée.

Les poids pour les distances inférieures à 1 deviennent instables lorsqu'ils sont inversés. Par conséquent, la pondération des entités séparées par moins d'une unité de distance se voit attribuer une pondération de 1.

Pour les options de distance inverse ( Distance inverse , Distance inverse au carré et Zone d'indifférence ), deux points coïncidents se verront attribuer un poids de un pour éviter une division par zéro. Cela garantit que les caractéristiques ne sont pas exclues de l'analyse.

Des options supplémentaires pour le paramètre Conceptualisation des relations spatiales, y compris les relations spatio-temporelles, sont disponibles à l'aide de l'outil Générer la matrice de pondérations spatiales. Pour tirer parti de ces options supplémentaires, créez un fichier de matrice de pondérations spatiales avant l'analyse, sélectionnez Obtenir les pondérations spatiales du fichier pour le paramètre Conceptualisation des relations spatiales et pour le paramètre Fichier de matrice de pondérations, spécifiez le chemin d'accès au fichier de pondérations spatiales que vous avez créé.

Plus d'informations sur l'analyse de cluster spatio-temporel sont fournies dans la documentation sur l'analyse spatio-temporelle.

Les couches de carte peuvent être utilisées pour définir la classe d'entités en entrée. Lorsque vous utilisez une couche avec une sélection, seules les entités sélectionnées sont incluses dans l'analyse.

  • Fichiers de matrice de pondérations spatiales au format ASCII :
    • Les poids sont utilisés tels quels. Les relations entité à entité manquantes sont traitées comme des zéros.
    • La pondération par défaut du potentiel propre est zéro, à moins que vous ne spécifiiez une valeur de paramètre Champ de potentiel propre ou que vous incluiez explicitement les pondérations du potentiel personnel.
    • Les relations asymétriques sont respectées, permettant à une entité d'avoir une entité voisine qui n'a pas elle-même de voisin. Cela signifie que l'entité voisine est incluse dans les calculs de la moyenne locale de l'entité d'origine, mais que l'entité voisine n'est pas incluse dans les calculs de la moyenne globale.
    • Si les poids sont normalisés par rangée, les résultats seront probablement incorrects pour les analyses sur les ensembles de sélection. Si vous devez exécuter votre analyse sur un jeu de sélection, convertissez le fichier de pondérations spatiales ASCII en un fichier .swm en lisant les données ASCII dans une table et en utilisant l'option Convertir la table avec l'outil Générer la matrice de pondérations spatiales.
    • Si les poids sont normalisés par ligne, ils seront renormalisés pour les ensembles de sélection, sinon, les poids sont utilisés tels quels.
    • Le poids par défaut pour le potentiel propre est un, sauf si vous spécifiez une valeur de paramètre Champ de potentiel propre.

    L'exécution de votre analyse avec un fichier de matrice de pondérations spatiales au format ASCII est gourmande en mémoire. Pour les analyses sur plus de 5 000 entités, envisagez de convertir votre fichier de matrice de pondérations spatiales au format ASCII en un fichier au format SWM. Mettez d'abord vos poids ASCII dans un tableau formaté (en utilisant Excel, par exemple). Ensuite, exécutez l'outil Générer la matrice de pondérations spatiales à l'aide de la table Convertir pour le paramètre Conceptualisation des relations spatiales. La sortie sera un fichier de matrice de pondérations spatiales au format SWM.

    La classe d'entités en sortie de cet outil est automatiquement ajoutée à la table des matières avec un rendu par défaut appliqué au champ Gi_Bin. Le rendu chaud-froid est défini par un fichier de couche dans <ArcGIS Pro>ResourcesArcToolBoxTemplatesLayers . Vous pouvez réappliquer le rendu par défaut, si nécessaire, en réappliquant la symbologie de couche.

    La sortie de cet outil comprend un histogramme représentant la valeur du champ en entrée , accessible sous la classe d'entités en sortie dans le volet Contenu.

    La rubrique d'aide Modélisation des relations spatiales fournit des informations supplémentaires sur les paramètres de cet outil.

    Mise en garde:

    Lorsque vous utilisez des fichiers de formes, gardez à l'esprit qu'ils ne peuvent pas stocker de valeurs nulles. Les outils ou autres procédures qui créent des fichiers de formes à partir d'entrées autres que des fichiers de formes peuvent stocker ou interpréter des valeurs nulles comme zéro. Dans certains cas, les valeurs NULL sont stockées sous forme de très grandes valeurs négatives dans les fichiers de formes. Cela peut conduire à des résultats inattendus. Voir Considérations relatives au géotraitement pour la sortie du fichier de formes pour plus d'informations.

    Héritage:

    La standardisation des lignes n'a aucun impact sur cet outil : les résultats de l'analyse des points chauds (statistique Getis-Ord Gi*) seraient identiques avec ou sans la standardisation des lignes. Le paramètre est par conséquent désactivé, il reste en tant que paramètre d'outil uniquement pour prendre en charge la compatibilité descendante.

    Lors de l'utilisation de cet outil dans des scripts Python, l'objet de résultat renvoyé par l'exécution de l'outil a les sorties suivantes :


    Syntaxe

    Classe d'entités, généralement une classe d'entités ponctuelles, pour laquelle la distance moyenne du voisin le plus proche sera calculée.

    Spécifie comment les distances sont calculées entre chaque entité et les entités voisines.

    • EUCLIDEAN_DISTANCE —La distance en ligne droite entre deux points (à vol d'oiseau)
    • MANHATTAN_DISTANCE —La distance entre deux points mesurés le long des axes à angle droit (pâté de maisons) calculée en additionnant la différence (absolue) entre les coordonnées x et y
    • NO_REPORT —Aucun résumé graphique ne sera créé. C'est la valeur par défaut.
    • GENERATE_REPORT —Un résumé graphique sera créé sous forme de fichier HTML.

    Une valeur numérique représentant la taille de la zone d'étude. La valeur par défaut est la zone du rectangle englobant minimum qui engloberait toutes les entités (ou toutes les entités sélectionnées). Les unités doivent correspondre à celles du système de coordonnées en sortie.


    Paramètres

    Entités ponctuelles pour lesquelles le clustering basé sur la densité sera effectué.

    Classe d'entités en sortie qui recevra les résultats du cluster.

    Spécifie la méthode qui sera utilisée pour définir les clusters.

    • Distance définie (DBSCAN) — Une distance spécifiée sera utilisée pour séparer les amas denses du bruit plus clairsemé. DBSCAN est la plus rapide des méthodes de clustering, mais n'est appropriée que s'il existe une distance très claire à utiliser qui fonctionne bien pour définir tous les clusters qui peuvent être présents. Il en résulte des grappes qui ont des densités similaires.
    • Auto-ajustement (HDBSCAN) — Des distances variables seront utilisées pour séparer les groupes de densités variables du bruit plus clairsemé. HDBSCAN est la méthode de clustering la plus axée sur les données et nécessite le moins d'entrées utilisateur.
    • Multi-échelle (OPTIQUE) —La distance entre les voisins et un tracé d'accessibilité sera utilisé pour séparer les groupes de densités variables du bruit. OPTICS offre la plus grande flexibilité pour affiner les clusters détectés, même si cela demande beaucoup de calculs, en particulier avec une grande distance de recherche.

    Le nombre minimum de points qui seront considérés comme un cluster. Tout groupe avec moins de points que le nombre fourni sera considéré comme du bruit.

    La distance maximale qui sera considérée.

    Pour l'option Distance définie (DBSCAN) du paramètre Méthode de clustering, la valeur du paramètre Caractéristiques minimales par cluster doit être trouvée dans cette distance pour l'appartenance au cluster. Les grappes individuelles seront séparées d'au moins cette distance. Si un point est situé plus loin que cette distance du prochain point le plus proche du cluster, il ne sera pas inclus dans le cluster.

    Pour l'option Multi-scale (OPTICS) du paramètre Clustering Method, ce paramètre est facultatif et est utilisé comme distance de recherche maximale lors de la création du tracé d'accessibilité. Pour OPTICS, le tracé d'accessibilité, combiné à la valeur du paramètre Cluster Sensitivity, détermine l'appartenance au cluster. Si aucune distance n'est spécifiée, l'outil recherchera toutes les distances, ce qui augmentera le temps de traitement.

    Si elle n'est pas renseignée, la distance par défaut utilisée sera la distance centrale la plus élevée trouvée dans l'ensemble de données, à l'exclusion des distances centrales dans le 1 % supérieur (les distances centrales les plus extrêmes). Si la valeur du paramètre Champ de temps est fournie, une distance de recherche doit être fournie et n'inclut pas de valeur par défaut.

    Entier compris entre 0 et 100 qui détermine la compacité des clusters. Un nombre proche de 100 se traduira par un nombre plus élevé de grappes denses. Un nombre proche de 0 se traduira par des clusters moins nombreux et moins compacts. Si laissé vide, l'outil trouvera une valeur de sensibilité à l'aide de la divergence Kullback-Leibler qui trouve la valeur dans laquelle l'ajout de clusters supplémentaires n'ajoute pas d'informations supplémentaires.

    Le champ contenant l'horodatage de chaque enregistrement de l'ensemble de données. Ce champ doit être de type Date. S'il est fourni, l'outil trouvera des groupes de points proches les uns des autres dans l'espace et le temps. La valeur du paramètre Search Time Interval doit être fournie pour déterminer si un point est suffisamment proche dans le temps d'un cluster pour être inclus dans le cluster.

    L'intervalle de temps qui sera utilisé pour déterminer si les points forment un cluster spatio-temporel. L'intervalle de temps de recherche s'étend avant et après l'heure de chaque point, ainsi, par exemple, un intervalle de 3 jours autour d'un point inclura tous les points commençant 3 jours avant et se terminant 3 jours après l'heure du point.

    • Pour l'option Distance définie (DBSCAN) du paramètre Méthode de clustering, la valeur du paramètre Caractéristiques minimales par cluster doit être trouvée dans la distance de recherche et l'intervalle de temps de recherche à inclure dans un cluster.
    • Pour l'option Multi-scale (OPTICS) du paramètre Clustering Method, tous les points en dehors de l'intervalle de temps de recherche seront exclus lors du calcul des distances centrales, des distances voisines et des distances d'accessibilité.

    L'intervalle de temps de recherche ne contrôle pas la durée globale des clusters spatio-temporels résultants. L'intervalle de temps des points au sein d'un cluster peut être supérieur à l'intervalle de temps de recherche tant que chaque point a des voisins au sein du cluster qui se trouvent dans l'intervalle de temps de recherche.

    Entités ponctuelles pour lesquelles le clustering basé sur la densité sera effectué.

    Classe d'entités en sortie qui recevra les résultats du cluster.

    Spécifie la méthode qui sera utilisée pour définir les clusters.

    • DBSCAN — Une distance spécifiée sera utilisée pour séparer les clusters denses du bruit plus clairsemé. DBSCAN est la méthode de clustering la plus rapide, mais n'est appropriée que s'il existe une distance très claire à utiliser qui fonctionne bien pour définir tous les clusters qui peuvent être présents. Il en résulte des grappes qui ont des densités similaires.
    • HDBSCAN — Des distances variables seront utilisées pour séparer les groupes de densités variables du bruit plus clairsemé. HDBSCAN est la méthode de clustering la plus axée sur les données et nécessite le moins d'entrées utilisateur.
    • OPTIQUE — La distance entre les voisins et un tracé d'accessibilité seront utilisés pour séparer les groupes de densités variables du bruit. OPTICS offre la plus grande flexibilité pour affiner les clusters détectés, bien que cela demande beaucoup de calculs, en particulier avec une grande distance de recherche.

    Le nombre minimum de points qui seront considérés comme un cluster. Tout groupe avec moins de points que le nombre fourni sera considéré comme du bruit.

    La distance maximale qui sera considérée.

    Pour l'option DBSCAN du paramètre cluster_method, la valeur du paramètre min_features_cluster doit être trouvée dans cette distance pour l'appartenance au cluster. Les grappes individuelles seront séparées par au moins cette distance. Si un point est situé plus loin que cette distance du prochain point le plus proche du cluster, il ne sera pas inclus dans le cluster.

    Pour l'option OPTICS du paramètre cluster_method, ce paramètre est facultatif et est utilisé comme distance de recherche maximale lors de la création du tracé d'accessibilité. Pour OPTICS, le tracé d'accessibilité, combiné à la valeur du paramètre cluster_sensitivity, détermine l'appartenance au cluster. Si aucune distance n'est spécifiée, l'outil recherchera toutes les distances, ce qui augmentera le temps de traitement.

    Si elle n'est pas renseignée, la distance par défaut utilisée sera la distance centrale la plus élevée trouvée dans l'ensemble de données, à l'exclusion des distances centrales dans le 1 % supérieur (les distances centrales les plus extrêmes). Si la valeur du paramètre time_field est fournie, une distance de recherche doit être fournie et n'inclut pas de valeur par défaut.

    Entier compris entre 0 et 100 qui détermine la compacité des clusters. Un nombre proche de 100 se traduira par un nombre plus élevé de grappes denses. Un nombre proche de 0 se traduira par des clusters moins nombreux et moins compacts. S'il est laissé vide, l'outil trouvera une valeur de sensibilité à l'aide de la divergence Kullback-Leibler qui trouve la valeur dans laquelle l'ajout de clusters supplémentaires n'ajoute pas d'informations supplémentaires.

    Le champ contenant l'horodatage de chaque enregistrement de l'ensemble de données. Ce champ doit être de type Date. S'il est fourni, l'outil trouvera des groupes de points proches les uns des autres dans l'espace et dans le temps. La valeur du paramètre search_time_interval doit être fournie pour déterminer si un point est suffisamment proche dans le temps d'un cluster pour être inclus dans le cluster.

    L'intervalle de temps qui sera utilisé pour déterminer si les points forment un cluster spatio-temporel. L'intervalle de temps de recherche s'étend avant et après l'heure de chaque point, ainsi, par exemple, un intervalle de 3 jours autour d'un point inclura tous les points commençant 3 jours avant et se terminant 3 jours après l'heure du point.

    • Pour l'option DBSCAN du paramètre cluster_method, la valeur min_features_cluster spécifiée doit être trouvée dans la distance de recherche et l'intervalle de temps de recherche à inclure dans un cluster.
    • Pour l'option OPTICS du paramètre cluster_method, tous les points en dehors de l'intervalle de temps de recherche seront exclus lors du calcul des distances centrales, des distances voisines et des distances d'accessibilité.

    L'intervalle de temps de recherche ne contrôle pas la durée globale des clusters spatio-temporels résultants. L'intervalle de temps des points au sein d'un cluster peut être supérieur à l'intervalle de temps de recherche tant que chaque point a des voisins au sein du cluster qui se trouvent dans l'intervalle de temps de recherche.

    Exemple de code

    Le script de fenêtre Python suivant montre comment utiliser la fonction DensityBasedClustering.

    Le script Python autonome suivant montre comment utiliser la fonction DensityBasedClustering.

    Le script Python autonome suivant montre comment utiliser la fonction DensityBasedClustering avec le temps.


    1 réponse 1

    Je suppose que vous essayez de superposer différents systèmes de référence spatiale sans dire à arcmap ceux que vous utilisez, de sorte qu'il ne peut pas les reprojeter pour qu'ils s'emboîtent.

    Lorsque vous dites « latitude » et « longitude », vous entendez normalement un système de coordonnées géographiques comme WGS84. Alors que X et Y font souvent référence à un système de coordonnées projetées comme NAD. Vous avez défini NAD pour les deux couches. Je pense que vous devriez définir un système de coordonnées géographiques pour votre fichier CSV, s'il contient vraiment des coordonnées géographiques.

    ArcMap utilise le système de référence spatiale de la première couche qui est ajoutée en tant que SRS d'affichage (vous pouvez le modifier par la suite à coup sûr), c'est pourquoi vous avez vu votre fichier de formes en premier et après avoir redémarré et ajouté les points, vous avez vu les points en premier.

    Si chaque couche a son SRS défini correctement, ArcMap les reprojetera automatiquement pour s'adapter à votre SRS d'affichage. Si vous définissez le mauvais SRS pour une couche, Arcmap ne fera rien à coup sûr, car il n'est pas nécessaire de reprojeter une couche NAD vers NAD (bien que les coordonnées aient un domaine de valeur complètement différent et que vos points soient dessinés ailleurs. vérifiez ceci en clic droit sur le calque CSV et "Zoomer sur le calque (étendre)".

    Pour compliquer les choses : Étant donné que NAD83 et WGS84 reposent sur des références géodésiques différentes, vous devez effectuer une transformation. Vous trouvez un ensemble prédéfini de paramètres de transformation lorsque vous faites un clic droit sur « couches » dans la « table des matières » à gauche et sélectionnez « propriétés ». Sur la feuille "Système de coordonnées", vous voyez le bouton "Transformer" où vous pouvez sélectionner les paramètres de transformation à utiliser pour passer de NAD83 à WGS84 et vice versa. Une description plus détaillée peut être trouvée sur ce GIS SE


    L'algorithme

    L'algorithme que je présente ici a été décrit il y a plus d'une décennie par Adriano Moreira et Maribel Yasmina Santos de l'Université de Minho, Portugal [3]. Extrait du résumé :

    Cet article décrit un algorithme pour calculer l'enveloppe d'un ensemble de points dans un plan, qui génère des coques convexes sur non convexes qui représentent la zone occupée par les points donnés. L'algorithme proposé est basé sur une approche des k plus proches voisins, où la valeur de k, le seul paramètre de l'algorithme, est utilisée pour contrôler la « régularité » de la solution finale. […]

    Comme j'appliquerai cet algorithme à l'information géographique, certaines modifications ont dû être apportées, notamment lors du calcul des angles et des distances [4]. Mais ceux-ci ne modifient en rien l'essentiel de l'algorithme, qui peut être largement décrit par les étapes suivantes :

    1. Trouver le point avec le plus bas oui (latitude) coordonnée et en faire la coordonnée actuelle.
    2. Trouvez le k-les points les plus proches du point actuel.
    3. Du k-points les plus proches, sélectionnez celui qui correspond au plus grand virage à droite par rapport à l'angle précédent. Ici, nous utiliserons le concept de relèvement et commencerons par un angle de 270 degrés (plein ouest).
    4. Vérifiez si en ajoutant le nouveau point à la chaîne de ligne croissante, il ne se coupe pas. Si c'est le cas, sélectionnez un autre point dans le k-nearest ou redémarrer avec une valeur plus grande de k.
    5. Faites du nouveau point le point actuel et supprimez-le de la liste.
    6. Après k les itérations ajoutent le premier point à la liste.
    7. Boucle au numéro 2.

    L'algorithme semble assez simple, mais il y a un certain nombre de détails auxquels il faut prêter attention, notamment parce qu'il s'agit de coordonnées géographiques. Les distances et les angles sont mesurés de manière différente.


    Aléatoire spatial complet (grain de café)

    Vous connaissez ce sentiment lorsque vous répondez à la question « qu'étudiez-vous » et que vous recevez un regard vide ? Les systèmes d'information géographique sont souvent considérés comme une discipline de niche, mais je l'ai trouvé applicable à plus de situations au fur et à mesure que j'avance dans mon programme. En ce moment, je fais partie de l'économie des concerts, je prépare des cafés versés dans un petit café familial du sud de Philadelphie. Un matin, mon collègue Brendan m'a demandé ce que j'avais l'intention de faire de la seconde moitié de ma journée (l'équipe du matin passe de 6h30 à 1h30). À l'époque, j'étais dans la semaine 4 des 6 semaines de statistiques avancées pour l'analyse spatiale à la vitesse de l'éclair. Si vous n'avez pas encore suivi ce cours, c'est un tourbillon de mathématiques et de codage qui dominera la bande passante de votre cerveau. Au cours de la quatrième semaine, le sujet traité est la régression pondérée géographiquement, ou GWR, qui est une forme de régression linéaire avec tellement de calculs nécessaires que pour résoudre une équation à la main, il vous faudrait probablement les six semaines du cours juste pour F. Ainsi, la majeure partie de l'algèbre est effectuée dans le langage de programmation R, et vous devez comprendre les principes de la GWR en examinant chaque morceau de littérature sur lequel vous pouvez mettre la main.

    Un concept clé pour comprendre la régression pondérée géographiquement est la notion de hasard spatial complet, ou RSE. La RSE peut être assimilée à l'hypothèse nulle telle qu'elle est comprise dans la régression. Il suppose qu'il n'y a pas de modèle dans les données, et donc prédire les valeurs à la moyenne est un moyen plus précis de construire un modèle pour décrire les valeurs d'attribut. Brendan a semblé intéressé par ma réponse à la question « qu'étudiez-vous » lorsque j'ai décrit le SIG comme une sorte d'amalgamation de la cartographie, de la science des données et de l'analyse spatiale, et j'ai suivi d'une question concernant le type de sujets de la classe. était entrain d'étudier. Décrire les concepts de GWR et de RSE à un novice peut être accablant ou simplement fastidieux si cela ne s'applique pas quelque peu à la façon dont vous voyez le monde. C'est une compétence que j'ai encore beaucoup à développer et que j'ai hâte de faire, et à l'époque j'ai pensé que j'allais l'essayer.

    La vie de barista est désordonnée. Derrière le comptoir, nous glissons des serviettes dans tous les coins et recoins afin d'être prêts pour les inévitables fuites de café, les déversements de grains et les défaillances de l'équipement utilisé pour servir votre boisson préférée. En prenant une serviette et en la plaçant soigneusement sur le comptoir, tous les bords aplatis, j'ai créé un plan dans lequel servir d'exemple pour tester la RSE. J'ai attrapé une poignée de grains de café et les ai jetés sur la serviette, créant un joli contrat de points de données bruns sur une surface blanche. Qu'observe-t-on en examinant la répartition des grains de café sur la serviette ? If the fact that some beans tend to cluster towards the middle would this be sufficient enough data to say for certain that some attribute embedded within the beans causes them to cluster? Does location of data points play a role in its’ distribution? What’s with these coffee beans?

    In order to do this we would need to test the theory by running the test many times- as is done in a Monte Carlo simulation which makes a distribution of the results of your regression output as many times as the user pleases. Brendan and I just did the test the one time but if we were to waste a morning seeing whether or not the beans clustered or dispersed we would indeed be able to say with a high degree of confidence how our observations related in space.


    Voir la vidéo: Open Google Earth or Bing as a Layer in QGIS