道路抽出用データセット（ＧＳＩデータセット-02）

概要

　このデータは、機械学習に用いることを想定して、地上画素寸法20cmで撮影された空中写真のRGB各8ビット3チャンネル画像を対象として、道路が写っている画素を赤色（RGB:#FF0000）でラベリングしたものです。機械学習に用いるため、各データは元画像（オリジナル画像）とラベリング画像の2枚のペアで構成され、ファイル名によって各ペアを識別することができます。

画像の仕様

　画像サイズは、572ピクセル×572ピクセルのものと、286ピクセル×286ピクセルのものの2種類があります。いずれの画像も、各チャンネルのビット深度は8ビット、画像形式はPNG形式です。
　2022年11月10日時点でダウンロード可能な画像は、572ピクセル×572ピクセルのもの2000ペア、286ピクセル×286ピクセルのもの10000ペアとなっています。

作成方法

　基本的な作成方法は、地上画素寸法20cmの設計で撮影された空中写真画像から572ピクセル×572ピクセルの範囲を切り出してオリジナル画像とし、それを複製したラベリング画像に対して、道路が写っていると判断される画素を赤色に塗りつぶした画像とし、572ピクセル×572ピクセルの1ペアのデータを作成します。
　次に、572ピクセル×572ピクセルのオリジナル画像、ラベリング画像それぞれを４分割し、286ピクセル×286ピクセルの画像４枚を作成します。さらに572ピクセル×572ピクセルの画像全体を286ピクセル×286ピクセルに縮小して５枚目を作成し、286ピクセル×286ピクセルのオリジナル画像とラベリング画像5ペアとします。286ピクセル×286ピクセルの画像は、ある程度のスケーリング（地上画素寸法が40cm程度まで大きくなった場合）にも対応できると考えられます。
　ほとんどの画像は、国土地理院が測量成果閲覧用に使用しているJPG形式の画像から切り出されており、ごく少数の画像が測量成果の画像から直接切り出されています。

　使用した空中写真画像の対象地区は、2007年度から2018年度の地上画素寸法20cm撮影地区として撮影された地区で、原則として2007年から2019年までに撮影されています。また、デジタル航空カメラによって撮影された画像を使用しており、2019年度以降に計画された撮影地区の画像や、フィルム式の航空カメラによって撮影されデジタル化された画像は含まれていません。

　ラベリング対象とした道路には、舗装道路、未舗装道路、道路橋を含みます。路側帯を含む車道と歩道を含みますが、分離帯、横断歩道橋、街路樹、駐車場内の走行路は含みません。道路上に写っている車は、通常道路内に存在し得る移動体であるため道路とみなしてラベリングしていますが、踏切を走行している鉄道車両はラベリングは行っていません。また、道路上空が植生に覆われている部分、建物などの倒れこみによって遮蔽されている部分、影の影響で道路の境界が判読できない区間は、道路としてのラベリングは行っていません。

　また、本データセットの特徴は、オルソ画像ではなく空中写真の生画像を対象画像として使用している点にあります。そのため、ラベリング画像の作成は、必要に応じて簡易立体視を行いながら人間の手によって行われています。

　カラー舗装されている道路はいまのところデータ数が少なく、本データセットでトレーニングしたモデルは、通常の舗装の道路に比べてカラー舗装区間の抽出性能が低くなります。

サンプル画像

　こちらにサンプル画像を示します。このサンプルは、本データセットの572ピクセル×572ピクセルの画像のうち1020番を表示したものです。このように、ラベリング画像は、道路が写っている画素を赤色に着色した画像となっています。

オリジナル画像	ラベリング画像

本データによる学習済モデルの活用例

　本データセットを作成した特別研究「ＡＩを活用した地物自動抽出に関する研究」では、本データセット（572×572サイズ）の1～1960までの1960枚のデータを用いて作成した学習済モデルのＦ値が0.801となっています。
　この一連の研究では、オルソ画像ではなく空中写真の生画像をこの学習済モデルに入力して得た推論画像から赤色に色付けされた部分を抽出し、ノイズ削除などの後処理を加えたうえで輪郭線抽出してポリゴンデータ化したもの（この時点では画像座標系のデータ）をカメラパラメータと基盤地図情報ＤＥＭを用いて正射変換し、経緯度座標系の図化データとしています。
　しかし、１枚の空中写真画像から得られた図化データだけではF=0.8クラスの推論結果に過ぎないことから、相応の抽出漏れが生じます。そこで、隣接する空中写真から得られた図化データもすべてマージすることによって抽出漏れを減少させることとし、それらの処理も自動的に行うことができる「自動図化機構」を構築しています（大野，2022）^※。これによって、抽出漏れを幾分軽減させた図化結果を得ることができます。
　本データによる学習済モデルを用いた自動図化機構による空中写真１枚分の範囲（空中写真番号CCB-2021-3-N-C05_0008。撮影日：2021年6月10日）の道路の自動図化結果は下図のようになります。本データを活用することにより、地上画素寸法20cmで撮影された空中写真データからこのような図化データを得ることができます。

※上記（大野，2022）中、同時調整済のカメラパラメータに誤差が含まれるが原因が不明としている点は、その後、平面直角座標系の子午線収差が原因であることが判明している。

図　本データによる学習済モデルから得られた道路の自動図化結果（水色の線）

本図の作成に用いた道路の自動図化結果のデータ（kml形式のポリゴンデータ）はこちらからダウンロードできます^※。地理院地図で表示できますが、データ量が大きいため、表示されるまでしばらく時間がかかります。

※SHA256ハッシュ値：698C337F70A0CD18B83CC62C41F882169E05D9652C70201A273F29C613B2D62A

ダウンロード

　本データセットは、オリジナル画像（orgフォルダに格納されています）、ラベリング画像（valフォルダに格納されています）で構成されており、次のリンクからダウンロードできます。拡張子.zipと.tar.gzは梱包方式が違うだけで含まれるデータは同じです。

572ピクセル×572ピクセル：H1-No17-572.zip（1.29GB。SHA256ハッシュ値：9A16C4E767FA78295EC676DFF8E1EDFA1B351517127003CD0053249BAF9B854F）
572ピクセル×572ピクセル：H1-No17-572.tar.gz（1.29GB。SHA256ハッシュ値：917E551D2579E49FEB3FBDEBA8983EC0623C94C3774DCA61E8B559C04A458EDC）
286ピクセル×286ピクセル：H1-No17-286.zip（1.73GB。SHA256ハッシュ値：160E0F1F7FF4B57404B39B4EC397791BA1F9980807E9190F0F66139BF0FC24A8）
286ピクセル×286ピクセル：H1-No17-286.tar.gz（1.73GB。SHA256ハッシュ値：9AA845AA059CB657354E500E69922A23C6CAC105D3516538AF5DB05A5801AAD9）

出典表示

　本データは、国土地理院コンテンツ利用規約の下で使用できます。研究発表等に用いる場合は、次のように出典を表示してください。

国土地理院（2022）：CNNによる道路抽出のための教師画像データ，国土地理院技術資料 H1-No.17．

参考文献

大野裕幸（2022）：新技術の活用による基盤情報整備力向上のための研究（第3年次），国土地理院令和3年度調査研究年報，222-225．

ＧＳＩデータセット-02（道路）

概要