このデータは、機械学習に用いることを想定して、地上画素寸法20cmで撮影された空中写真のRGB各8ビット3チャンネル画像を対象として、水部が写っている画素を青色(RGB:#0000FF)でラベリングしたものです。機械学習に用いるため、各データは元画像(オリジナル画像)とラベリング画像の2枚のペアで構成され、ファイル名によって各ペアを識別することができます。
画像サイズは、572ピクセル×572ピクセルのものと、286ピクセル×286ピクセルのものの2種類があります。いずれの画像も、各チャンネルのビット深度は8ビット、画像形式はPNG形式です。
2022年11月10日時点でダウンロード可能な画像は、572ピクセル×572ピクセルのもの1250ペア、286ピクセル×286ピクセルのもの6250ペアとなっています。
基本的な作成方法は、地上画素寸法20cmの設計で撮影された空中写真画像から572ピクセル×572ピクセルの範囲を切り出してオリジナル画像とし、それを複製したラベリング画像に対して、道路が写っていると判断される画素を赤色に塗りつぶした画像とし、572ピクセル×572ピクセルの1ペアのデータを作成します。
次に、572ピクセル×572ピクセルのオリジナル画像、ラベリング画像それぞれを4分割し、286ピクセル×286ピクセルの画像4枚を作成します。さらに572ピクセル×572ピクセルの画像全体を286ピクセル×286ピクセルに縮小して5枚目を作成し、286ピクセル×286ピクセルのオリジナル画像とラベリング画像5ペアとします。286ピクセル×286ピクセルの画像は、ある程度のスケーリング(地上画素寸法が40cm程度まで大きくなった場合)にも対応できると考えられます。
ほとんどの画像は、国土地理院が測量成果閲覧用に使用しているJPG形式の画像から切り出されており、ごく少数の画像が測量成果の画像から直接切り出されています。
使用した空中写真画像の対象地区は、2007年度から2018年度の地上画素寸法20cm撮影地区として撮影された地区で、原則として2007年から2019年までに撮影されています。また、デジタル航空カメラによって撮影された画像を使用しており、2019年度以降に計画された撮影地区の画像や、フィルム式の航空カメラによって撮影されデジタル化された画像は含まれていません。
ラベリング対象とした水部には、海、河川、湖、沼、ため池、プール、下水処理場の水槽などを含みます。水涯線によって周囲を囲まれた範囲と考えて支障ありません。山あいに存在する水部や、擁壁などに囲まれた水部で、地形等からそこに水が存在すると思われる場合でも、影の影響で水かどうかを画素上で判断できない場合はラベリング対象としていません。
濁った水、洪水によって陸地に溜まった水も水部としてラベリングされています。水田に湛水した水は原則としてラベリングされていません。
また、本データセットの特徴は、オルソ画像ではなく空中写真の生画像を対象画像として使用している点にあります。そのため、ラベリング画像の作成は、必要に応じて簡易立体視を行いながら人間の手によって行われています。
こちらにサンプル画像を示します。このサンプルは、本データセットの572ピクセル×572ピクセルの画像のうち745番を表示したものです。このように、ラベリング画像は、水が写っている画素を青色に着色した画像となっています。
本データセットは、オリジナル画像(orgフォルダに格納されています)、ラベリング画像(valフォルダに格納されています)で構成されており、次のリンクからダウンロードできます。拡張子.zipと.tar.gzは梱包方式が違うだけで含まれるデータは同じです。
本データは、国土地理院コンテンツ利用規約の下で使用できます。研究発表等に用いる場合は、次のように出典を表示してください。
国土地理院(2022):CNNによる水部抽出のための教師画像データ,国土地理院技術資料 H1-No.18.