COCOのデータセットの簡単な使い方!FiftyOneを試してみた

本サイトはアフィリエイト広告を利用しています。
AI

COCOのデータセットを簡単な使い方を紹介します。

Fifityoneというツールを使えば、任意のデータセットを簡単に作成可能です。

Colab上で動かしましたので、誰でも同様にテストできます。

 

スポンサーリンク

COCOのデータセットの簡単な使い方!FiftyOneを試してみた

Fifityone を利用することで、COCOのデータセットを簡単に使うことが出来ました。

  • 視覚的にデータセットの中身を確認できます。
  • Colab上でも簡単に操作可能です。
  • 必要なラベルを絞って、データセットを作成できます。

COCOの公式も紹介しているツールです。誰でも同様に実施できます。

Colab上での使用例含めて、詳細を紹介していきます。

 

COCOのデータセット

本来、COCOのデータセットは下記公式ページからダウンロードできます。

COCO - Common Objects in Context

 

学習用(train)のデータセット含めると容量が20GB近くあります。

今回紹介するFiftyone以外にも、Linux上でのコマンドやAPIでも取得可能です。

 

参考記事

下記記事を参考にさせていただきました。非常に丁寧に記載されています。

作成者の方にこの場を借りてお礼申し上げます。

FiftyOne を使って Open Images Dataset のデータを取得する - Qiita
はじめに社内の勉強会で使用するため、久しぶりに Open Images Dataset を覗きました…

 

ColabでCOCOのデータセットを使用する

Google ColabでのFiftyOneを使ったCOCOの使用例を紹介します。

 

FiftyOneの公式ページは下記です

FiftyOne — FiftyOne 1.0.2 documentation

 

FiftyOne をインストールする

FiftyOneをインストールします。

但し、2022/5時点のColab環境だとopencv-python-headlessでエラーが出ました。

そのため、動作するバージョンを再インストールしています。

 

COCOのデータセットを視覚的に確認する

FiftyOneを使ってCOCOのデータセットを確認してみます。

どのような写真でラベル分けされているのか、視覚的に分かります。

 

今回確認したのは、FiftyOneのサンプルコードそのままでvalidation(検証用)データです。

split="train"にすれば学習(train)データもダウンロード可能でした。

但し容量が20GB近いのでご注意下さい。

 

COCOのデータセットを出力する

COCOの形式でデータセットを出力します。

ダウンロードした5000個の検証用データをそのまま出力できます。

下記だと、写真が詰まったdataフォルダとCOCO形式のlabel.jsonが出力されます。

 

ラベル分けして出力する

データセットを全て使うと、学習に時間が掛かりますのでデータを減らしています。

そして"book", "bottle", "cup"の3つのラベルのみをCOCO形式で出力しています。

 

実行後は下記のように各フォルダ(train,val,test)が作られます。

写真が詰まったdataフォルダとCOCO形式のlabel.jsonが出力されます。

 

まとめ

FiftyOneでCOCOのデータセットを簡単に使い方を紹介させていただきました。

 

次の記事では入手したデータを利用して、YOLOXの学習まで実施しています。

是非一緒にご覧ください。(リンク先はこちら)

YOLOXの学習をCOCOのデータセットから試してみた

YOLOXの学習をCOCOのデータセットから試してみた
YOLOXでの学習を実際に一から試してしてみました。 COCOのデータセットの入手から、物体検出まで行っています。 Colab上で実施していますので、誰でも同様にテスト可能です。

コメント