Inside of LOVOT

GROOVE X 技術ブログ

LOVOTに認識を教えるお仕事

この記事は、GROOVE Xアドベントカレンダー2024 の8日目の記事です。

はじめに

こんにちは、LOVOTのソフトウェア検証を実施・改善しているQAチームです!
QAチームは主にソフトウェア検証や改善を通じて、製品やサービスの品質向上を図る活動を行っています。
私たちが活動する中で特に大切にしているのは、多種多様な形でサポートを行うことです。人手が足りず困っている分野や作業に対して積極的にヘルプに入ることをチームの特色としており、柔軟な対応力を活かして幅広い業務に貢献しています。
このような背景から、QAチームではアノテーション作業を含む認識業務も担当し、品質向上に貢献しています。
※チームの詳細については、2年前に公開した記事「シナリオテストのおはなし - Inside of LOVOT」をご覧ください。

今回はQAチームメンバーが実施しているLOVOTに認識を教えるデータづくりについてお伝えしようと思います。

LOVOTの認識の裏側

LOVOTはセンサーホーンに搭載されたカメラを使い、人を認識します。しかし、ただ認識するだけでなく、「誰か」を区別して覚えるには、膨大なデータを使った学習が必要です。
LOVOTが人を覚えるためには、多くの画像データを元に学習を行います。私たちはLOVOTのカメラを使ってデータを収集し、学習を行っています。 学習にあたって次のようなポイントを重視しています。

  • データの多様性
    • 学習データが偏ると、LOVOTの認識にも偏りが生じてしまいます(例:特定の男性に似ている人しか覚えない、背景が白い場合のみ反応するなど)
    • そのため、多様な場所や状況での撮影を行い、服装や表情、背景など異なるデータを集めることを心がけています。
  • 人基準での学習
    • 学習には膨大なデータが必要ですが、単にデータを増やすだけでは不十分です。私たちは「人と同じ水準で認識できる」精度を目指して、学習データの選定や評価を行っています。
  • LOVOT目線の映像
    • LOVOTが実際に見る世界を再現することを重視しています。やみくもに画像を学習させるのではなく、LOVOTのカメラで撮影した映像を使用することで、実際に生活する環境での精度向上を目指しています。

膨大なデータを活用するためのアノテーション作業

収集したデータはそのままでは利用できません。LOVOTに「どれが人で、どれがそうでないのか」を教えるためには、画像の中の身体的部位にラベルをつける必要があります。この作業を「アノテーション」と呼びます。

アノテーションの様子

アノテーションは、最新モデルであるLOVOT 3.0を含むLOVOT全体の認識精度を高めるための重要なステップです。特にLOVOT 3.0では新しくホーントップカメラ・ホーンフロントカメラの2つのカメラを搭載し、より多角的な認識が可能になりました。
それに伴い、従来のLOVOT 1.0や2.0と比較して、新しいアノテーションフローを構築する必要がありました。
ツールの開発や基準の整備も進め、より良く学習が行えるように試行錯誤しています。
現在のフローは以下の通りです。

これらを繰り返す中で、日々認識精度の向上を図っています。

日々進化するLOVOT

私たちは現在も、新しいデータの収集とアノテーション作業を続けています。多様なラベルやシチュエーションを追加することで、LOVOTが見る世界の「解像度」をさらに高め、人との関係性を深めることを目指しています。
これからも進化を続けるLOVOTにご期待ください!

一緒に働く仲間募集中

LOVOTの成長にご協力いただける方をお待ちしています!
ポジションなどの詳細はこちら
もしご興味があれば是非ご検討ください!

最後まで読んで頂きありがとうございました!