ニュース

2021.7.28

コンピュータビジョンの世界トップ学会CVPR2021で「物体認識技術コンペティション世界1位」として採択されました。

ー 動画の人物や物体を画素単位で検出・トラッキングする技術で世界1位の精度を実現 ー

研究開発エンジニア採用(キャリア採用)のお知らせ研究開発エンジニア採用(キャリア採用)のお知らせ

トヨタ自動車株式会社
コネクティッドカンパニー コネクティッド先行開発部
InfoTech室 データ解析グループ
 山崎将幸主任 (本プロジェクトマネージャ)
 山中正雄主幹 (グループ長)


トヨタ自動車株式会社は、動画内の物体検出・セグメンテーション・トラッキングするための画像認識AI技術を開発しました。コンピュータビジョン・映像処理技術と人工知能分野において最高権威であるCVPR2021で採択され、2021年6月20日に本技術を発表しました。同学会内では、動画の物体認識技術コンペティションが開催され、331エントリー中で1位を獲得しました。本発表技術は、5年間の中長期的な研究開発と幾重の現場実証を通じ、弊社AI部門とLogixsquare社・Cybercore社(本発表共著)のスクラム体制で構築/蓄積した開発基盤と技法をYouTube動画解析へ応用しました。

画素単位の物体認識技術は、2017年に静止画像を対象としたニューラルネットワーク登場以降、研究機関や企業で注目され、世界的な開発競争が行われています。英語ではInstance Segmentationと呼ばれ、汎用性の高い基盤技術として多くの適用分野が挙げられます(以下一例)。

  • ・ ADASや車室内認識等のための車内外環境の認知技術
  • ・ セキュリティやロボティクス、農業・工場等での人物行動/物体状態のセンシング技術
  • ・ ビデオストリーミングやビデオカメラシステムでの動画像解析・データ要約技術
  • ・ 写真/動画編集やクロマキー合成、AR/VR/XRなどの映像表現アプリケーション

同分野にて世界最高精度を記録し、CVPR2021採択されたことは、地道な研究開発が認められた結果と考えており、非常に光栄です。今後も引き続き、研究開発を通じて、モビリティ社会の安心安全と利便性、脱炭素社会の実現および持続可能な社会の発展へ貢献して参ります。

ー技術概要ー

動画を入力として、3種類のタスク(①物体検出・②セグメンテーション・③トラッキング)が相互に参照しながら総合的な分析することで、認識精度を高めるアルゴリズムを開発しました。ニューラルネットワークを用いて、動画が持つ多彩なシチュエーションと膨大な情報量に対応しました。一般的に、基本的なニューラルネットワークは、1種類のタスクに対して1個のニューラルネットワークで構成されますが、本発表技術では3種類のタスクに共通する演算を木の幹、各タスクの結果出力部をそれぞれ枝に見立てた1つのネットワークで構成しました。マルチタスクネットワークとも呼ばれます。マルチタスクネットワークは機械学習の難易度が高くなるため、多くの先行研究では複雑化された手法が採用されますが、本発表技術ではIoTエッジデバイスやクラウドへの組込実装を前提としており、小型軽量かつシンプルなネットワーク構成としつつ、学習方法を工夫することで実現しました。

学習方法

  • ① 静止画を対象として、物体検出タスクのためのニューラルネットワークを設計し、データセットにあらかじめ付与された正解ラベルを学習する。これを、木の幹に見立てる。
  • ② セグメンテーションタスク用として、木の枝に相当する小規模なニューラルネットワークを設計して①へ付加し、①同様に学習する。
  • ③ トラッキングタスク用として、②同様、もう一つの木の枝と相当する小規模なニューラルネットワークを設計して②へ付加する。対象を動画へ変更し、②同様に学習する。

工夫点

 
  • A  上記①→②→③のように、少しずつタスクを拡張することで、学習が安定的に収束するように、ニューラルネットワークのアーキテクチャレベルで調整しました。
  •  
  • B  半教師学習と呼ばれる学習理論を、実際のデータセットへ応用しました。具体的には、一般的に広く用いられているオープンデータセットと、本番用データセットの正解ラベル規則において共通部分を抽出し、①②の学習データに加えて学習することで、静止画単位での認識精度を高めました。
  •  
  • C  ③において、時間軸の順方向にトラッキングを学習することに加えて、逆方向(時間巻き戻し方向)でも学習することで、人物や物体が重なり合うシチュエーション及びトラッキングの精度向上を図り、動画での認識精度を高めました。

成績

同コンペディションの題材(YouTube-VIS 2021 version データセット)へ本発表手法を適用し、Video Instance Segmentation部門において、精度評価指標mAP (mean Average Precision)で0.541pointのスコア記録し、331エントリー中で1位を獲得しました。
今回、一般的かつ多彩なシチュエーションのYouTube動画を題材としたことで、本発表技術の汎用性の高さを証明しました。

  • ・発表日:2021.6.20
  • ・学会・掲載紙名:CVPR2021(IEEE/CVF Computer Vision and Pattern Recognition)
  • ・タイトル:1st Place Solution for YouTubeVOS Challenge 2021:Video Instance Segmentation

以 上

■R&Dグループの紹介

コネクティッド先行開発部 InfoTech室 データ解析グループ

当グループでは、車両内外の車載カメラから得られた画像データや車両挙動(CAN)データを用いて、統計的機械学習をベースとしたシステム・サービスの先行開発をしています。たとえば、車載カメラ画像データからの路上障害物検知技術は、公開データセットによる定量的評価において、世界第1位を獲得し、コンピュータビジョンの重要会議の一つであるACCV2020に採択されました。また、動画中の人物や物体を画素単位で検出・追跡する技術では、物体認識技術のコンペティションにおいて世界第1位を獲得し、コンピュータビジョンの最重要会議の一つであるCVPR2021に採択されました。さらに、当グループでは、ネットワーク圧縮技法(量子化、枝刈り、蒸留)を用いたエッジデバイス(Xavier、Google Edge TPUなど)へのデプロイ検討(同技術の車載化が目的)や、Kubernetesなどのミドルウェアを用いた分散・並列処理の検討(同技術のクラウド運用が目的)など、サービス・インに向けた検討を同時並行で進めています。このように、当グループの強みは、あるシステムやサービスの実現において、上流設計(=専門領域)からその運用(=協業領域)に至るまで、End-to-Endで裾野(守備範囲)の広い研究開発活動ができることだと思います。
統計的機械学習に基づくデータ解析技術、特に、画像処理に関する研究開発は、すでに数多くの公開データセットが存在します。また、これらの公開データセットを使ったコンペティションが定常的に行われ、”GAFAM”と呼ばれるビッグ・テックをはじめ、世界有数の研究機関(大学などの公的研究機関)が鎬(しのぎ)を削っています。しかしながら、このコンペティションにおいて得られた世界第1位のAI関連技術がお客様にとっての”うれしさ・たのしさ・おもしろさ”に直接つながるかというと、必ずしもそうではありません。なぜならば、これらのAI関連技術は、ある限定された環境下(=公開データセットに強く依存)において非常に高いパフォーマンスを発揮する一方で、一般に汎化性能が低く、実用上使い勝手の悪いもの(=処理コスト高)がほとんどだからです。したがって、我々企業の研究開発者は、これらのAI関連技術の”エッセンス”を抽出し、自分たちのユースケースに合わせて”カイゼン”(=最適化)を繰り返さなければなりません。この非常に泥臭い過程で得られた知見やノウハウが曲がりなりにも実際のシステムやサービスに反映され、お客様にとっての”うれしさ・たのしさ・おもしろさ”につながる瞬間こそが、やりがい(醍醐味)であり、研究開発を継続するモチベーション(エネルギー)と考えております。

■研究開発エンジニア採用(キャリア採用)のお知らせ

研究開発エンジニア採用(キャリア採用)のお知らせ研究開発エンジニア採用(キャリア採用)のお知らせ

機械学習や画像認識を用いたデータ解析の事業領域は、注力分野の1つです。適用対象は、ICT・クラウド技術や車載カメラの発展と共に、車載・車両から都市開発、モビリティサービスへ拡大しています。
当グループでは、ある特定の技術領域における専門性(AI関連技術)を高めるだけでなく、当該技術領域を基軸に守備範囲を広げられる(広げようとする)人財を求めています。
例えば、当グループが携わるプロジェクトの一つに、 MaaS(Mobility as a Service)車両(自動運転シャトル: e-Palette)における車掌機能システムの先行開発(自動ドア開閉、発車判定など)があります。同システムを実現するための要素技術として、画像からの人体検出、姿勢推定、異常行動検知などがあります。これらの要素技術は、コンピュータビジョンの研究領域において、すでに数多くの有望な手法が提案されています。ところが、これらの要素技術を単に組合わせる(連結する)だけでは、システム(サービス)として成立しません。すなわち、車両の状況(走行中、乗降中、停車中など)に合わせて、あるときはクラウド側で、またあるときはエッジ側で、というように、これらの要素技術をダイナミックに機能配置する仕組みが必要になります。このように、上述の要素技術に関する先端研究をしっかりとキャッチ・アップ(手の内化)しつつ、それらの要素技術を包含する”最適なアーキテクチャ”を提案することで、お客様にとっての”うれしさ・たのしさ・おもしろさ”を最大化することが、当グループのミッションです。