ニュース

2021.11.29

人行動解析のトップカンファレンスFG2021(2021.12.15~18)で「小型軽量な骨格推定」が採択され、弊社の山崎将幸が本技術を発表します

ー ハードウェア組込実装を前提とした小型軽量な骨格推定技術を確立しました ー

研究開発エンジニア採用(キャリア採用)のお知らせ研究開発エンジニア採用(キャリア採用)のお知らせ

●過去の関連発表

2021.07.28 コンピュータビジョンの世界トップ学会CVPR2021で「物体認識技術コンペティション世界1位」として採択されました。

●研究開発エンジニア募集(キャリア採用)のお知らせ

【東京】機械学習・画像認識エンジニア(車載/クラウドでのデータ解析・認識/認証システムの開発)

トヨタ自動車株式会社
コネクティッドカンパニー コネクティッド先行開発部
InfoTech室 データ解析グループ
 山崎将幸主任 (本プロジェクトマネージャ 兼 研究開発担当)


トヨタ自動車株式会社は、画像内の人物の骨格を推定するための画像認識AI技術を開発しました。人行動解析の国際的なトップカンファレンスであるFG2021で採択され、会期2021年12月12~13日にて本技術を発表します。本技術では、骨格推定の著名なオープンデータセットMicrosoft COCO person keypoints datasetにおいて、演算量の少なさに対して最高峰の推論精度を獲得しました。

人の骨格”計測”技術はモーションキャプチャ技術とも呼ばれ、身体に計測器を取り付けて、人の部位の位置や動き量をデータ化し、様々な産業で重用されてきました。しかしながら、計測器の装着やキャリブレーションは繊細な装着作業と準備の手間、装着に伴う身体的な負荷が課題です。
昨今では、機械学習技術の発展とともに、上記計測器を用いることなく、画像認識AIによる非接触式モーションキャプチャ技術が主流になり、骨格”推定”技術と呼ばれるようになりました。これにより、人の動作を即座にデータ化しやすくなり、複数人の同時骨格推定や行動推定など、社会でさらに幅広く活用されるようになりました。特に、ニューラルネットワーク登場以降、骨格推定はブレイクスルーを果たし、研究機関や企業で注目され、世界的な開発競争が行われています。英語ではHuman Pose Estimationと呼ばれ、汎用性の高い基盤技術として多くの適用分野が挙げられます(以下一例)。

  • ・ ADASや車室内認識等のための車内外環境の認知技術
  • ・ 監視カメラやビデオストリーミング、ビデオカメラシステムでの動画像解析、行動認識、予兆・予測、異常検知技術
  • ・ ロボティクス、コミュニケーション、ヒューマンインタラクション
  • ・ AR/VR/XRなどの映像表現アプリケーション、デジタルサイネージ
  • ・ スポーツ姿勢分析、介護作業負荷・工場作業負荷の推定、リハビリ支援

本発表技術は、低消費電力デバイスでの組込実装、データセンターでの高効率並列演算、ハードウェアポータビリティ/デバイス依存性低減を前提とし、骨格推定のニューラルネットワーク演算量の大幅削減と小型化を果たしました。同時に、特定のハードウェアベンダーに依存しない構成として、ニューラルネットワークの汎用演算のみで構成しました。一般的に、これらの施策は大幅な精度低下を伴いますが、本発表技術では、ニューラルネットワーク構成を見直し、学習アルゴリズムの工夫によって、軽量化と汎用化、推論精度の高いバランスを実現しました。

また、本発表技術がFG2021 Round1にてAcceptされた後、Round2のPaper Reviewer役に選定され、今回のFG2021開催へ協力を進めて参りました。共著のSigfoss社とは、2017年連携開始以来、AI開発と軽量化・組込開発の知見と技法を共に培って参りました。私たちは研究開発を通じて、スタートアップ企業やテック企業を含めた開発仲間作りを積極的に行うとともに、モビリティ社会の安心安全と利便性、脱炭素社会の実現および持続可能な社会の発展へ貢献して参ります。

ー技術概要ー

ニューラルネットワーク演算の後処理として、座標補間処理を組み合わせることで、ニューラルネットワークを小型軽量化することに成功しました。
骨格推定とは、入力画像を2次元の平面とみなし、画像中の人物の骨格点に相当する2次元座標(x,y)を推定するタスクです。従来手法の多くは、①演算量の多いニューラルネットワークを用いて、骨格点座標を高い分解能で直接算出していました。本発表技術では、②小型軽量シンプルなニューラルネットワークで骨格点座標を粗めの分解能で算出後、テイラー展開という比較的単純な座標補間手法を用いて、骨格点座標を高精度に補間して推定します。
また、従来手法の多くは、特殊な演算仕様を含む手法が多いため、GPUなどの高い柔軟性を持つ高価なハードウェアが求められましたが、本発表技術ではDeep Learningの基本的な演算のみで構成しました。このため、非常に多くのハードウェアで組込可能とし、かつ、低消費電力演算や廉価なハードウェアでも組込可能です。採択論文ではNVIDIA Jetson AGXやXilinx FPGAでの組込実装と計測の事例を載せました。
さらに、Distillation Learningという学習方法を用いて工夫しました。上記①を教師、②を生徒と見立て、教師から生徒へ勉強を教える関係性のように、生徒は教師から正解を学習しやすくすることで、小型軽量かつシンプルなニューラルネットワークでありながらも、高い推論精度を実現しました。

工夫点

ニューラルネットワーク内での役割を大きく3つに分けて説明します。

  • ① 特徴抽出を抽出する役割の前段部
  • ② ①出力を集積する役割の中段部
  • ③ ②を入力として最終結果を算出するための後段部

物体検出や骨格検出でも同様の構成が主流です。
従来の軽量化手法は、①にMobileNetやEfficientNet、HRNetなどの高効率な手法を採用する方法でした。②での演算量が多い一方、②を単純に軽量化すると、推論精度の大幅な精度低下に直結します。
本発表技術では、座標補間による後処理を追加採用し、ニューラルネットワークの受容野を模擬的に拡張することで、推論精度の低下を抑制しながら、②③演算量を大幅に削減できることを検証し、新規性の有る手法として具現化しました。

成績

骨格の著名なオープンデータセットMicrosoft COCO person keypoints dataset(COCO)へ本発表手法を適用し、精度評価指標AP (Average Precision;平均検出精度)とAR (Average Recall;平均再現率;取りこぼししない率)で評価し、検証用データセット(Val2017)でAP 70.1pt、AR 81.2pt、COCOコンペディション用未公開テストデータセット(Test2017)でAP 70.5pt、AR 77.5ptのスコアを記録し、1MGOPs未満の小型軽量手法において最高峰の推論精度を獲得しました。今回、一般的かつ多彩なシチュエーションのCOCOを題材としたことで、本発表技術の汎用性の高さを証明しました。なおかつ、特定のハードウェアベンダーに依存しない構成としたため、NVIDIA Jetson AGXやXilinx FPGAなど市販の低消費電力デバイスでも実装可能です。

【発表詳細】

  • ・発表日:2021.12.15-18
  • ・学会・掲載紙名:FG2021(IEEE International Conference on Automatic Face and Gesture Recognition 2021)
  • ・タイトル(発表内容):Rethinking deconvolution for 2D Human Pose Estimation Light yet accurate model for Real-time Edge computing

以 上

■R&Dグループの紹介

コネクティッド先行開発部 InfoTech室 データ解析グループ

当グループでは、車両内外の車載カメラから得られた画像データや車両挙動(CAN)データを用いて、統計的機械学習をベースとしたシステム・サービスの先行開発をしています。たとえば、車載カメラ画像データからの路上障害物検知技術は、公開データセットによる定量的評価において、世界第1位を獲得し、コンピュータビジョンの重要会議の一つであるACCV2020に採択されました。また、動画中の人物や物体を画素単位で検出・追跡する技術では、物体認識技術のコンペティションにおいて世界第1位を獲得し、コンピュータビジョンの最重要会議の一つであるCVPR2021に採択されました。さらに、当グループでは、ネットワーク圧縮技法(量子化、枝刈り、蒸留)を用いたエッジデバイス(Xavier、Google Edge TPUなど)へのデプロイ検討(同技術の車載化が目的)や、Kubernetesなどのミドルウェアを用いた分散・並列処理の検討(同技術のクラウド運用が目的)など、サービス・インに向けた検討を同時並行で進めています。このように、当グループの強みは、あるシステムやサービスの実現において、上流設計(=専門領域)からその運用(=協業領域)に至るまで、End-to-Endで裾野(守備範囲)の広い研究開発活動ができることだと思います。
統計的機械学習に基づくデータ解析技術、特に、画像処理に関する研究開発は、すでに数多くの公開データセットが存在します。また、これらの公開データセットを使ったコンペティションが定常的に行われ、”GAFAM”と呼ばれるビッグ・テックをはじめ、世界有数の研究機関(大学などの公的研究機関)が鎬(しのぎ)を削っています。しかしながら、このコンペティションにおいて得られた世界第1位のAI関連技術がお客様にとっての”うれしさ・たのしさ・おもしろさ”に直接つながるかというと、必ずしもそうではありません。なぜならば、これらのAI関連技術は、ある限定された環境下(=公開データセットに強く依存)において非常に高いパフォーマンスを発揮する一方で、一般に汎化性能が低く、実用上使い勝手の悪いもの(=処理コスト高)がほとんどだからです。したがって、我々企業の研究開発者は、これらのAI関連技術の”エッセンス”を抽出し、自分たちのユースケースに合わせて”カイゼン”(=最適化)を繰り返さなければなりません。この非常に泥臭い過程で得られた知見やノウハウが曲がりなりにも実際のシステムやサービスに反映され、お客様にとっての”うれしさ・たのしさ・おもしろさ”につながる瞬間こそが、やりがい(醍醐味)であり、研究開発を継続するモチベーション(エネルギー)と考えております。

■研究開発エンジニア採用(キャリア採用)のお知らせ

研究開発エンジニア採用(キャリア採用)のお知らせ研究開発エンジニア採用(キャリア採用)のお知らせ

機械学習や画像認識を用いたデータ解析の事業領域は、注力分野の1つです。適用対象は、ICT・クラウド技術や車載カメラの発展と共に、車載・車両から都市開発、モビリティサービスへ拡大しています。
当グループでは、ある特定の技術領域における専門性(AI関連技術)を高めるだけでなく、当該技術領域を基軸に守備範囲を広げられる(広げようとする)人財を求めています。
例えば、当グループが携わるプロジェクトの一つに、 MaaS(Mobility as a Service)車両(自動運転シャトル: e-Palette)における車掌機能システムの先行開発(自動ドア開閉、発車判定など)があります。同システムを実現するための要素技術として、画像からの人体検出、姿勢推定、異常行動検知などがあります。これらの要素技術は、コンピュータビジョンの研究領域において、すでに数多くの有望な手法が提案されています。ところが、これらの要素技術を単に組合わせる(連結する)だけでは、システム(サービス)として成立しません。すなわち、車両の状況(走行中、乗降中、停車中など)に合わせて、あるときはクラウド側で、またあるときはエッジ側で、というように、これらの要素技術をダイナミックに機能配置する仕組みが必要になります。このように、上述の要素技術に関する先端研究をしっかりとキャッチ・アップ(手の内化)しつつ、それらの要素技術を包含する”最適なアーキテクチャ”を提案することで、お客様にとっての”うれしさ・たのしさ・おもしろさ”を最大化することが、当グループのミッションです。

参考文献

  • [1] Z. Cao, T. Simon, S. Wei, and Y. Sheikh, “Realtime Multi-person 2D Pose Estimation using Part Affinity Fields,” in CVPR, 2017, pp.1302–1310.
  • [2] K. Sun, B. Xiao, D. Liu, and J. Wang, “Deep High-Resolution Representation Learning for Human Pose Estimation.” in CVPR, 2019.
  • [3] F. Zhang, X. Zhu, H. Dai, M. Ye, C. Zhu, “Distribution-Aware Coordinate Representation for Human Pose Estimation,” in CVPR, 2020.
  • [4] B. Xiao, H. Wu, and Y. Wei, “Simple baselines for human pose estimation and tracking,” in ECCV, 2018, pp. 472–487.
  • [5] X. Xu, Q. Zou, X Lin, Y Huang, and Y Tian, “Integral Knowledge Distillation for Multi-Person Pose Estimation,” IEEE Signal Processing Letters 27, 2020, pp.436-440.
  • [6] W. Zhang, J. Fang, X. Wang, W. Liu, “EfficientPose: Efficient Human Pose Estimation with Neural Architecture Search,” in Computational Visual Media, 2021.
  • [7] Zhe Zhang, Jie Tang, Gangshan Wu, “Simple and lightweight human pose estimation,” in arXiv:1911.10346, 2019.