Virtusizeでの画像認識の役割

Virtusizeでの画像認識の役割

Virtusizeでの画像認識の役割

< 図 1: 画像認識の種類 >

 

Virtusizeにコンピュータービジョンが必要なのはなぜか?

 

オンラインで衣服を購入するときに思い通りのサイズを選択するのは難しいです。 Virtusizeの大きな目標は、このサイズ選びを容易にすることであり、機械学習はそれを達成する上で大きな役割を果たします。

機械学習の1つの分野として、コンピュータービジョンがあります。コンピュータービジョンには、とりわけ画像認識が含まれており、ファッションテクノロジー分野では、特に有用なツールです。製品カテゴリで絞り込みをするような単純な作業であっても、それが例えばパンツやスカートであっても、製品ページによっては難しい場合があります。そのような場合、製品カテゴリが何であるかを知るために画像認識が必要です。

上記の他には、光学式文字認識(OCR)を使用し、pdf上にある表から製品の数値情報を抽出するような使用方法もあります。さらに、製品の説明にはその製品のカテゴリ情報がないことが多いので、画像認識は製品のスタイルやフィット感を予測するために大規模に使用できる唯一の方法となります。このセーターはカーディガンなのか、それともプルオーバーなのか?このスカートはタイトかフレアか?このような質問は、さまざまなカテゴリの違いを知るために、数千の画像上にあるモデルを読み込み、学習した後にやっとわかるようなものです。

 

画像認識とはなにか?

 

図1に示すように、画像認識にはいくつかの種類があります。最も単純なものは分類をすることであり、モデルが単一のラベルを画像に割り当てるときです。 タイトスカートとフレアスカートの違いを伝えるようモデルが学習している場合、画像を受信すると、「フレア」と出力します。分類およびローカリゼーションモデルは、分類する前に対象のアイテムの周りに境界ボックスをつくります。これは、特に画像内に様々な商品がある場合に有効です。

< 図2: VGG16アルゴリズムのアーキテクチャ >

  

複数のオブジェクトを認識する必要がある場合は、オブジェクト検出が最適です。一致する可能性のあるカテゴリのリスト内のすべてのオブジェクトは、境界ボックスとラベルを取得します。 オブジェクトの形状を知る必要がある作業の場合、セマンティックまたはインスタンスのセグメンテーションが必要です。セマンティックセグメンテーションは、各カテゴリをユニットとして認識し、インスタンスセグメンテーションは、クラス内の各オブジェクトに個別の形状を与えます。

 

転移学習とはなにか?

 

画像分類モデルは、多くの画像とそれらを学習するための多くの時間を必要とします。たとえば、2014年に提案されたよく知られたVGG16[1]と呼ばれる畳み込みニューラルネットワークモデルは、1,000のカテゴリに属する​​1,400万枚の画像の学習に2週間以上かかりました。各カテゴリに数千の画像がなく、GPU(計算能力)にアクセスできない場合、転移学習は良い解決方法となります。例として、図2に示すVGG16のアーキテクチャを見てみましょう。フレアスカートとタイトスカートを予測するモデルの場合、最も簡単なことは、1,000次元のベクトルを出力する最後のレイヤーを2次元ベクトルを出力するレイヤーに置き換えることです。そして、他のすべてのレイヤーの重みを固定したまま、最後のレイヤーのみを再学習させる必要があります。

もし正確な結果が得られない場合は、他のレイヤーを再学習させている間に、最初の複数レイヤーの重みを修正できます。このようにして、モデルは、画像のある特性を特定しながらも、基本的な形状や生地を認識するための何百万もの画像から学んだことを記憶します。 1つのアーキテクチャが望ましい精度を達成できない場合、他のアーキテクチャをいつでも試すことができます。最近では、Inception、ResNet、MobileNet、DenseNetなど、事前学習済みモデルが多数あります。

 

< 図3:画像認識モデルでは、ジャケットをさまざまなスタイル(ファッショナブル、フォーマル、プロテクティブ)に分類できます >

 

画像認識は製品改善にどのように役立つのか?

 

次に、Virtusizeユーザーの顧客体験向上にコンピュータービジョンがどのように役立つかを示す例をいくつか提示します。多くの場合、オンラインストアはあらゆる種類のジャケットを1つのカテゴリにまとめます。たとえば、分厚い冬のジャケットは、薄手の革ジャケットと同じカテゴリに分類されます。また、服の下に着用する衣類かどうかを認識していない場合、サイズレのおすすめは難しくなります。画像認識モデルに「プロテクティブ」ジャケットというラベルを付けると、シャツやセーターの上に着用されることが前提となるため、その商品のサイズ感には余裕があるべきだとわかります。

この意図したフィット感を目指す考えは、あらゆる種類の衣服に適用されます。図4に示すように、スタイルによってトップスはきつすぎたり、ゆるすぎたりすることがあります。商品の意図したフィット感を知る唯一の方法はその画像を見ることであり、それを大規模に行う唯一の方法はコンピュータービジョンを利用することです。あるシャツがぴったりとしたサイズ感であるべきと認識することで、大きすぎるサイズをおすすめすることを防ぎます。これらは、Virtusizeのコンピュータービジョンのいくつかのアプリケーションのほんの一部です。 この投稿が画像認識とファッションテクノロジーにおけるその可能性の良いご紹介をなることを願っています。

< 図4:画像認識モデルは、アイテムの意図したフィット感がぴったりとしたものなのか、普通なのか、ゆるめなのかを予測できます >

参考資料

Karen Simonyan, Andrew Zisserman, Very Deep Convolutional Networks For

Large-Scale Image Recognition. https://arxiv.org/pdf/1409.1556.pdf

 

 




 



< 図 1: 画像認識の種類 >

 

Virtusizeにコンピュータービジョンが必要なのはなぜか?

 

オンラインで衣服を購入するときに思い通りのサイズを選択するのは難しいです。 Virtusizeの大きな目標は、このサイズ選びを容易にすることであり、機械学習はそれを達成する上で大きな役割を果たします。

機械学習の1つの分野として、コンピュータービジョンがあります。コンピュータービジョンには、とりわけ画像認識が含まれており、ファッションテクノロジー分野では、特に有用なツールです。製品カテゴリで絞り込みをするような単純な作業であっても、それが例えばパンツやスカートであっても、製品ページによっては難しい場合があります。そのような場合、製品カテゴリが何であるかを知るために画像認識が必要です。

上記の他には、光学式文字認識(OCR)を使用し、pdf上にある表から製品の数値情報を抽出するような使用方法もあります。さらに、製品の説明にはその製品のカテゴリ情報がないことが多いので、画像認識は製品のスタイルやフィット感を予測するために大規模に使用できる唯一の方法となります。このセーターはカーディガンなのか、それともプルオーバーなのか?このスカートはタイトかフレアか?このような質問は、さまざまなカテゴリの違いを知るために、数千の画像上にあるモデルを読み込み、学習した後にやっとわかるようなものです。

 

画像認識とはなにか?

 

図1に示すように、画像認識にはいくつかの種類があります。最も単純なものは分類をすることであり、モデルが単一のラベルを画像に割り当てるときです。 タイトスカートとフレアスカートの違いを伝えるようモデルが学習している場合、画像を受信すると、「フレア」と出力します。分類およびローカリゼーションモデルは、分類する前に対象のアイテムの周りに境界ボックスをつくります。これは、特に画像内に様々な商品がある場合に有効です。

< 図2: VGG16アルゴリズムのアーキテクチャ >

  

複数のオブジェクトを認識する必要がある場合は、オブジェクト検出が最適です。一致する可能性のあるカテゴリのリスト内のすべてのオブジェクトは、境界ボックスとラベルを取得します。 オブジェクトの形状を知る必要がある作業の場合、セマンティックまたはインスタンスのセグメンテーションが必要です。セマンティックセグメンテーションは、各カテゴリをユニットとして認識し、インスタンスセグメンテーションは、クラス内の各オブジェクトに個別の形状を与えます。

 

転移学習とはなにか?

 

画像分類モデルは、多くの画像とそれらを学習するための多くの時間を必要とします。たとえば、2014年に提案されたよく知られたVGG16[1]と呼ばれる畳み込みニューラルネットワークモデルは、1,000のカテゴリに属する​​1,400万枚の画像の学習に2週間以上かかりました。各カテゴリに数千の画像がなく、GPU(計算能力)にアクセスできない場合、転移学習は良い解決方法となります。例として、図2に示すVGG16のアーキテクチャを見てみましょう。フレアスカートとタイトスカートを予測するモデルの場合、最も簡単なことは、1,000次元のベクトルを出力する最後のレイヤーを2次元ベクトルを出力するレイヤーに置き換えることです。そして、他のすべてのレイヤーの重みを固定したまま、最後のレイヤーのみを再学習させる必要があります。

もし正確な結果が得られない場合は、他のレイヤーを再学習させている間に、最初の複数レイヤーの重みを修正できます。このようにして、モデルは、画像のある特性を特定しながらも、基本的な形状や生地を認識するための何百万もの画像から学んだことを記憶します。 1つのアーキテクチャが望ましい精度を達成できない場合、他のアーキテクチャをいつでも試すことができます。最近では、Inception、ResNet、MobileNet、DenseNetなど、事前学習済みモデルが多数あります。

 

< 図3:画像認識モデルでは、ジャケットをさまざまなスタイル(ファッショナブル、フォーマル、プロテクティブ)に分類できます >

 

画像認識は製品改善にどのように役立つのか?

 

次に、Virtusizeユーザーの顧客体験向上にコンピュータービジョンがどのように役立つかを示す例をいくつか提示します。多くの場合、オンラインストアはあらゆる種類のジャケットを1つのカテゴリにまとめます。たとえば、分厚い冬のジャケットは、薄手の革ジャケットと同じカテゴリに分類されます。また、服の下に着用する衣類かどうかを認識していない場合、サイズレのおすすめは難しくなります。画像認識モデルに「プロテクティブ」ジャケットというラベルを付けると、シャツやセーターの上に着用されることが前提となるため、その商品のサイズ感には余裕があるべきだとわかります。

この意図したフィット感を目指す考えは、あらゆる種類の衣服に適用されます。図4に示すように、スタイルによってトップスはきつすぎたり、ゆるすぎたりすることがあります。商品の意図したフィット感を知る唯一の方法はその画像を見ることであり、それを大規模に行う唯一の方法はコンピュータービジョンを利用することです。あるシャツがぴったりとしたサイズ感であるべきと認識することで、大きすぎるサイズをおすすめすることを防ぎます。これらは、Virtusizeのコンピュータービジョンのいくつかのアプリケーションのほんの一部です。 この投稿が画像認識とファッションテクノロジーにおけるその可能性の良いご紹介をなることを願っています。

< 図4:画像認識モデルは、アイテムの意図したフィット感がぴったりとしたものなのか、普通なのか、ゆるめなのかを予測できます >

参考資料

Karen Simonyan, Andrew Zisserman, Very Deep Convolutional Networks For

Large-Scale Image Recognition. https://arxiv.org/pdf/1409.1556.pdf

 

 




 



< 図 1: 画像認識の種類 >

 

Virtusizeにコンピュータービジョンが必要なのはなぜか?

 

オンラインで衣服を購入するときに思い通りのサイズを選択するのは難しいです。 Virtusizeの大きな目標は、このサイズ選びを容易にすることであり、機械学習はそれを達成する上で大きな役割を果たします。

機械学習の1つの分野として、コンピュータービジョンがあります。コンピュータービジョンには、とりわけ画像認識が含まれており、ファッションテクノロジー分野では、特に有用なツールです。製品カテゴリで絞り込みをするような単純な作業であっても、それが例えばパンツやスカートであっても、製品ページによっては難しい場合があります。そのような場合、製品カテゴリが何であるかを知るために画像認識が必要です。

上記の他には、光学式文字認識(OCR)を使用し、pdf上にある表から製品の数値情報を抽出するような使用方法もあります。さらに、製品の説明にはその製品のカテゴリ情報がないことが多いので、画像認識は製品のスタイルやフィット感を予測するために大規模に使用できる唯一の方法となります。このセーターはカーディガンなのか、それともプルオーバーなのか?このスカートはタイトかフレアか?このような質問は、さまざまなカテゴリの違いを知るために、数千の画像上にあるモデルを読み込み、学習した後にやっとわかるようなものです。

 

画像認識とはなにか?

 

図1に示すように、画像認識にはいくつかの種類があります。最も単純なものは分類をすることであり、モデルが単一のラベルを画像に割り当てるときです。 タイトスカートとフレアスカートの違いを伝えるようモデルが学習している場合、画像を受信すると、「フレア」と出力します。分類およびローカリゼーションモデルは、分類する前に対象のアイテムの周りに境界ボックスをつくります。これは、特に画像内に様々な商品がある場合に有効です。

< 図2: VGG16アルゴリズムのアーキテクチャ >

  

複数のオブジェクトを認識する必要がある場合は、オブジェクト検出が最適です。一致する可能性のあるカテゴリのリスト内のすべてのオブジェクトは、境界ボックスとラベルを取得します。 オブジェクトの形状を知る必要がある作業の場合、セマンティックまたはインスタンスのセグメンテーションが必要です。セマンティックセグメンテーションは、各カテゴリをユニットとして認識し、インスタンスセグメンテーションは、クラス内の各オブジェクトに個別の形状を与えます。

 

転移学習とはなにか?

 

画像分類モデルは、多くの画像とそれらを学習するための多くの時間を必要とします。たとえば、2014年に提案されたよく知られたVGG16[1]と呼ばれる畳み込みニューラルネットワークモデルは、1,000のカテゴリに属する​​1,400万枚の画像の学習に2週間以上かかりました。各カテゴリに数千の画像がなく、GPU(計算能力)にアクセスできない場合、転移学習は良い解決方法となります。例として、図2に示すVGG16のアーキテクチャを見てみましょう。フレアスカートとタイトスカートを予測するモデルの場合、最も簡単なことは、1,000次元のベクトルを出力する最後のレイヤーを2次元ベクトルを出力するレイヤーに置き換えることです。そして、他のすべてのレイヤーの重みを固定したまま、最後のレイヤーのみを再学習させる必要があります。

もし正確な結果が得られない場合は、他のレイヤーを再学習させている間に、最初の複数レイヤーの重みを修正できます。このようにして、モデルは、画像のある特性を特定しながらも、基本的な形状や生地を認識するための何百万もの画像から学んだことを記憶します。 1つのアーキテクチャが望ましい精度を達成できない場合、他のアーキテクチャをいつでも試すことができます。最近では、Inception、ResNet、MobileNet、DenseNetなど、事前学習済みモデルが多数あります。

 

< 図3:画像認識モデルでは、ジャケットをさまざまなスタイル(ファッショナブル、フォーマル、プロテクティブ)に分類できます >

 

画像認識は製品改善にどのように役立つのか?

 

次に、Virtusizeユーザーの顧客体験向上にコンピュータービジョンがどのように役立つかを示す例をいくつか提示します。多くの場合、オンラインストアはあらゆる種類のジャケットを1つのカテゴリにまとめます。たとえば、分厚い冬のジャケットは、薄手の革ジャケットと同じカテゴリに分類されます。また、服の下に着用する衣類かどうかを認識していない場合、サイズレのおすすめは難しくなります。画像認識モデルに「プロテクティブ」ジャケットというラベルを付けると、シャツやセーターの上に着用されることが前提となるため、その商品のサイズ感には余裕があるべきだとわかります。

この意図したフィット感を目指す考えは、あらゆる種類の衣服に適用されます。図4に示すように、スタイルによってトップスはきつすぎたり、ゆるすぎたりすることがあります。商品の意図したフィット感を知る唯一の方法はその画像を見ることであり、それを大規模に行う唯一の方法はコンピュータービジョンを利用することです。あるシャツがぴったりとしたサイズ感であるべきと認識することで、大きすぎるサイズをおすすめすることを防ぎます。これらは、Virtusizeのコンピュータービジョンのいくつかのアプリケーションのほんの一部です。 この投稿が画像認識とファッションテクノロジーにおけるその可能性の良いご紹介をなることを願っています。

< 図4:画像認識モデルは、アイテムの意図したフィット感がぴったりとしたものなのか、普通なのか、ゆるめなのかを予測できます >

参考資料

Karen Simonyan, Andrew Zisserman, Very Deep Convolutional Networks For

Large-Scale Image Recognition. https://arxiv.org/pdf/1409.1556.pdf

 

 




 



Tell us more about you to download

ありがとうございます!下のボタンより資料をダウンロードしてください。
ダウンロード
Oops! Something went wrong while submitting the form.
Thank you! Please download the file below.
Download a file
Oops! Something went wrong while submitting the form.
감사합니다! 파일을 다운로드해주세요!
파일 다운로드
Oops! Something went wrong while submitting the form.

Up next

調査レポート:新型コロナウイルス感染症(COVID-19)における国内ファッションECへの影響

閲覧しているアイテムを簡単に自分のクローゼットに追加できる新機能をリリース!

靴のオンライン試着サービス「Virtusize for Shoes」、対象カテゴリ「サンダル」を新たに追加

Employee Spotlight: Life at Virtusize Vol. 02

Boosting Customer Conversion with Fit Technology in Fashion E-Commerce

Employee Spotlight: Life at Virtusize Vol. 01

온라인 시착 솔루션 "버처사이즈", 일본 전자상거래 사이트 HIRYU에 제공 시작

Safari Lounge - Virtusize 비교 기능을 사용할 때와 사용하지 않을 때의 CVR 차이는 약 9배에 달합니다!

온라인 신발 피팅 서비스 "Virtusize for Shoes", 대상 카테고리에 "샌들" 추가

Virtusizeでの画像認識の役割

< 図 1: 画像認識の種類 >

 

Virtusizeにコンピュータービジョンが必要なのはなぜか?

 

オンラインで衣服を購入するときに思い通りのサイズを選択するのは難しいです。 Virtusizeの大きな目標は、このサイズ選びを容易にすることであり、機械学習はそれを達成する上で大きな役割を果たします。

機械学習の1つの分野として、コンピュータービジョンがあります。コンピュータービジョンには、とりわけ画像認識が含まれており、ファッションテクノロジー分野では、特に有用なツールです。製品カテゴリで絞り込みをするような単純な作業であっても、それが例えばパンツやスカートであっても、製品ページによっては難しい場合があります。そのような場合、製品カテゴリが何であるかを知るために画像認識が必要です。

上記の他には、光学式文字認識(OCR)を使用し、pdf上にある表から製品の数値情報を抽出するような使用方法もあります。さらに、製品の説明にはその製品のカテゴリ情報がないことが多いので、画像認識は製品のスタイルやフィット感を予測するために大規模に使用できる唯一の方法となります。このセーターはカーディガンなのか、それともプルオーバーなのか?このスカートはタイトかフレアか?このような質問は、さまざまなカテゴリの違いを知るために、数千の画像上にあるモデルを読み込み、学習した後にやっとわかるようなものです。

 

画像認識とはなにか?

 

図1に示すように、画像認識にはいくつかの種類があります。最も単純なものは分類をすることであり、モデルが単一のラベルを画像に割り当てるときです。 タイトスカートとフレアスカートの違いを伝えるようモデルが学習している場合、画像を受信すると、「フレア」と出力します。分類およびローカリゼーションモデルは、分類する前に対象のアイテムの周りに境界ボックスをつくります。これは、特に画像内に様々な商品がある場合に有効です。

< 図2: VGG16アルゴリズムのアーキテクチャ >

  

複数のオブジェクトを認識する必要がある場合は、オブジェクト検出が最適です。一致する可能性のあるカテゴリのリスト内のすべてのオブジェクトは、境界ボックスとラベルを取得します。 オブジェクトの形状を知る必要がある作業の場合、セマンティックまたはインスタンスのセグメンテーションが必要です。セマンティックセグメンテーションは、各カテゴリをユニットとして認識し、インスタンスセグメンテーションは、クラス内の各オブジェクトに個別の形状を与えます。

 

転移学習とはなにか?

 

画像分類モデルは、多くの画像とそれらを学習するための多くの時間を必要とします。たとえば、2014年に提案されたよく知られたVGG16[1]と呼ばれる畳み込みニューラルネットワークモデルは、1,000のカテゴリに属する​​1,400万枚の画像の学習に2週間以上かかりました。各カテゴリに数千の画像がなく、GPU(計算能力)にアクセスできない場合、転移学習は良い解決方法となります。例として、図2に示すVGG16のアーキテクチャを見てみましょう。フレアスカートとタイトスカートを予測するモデルの場合、最も簡単なことは、1,000次元のベクトルを出力する最後のレイヤーを2次元ベクトルを出力するレイヤーに置き換えることです。そして、他のすべてのレイヤーの重みを固定したまま、最後のレイヤーのみを再学習させる必要があります。

もし正確な結果が得られない場合は、他のレイヤーを再学習させている間に、最初の複数レイヤーの重みを修正できます。このようにして、モデルは、画像のある特性を特定しながらも、基本的な形状や生地を認識するための何百万もの画像から学んだことを記憶します。 1つのアーキテクチャが望ましい精度を達成できない場合、他のアーキテクチャをいつでも試すことができます。最近では、Inception、ResNet、MobileNet、DenseNetなど、事前学習済みモデルが多数あります。

 

< 図3:画像認識モデルでは、ジャケットをさまざまなスタイル(ファッショナブル、フォーマル、プロテクティブ)に分類できます >

 

画像認識は製品改善にどのように役立つのか?

 

次に、Virtusizeユーザーの顧客体験向上にコンピュータービジョンがどのように役立つかを示す例をいくつか提示します。多くの場合、オンラインストアはあらゆる種類のジャケットを1つのカテゴリにまとめます。たとえば、分厚い冬のジャケットは、薄手の革ジャケットと同じカテゴリに分類されます。また、服の下に着用する衣類かどうかを認識していない場合、サイズレのおすすめは難しくなります。画像認識モデルに「プロテクティブ」ジャケットというラベルを付けると、シャツやセーターの上に着用されることが前提となるため、その商品のサイズ感には余裕があるべきだとわかります。

この意図したフィット感を目指す考えは、あらゆる種類の衣服に適用されます。図4に示すように、スタイルによってトップスはきつすぎたり、ゆるすぎたりすることがあります。商品の意図したフィット感を知る唯一の方法はその画像を見ることであり、それを大規模に行う唯一の方法はコンピュータービジョンを利用することです。あるシャツがぴったりとしたサイズ感であるべきと認識することで、大きすぎるサイズをおすすめすることを防ぎます。これらは、Virtusizeのコンピュータービジョンのいくつかのアプリケーションのほんの一部です。 この投稿が画像認識とファッションテクノロジーにおけるその可能性の良いご紹介をなることを願っています。

< 図4:画像認識モデルは、アイテムの意図したフィット感がぴったりとしたものなのか、普通なのか、ゆるめなのかを予測できます >

参考資料

Karen Simonyan, Andrew Zisserman, Very Deep Convolutional Networks For

Large-Scale Image Recognition. https://arxiv.org/pdf/1409.1556.pdf

 

 




 



< 図 1: 画像認識の種類 >

 

Virtusizeにコンピュータービジョンが必要なのはなぜか?

 

オンラインで衣服を購入するときに思い通りのサイズを選択するのは難しいです。 Virtusizeの大きな目標は、このサイズ選びを容易にすることであり、機械学習はそれを達成する上で大きな役割を果たします。

機械学習の1つの分野として、コンピュータービジョンがあります。コンピュータービジョンには、とりわけ画像認識が含まれており、ファッションテクノロジー分野では、特に有用なツールです。製品カテゴリで絞り込みをするような単純な作業であっても、それが例えばパンツやスカートであっても、製品ページによっては難しい場合があります。そのような場合、製品カテゴリが何であるかを知るために画像認識が必要です。

上記の他には、光学式文字認識(OCR)を使用し、pdf上にある表から製品の数値情報を抽出するような使用方法もあります。さらに、製品の説明にはその製品のカテゴリ情報がないことが多いので、画像認識は製品のスタイルやフィット感を予測するために大規模に使用できる唯一の方法となります。このセーターはカーディガンなのか、それともプルオーバーなのか?このスカートはタイトかフレアか?このような質問は、さまざまなカテゴリの違いを知るために、数千の画像上にあるモデルを読み込み、学習した後にやっとわかるようなものです。

 

画像認識とはなにか?

 

図1に示すように、画像認識にはいくつかの種類があります。最も単純なものは分類をすることであり、モデルが単一のラベルを画像に割り当てるときです。 タイトスカートとフレアスカートの違いを伝えるようモデルが学習している場合、画像を受信すると、「フレア」と出力します。分類およびローカリゼーションモデルは、分類する前に対象のアイテムの周りに境界ボックスをつくります。これは、特に画像内に様々な商品がある場合に有効です。

< 図2: VGG16アルゴリズムのアーキテクチャ >

  

複数のオブジェクトを認識する必要がある場合は、オブジェクト検出が最適です。一致する可能性のあるカテゴリのリスト内のすべてのオブジェクトは、境界ボックスとラベルを取得します。 オブジェクトの形状を知る必要がある作業の場合、セマンティックまたはインスタンスのセグメンテーションが必要です。セマンティックセグメンテーションは、各カテゴリをユニットとして認識し、インスタンスセグメンテーションは、クラス内の各オブジェクトに個別の形状を与えます。

 

転移学習とはなにか?

 

画像分類モデルは、多くの画像とそれらを学習するための多くの時間を必要とします。たとえば、2014年に提案されたよく知られたVGG16[1]と呼ばれる畳み込みニューラルネットワークモデルは、1,000のカテゴリに属する​​1,400万枚の画像の学習に2週間以上かかりました。各カテゴリに数千の画像がなく、GPU(計算能力)にアクセスできない場合、転移学習は良い解決方法となります。例として、図2に示すVGG16のアーキテクチャを見てみましょう。フレアスカートとタイトスカートを予測するモデルの場合、最も簡単なことは、1,000次元のベクトルを出力する最後のレイヤーを2次元ベクトルを出力するレイヤーに置き換えることです。そして、他のすべてのレイヤーの重みを固定したまま、最後のレイヤーのみを再学習させる必要があります。

もし正確な結果が得られない場合は、他のレイヤーを再学習させている間に、最初の複数レイヤーの重みを修正できます。このようにして、モデルは、画像のある特性を特定しながらも、基本的な形状や生地を認識するための何百万もの画像から学んだことを記憶します。 1つのアーキテクチャが望ましい精度を達成できない場合、他のアーキテクチャをいつでも試すことができます。最近では、Inception、ResNet、MobileNet、DenseNetなど、事前学習済みモデルが多数あります。

 

< 図3:画像認識モデルでは、ジャケットをさまざまなスタイル(ファッショナブル、フォーマル、プロテクティブ)に分類できます >

 

画像認識は製品改善にどのように役立つのか?

 

次に、Virtusizeユーザーの顧客体験向上にコンピュータービジョンがどのように役立つかを示す例をいくつか提示します。多くの場合、オンラインストアはあらゆる種類のジャケットを1つのカテゴリにまとめます。たとえば、分厚い冬のジャケットは、薄手の革ジャケットと同じカテゴリに分類されます。また、服の下に着用する衣類かどうかを認識していない場合、サイズレのおすすめは難しくなります。画像認識モデルに「プロテクティブ」ジャケットというラベルを付けると、シャツやセーターの上に着用されることが前提となるため、その商品のサイズ感には余裕があるべきだとわかります。

この意図したフィット感を目指す考えは、あらゆる種類の衣服に適用されます。図4に示すように、スタイルによってトップスはきつすぎたり、ゆるすぎたりすることがあります。商品の意図したフィット感を知る唯一の方法はその画像を見ることであり、それを大規模に行う唯一の方法はコンピュータービジョンを利用することです。あるシャツがぴったりとしたサイズ感であるべきと認識することで、大きすぎるサイズをおすすめすることを防ぎます。これらは、Virtusizeのコンピュータービジョンのいくつかのアプリケーションのほんの一部です。 この投稿が画像認識とファッションテクノロジーにおけるその可能性の良いご紹介をなることを願っています。

< 図4:画像認識モデルは、アイテムの意図したフィット感がぴったりとしたものなのか、普通なのか、ゆるめなのかを予測できます >

参考資料

Karen Simonyan, Andrew Zisserman, Very Deep Convolutional Networks For

Large-Scale Image Recognition. https://arxiv.org/pdf/1409.1556.pdf

 

 




 



Up next

オンライン試着のVirtusizeが独自分析!2024年AWアイテムの初動

バーチャル試着の「Virtusize」、ナチュラルな暮らしとおしゃれのセレクトショップ【ナチュラン】へ提供開始

バーチャル試着の「Virtusize」、サステナブルファッションをミッションにするセレクトショップ【HIRYU】へ提供開始

【Safari Lounge】Virtusize比較機能の利用/非利用でCVRに約9倍もの差がついています!

靴のオンライン試着サービス「Virtusize for Shoes」、対象カテゴリ「サンダル」を新たに追加

人気アイテムをベースにしたレコメンドサービスをトップページに表示できるようになりました!

매출과 고객 만족도를 높일 준비가
되셨나요? 버츄사이즈와 함께 하세요.

버츄사이즈에 연락하기