作業者 テンポラリー
最近では、AI(artificial intelligence)とよばれる人工知能の利活用が多くの業界で進んでいます。身近なところでも「AI搭載」がうたわれた家電などで、目にすることが多いと思います。
このAIを正しく学習するための教師データを作る際に「アノテーション」と呼ばれる作業が必要となります。またAI以外でも、決まったデータに関係する内容を注釈として追加することも指します。
この記事では、アノテーションとはどんなものか、単価の相場感はどうかなどを整理していきます。
アノテーションとは、データに関係する内容、つまりデータに対して意味付けする、紐づけするなどのタグをつける作業のことをアノテーションと呼びます。データとは画像やテキストなどさまざまなものを指しますが、データの意味付けや紐づけすることで、そのデータを分析しマーケティングに利用するなど、様々な使い方ができるようになります。
例えば、多くのデータから決まった条件のものを抽出する時などに便利な働きをしてくれます。
具体的に、最近ではPCメールもスマホへのメールも、自動的に受信メールと迷惑メールボックスに振り分けをおこなっています。この作業もアノテーションのひとつになります。
また顧客データなど多くのデータがある場所から、特定の条件に該当するデータを抽出することができ、集計や分析業務を効率化することができます。特に月末や年度末などは多くのデータ集計を行わなければならない企業は多く、この作業のためだけに残業をしていることも多くあります。
AIの業界では、機械学習を行う上で、大量に集めた学習データに対して適切なタグ付けを行う作業が必要となり、この作業のことをアノテーションと呼んでいます。
アノテーションには、主に画像、テキスト、音声の三種類があります。
画像のアノテーションでは、画像に映っているものを検出して関連する言葉のタグ(人、猫、電車など)をつける物体検出、画像の中で特定の範囲を指定してタグ付け(例えば人と猫が写っていたら猫の領域だけを指定して猫のタグをつける)する領域抽出、画像全体に対してタグ付けを行う画像分類があります。
続いて、テキストのアノテーションですが、前もって分類項目などの定義をしておくことにより、テキストにある文章をカテゴリ別にわけることが可能です。多くの情報の中から決まった条件の情報を抽出することなどに利用されます。
例えば、SNSやインターネットの文章の中から、不適切なコンテンツを発見する場合などに活用されています。
最後に音声のアノテーションですが、最近ではコールセンターなど電話での問い合わせを録音することがあります。よりよいサービスのために行っているのですが、この音声を自動的にテキスト化することができます。またテキスト化したデータから必要な情報だけを取り出すことができるなど、さまざまな用途に使うことが可能です。
アノテーションは便利ですし、AI構築には必要となる作業ですが、大量のデータ量を扱うこともあり労力も大きくなります。
そこでアノテーション業務を外部委託(アウトソーシング)する企業が増えています。ほとんどの企業では具体的な金額は作業詳細によるため問い合わせる必要があるのですが、ここでは目安として記載していきます。
まずは顧客データの整理、ピックアップデータ(100,000件データタグ付け、分類)の場合、1,000,000円程度が目安になります。
続いて、画像のアノテーションは画像1つに対するラベル数によって金額が異なってきますが、例えば一つの画像に対してラベルが10ある場合は10円×10ラベル=100円くらいが目安となります。しかしシングルチェック、ダブルチェック、コンセンサスなどプランの内容によって金額が変わることがほとんどになります。
また最近では、「海外アウトソーシング(海外BPO)の動向と今後」でも紹介したように海外委託先でのスキル向上に伴い、よりコストメリットが得られる海外アウトソーシング(海外BPO)でも、アノテーション作業を委託する企業が増えてきています。
特にAIの場合は、大量のデータに対してアノテーション作業を行う必要があるため、コスト面に大きな差が出ます。海外アウトソーシング(海外BPO)では、品質面やコミュニケーションの課題はあると思いますので、この辺りは確認/解消しながら委託していくことが重要になります。
企業活動において、データの活用はますます欠かせない要素になってくると考えています。その中では大量のデータに対して、どのように対応が必要でどう対応していくかを検討していくことが必要となります。
アンドファンでは、ミャンマーでのアノテーション事業を行っておりますので、まずはお困りごとやご不明な点等をお気軽にお問い合わせ下さい。