%#DVIPDF dvipdfmx -f index.txt \documentclass[11pt]{jbook} %\usepackage[top=30truemm,bottom=30truemm,left=25truemm,right=25truemm]{geometry} \usepackage[dvipdfmx]{graphicx} \renewcommand{\bibname}{参考文献} \AtBeginDvi{\special{pdf:mapfile ptex-ipa.map}} \fontsize{11pt}{11pt}\selectfont \addtolength{\topmargin}{-2cm} \addtolength{\textheight}{3cm} \addtolength{\textwidth}{2cm} \addtolength{\oddsidemargin}{-1cm} \title{不当な商品レビューによる評価の\\是正方法に関する一考察} \addtolength{\evensidemargin}{-1cm} %\pagestyle{empty} \author{広瀬研究室 4年 C1172313 佐藤利紀} \date{} \usepackage{url} % required for `\url' (yatex added) \begin{document} %\twocolumn[ \maketitle \begin{center} {\bfseries 概要} \end{center} 商品レビューには記述者の人為的なミスによって評価値とレビューの記述内容が食い違っている場合がある。これはレビュー数が少ない商品の評価値に大きく作用し、適切な評価が反映されず、消費者の購買意思決定や企業の商品ブランドに強い影響を及ぼす。そこで本研究では、その商品カテゴリの高評価のレビュー群に現れる「ポジティブ語」、低評価のレビュー群に現れる「ネガティブ語」を抽出し、レビュー数の多寡に囚われない商品評価のサポートを図る。そして商品に下された不当な評価の是正を目指す。 \vspace*{2em} %] %\thispagestyle{empty}_ \tableofcontents \chapter{はじめに} 近年、著しい情報技術の発展によって、あらゆる情報が開示され、AIによる作業の効率化がなされている。しかし、どんな作業にも人手が加わり、そこに人為的なミスが生じる。その一例が商品レビューである。商品レビューネットショッピングサイトにおいて、その商品に対する評価を評価値とレビュー文で表したものである。商品レビューの集計や整理は自動で行われるものの、商品レビュー自体を記述し投稿する作業は人手で行われる。そのため、評価値とレビュー文の内容が食い違ってしまう可能性がある。たとえば、本の商品レビューにおいて、評価値が低いにもかかわらず「面白い」というレビュー文が書かれているなどの不一致が考えられる。多くのレビューが寄せられた商品の場合、このような評価値と文章が不一致のレビューあまり問題視されないが、寄せられたレビューが少ない商品の場合、問題が生じる。ネットショッピングサイト「Amazon」\footnote{https://www.amazon.co.jp/}における商品の評価値は寄せられた商品レビューの評価値の加重平均となっている\cite{amazonSE}。これはレビューの多寡によって商品レビュー1つあたりの評価の重みが異なるといえる。そのため、寄せられたレビューが少ない商品だと商品レビュー1つがその商品の評価値に及ぼす影響が大きいと考えられる。その商品レビューの中に評価値と文章が不一致のレビューがあった場合、商品の評価値が正当に反映されず、消費者の購買意思決定の妨げや企業の商品ブランド低下などにつながる恐れがある。 そこで本研究では商品カテゴリごとの商品レビューをテキストマイニングしこの問題の解決を図る。具体的には、評価値ごとの主要な単語を見出し、それらの単語を評価値によってその商品カテゴリのネガティブ語とポジティブ語に分類する。これを用い高評価のレビューに含まれるネガティブ語もしくは低評価レビューに含まれるポジティブ語を見出す手法を提案する。そして不当なレビューが混在した商品の評価の是正を目指す。 %\cite{hito} %図\ref{sakata1} %\vspace*{4em} %\begin{figure}[h] % \begin{center} %\includegraphics[width=5cm]{sakata1.PNG} %\caption{酒田市の人口の推移(総人口)} %\label{sakata1} % \end{center} %\end{figure} %\begin{table}[h] % \begin{center} % \small %20 % \caption{平成28年酒田市公共施設等に関する市民アンケートの年齢別回収数} % \scalebox{0.8}[0.8]{ % \begin{tabular}{|l|l|} \hline % 年齢 & 回答数 \\ \hline \hline % 18-29歳 & 67 \\ % 30-39歳 & 102 \\ % 40-49歳 & 163 \\ % 50-59歳 & 206 \\ % 60-69歳 & 294 \\ % 70歳以上 & 33 \\ % 無回答 & 3 \\ \hline \hline % 合計 & 868 \\ \hline % \end{tabular} % } % \label{siminak} % \end{center} %\end{table} %\ref{sakata1} %\ref{sakata2} \chapter{テキストマイニングと関連研究} テキストマイニングとは形式化されていない大量のテキストデータを分析して有用な情報を抽出することである \cite{hon1,hon2}。商品レビューのような大量のテキストデータの分析にこのテキストマイニングの技術が用いられる\cite{hon3}。商品レビュー分析に使われるテキストマイニングでは、主に形態素解析\footnote{品詞情報や文法などをもとに文章を単語に分解すること。}によって単語の出現頻度の偏りなどから意見の傾向を可視化する研究がなされている\cite{doukou}。 商品レビューの分析に関する研究はいくつかある。河野ら\cite{kouno}の研究では対象、属性、評価表現の単語とその係り受け情報を用いて評価情報を抽出している。 那須川ら\cite{nasu}の研究では「けれども」や「しかし」といった接続表現の周辺に出現する単語を抽出し、好評もしくは不評の極性を付与している。 しかし、河野らの研究では対象、属性、評価表現が完全に揃った文を対象としており、不完全な日本語の表現は想定されていない。たとえば「パソコンの価格は安い」など対象「パソコン」、属性「価格」、評価表現「安い」が揃った文は対象とされているが、「これは安い」といった対象と属性が含まれていない文はこの方法では抽出できない。一方、那須川らの研究では人的過誤による好評、不評の解釈については想定されていない。 そこで本研究ではレビューに含まれる単語に焦点をあて、その商品カテゴリ内における高評価、低評価それぞれの特徴となる単語の抽出を試みる。また、不当なレビューに着目した分析、考察を行うことで人為的ミスによって生じる不正確な商品評価の是正を目指す。 %\subsubsection{形態素解析の概要} %形態素解析とは対象の品詞情報や文法などをもとに、文章を単語の最小単位である形態素に分解することである\cite{hon1}\cite{hon2}。日本語などの分かち書きがされない言語をテキストマイニングする際に利用され、形態素や品詞情報、出現頻度などの情報を取得することができる。本研究ではこれを使いテキストデータの分析を行う。 %\subsubsection{テキストマイニングのツール} %テキストマイニングを行うツールはJUMAN\footnote{http://nlp.ist.i.kyoto-u.ac.jp/}やcabocha\footnote{}など多様にある。本研究ではR\footnote{}を通して形態素解析ツールMeCab\footnote{http://code.google.com/p/mecab/}を操作するRMeCabというパッケージを使い、アンケートの自由記述の形態素解析を行う。 \chapter{商品レビューの分析} \subsection{研究手順} まずネットショッピングサイトの商品レビューを統計分析ソフト「R」\footnote{https://www.r-project.org/}を用いて収集する。本研究では評価値と商品カテゴリのフィルタリングが可能なネットショッピングサイト「Amazon」のレビューを使用する。評価値だけでなく商品化カテゴリごとにも分類する理由は商品カテゴリごとに評価の指標となる単語の偏りが異なると考えたためである。 次に学習用データと評価用データについて述べる。学習用データはレビュー文に含まれる主要な単語の抽出方法を構築するためのレビュー群である。評価用データは構築した抽出方法を評価するためのレビュー群である。収集したレビューをあらかじめこの2つに分類することで後の検証に使用する。 次に主要な単語の抽出方法について述べる。まずレビューの評価値から学習用データの商品レビューを商品カテゴリごとに高評価レビュー、低評価レビューに分類し形態素解析ソフト「RMeCab」\footnote{http://taku910.github.io/mecab/}を用いて形態素解析を行う。次に高評価レビュー、低評価レビューそれぞれの単語の出現頻度の高い順に並べ順位をナンバリングする。ここで高評価、低評価における頻出単語の順位の差を求める。本研究では、この差が大きいほどその商品カテゴリにおける高評価、低評価のレビューの主要な単語とみなし、高評価レビューにおける主要な単語を「ポジティブ語」、低評価レビューにおける主要な単語を「ネガティブ語」と定義する。 最後に評価用データから学習用データで求めたポジティブ語、ネガティブ語を抽出し、その結果の妥当性と評価是正の可能性について考察する。 \subsection{商品レビューの収集} Amazonにおける商品カテゴリ「本\footnote{「ビジネス・経済」のジャンル。}」と商品カテゴリ「ノートPC」それぞれの商品レビュー合計1600件\footnote{2020年8月25日時点のデータ。}をRで収集した。Amazonではレビュワーが5段階評価でその商品の評価値を付与する。そこで本研究ではこの評価値が最高の5である商品レビューを高評価レビュー、1もしくは2である商品レビューを低評価レビューとみなした。1商品に対して高評価レビュー50件、低評価レビュー50件集めるものとし、これを商品カテゴリ「本」においては10商品分、商品カテゴリ「ノートPC」においては6商品分のレビューを収集した。商品の選定についてはAmazon上でその商品カテゴリの売れ筋ランキング上位から、高評価レビュー、低評価レビューを50件ずつ集めることが可能な商品とした。この1600件の商品レビューの内、半分を学習用データ、もう半分を評価用データとして活用する(表\ref{review})。 \begin{table}[ht] \centering \caption{収集した商品レビューの件数の内訳} \scalebox{0.8}[0.8]{ \begin{tabular}{|l|l|l|l|l|} \hline & & 高評価レビュー & 低評価レビュー & 合計 \\ \hline 本 & 学習用データ & 250 & 250 & 500 \\ \hline & 評価用データ & 250 & 250 & 500 \\ \hline ノートPC & 学習用データ & 150 & 150 & 300 \\ \hline & 評価用データ & 150 & 150 & 300 \\ \hline & 合計 & 800 & 800 & 1600 \\ \hline \end{tabular} } \label{review} \end{table} %\begin{itemize} %\item %\item %\end{itemize} %\begin{table}[h] % \begin{center} % \small %20 % \caption{授業内容} % \begin{tabular}{|l|l|} \hline % 回数 & 内容 \\ \hline \hline % 1回目 & 基本操作 画面出力 自己紹介プログラム \\ % 2回目 & ループ 繰り返し処理のプログラム \\ % 3回目 & 配列 データ処理のプログラム \\ % 4回目 & 条件分岐 条件のあるプログラム \\ % 5回目 & まとめ 習ったことを応用してプログラムを作成 \\ \hline % \end{tabular} % \label{tab:price} % \end{center} %\end{table} %\includegraphics[width=8cm]{image_good.PNG} %\caption{酒田市のイメージに関するアンケート回答結果の頻出上位10単語(生活満足度の高いグループ)} %\label{image_good} % \end{center} %\end{figure} %\begin{figure}[hp] % \begin{center} %\includegraphics[width=8cm]{image_bad.PNG} %\caption{酒田市のイメージに関するアンケート回答結果の頻出上位10単語(生活満足度の低いグループ)} %\label{image_bad} % \end{center} %\end{figure} %\begin{figure}[hp] % \begin{center} %\includegraphics[width=8cm]{sizen_good.PNG} %\caption{酒田市の自然環境に関するアンケート回答結果の頻出上位10単語(生活満足度の高いグループ)} %\label{sizen_good} % \end{center} %\end{figure} %\begin{figure}[hp] % \begin{center} %\includegraphics[width=8cm]{sizen_bad.PNG} %\caption{酒田市の自然環境に関するアンケート回答結果の頻出上位10単語(生活満足度の低いグループ)} %\label{sizen_bad} % \end{center} %\end{figure} %\begin{figure}[hp] % \begin{center} %\includegraphics[width=8cm]{huben_good.PNG} %caption{酒田市の不満に関するアンケート回答結果の頻出上位10単語(生活満足度の高いグループ)} %\label{huben_good} % \end{center} %\end{figure} %\begin{figure}[hp] % \begin{center} %\includegraphics[width=8cm]{huben_bad.PNG} %\caption{酒田市の不満に関するアンケート回答結果の頻出上位10単語(生活満足度の低いグループ)} %\label{huben_bad} % \end{center} %\end{figure} %\vspace*{8em} \chapter{今後の展望} 収集した商品レビューをもとにポジティブ語、ネガティブ語の抽出、分析に移る。 \begin{thebibliography}{99} \bibitem{amazonSE} Ben Fox Rubln,cnet."https://www.cnet.com/news/amazon-updates-customer-reviews-with-new-machine-learning-platform/".2015 \bibitem{hon1} 石田基広,Rによるテキストマイニング入門 第2版,森北出版,2017 \bibitem{hon2} 小林雄一郎,Rによるやさしいテキストマイニング,オーム社,2017 \bibitem{hon3} 那須川哲哉,テキストマイニングを使う技術/作る技術:基礎技術と適用事例から導く本質と活用法,東京電気大学出版局,2006 \bibitem{doukou} 乾孝司,奥村学.テキストを対象とした評価情報の分析に関する研究動向.自然言語処理,13(3),pp.201-241,2006 \bibitem{kouno} 河野一志,町田翔,村松拓実,小林美穂,延澤志保.不特定分野のレビューを対象とした評価情報の自動認識.情報処理学会第79回全国大会,3Q-06,pp.535-536,2017 \bibitem{nasu} 那須川哲哉,金澤博.文脈一貫性を利用した極性付評価表現の語彙獲得.情報処理学会研究報告自然言語処理,pp.109-116,2004 %\bibitem{yosimi} 吉見憲二.グルメサイトの信頼性確保に関する一考察.情報処理学会研究報告マルチメディア通信と分散処理研究会報告2014-DPS-161(2),pp.1-4,2014 %\bibitem{spin} 高村大也,乾孝司,奥村学.スピンモデルによる単語の感情極性抽出.情報処理学会論文誌,47(2),pp.627-637,2006 %\bibitem{rank} 小倉達也,宍戸開,今藤紀子,山口実靖,淺谷耕一.レビューサイトにおける良質なレビューの特性とそれを考慮した評判情報の抽出に関する一考察.DEWS2008,B8-5,2008 %\bibitem{hakusi} 清水航.レビューの語の重みを考慮したテキストマイニングによるゲームソフトの評判分析.法政大学大学院工学研究科2010年度修士論文.2011 %\bibitem{amazon} 倉橋宏幸,青野雅樹.Amazonレビューを用いた有用性の判別実験.情報科学技術フォーラム講演論文誌,12(2),pp.101-102,2013 \end{thebibliography} \end{document}