2020-yoshino/201124tyuukan_yoshino.tex at c2fa6f63ba1c1061896f2295b97252b82d799f9b

Fork: 0
HiroseLabo. / 2020-yoshino
Find file
Newer
Older
2020-yoshino / 201124tyuukan_yoshino.tex
Ryota, Y on 10 Nov 2020 7 KB 追加: 2020年秋（11月24日）中間発表のレジュメ（TEXファイル）
Raw Blame History
\documentclass[a4j]{jarticle}
% -*- coding: utf-8 -*-

\topmargin  -2cm
\textheight 26cm
\textwidth 16.5cm
\oddsidemargin -0.3cm

\pagestyle{empty}

%% タイトル %%
\title{誹謗中傷表現辞書・プログラムを利用した \\
  インターネットの書き込みにおける誹謗中傷の対策}

%% 著者 %%
\author{広瀬研究室3年 \\
  C1182369 吉野凌太}

%% 日付 %%
\date{2020年11月24日}

\begin{document}
\twocolumn[
\maketitle
\begin{center}
 {\bfseries 概要}
\end{center}
%% 概要 %%
インターネット上における発言内容は、発言者が読み手を傷つけるつもりがなかったとしても誹謗中傷にあたることがあり、そのようなコメントによる苦悩から命を絶ってしまう人もいる。そうした被害者を出さないために、人を不快させたり、苦しませたりするような言葉の一覧である誹謗中傷表現辞書をつくり、その中のものに一致したら、「不快にさせるメッセージが含まれています」などと表示し、書き手には書いた内容の意味を確認させ、読み手には自分が不快になる恐れのある書き込み内容を読みたいかを確認させ、精神的な苦痛をなくすプログラムを提案する。
\vspace*{2em}
]

\thispagestyle{empty}

%% 本文 %%
\section{はじめに}
\subsection{インターネットでの誹謗中傷}
インターネット上では、誰でも簡単に好きな情報を発信したり、得ることができるといったメリットがあるが、デメリットもある。それは、匿名性が高く、「他の人もしているから」という集団心理が働くことで攻撃性が高まるため、他人の気持ちを考えない自分勝手な発言がしやすいことだ。さらに、そのような根拠のないコメントを鵜呑みし、便乗して誹謗中傷をする人もいる。

そのせいで苦しむ被害者が年々増えていることが問題となってる。また、読み手に嫌な思いをさせるつもりがなく、知らない間に加害者になってしまっている人もいる。

誹謗中傷を行ってしまう理由としては、嫉妬やストレスの解消、自分の弱い部分を隠したり、自分の強さ、賢さ（優位性、正当性）を示すため、また、相手がどのように反応するかをみてを楽しむためにしている人もいる。

\subsection{誹謗中傷件数}

（データを貼り、言葉で説明）

\subsection{SNSの例}
\begin{itemize}
\item Twitter（ツイッター）

\item Facebook（フェイスブック）
  
\item LINE（ライン）
\end{itemize}

\subsection{インターネットの書き込みの例}
\begin{itemize}
\item YouTubeのコメント欄

\item Yahoo!のコメント欄

\item 電子掲示板（例: 5ちゃんねる）
\end{itemize}

\section{研究内容}
まず、電子掲示板上のテキストを対象とし、関連研究にあるSO-PMIという方法を用いて誹謗中傷にあたる言葉・文章である可能性の度合いを表した「誹謗中傷度」を算出し、それに基づいて誹謗中傷の言葉・文章の辞書（以降誹謗中傷表現辞書）を作成する。

そして、誹謗中傷表現辞書に基づいて、誹謗中傷に成り得る言葉が含まれていたら、書き手、読み手にそれぞれ「不快なメッセージが含まれいています」などと警告し、書き手にはどういう意図で書いたのか、読み手にはそれでもどういう内容か知りたいかを確認させるようなプログラムを作成する。

\subsection{研究の重きを置く点}
\begin{itemize}
\item 例えば、「死」という単語だけに反応してしまうと「『死』について考えさせられた」や「あの蜂に刺されると最悪死ぬんだよな」といった感想や意見を誹謗中傷の表現があると誤認する恐れがあるので、単語と単語の有害度・違法度を抽出し、それを使用する。

\item 単語と単語を合体させてできた造語であっても、誹謗中傷の単語の方にヒットさせ、その造語を省く。また、誹謗中傷に成り得るネットスラングと呼ばれるインターネット上の俗語も辞書に入れる。

\item 運動会の動画に対して「おでん食べたい」といったようなと記事や動画とまったく関係ない発言内容も省けるようにする。
\end{itemize}

\subsection{造語・ネットスラングの例}
\begin{itemize}
\item 競馬鹿（「競馬」と「馬鹿」を合わせたもの）
  
\item バ課金（「バカ」と「課金」を合わせたもの）
  
\item タヒね（「死」の代わりに「タヒ」という文字をあてている）
  
\item マジキチ（マジでキチガイじみてるの略、本当に気が狂っているという意味）
\end{itemize}

\subsection{収集する情報}
（内容）

\section{関連研究}
\begin{itemize}
\item 石坂らの研究\cite{tangokensyutu}では、電子掲示板サイト"2ちゃんねる"の書き込みを入力文や学習データに使用し、高いほど悪口単語である可能性が高いという意味のみを持った、単語の「悪口度」を算出して、悪口文/非悪口文の文分類していた。

\item 池田らの研究\cite{bunsyokensyutu}では、違法性・有害性のある単語だけではなく、文書も抽出していた。キーワードリストを生成した後、例えば、「爆破」と有害性が低いのは「炭鉱」で、有害性が高いのは「学校」ということがわかる。

\item 大友らの研究\cite{zisyo_tukurikata}では、Twitter上のテキストを検証する情報として集め、TF-IDFという値で単語の重要度を評価し、SO-PMIという方法でいじめの表現と成り得るいじめ度を算出し、それらに基づいていじめの表現と成り得る辞書を作成した。そして、作成したいじめ表現辞書、Nグラム、Word2vec、Doc2vecを特徴量として使用し、機械学習手法を選択し、ネットいじめの自動検出を試みていた。
\end{itemize}

\section{目的}
電子掲示板やSNSなどに導入できるような誰もが気分を害さず、発言ができ、意見をきくことができるシステムを考案、構築する。

\section{提案手法の概要}
\subsection{誹謗中傷辞書の作り方}
（考え中、主に先行事例の方法を用いて、「ネットスラング」と調べてそれを辞書に入れる）

\subsubsection{SO-PMI}
（SO-PMIの説明）

\subsubsection{AIC}
（AICの説明）

\subsection{誹謗中傷の確認をするプログラム}
（実際の作成中のプログラムの画像を貼る）

（プログラムの説明）

\section{まとめと課題}
（暫定的なものなので変更していくつもりで書いた内容）今回作成した誹謗中傷表現辞書が信憑性の高いものとは言えなかった。

\begin{thebibliography}{9}
\bibitem{tangokensyutu} 石坂達也, 山本和英. Web上の誹謗中傷を表す文の自動検出. 言語処理学会第17回年次大会, E1-6, pp. 131-134, 2011 

\bibitem{bunsyokensyutu} 池田和史, 柳原正, 松本一則, 滝嶋康弘. 格要素の抽象化に基づく違法・有害文書検出手法の提案と評価. 情報処理学会第72回全国大会, 5D-4, pp. 2-71-2-72, 2010

\bibitem{zisyo_tukurikata} 大友泰賀, 張建偉, 中島伸介, 李琳. いじめ表現辞書を用いたTwitter上のネットいじめの自動検出. 第12回データ工学と情報マネジメントに関するフォーラム（第18回日本データベース学会年次大会）, C7-1, p22, 2020
\end{thebibliography}

\end{document}