自然言語処理
暗記
あべべ
2022年05月31日
カード24
いいね0
-
情報爆発
(Info-Plosion)
-
情報大航海プロジェクト
経済産業省が2007年に立ち上げた日本の国産検索エンジン開発プロジェクト。長谷山美紀がチーフ技術アドバイザーを務め、3年で150億円ほどのお金を投じたものの失敗し、撤退するに至った。
-
SEO
(Search Engin Optimization)サーチエンジン最適化
検索エンジン最適化とは、検索エンジンのオーガニックな検索結果において、特定のウェブサイトが上位に表示されるよう、ウェブサイトの構成などを調整すること。
-
CGM
(Consumer-Generated Media)
ユーザー生成コンテンツとは、消費者が生産者となる生産消費者により制作・提供される作品の総称である。
-
共起
(co-occurrence)
共起は、ある単語がある文章中に出たとき、その文章中に別の限られた単語が頻繁に出現すること。
-
連想
(association)
-
共起の関係付けを言葉内部で与える
文法
-
共起の関係付けを外部知識で与える
文脈
-
自然言語処理の階層モデル
自然言語の処理手順を人間の認知過程に放ってモデル化しようとする試み
下に行くほど深い処理
・形態素解析
・構文解析
・意味解析
・文脈解析
-
形態素解析
言葉の単位のセグメンテーション
例)自然言語処理
自然 + 言語 + 処理
-
構文解析
言葉の構造・意味の同定
例)自然言語処理
(自然+言語)* 処理
-
意味解析
言葉の構造・意味の同定
例)自然言語処理
(自然+言語)*処理
-
文脈解析
複数の文のつながりをチェックするものです。 代名詞の参照問題などもこの文脈解析に含まれます。 物語の理解など では、文脈解析が絶対に必要です。 しかし、文脈解析は、意味解析以上に困難で、まだ、文脈をまともに 解析できるシステムは一つもありません。
-
テキストマイニング
文字列を対象としたデータマイニングのことである。通常の文章からなるデータを単語や文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することで有用な情報を取り出す、テキストデータの分析方法である。
-
屈折語
インド・ヨーロッパ系の言語
意味的な部分と文法的な部分の分離困難
-
孤立語
中国語など
個々の単語の独立性が高い
-
膠着語
日本語が典型
実質的な意味を表す語に接辞が付属
-
抱合語
北方先住民の言語
動詞を中心として,目的語・副詞など
多数の形態素が複合して一つの語となる
-
JUMAN
京都大学
ChaSen(日本語の基本的語彙約3万語を選定表記バリエーションの整備と代表表記出力
-
CHASEN(茶筅)
奈良先端大
JUMANを改良・高速化,隠れマルコフモデル広く使用されている(Windows
-
MeCab(和布蕪)
京大+ NTT-CS 研
言語,辞書,コーパスに依存しない汎用設計隠れマルコフモデルよりも精度高い,高速化
-
自立語
文節の最初にくる単語で1文節に1つだけ非活用語(名詞など)と活用語(動詞・形容詞)
※文節とは実際の言葉として不自然にならないように
できるだけ短く文を区切ったときのひと区切り
-
付属語
常に自立語のあとに付けて用いられる単語(非自立語)助詞・助動詞(活用語)など
※形式名詞(こと・よう etc.)は非自立語扱い
-
相互情報量 (mutual information)
実際の共起確率 p(α,β)
偶然(チャンス) レベル p(α) ・ p(β)
-