つくる
さがす
ログイン
登録
ゲスト
ログインしていません
ログイン
登録
メニュー
通知
検索
単語帳をつくる
マニュアル
フィードバック
お問い合わせ
開発者を支援
サービス稼働状況
Ankilotについて
ログイン
通知はありません
ホーム
自然言語処理
自然言語処理
暗記
テスト
出力
違反報告
表示設定
お気に入り
フルスクリーン表示
あべべ
2022年05月31日
カード
24
いいね
0
暗記
テスト
出力
広告
単語カード
設定
全面表示
情報爆発
(Info-Plosion)
情報大航海プロジェクト
経済産業省が2007年に立ち上げた日本の国産検索エンジン開発プロジェクト。長谷山美紀がチーフ技術アドバイザーを務め、3年で150億円ほどのお金を投じたものの失敗し、撤退するに至った。
SEO
(Search Engin Optimization)サーチエンジン最適化
検索エンジン最適化とは、検索エンジンのオーガニックな検索結果において、特定のウェブサイトが上位に表示されるよう、ウェブサイトの構成などを調整すること。
CGM
(Consumer-Generated Media)
ユーザー生成コンテンツとは、消費者が生産者となる生産消費者により制作・提供される作品の総称である。
共起
(co-occurrence)
共起は、ある単語がある文章中に出たとき、その文章中に別の限られた単語が頻繁に出現すること。
連想
(association)
共起の関係付けを言葉内部で与える
文法
共起の関係付けを外部知識で与える
文脈
自然言語処理の階層モデル
自然言語の処理手順を人間の認知過程に放ってモデル化しようとする試み
下に行くほど深い処理
・形態素解析
・構文解析
・意味解析
・文脈解析
形態素解析
言葉の単位のセグメンテーション
例)自然言語処理
自然 + 言語 + 処理
構文解析
言葉の構造・意味の同定
例)自然言語処理
(自然+言語)* 処理
意味解析
言葉の構造・意味の同定
例)自然言語処理
(自然+言語)*処理
文脈解析
複数の文のつながりをチェックするものです。 代名詞の参照問題などもこの文脈解析に含まれます。 物語の理解など では、文脈解析が絶対に必要です。 しかし、文脈解析は、意味解析以上に困難で、まだ、文脈をまともに 解析できるシステムは一つもありません。
テキストマイニング
文字列を対象としたデータマイニングのことである。通常の文章からなるデータを単語や文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することで有用な情報を取り出す、テキストデータの分析方法である。
屈折語
インド・ヨーロッパ系の言語
意味的な部分と文法的な部分の分離困難
孤立語
中国語など
個々の単語の独立性が高い
膠着語
日本語が典型
実質的な意味を表す語に接辞が付属
抱合語
北方先住民の言語
動詞を中心として,目的語・副詞など
多数の形態素が複合して一つの語となる
JUMAN
京都大学
ChaSen(日本語の基本的語彙約3万語を選定表記バリエーションの整備と代表表記出力
CHASEN(茶筅)
奈良先端大
JUMANを改良・高速化,隠れマルコフモデル広く使用されている(Windows
MeCab(和布蕪)
京大+ NTT-CS 研
言語,辞書,コーパスに依存しない汎用設計隠れマルコフモデルよりも精度高い,高速化
自立語
文節の最初にくる単語で1文節に1つだけ非活用語(名詞など)と活用語(動詞・形容詞)
※文節とは実際の言葉として不自然にならないように
できるだけ短く文を区切ったときのひと区切り
付属語
常に自立語のあとに付けて用いられる単語(非自立語)助詞・助動詞(活用語)など
※形式名詞(こと・よう etc.)は非自立語扱い
相互情報量 (mutual information)
実際の共起確率 p(α,β)
偶然(チャンス) レベル p(α) ・ p(β)
広告
コメント
コメントを送信
単語帳を共有
Twitter
LINE
はてな
アプリ
QRコード
URLコピー
キャンセル
表示設定
文字の色
デフォルト
白
シルバー
グレー
黒
赤
オレンジ
黄
黄緑
緑
水
青
紫
ピンク
文字の太さ
デフォルト
太字
文字の大きさ
デフォルトの文字サイズに加算・減算します。
px
チェック済を非表示
暗記でチェックをつけたカードを非表示にします。
カードの一部を隠す
カードの一部を指定して隠します。
表の文字
表のヒント
表の画像
裏の文字
裏のヒント
裏の画像
設定を適用する
つくる
さがす
ホーム
リスト
メニュー