ANPI NLP:メインページ
提供:ANPI_NLP
東日本大震災のためのデータマイニング・自然言語処理に関する情報のページです。
アカウントを作成してログインすることにより誰でも更新できるようになっています。ディスカッションは#anpi_nlpでお願いします。
目次 |
活動目的(文責:村上浩司:@kmura)
現在、東北関東大震災に関して様々なところで種々の情報が飛び交っています。その中でも、特に被災された方々の安否情報は最も重要な情報であり、できるだけ正確な情報を大量に整理する必要があります。しかしながら実際は情報は大量でかつ様々なところに分散して存在しているために探しにくいだけでなく、情報を提供する側と情報を必要とする側で適切に必要な情報を共有できていないと考えられます(例えば、どちらかが人の名前を1文字間違える、平仮名と漢字との違い、ある人の安全が確認されるとその情報は電子的に残されにくい、など)。
我々は日々言語処理を専門とした研究者、技術者であり、こうした情報の解析、集約、マッチング(名寄せなど)などにも従事しています。今回、Twitterやブログ、Mixiなど、多くのCGMから個々に述べられている人の安否情報に注目し、Google社の"Google Person Finder"上のデータと照合しながら、最新の安否情報をできるだけ整理するというのが目的です。特に、安全を確認された方の情報がこうしたポータルに最終的に登録されないことが多いことから、こうした情報を共有できるように多くの情報源から分析する必要があります。
これらの活動は営利目的ではありません。このサイトも、"みんなの翻訳"の方のご好意で立ち上げていただいています。 我々は技術者として今この時点でできることを行う、必要な言語資源を協力して重複なく構築することが目的であり、それを達成することを目標にしています。
多くの言語処理技術者の方々が参画してくれればと願っています。 よろしくお願いいたします。 2011/03/15
タスク
大きなタスクとしては、楽天技研ではGoogle社のPerson Finderの情報を使わせて頂いており、この情報とTwitterなどから得られる安否確認情報を照合、更新することでPerson Finderの情報を充実させること、が挙げられます。このタスクはできるだけ早く、かつ正確な情報の抽出が社会的に渇望されていると考えられます。(2011/03/16 @kmura)
その他のタスク
タスクごとに、細分類ページを立ち上げると良いと思います(2011/03/17 @Yucchiiro)
アイデア一覧(皆さんの意見を集約 2011/03/17 13:50 @Yucchiiro)
- 点在する安否情報サイトの情報集約
- テキストから地域を特定し、地域ごとに情報を纏め上げて提示するサイト
- 情報の交通整理(安否情報・励まし・災害情報・原発/放射線情報・物資情報などに分類)
- 情報の信頼性・信ぴょう性判定(信ぴょう性の時間的変化なども。例:うがい薬が良い→うがい薬は飲むな)
- 現地物資情報の集約
- 被災地の移動経路情報の集約
- 被災者受入状況の集約 (公開用ポータル,参加者用ページ)
下のコーパスに連接文字列検索システムを適用してみました。データを眺めるのに役立てば。(2011/03/17 21:04 東大・吉田)
- 「地震関連ツイートデータ」版:http://capacitas.r.dl.itc.u-tokyo.ac.jp:8080/ut-kiwi4/
- 「安否情報関連ツイートコーパス」版:http://capacitas.r.dl.itc.u-tokyo.ac.jp:8080/ut-kiwi2/ ←認証付き...パスワードを知りたい方は吉田まで
- 「コスモ石油二次災害防止情報関連ツイートデータ」版:http://capacitas.r.dl.itc.u-tokyo.ac.jp:8080/ut-kiwi3/
リソース
辞書
- Mozc の人名辞書 (読み、コスト付き。詳細は Google 工藤さん @taku910 まで)
- 岩手、宮城、福島、茨城の地名辞書(非公開。詳細は 楽天技研 村上さん @kmura まで)
- 宮城、福島、岩手、栃木に特徴的な名字のリスト http://bit.ly/ekicQa http://bit.ly/dHh3J5 http://bit.ly/gjBYM7 http://bit.ly/g6M7Bt
- 東北、関東地方の道の駅データ( http://tinyurl.com/4t876z4 http://tinyurl.com/4c7afgc ) 国土交通省のWebページで公開されているデータ( http://tinyurl.com/43jxsa )を加工したもの。データフォーマットは「地域の通し番号 / 駅名 / 所在地 / 路線名(国道**号線など)/ 電話番号 / オープン情報 / 施設内容」 (広島市立大 難波 @presri)
- ATOK東北地方辞書 @atok_jsさんご提供
- 全国駅名一覧ファイル ( http://tinyurl.com/4dkuna8 )
- 駅データ.jp ( http://www.ekidata.jp/download/index.html ) 駅の緯度経度情報、隣接関係の情報
- Wikipediaから抽出した東北、関東地方の名所データ( http://tinyurl.com/4vmqohg ) (広島市立大 難波 @presri)
- 全国地方自治体のURLのリスト ファイル:Local government.zip from http://cpf.uub.jp/
コーパス
- 地震関連ツイートデータ (「地震」を含む11日15時16分9秒から13日8時59分19秒までの469,504ツイート)(by 阪大 松村真宏 @matumura)
- 地震関連ツイートデータ2' 「地震」を含むツイート 11日7時~24日(111.6MB)(by 東大 荒牧 @aramaki まで) (BASIC認証しています ID:demo、パスワード:demo )
- コスモ石油二次災害防止情報関連ツイートデータ (「コスモ石油 OR 有害物質 OR 傘 OR カッパ」をクエリーとする12日8時01分36秒から16日10時48分19秒までの40,711ツイート)(by 阪大 松村真宏 @matumura and 関大 安田雪 @snowrain)
- 安否情報関連ツイートコーパス: 3月14日 16:45までのデータ ハッシュタグを元に取得 61,376ツイート 取得したタグと件数
- 安否情報関連ツイートコーパスに、人名・場所・組織名をタグ付けしたデータ(3/16の段階で200件)(非公開。詳細は 楽天技研 萩原 @mhagiwara まで)→以下のタグ付けタスクフォールにより不要に。
- 安否情報関連ツイートコーパスに拡張固有表現を自動でタグ付けしたデータ(by 東工大 橋本さん @taiichi84)
- 安否情報関連ツイートコーパスに人名・地名をKyTeaで 自動タグ付けしたデータ(by 京大 グラム @neubig) ←の分割ファイル mod100=00~99(by 坪井)
- 安否情報関連自動分類ツイートコーパス: 機械学習手法を用いて自動分類したツイートデータ(45,510ツイート.#anpiなどのタグでなくテキスト内容を基にした分類結果です) (by 東工大 高村大也 @hjtakamuraまで) Hjtakamura 2011年3月22日 (火) 09:32 (JST)
- 安否情報関連ツイートコーパス0316増分: 3月16日 18:30までのデータ ハッシュタグを元に取得 36,592ツイート
- 避難所名簿関連記事 Naltoma 2011年3月18日 (金) 15:36 (JST)
- 安否に関する幅広い情報を集めています。Koji.murakami 2011年3月18日 (金) 16:03 (JST)
- 地震関連ハッシュタグコーパス(by 東大 榊 3月12~18日 BASIC認証 ID:equake PASS:equake)
- ページ下部 save_* 他 代表的な地震関連のハッシュタグ
解析器
- ツイート分類器 2:ツイートを自動的に「安否確認」などのクラスに分類するスクリプト (NII 松林 @Yucchiiro, 東大 三輪 @mmiwa)
- 地名抽出・ジオコーダ: 地名・人名を含むテキストにタグ付けとジオコーディングを行うウェブサービス (東大CSIS 相良 @sagara_takeshi)
データのアップロードとダウンロード
タグ付き安否情報ツイートデータはタグ付き安否情報ツイートデータ専用サイトにアップロードしてください。(@kmura 2011年3月30日 (水) 16:28 (JST))
その他の、個人情報などを含むデータはデータ専用サイトにアップロードしてください。詳しくは下記の「アナウンス」をご覧ください。
何をするべきか
自然言語処理の技術を適用して何をするべきかをリストアップしてください。
安否情報ツイート(上記)に固有表現・安否情報タグを付与する
- 詳細は安否情報ツイートへのタグ付与のページに記載されています。
- 分担
- 指針
- 補助ツール
- タグ付け中に見つけた地名など
- kyteaで分類できない地名などを記入してください。
タグ付け結果のダウンロードと文字列検索と自動タグ付け
タグ付けデータはタグ付き安否情報関連ツイートコーパスデータベースからダウンロード可能です。
安否情報検索で、上記データベースを文字列検索できます。
タグ付け グラムさんのプログラムを使ってタグ付けします。アップロードするファイルの形式は「ツイートID 投稿者 ツイート」のTSVです。4桁めにタグがあってもかまいませんが、その場合には上書きされます。
分担
担当がかぶらないように、行番号の mod(剰余)で分担することにしました。作業を始める前に分担リストに担当部分を書きこんでください。
- とりあえずこの辺でタグ付けはいったん止めたいと思います。次のアクションについて検討をしたいと思います。(@kmura 2011/3/17 11:54)
- 「止める」というのは65以降のデータへの新規の付与に対してです.現在作業中の方は引き続きよろしくお願いします.新規参加を検討していた方は,これらのデータをどのように使っていくかを考えましょう.(@kmura の代理で @jmizuno 2011/3/17 12:09)
- ただ、もちろんタグ付けを希望される方はどんどんやっていただいて構いません。(@kmura 2011/3/17 13:21)
- 「止める」というのは65以降のデータへの新規の付与に対してです.現在作業中の方は引き続きよろしくお願いします.新規参加を検討していた方は,これらのデータをどのように使っていくかを考えましょう.(@kmura の代理で @jmizuno 2011/3/17 12:09)
安否情報関連ツイートコーパスに人名・地名をKyTeaで自動タグ付けしたデータ(by 京大 グラムさん) を分割したファイル群(mod100=00~99) (by 坪井)
安否情報ツイートと避難所を関連付ける
どうやって
- 安否情報ツイート(Mのみ?)内の location タグをジオコーディングする.(GoogleMapAPIが使えるかも)
- google maps API を使って緯度経度を付与するスクリプト作成に着手しました。
<location ... lat="37.05" lng="140.88">...</location>の形式でインラインに付与するにするつもりです。 --松原 2011年3月17日 (木) 15:01 (JST) - とりあえず作ったスクリプトはこちらの通りです。Google Maps APIが返すものを決め打ちで埋め込むだけのものです。
<location>...</location>という部分を次のように置き換えます:取得に失敗したときは<location geocoded="false"> ...</location>、成功したときは<location geocoded="true" lat="37.05" lng="140.88">...</location> - スクリプトを使って得た結果のサンプルを置きます:--松原 2011年3月17日 (木) 16:41 (JST) データ保管サイトのgeocoded/Tweets.1645c.tsv.mod100.0.tagged.geocoded-sample.tsvに移しました。@masaoutiyama 2011年3月19日 (土) 08:13 (JST)
- 国土交通省の位置参照情報ダウンロードサービスのデータを用いて住所地名などを緯度経度情報に変換しては? http://nlftp.mlit.go.jp/isj/ --浅原 2011年3月17日 (木) 16:35 (JST)
- とりあえず MeCab 用辞書に変換してみたが、再配布していいものか。変換プログラムは ファイル:Addr2mecabdic.rb.zip --浅原 2011年3月17日 (木) 17:05 (JST)
- google maps API を使って緯度経度を付与するスクリプト作成に着手しました。
- 避難所リストの収集とジオコーディング
- 避難所リストはGoogleにあります. http://www.google.co.jp/intl/ja/crisisresponse/japanquake2011_shelter.html --橋本 2011年3月17日 (木) 15:10 (JST)
- 内閣官房にもあります. http://www.kokuminhogo.go.jp/hinan/ --橋本 2011年3月17日 (木) 15:13 (JST)
- 公式避難所リスト(青森・秋田・岩手・宮城・山形・福島) ジオコーディング済み ファイル:Hinanjo.zip --相良 2011年3月17日(木)21:24(JST)
- 宮城県の公式避難所リスト ファイル:Shelter.miyagi.tsv.gz --橋本 2011年3月17日 (木) 16:22 (JST)
- 岩手・福島・山形・秋田の公式避難所リスト iwate_hinan.tsv fukushima_hinan.tsv yamagata_hinan.tsv akita_hinan.tsv--Cm3 2011年3月17日 (木) 20:50 (JST)
- 上のzipファイルの中身の英語版
- 安否情報ツイートと避難所のジオコーディングの距離を計算して,関連付ける
安否情報ツイートを地図上に表示する
概要:sinsai.infoのように、位置と関連付けられた情報を地図上に表示し、地域ごとの情報を調べやすくする。
どうやって
- 上記の避難所との関連付けと同じようにしてジオコーディングで位置情報をとる。
- twitter APIでとれる位置情報も使えるかもしれません。--松原 2011年3月17日 (木) 22:59 (JST)
- 地図に載せる。
- sinsai.infoにデータ提供してインポートしてもらう、google maps オーバーレイをつかう、などの方法が考えられます。
- sinsai.infoは人手のレポートによるものですが、ANPI_NLPのデータでその補助をするなど、連携ができるとよいと思います。 --松原 2011年3月17日 (木) 22:59 (JST)
- sinsai.infoにデータ提供してインポートしてもらう、google maps オーバーレイをつかう、などの方法が考えられます。
災害情報を外国語に機械翻訳・通訳する
在日外国人のための情報提供に自然言語処理、機械翻訳技術を応用する
どうやって
- 災害情報に関する辞書・対訳資源の整備
- 災害情報の日本語から外国語(英語・中国語・韓国語・ポルトガル語が需要が高い)への自動翻訳および翻訳資源
- タグ付き安否情報関連ツイートコーパスデータベース中の5,442件の英訳(自動につき誤訳あり) https://data.ecom.trans-aid.jp/ANPI_NLP/ -> english -> tweets.032113.woOU.en.tsv.gz
- 3/21 13:10DLの22,705件が大元.OU以外.3件はタグNGで翻訳失敗.NEタグなし. akf 2011年3月21日 (月) 16:33 (JST)
- ジオコーディング済み公式避難所リスト(上記)の英訳(自動につき誤訳あり)
- 宮城 miyagi.en.tsv 2011年3月18日 (金) 12:27 (JST)
- 岩手 iwate.en.tsv 2011年3月18日 (金) 19:32 (JST)
- 福島 fukushima.en.tsv 2011年3月18日 (金) 22:15 (JST)
- 青森 aomori.en.tsv 2011年3月19日 (土) 01:52 (JST)
- 山形 yamagata.en.tsv 2011年3月19日 (土) 09:58 (JST)
- 秋田 akita.en.tsv 2011年3月19日 (土) 18:23 (JST)
- タグ付き安否情報関連ツイートコーパスデータベース中の5,442件の英訳(自動につき誤訳あり) https://data.ecom.trans-aid.jp/ANPI_NLP/ -> english -> tweets.032113.woOU.en.tsv.gz
関連する情報をお持ちの方は教えてください。また、個人的に整備している災害関連用語の日中対訳辞書を公開することを考えています Mhagiwara 2011年3月18日 (金) 09:35 (JST)
参考: 多言語・情報弱者対応災害支援リンク集 http://www.chilin.jp/dz/dz.html @mamoruk 2011年3月23日 (水) 14:17 (JST)
被災者受入状況を集約する
ページを分けました 『被災者受入情報の集約』 akf 2011年3月20日 (日) 17:12 (JST)
救助要請の抽出
救助要請の抽出 ページを分けました。@masaoutiyama 2011年3月20日 (日) 17:31 (JST)
ボランティア情報の整理
助けあいジャパン ボランティア情報ステーションのボランティア情報の整理。岡本(@arg)さんからの依頼です。
ボランティア情報の整理に移しました。@masaoutiyama 2011年3月28日 (月) 15:36 (JST)
参加者
ツイッターIDのアルファベット順に参加者をリストしてください。できれば写真もアップロードしてください。
- NAIST 浅原
- 東工大 飯田
- 岩倉
- 小林(の)
- 平尾
- 広島市立大 矢舖
- 未来大 藤田 @akf
- 大阪市立大 井上 @akinoue
- 東大 荒牧 @aramaki
- SUNY/京大 淺尾 @asaokitan
- 早大 相川 @awakia
- 広島市立大 石野 @ayayan1028
- 東工大 久保 @beatinaniwa
- 黒田 @black_sqlus
- 東工大 笹野 @cacaho
- 有賀 @chezou
- 東大 岡崎 @chokkanorg
- 西山 @chopstickexe
- 東大 亀田 @cm3
- 東大 古田 @furushchev
- 豊橋技科大 小林 @gun_smith
- 東工大 横野 @hikaruy
- 東工大 高村 @hjtakamura
- 東大 横井 @hoshi_kei
- 東大 佐藤 @issei_sato
- 東大 岩澤 @iwsw_kett
- 長岡技科大 井手上 @jewel_x12
- NAIST/東北大 水野 @jmizuno
- 風間 @jun1kaz
- 東大 北川 @k_kitagawa
- 東大 清水2 @kakenman
- 京大 金丸 @kana0355
- 金山 @kanayama_h
- ミクシィ 木村 @kimuras
- 東大 大岩 @kisa12012
- 筑波大 角田 @lpm11
- ヤフー 町永 @machy
-
NICT 内山 @masaoutiyama
- 阪大 松村 @matumura
- 楽天技研 萩原 @mhagiwara
- 東大 三輪 @mmiwa
- 東大 花元 @mogella
- SUNY/京大 中川 @nakagawanatsuko
- 琉大 當間 @naltoma
- 京大 グラム @neubig
- 東大 江原 @niam
- 楽天技研 西岡 @nishiokamegane
- 東大 清水 @nobuyukishimizu
- NAIST 大木 @o_bon
- NAIST 田尻 @pavlocat
- 広島市立大 難波 @presri
- 豊田中研 徳久 @rtokuhisa
- 東大 猿渡 @saru
- 数原 @sleepy_yoshi
- NAIST 小嵜 @smly
- 荻野(紫) @sogido
- NAIST 吉田 @syou6162
- 東工大 橋本 @taiichi84
- Google 工藤 @taku910
- 渡辺 @TeaTown
- 豊橋技科大 坂地 @tetsuwaka
- PFI 徳永 @tkng
- NAIST 水本 @tomo_wb
- 海野 @unnonouno
- 東工大 伴 @vangolgo
- 楽天技研 山田 @violairline
- 東大 松原 @whym
- 豊橋技科大 山本 @y_yammt
- 入江 @yk_irie
- 黒田 @ymku
- 琉大 与儀 @yogisuzu
- NII 松林 @Yucchiiro
- 東大 宇佐美 @yusmi
- 坪井 @yuutat
- 安否情報ツイートへのタグ付与 [1][2] から抽出してリストを作りました。ご自分の名前が載っていない、載せなくてよい、という場合は適宜追加、修正をお願いします。 --松原 2011年3月18日 (金) 13:13 (JST)
- ツイッターIDのアルファベット順に参加者をリストしました。@masaoutiyama 2011年3月21日 (月) 08:53 (JST)
アナウンス
データの取り扱いにつきまして(@kmura 2011年3月18日 (金) 14:17 (JST))
- 個人情報を含むファイルは ANPI_NLP にはアップロードしないでください。
- タグ付き安否情報ツイートデータは下記のみにアップロードしてください。
https://data.ecom.trans-aid.jp/ANPI_NLP/twitter/
- その他の個人情報を含むファイルは以下にアップロードしてください。
https://data.ecom.trans-aid.jp/ANPI_NLP/
- このサイトには認証がかかっていますので、それらを知りたい方は@kmura まで DM をお願いします。
- 情報をご存知の方々にDMしていただいても構いません(後ほどリストアップします)(Koji.murakami 2011年3月19日 (土) 17:53 (JST))
- 個人情報を含まないデータについては、これまで通り、ANPI_NLPにアップロードしてください。
Wikiの署名機能について:
~~~~
と書くと、署名できます。以後、Wikiへの書き込みは、必ず署名付きでお願いいたします。 このWikiはMediaWikiなので、その他の記法もWikipediaの記法と同じです。Niam 2011年3月17日 (木) 15:11 (JST)