綱川 隆司
研究概要
主な研究分野は多言語を扱う自然言語処理です。自然言語処理技術の中には、言語によらず適用できる有用な技術も多いのですが、言語による様々なレベルの差異を捉えきれないことも少なくありません。そういった言語間の差異を、インターネットに存在する多数の言語のテキストをうまく利用して捉え、機械翻訳などの言語横断的な応用技術の改善に寄与することを目指しています。
Wikipediaの多言語性を利用したWikipedia記事への自動リンク付与
Wikipediaでは、テキスト中に現れる語に他の記事へのリンクが付与されています。このリンクは読者の理解を助ける上で重要ですが、どの語句にリンクするか、どの記事にリンクするかの作業は記事の編集者が手で行う必要があります。この作業を自動化する wikification という技術が近年注目されています。本研究室では、Wikipediaがサポートする多数の言語版から得られる情報をもとに wikification の高精度化・多機能化の研究を行っています。
Wikipediaの多言語利用におけるユーザビリティの向上
Wikipediaの各言語版はそれぞれ独立に編集されており、同じ事柄に関する記事でも言語によって異なる内容であったりして必ずしも整合性がありません。そこで、異なる言語版の記事の間で対応する部分を自動的に表示し、他言語版記事の参照を容易にする研究を進めています。また、Wikipediaでは記事を体系的に分類するカテゴリーが存在しますが、カテゴリー体系も言語によってかなりの差異がみられます。それらを一つのカテゴリー体系にまとめることでWikipediaが持つ知識体系を汎言語化することを目指しています。
教員/研究室の独自ページ
Wikipediaの他言語版記事の内部リンクを言語間で変換
Wikipedia多言語カテゴリ体系の構築