学术大会(Main Conference)
周六,2012年11月3日(Saturday Nov 3, 2012) | |||
10:00–20:30 | 一楼门厅(Lobby) | ||
注册(Registration) | |||
17:00–20:00 | 二楼自助餐厅(Cafeteria, Second Floor) | ||
晚餐(Dinner) | |||
19:00–21:00 | 蕴香厅(Yunxiang Hall) | ||
TCCI会议(TCCI Business Meeting) | |||
周日,2012年11月4日(Sunday Nov 4, 2012) | |||
07:30–08:45 | 一楼门厅(Lobby) | ||
注册(Registration) | |||
08:45–09:00 | 宴会厅(Banquet Hall) | ||
开幕(Opening) | |||
09:00–10:00 | 特邀报告:张宏江博士,移动互联网:机遇与挑战 Invited Talk by Dr. Hong-jiang ZHANG, Mobile Computing: the Opportunities and Challenges |
||
Chair: ZHAO Dongyan | |||
10:00–10:15 | 花园(Garden) | ||
合影(Group Photo) | |||
10:15–10:45 | 宴会厅(Banquet Hall) | ||
茶歇(Coffee/Tea Break) | |||
10:45–11:55 | 宴会厅(Banquet Hall) | ||
Machine Translation 1 | |||
12:00–14:00 | 二楼自助餐厅(Cafeteria, Second Floor) | ||
午餐(Lunch) | |||
14:00–15:20 | 宴会厅(Banquet Hall) | 第一会议室(Meeting Room 1) | 第二会议室(Meeting Room 2) |
Web Mining 1 | Applications on Language Computing 1 | Machine Translation 2 | |
15:20–15:50 | 宴会厅(Banquet Hall)/二楼(Second Floor) | ||
茶歇(Coffee/Tea Break) | |||
15:50–17:10 | 宴会厅(Banquet Hall) | 第一会议室(Meeting Room 1) | 第二会议室(Meeting Room 2) |
Web Mining 2 | Applications on Language Computing 2 | Open Fund Poster/Demo | |
18:00–20:30 | 宴会厅(Banquet Hall) | ||
Poster/Demo Presentations and Banquet(Poster/Demo Presentations and Poster/Demo List) | |||
周一,2012年11月5日(Monday Nov 5, 2012) | |||
09:00–10:00 | 特邀报告,翟成祥博士 Invited Talk by Dr. Chengxiang ZHAI, Natural Language Processing for Information Retrieval: Challenges and Opportunities |
||
Chair: ZHOU Ming | |||
10:00–10:30 | 宴会厅(Banquet Hall) | ||
茶歇(Coffee/Tea Break) | |||
10:30–11:50 | 宴会厅(Banquet Hall) | ||
Fundamentals on Language Computing 1 | |||
12:00–14:00 | 二楼自助餐厅(Cafeteria, Second Floor) | ||
午餐(Lunch) | |||
14:00–15:20 | 多功能厅(Multi-Function Hall) | 第一会议室(Meeting Room 1) | 第二会议室(Meeting Room 2) |
NLP for Social Networks | Fundamentals on Language Computing 2 | Industrial Demo | |
15:20–15:50 | 二楼(Second Floor) | ||
茶歇(Coffee/Tea Break) | |||
15:50–17:10 | 多功能厅(Multi-Function Hall) | 第一会议室(Meeting Room 1) | 第二会议室(Meeting Room 2) |
IR & QA | Fundamentals on Language Computing 3 | Industrial Demo | |
17:30–19:00 | 二楼自助餐厅(Cafeteria, Second Floor) | ||
晚餐(Dinner) |
详细安排
Machine Translation 1 返回 时间:2012年11月4日上午(10:45–11:55); 地点:宴会厅(Banquet Hall) Chair:ZONG Chengqing |
|
10:45-11:15 |
Handling Unknown Words in Statistical Machine Translation from a New Perspective
|
11:15-11:35 |
词语对齐的快速增量式训练方法研究
|
11:35-11:55 |
藏文数词识别与翻译
|
Web Mining 1 返回 时间:2012年11月4日下午(14:00–15:20); 地点:宴会厅(Banquet Hall) Chair:ZHAO Jun |
|
14:00-14:20 |
基于协同图排序的对比新闻自动摘要
|
14:20-14:40 |
Chinese Named Entity Recognition and Disambiguation Based on Wikipedia
|
14:40-15:00 |
面向自动文摘的主题划分方法
|
15:00-15:20 |
基于排序学习的文本概念标注方法研究
|
Applications on Language Computing 1 返回 时间:2012年11月4日下午(14:00–15:20); 地点:第一会议室(Meeting Room 1) Chair:TANG Zhi |
|
14:00-14:20 |
基于用户历史行为的个性化文献推荐
|
14:20-14:40 |
版式电子文档表格自动检测与性能评估
|
14:40-15:00 |
Integration of Textual Information and Graphic Composite for PDF Documents with Complex Layouts
|
15:00-15:20 |
一种基于FST和DBN的口语对话系统
|
Machine Translation 2 返回 时间:2012年11月4日下午(14:00–15:20); 地点:第二会议室(Meeting Room 2) Chair:Lyu Yajuan |
|
14:00-14:20 |
Learning Latent Topic Information for Language Model Adaptation in Statistical Machine Translation
|
14:20-14:40 |
Compact WFSA based Language Model and Its Application in Statistical Machine Translation
|
14:40-15:00 |
A Comparative Study on Discontinuous Phrase Translation
|
15:00-15:20 |
基于话题分布相似度的无监督关键词翻译技术
|
Web Mining 2 返回 时间:2012年11月4日下午(15:50–17:10); 地点:宴会厅(Banquet Hall) Chair:ZHAO Shiqi |
|
15:50-16:10 |
一种面向学术会议网站的Linked Data生成方法
|
16:10-16:30 |
Ontology-based Event Modeling for Semantic Understanding of Chinese News Story
|
16:30-16:50 |
适用于大规模文本处理的动态密度聚类算法
|
16:50-17:10 |
The Recommendation Click Graph: Properties and Applications
|
Applications on Language Computing 2 返回 时间:2012年11月4日下午(15:50–17:10); 地点:第一会议室(Meeting Room 1) Chair:LI Qingsheng |
|
15:50-16:10 |
基于笔端形状相似性的汉字字体识别
|
16:10-16:30 |
Automatic Generation of Chinese Character based on Human Vision and Prior Knowledge of Calligraphy
|
16:30-16:50 |
基于主题情感混合模型的无监督文本情感分析
|
16:50-17:10 |
Sentiment Analysis Based on Chinese Thinking Modes
|
Demo/Open Fund Poster 返回 时间:2012年11月4日下午(15:50-17:10); 地点:第二会议室(Meeting Room 2) Chair:TBD |
|
15:50-17:10 |
开放课题:中文微博中的情感语义研究(CCF2011-01-01) 开放课题:汉字可信编码及计算(CCF2011-01-02) 开放课题:汉字字形视觉重心的计算方法(CCF2011-01-03) 开放课题:基于约束条件随机场的电子图书在版编目数据抽取技术研究(CCF-DP2011-02-03) 开放课题:图书在版编目(CIP)数据提取研究(CCF-DP2011-02-03) |
Poster/Demo和晚宴(Poster/Demo Presentations and Banquet) 返回 时间:2012年11月4日晚上(18:00-20:30); 地点:宴会厅(Banquet Hall) |
|
18:00-18:30 |
Poster/Demo Presentation
|
[1]Chinese Word Segmentation Oriented Natural Annotation in Large Scale Corpora; Gaoqi RAO*, Endong XUN; Beijing Language University [2]汉语并列复句的自动识别方法; Yunfang WU*, Jing SHI, Fuqiang WAN; Institute of Computational Lin,Peking university [3]基于逗号的汉语子句识别研究; Yancui LI*, Wenhe FENG, Guodong ZHOU; Suzhou University [4]基于特征比较和最大熵模型的统计机器翻译错误检测; Jinhua DU*, Sha WANG; Xi'an University of Technology [5]甲骨文字形动态描述库及其字形生成技术研究; Qingsheng LI*; An Yang Normal University [6]面向专利文献的汉语分词技术研究; Jinyuan YUE*, Jinan XU, Yujie ZHANG; Beijing Jiaotong University [7]一种基于条件随机场的中文词性标注并行化方法; 刘滔*, 雷霖, 陈荦, 雄伟; 国防科学技术大学 [8]一种基于流形距离的中文语块聚类分析方法; 雷霖, 雄伟; 国防科学技术大学 [9]藏文音节规则模型及应用; Zhu Jie* ;Tibetan University [10]基于上下文的话题和话题关系的演化研究; Jian ZHANG*, SJTU; Fang LI; Shanghai Jiaotong University [11]检索结果多样化研究综述; Jingbin GAO*, Muyun YANG ;HIT [12]先秦文献的古今字、通假字标注; 冯敏萱*, 刘浏 ;南京师范大学 [13]基于百科知识的查询意图获取; Bingquan LIU, Ming LIU, Gang HU ;哈尔滨工业大学 [14]耶宝智慧中文分词系统; 贾真; 西南交通大学思维与智慧研究所 |
|
18:00-20:30 |
Poster/Demo Session
|
19:00-20:30 |
宴会(Banquet)
|
Fundamentals on Language Computing 1 返回 时间:2012年11月5日上午(10:30–11:50); 地点:宴会厅(Banquet Hall) Chair:WANG Houfeng |
|
10:30-10:50 |
Chinese Semantic Role Labeling with Dependency-driven Constituent Parse Tree Structure
|
10:50-11:10 |
基于广义话题理论的标点句序列之话题结构识别研究
|
11:10-11:30 |
Collation of the Transliterating Tibetan Character
|
11:30-11:50 |
汉语并列关系的识别研究
|
NLP for Social Networks 返回 时间:2012年11月5日下午(14:00–15:20); 地点:多功能厅(Multi-Function Hall) Chair:HE Tingting |
|
14:00-14:20 |
Social Network Compression Based on the Importance of the Community Nodes
|
14:20-14:40 |
Adaptive Topic Tracking Based on Dirichlet Process Mixture Model
|
14:40-15:00 |
Exploiting Lexical Semantic Resource for Tree Kernel-based Chinese Relation Extraction
|
15:00-15:20 |
基于树核函数的人物关系抽取研究
|
Fundamentals on Language Computing 2 返回 时间:2012年11月5日下午(14:00-15:20); 地点:第一会议室(Meeting Room 1) Chair:ZHOU Guodong |
|
14:00-14:20 |
属性和属性值组合的概念模型
|
14:20-14:40 |
基于上下文和语义信息的跨领域中文分词
|
14:40-15:00 |
n-gram统计特征在中文分词领域自适应中的应用
|
15:00-15:20 |
Dependency Forest for Sentiment Analysis
|
IR & QA 返回 时间:2012年11月5日下午(15:50-17:10); 地点:多功能厅(Multi-Function Hall) Chair:YU Zhengtao |
|
15:50-16:10 |
基于对象和意图分治的查询推荐研究
|
16:10-16:30 |
Dependency Network based Real-time Query Expansion
|
16:30-16:50 |
面向问答社区的答案生成方法
|
16:50-17:10 |
Summarizing Definition from Wikipedia Articles
|
Fundamentals on Language Computing 3 返回 时间:2012年11月5日下午(15:50-17:10); 地点:第一会议室(Meeting Room 1) Chair:WU Yunfang |
|
15:50-16:10 |
Fusion of Long Distance Dependency Features for Chinese Named Entity Recognition Based on Markov Logic Networks
|
16:10-16:30 |
The Construction of Chinese Sentence-Category Dependency Treebank
|
16:30-16:50 |
副词“都”用法自动识别研究
|
16:50-17:10 |
基于语义依存线索的事件关系识别方法研究
|
Industrial Demo简介
Industrial Demo 返回 时间:2012年11月5日下午(14:00-17:10); 地点:第二会议室(Meeting Room 2) |
|||
参展单位 | 展示成果 | 展位/联系人 | 成果简介 |
西南交通大学思维与智慧研究所 | 耶宝智慧中文分词系统 | 7号展位/贾真 |
耶宝智慧中文分词采取综合集成的方法,综合集成大数据、先进分词算法和实体识别算法以及人的智慧。 分词系统性能和特点: • 准确率达到了99.8% • 分词效率20万字/秒 • 支持GB18030,BIG5,Unicode,Utf-8 • 提供云分词服务,支持java,C++,C#客户端 • 准确地识别中外人名、机构名、时间、数量词等 • 提供词性标注、实体标注和专业、学术词汇标注 • 提供粗粒度和细粒度分词 • 超大规模语料库和词库 电 话: 86(28) 8760-2942,86(28) 8760-2984, 189-8078-2955 电子邮箱: zjia@home.swjtu.edu.cn 演示网址: http://www.yebol.com.cn/ |
微软亚洲研究院,微软雷蒙德研究院 | 微软自动对联,英库(必应)词典,英库字幕翻译,英库拼音输入法,新一代多语言自动问答系统,网络语言模型(Web-Ngram) | 4号展位/周明 |
“微软自动对联”是由微软亚洲研究院自然语言组研究开发的计算机自动对联系统,也是世界上第一套人工智能自动对联系统,具体而言,用户给定上联,然后系统自动生成下联,或者用户也可通过交互手段优选词来生成满意的下联。当用户确定一副对联后,它还能够生成若干四字横批供用户参考。本项技术可以用于在线数字游戏,以及服务于中小学以及外国人的智能汉语教学。体验网址:http://duilian.msra.cn/。 “必应词典”是由微软亚洲研究院研发的新一代在线词典。不仅可提供中英文单词和短语查询,还拥有词条对比等众多特色功能,能够为英文写作提供帮助。必应词典是微软首款中文智能词典,具有人工优化整句翻译系统,是广大用户邮件翻译和文字写作的必备工具,并且是全球独家具有视频朗读功能的词典工具。词典都具有翻译功能,翻译单词、翻译句子。但是在翻译的句子中,英语初学者常常迷失方向,不知道如何对应。必应词典能很好的解决这个问题,在已经完成的翻译句子中,可以逐词英汉对应。必应词典除了翻译以外,还在侧边栏提供了相应的语法搭配和词组搭配。体验网址:http://dict.bing.com.cn/。 “英库字幕翻译”是由微软亚洲研究院研发的通过视频学习英语的在线学习平台。通过对英文视频的深度处理,包括字幕标注、机器翻译、时间轴对齐、词典解释,来为英文学习者提供文字、声音和视频三位一体的学习体验。独创的卡拉OK功能可以让学习者同视频发音同步,提高学习效率。集成的英库词典,可以提供给用户关于生词的详尽信息,加深学习者对生词的印象。“英库字幕翻译”系统更集成了在线听写功能,用户可以对自己的听力进行在线测试,并由系统对听写结果进行分析和打分。 “英库拼音输入法”运用微软亚洲研究院的创新研究成果,加上云端服务器的无限量存储和计算能力,还有30多万词条的中文词库和新词热词,大幅提升输入的准确率。微软英库拼音输入法支持中英文混合一次输入,最新的电视剧名、网络流行语、赛季新秀均可轻松输入。 创新的V模式,可以让你在聊天儿的时候更轻松的插入图片、地图等多媒体内容,从此不用复制粘贴了。微软英库输入法的贴心小助手可以帮您完成多种多样的英文输入任务:英文自动补全,自动纠错,通配输入,英文单词读音输入,以及神奇的U模式。体验网址:http://pinyin.engkoo.com/。 “新一代多语言自动问答系统”我们构建了一个知识智能、数据智能和社会智能三位一体相互合作的新一代多语言自动问答系统。对一个问题,可以得到利用知识库、大数据和互联网、社区的答案并且进行答案候选的优化排列。目前系统可回答 Jeopardy! 和“一站到底”等竞猜类型问题以及常见的自然语言问题。 “网络语言模型”(Web-Ngram)运用云端服务器的存储和计算能力为信息检索、自然语言处理、语音处理提供网络数据的1-5元的语言模型查询服务。“网络语言模型”可提供分别针对文档内容、文档标题、链接源头文字和查询关键字的语言模型的查询。网络模型(文档内容和文档标题)的训练数据是截止到2009年6月必应在英文市场检索的网页和文档。查询关键字模型(链接源头文字和查询关键字)的训练数据是截至到2009年6月的过去9个月的必应的查询内容。“网络语言模型”提供SOAP和REST访问支持,并提供相应的Python开发工具包。网址:http://web-ngram.research.microsoft.com/ |
微软亚洲互联网工程院 | 必应搜索引擎(bing.com) | 5号展位/周明 | 我们将展示微软最新推出的必应搜索包括英文搜索和中文搜索。必应搜索在桌面、手机、平板电脑上提供了公正精确全面的搜索结果,利用简单便捷的用户搜索体验,用户可以直达搜索目标。必应搜索把社会关系网络的信息整合到搜索之中,使用户可以得到来自社会关网络的信息。必应中文搜索在充分了解中国人的搜索需求基础上,提供了必应词典、在线翻译和英文搜索、读心机器人、人立方等专门针对中国用户特点的服务。 |
数字出版国家重点实验室(北大方正集团有限公司) | 普适性文档(CEBX)技术及其应用 | 2号展位/汤帜 | CEBX是新一代普适性文档技术,融合了固定版式信息和结构化的流式信息,解决了数字出版中的终端多样化所带来的问题,使一个文档能够同时支持PC、手机、平板电脑、电子阅读器等终端的阅读,可以实现一次制作、多平台多次利用,既可以原版原式地显示或打印,又可以在移动设备上更好地实现高质量的屏幕自适应和实时排版。同时,其原版原式、动态交互等诸多特性,也使得CEBX能够在文档存储、办公自动化、电子病历、电子书包等多个行业、领域中有着广泛的应用。方正阿帕比(Apabi)采用CEBX技术研发的明星产品——“中华数字书苑”多次被温家宝总理、习近平副主席等国家领导人作为国礼赠送给英国剑桥大学、比利时鲁汶大学、德国柏林国家图书馆等海外机构。 |
明博教育科技有限公司 | 优课数字化教学应用系统 | 6号展位/陈丹 | “优课数字化教学应用系统”是国内首家以正版教材内容为核心的教学应用系统,定位于基础教育课堂信息化同步教学应用的工具和服务平台。本系统基于新课程标准,整合正版数字化教材、嵌入式教学资源、数字化教学工具软件、资源管理工具软件,及基于网络的后台管理软件平台于一体,为用户提供应用平台、资源平台、管理平台三大功能平台,实现数字化教学常态应用。为中小学校构建智能、高效、开放、易用的教学应用平台、教学资源平台、和教学管理平台,提升多媒体教学设备使用率,依托校园网络和教育城域网络实现教学资源流通与共享,帮助用户逐步摆脱“信息孤岛”的困境,促进教学资源均衡化,实现全面数字化教学。 “优课数字化教学应用系统”为满足不同用户需求,提供教师端、学生端和机构管理端软件。明博教育,为教学成就卓越! |
中国科学院计算技术研究所 | 多语言翻译研究与应用 | 3号展位/吕雅娟 | 机器翻译作为一种能够利用计算机实现各种语言之间自动转换的技术,对于全世界各国各民族之间的文化交流、缓解语言障碍问题具有重要的意义。中国科学院计算技术研究所自然语言处理研究组是国际上机器翻译领域较为知名的研究团队之一,近年来在统计机器翻译研究和应用方面取得了较大的进展。本次会议我们将展示自主研究开发的多语言机器翻译系统,目前支持汉语-英语、英语-汉语、维吾尔语-汉语、藏语-汉语、蒙古语-汉语、韩语-汉语、泰语-汉语等多种语言对。我们还将展示专利翻译、移动翻译、菜单翻译等多个领域的实用翻译系统。欢迎访问我们的展位! |
中国科学院自动化研究所 | 紫冬口译 | 1号展位/高鹏、陈振标、于雅梅 | 紫冬口译(SimuTalk)是由CASIA口语翻译研究团队研发的一款中英口语语音互译手机软件App。您只用对着手机说出中文,紫冬口译就会识别出您说的话,翻译成英文,并同时朗读出来,从英文到中文也可以识别和翻译。体验网址http://s2s.ia.ac.cn。紫冬口译是基于紫冬语音云平台开发的前端应用。紫冬语音云平台集成了中/英文连续语音识别、机器翻译和语音合成等自主核心技术,通过3G、Wifi等互联网为前端应用提供便捷高效的云服务。 |
Poster | |||
序号 | 标题 | 作者 | 摘要 |
P1 | Chinese Word Segmentation Oriented Natural Annotation in Large Scale Corpora | Gaoqi RAO*, Endong XUN; Beijing Language University, China | The contradiction between remarkable rise in size of corpus and soaring cost of manual tagging attracts focus on natural annotations in language. Instead of building information resource by experts or annotators, mining the information from corpus itself has great influence in large-scale datasets. Therefore, natural annotation has become a natural choice, showing hope to solve problems in annotation cost and linguist knowledge formalization. What natural annotations are, their distribution and their meaning on large datasets are discussed. The proposed research on word extraction shows the potential of natural annotation in word segmentation. |
P2 | 汉语并列复句的自动识别方法 | Yunfang WU*, Jing SHI, Fuqiang WAN; Institute of Computational Lin,Peking university | 句际语义关系自动分析有着广泛的应用价值,可应用于文本摘要、语篇生成、智能问答、机器翻译等,大大提升相关应用系统的性能。句际关系中,并列关系是分布最为广泛的关系,并列关系的两个小句在语义联系上最为紧密,因此并列关系的识别非常重要。本文尝试自动识别汉语的并列复句,即小句之间的并列关系。本文实验了基于词义的句子相似度计算、最大公共子串、最大谓词周边匹配长度、加重特定词语复现等方法,并将其中三种方法进行了集成,取得了较为理想的效果 |
P3 | 基于逗号的汉语子句识别研究 | Yancui LI*, Wenhe FENG, Guodong ZHOU; Suzhou University | 篇章分析是自然语言处理的一个核心问题,其中基本篇章单位识别是篇章分析的基础任务。根据篇章分析的任务和实践,结合传统研究,提出汉语的基本篇章单位为子句,从结构、功能、形式等方面给出其定义。逗号处理是汉语子句识别的关键问题,分析了逗号与子句的关系,并在标注语料上进行了基于逗号的汉语子句识别研究。在标注了CTB6.0中1348个句子的2171个逗号可否作为子句边界的语料上,抽取句法、词汇、长度等特征进行实验,子句识别准确率为89.9%。然后利用信息增益选出贡献最大的8个特征,使用它们也可获得较高的子句识别准确率。最后仅使用词法信息,子句识别准确率可达84.5%。实验证明本文的子句定义合理,基于逗号的子句识别理论上和实验上均可行。 |
P4 | 基于特征比较和最大熵模型的统计机器翻译错误检测 | Jinhua DU*, Sha WANG, Xi'an University of Technology | 近年来,译文错误预测和分析成为统计机器翻译研究和应用的重要方向。本文首先介绍3种典型的用于翻译错误检测和分类的单词后验概率特征,即基于固定位置的词后验概率、基于滑动窗的词后验概率和基于词对齐的后验概率,分析了其对错误检测性能的影响,然后分别将其与语言学特征如词性、词及由LG句法分析器抽取的句法特征等进行组合,利用最大熵分类器预测翻译错误,并在汉—英NIST数据集上进行实验验证和比较。实验结果表明了不同的单词后验概率对分类错误率的影响是显著的,并且在词后验概率基础上加入语言学特征的组合特征可以显著降低分类错误率,提高译文错误预测性能。 |
P5 | 甲骨文字形动态描述库及其字形生成技术研究 | Qingsheng LI*, An Yang Normal University | 甲骨文字是有别于现代汉字的一种雕刻在牛骨或龟甲上的象形文字。现代汉字字形的计算机描述方法不能完全应用于甲骨文字形的描述。基于甲骨文字形多变,异体字多等特点,提出了一种甲骨文字形描述方法,使用该方法将甲骨文字形进行矢量描述,建立了甲骨文字形描述库。通过字形描述库自动生成多种甲骨文字形。有效地解决了由于使用轮廓字形描述甲骨文字形而存在的字形动态编辑和字形变换的困难,为古文字的数字化编辑提供了一个新思路。 |
P6 | 面向专利文献的汉语分词技术研究 | Jinyuan YUE*, Jinan XU, Yujie ZHANG; Beijing Jiaotong University | 针对专利文献专业术语多、领域广的特点,采用基于领域词典与统计相结合的方法探讨了专利文献的汉语分词问题;主要方法是利用NC-value算法抽取专业术语,使用条件随机场模型(CRF)提高专业术语识别率,提高分词精度。实验结果表明,提出的方法在开放测试下的分词的准确率为95.56%,召回率为96.18%,F值为95.87%,大大提高了专利文献的分词精度。 |
P7 | 一种基于条件随机场的中文词性标注并行化方法 | 刘滔*, 雷霖, 陈荦, 雄伟; 国防科学技术大学 | 词性标注是自然语言处理的基础技术。针对条件随机场模型面对大规模数据传统训练算法单机处理性能不高的问题,提出了一种基于MapReduce框架的条件随机场模型训练并行化方法,设计了条件随机场模型特征提取及参数估计的并行算法,实现了迭代缩放算法的并行。实验表明,所提出的并行化方法在保证了训练结果正确性的同时,大大减少了训练时间,性能得到了较大提升。 |
P8 | 一种基于流形距离的中文语块聚类分析方法 | 雷霖, 雄伟; 国防科学技术大学 | 聚类方法是发现数据内在模式、抽取内部特征的无监督方法。将中文语块分析看作词在句子内部聚类并标记语块类别的过程,建立了中文语块分析的聚类模型。首先构建词的语法功能空间,使用ISOMAP方法重构词空间的低维流形嵌入,进而考察词在低维空间中的分布情况。在使用层次聚类方法分析语块时,使用流形上的距离替代传统的欧式距离,在算法复杂度可以接受的范围内,提高了语块分析效果。 |
P9 | 藏文音节规则模型及应用 | Zhu Jie*, Tibetan University | 藏文音节具有独特的构造方法,不同的构造位上有不同的藏文字符。根据藏文字符不同的组合,构成了千变万化的藏文音节。由于字母的语音特性,藏文组合形式上有诸多限制。本文以藏文音节为研究对象,借助藏文语法规则,建立了现代藏文音节的简化模型和相应的规则库,介绍了其应用领域,提出了一种基于音节模型的的藏文音节自动拼写算法,通过实验验证了规则方法的有效性。 |
Demo | |||
序号 | 标题 | 作者 | 摘要 |
D1 | 基于上下文的话题和话题关系的演化研究 | Jian ZHANG*, SJTU; Fang LI, Shanghai Jiaotong University | 自动挖据大规模语料中的语义信息以及演化关系近年来已受到广大专家学者的关注。话题被认为是文档集合中的潜在语义信息,话题演化用于研究话题内容随时间的变化。本文提出了一种基于上下文的话题和话题关系的演化方法。分析发现,一个话题常会和某些其它话题共现在多篇文档中,话题的共现信息被称为话题的上下文。上下文信息可以用于计算同时间段话题间的语义关系以及识别不同时间段中具有相同语义的话题。通过对6年两会报告语料集上的实验,结果显示,利用话题的上下文信息,不但可以改进话题演化的结果,而且还能挖据话题之间的关系以及揭示话题关系随时间的变化。 |
D2 | 检索结果多样化研究综述 | Jingbin GAO*, Muyun YANG; HIT | 搜索引擎目前已经成为用户获取信息的最重要的途径,它从数以亿计的网页资源中返回相关结果给用户。由于不同的用户的需求存在着明显的差异,因此,就需要多样化的结果来最大程度上满足尽可能多的用户的需求。通过对近些年的对搜索结果进行多样化处理的方法进行调研,从以下几个方面给出了检索结果多样化研究的总结:对各种方法给出统一的定义框架描述,即对多样化方法中使用的相关性、新颖性和二者的融合进行了统一定义;由于多样化的核心部分是如何计算一个待排序结果所涵盖的新信息量,所以对新颖性的不同尺度和不同的关于新颖性的典型计算方法进行了分类总结;对各种方法使用的数据集合和用于多样化的评价方法进行详细说明。最后,对于上述的一些具体技术环节,指出了当前方法中存在的一些问题。 |
D3 | 先秦文献的古今字、通假字标注 | 冯敏萱*, 刘浏; 南京师范大学 | 正确辨识古今字和通假字是先秦文献语义理解需要解决的重要问题。本研究利用《汉语大词典》、25种先秦传世文献和十三经注疏构建了古今字、通假字频次统计表,利用文字学、训诂学研究文献构建了专书通假字数据库,利用中研院上古汉语标记语料构建了中研院语料假借字库。同时,尝试分别利用上述知识库对《墨子》、《孝经》和《楚辞》这三部不同类型的先秦语料进行了通假字标注。实验结果表明,传统训诂学成果最为可靠,但专书通假字数据库规模较小;中研院语料假借字库可以成为通假字标注的有益补充;在没有上述两种资源的情况下,注疏文献和词性标注语料亦可以提供部分信息。 |
D4 | 基于百科知识的查询意图获取 | Bingquan LIU; Ming LIU; Gang HU; 哈尔滨工业大学 | 查询意图分类作为改善搜索引擎检索质量的一种有效方法,越来越多的受到人们的关注。使用统计机器学习的文本分类方法来解决此问题,通常需要耗费大量的人工努力来标注用户查询。对此,本文提出了一种从百科知识中自动抽取标注数据集的方法,并以此训练统计分类器来解决查询意图分类问题。具体方法为:首先为每个意图类别标注少许的种子词条,然后利用百科知识的有向图结构来对其扩展,并最终抽取该意图类别的词条作为标注数据集。通过与用人工标注的真实查询训练的分类器进行比较,实验表明本方法无需大量的人工标注就可以取得较好的分类性能。 |
评测Poster | |||
序号 | 标题 | 作者 | 摘要 |
P10 | LTLAB 中文微博情感分析评测报告 | 周霄,周振宇,李芳; 上海交通大学 | 本文介绍了上海交通大学中德语言技术联合实验室(LTLAB)参加2012年中文微博情感分析评测的方法实现。在本届评测设立的3个评测任务中,LTLAB分别参加了任务1(观点句识别)和任务3(情感要素抽取):对于任务1,参评系统使用了基于分类器的方案,特征抽取时考虑到了文本中的词性和句法特征;对于任务3,参评系统结合了基于模板的抽取和基于分类器的抽取,考虑到了微博特有的话题信息以及词的统计信息。评测结果表明,本文提出的方法在实践中是行之有效的。 |
P11 | BUAA-SA: NLP&CC 2012中文微博情感分析评测报告 | 巢文涵,周庆,张川,高英恺,何晓楠,朱蔷; 北京航空航天大学 | 本文介绍了我们参与NLP&CC 2012中文微博情感分析评测的系统BUAA-SA,这是一个规则与统计相结合的情感分析系统,其中包括了观点句识别、情感倾向判断及情感要素提取等功能。考虑到微博属于短文本数据,系统基于搜索引擎对话题的情感词、情感对象进行了扩展。本文将首先介绍系统的基本组成,然后介绍系统参与NLP&CC 2012中文微博情感分析各任务的评测情况。 |
P12 | 基于CRF和句法分析的中文微博情感分析 | 陈豪,苏波,黄晨,刘功申; 上海交通大学 | 上海交通大学信息内容技术国家工程实验室参加了2012年CCF自然语言处理中文微博情感分析测评。在本次微博情感分析测评中,分别采用两种算法,提交了两组结果。第一种方法是采用条件随机场算法,对微博信息进行情感预测。第二种算法是,利用Standford Parser进行句法分析,然后,根据句子成分之间的修辞关系计算句子的情感。经过主办方的公开测试,两组算法的结果优异。 |
P13 | 话题型微博语言特点及其情感分析策略研究 | 侯敏,滕永林,李雪燕,陈毓麒,郑双美,侯明午,周红照;中国传媒大学 | 微博已经成为现代人们传递态度、意见和评价的重要形式。本文以语言主观性为理论依据,分析了话题型微博语言句子简短、负面倾向居多、情感表达强烈而理性评价淡化、口语色彩浓重、观点表达的隐晦和非直接、评价对象省略、非规范性等语言特点,并就此提出基于短语情感词典及语义规则的观点句识别及评价对象提取的策略。实验和评测结果证明,这些策略和方法取得了较好的效果。 |
P14 | 基于依存分析的中文微博情感分析研究 | 孙艳, 周学广, 李中远; 海军工程大学 | 有效地管理和使用微博评论信息是当前的迫切需求。在依存分析的基础上对中文微博进行了情感分析,参加了NLP&CC2012中文微博情感分析评测中的所有3个任务。总结了新词出现的原因,通过对成词的规则制定和串频统计等,提出一种基于规则和统计的新词识别算法。通过对现有情感词库的整合,构建了自己的情感词库。对情感词和评价对象的依存模式进行了分析,总结出6种评价单元模式,结合依存树的剪枝和归并策略,提出了基于依存分析的观点句识别方法和基于依存分析的情感要素抽取方法。在任务3的情感要素抽取评测中成绩排名第3,效果理想。 |
P15 | 中文同义词自动抽取研究 | 孙玉霞, 狄颖, 曹冉, 孙玉杰, 周俊生, 曲维光; 南京师范大学 | 本文对中同义词自动抽取的多种方法进行了研究,充分利用现有字典资源和网络百科知识。使用同义词林和中文概念典进行字方法研究;基于百度科,使用了模式匹模式匹配和并列结构的方法。基于模式匹配的方法在少量手动获取模式的基础上,从百科资源中自动获取上下文模式,从而实现同义词获取和自扩展。同时提出了基于并列结构的同义词自动抽取方法,采用基于词素的过滤和基于知网的过滤方法进行过滤,大大提高同义词抽取性能。实验结果表明,多种方法的综合使用,使得本文中的中文同义词自动抽取性能大幅度提高,并且适用于多种此类的同义词获取。 |
P16 | 面向开放异构知识库的词汇同义关系学习 | 刘燚灵, 吉阳生, 顾翀†, 崔首领, 贾江涛; 华为公司 | 词汇同义关系识别在文本信息管理、信息检索和自然语言处理等领域中扮演重要作用。识别词汇同义关系的方法主要有两类:基于结构化知识库的匹配方法和基于在线/离线语料库的统计学习方法。基于知识库的方法对词汇关系的整理需要很高的专业技能和昂贵的时间开销。基于语料库的统计方法从大规模的文本语料中学习词汇同义关系,但是其习得的语义关系准确性尚不能令人满意。面向来自因特网的开放异构知识库,本文提出一种从其中提取同义关系的统计方法,可以进一步扩展和补充结构化同义词典知识库;在取得较高准确性的同时,提高词典知识库的同义关系覆盖率。在CCF的开放性语义关系评测中,本文提出的方法取得了宏平均F1值第三名和微平均F1值第二名的成绩。 |
P17 | 基于网络资源的词语语义关系自动获取 | 刘江鸣, 徐金安, 吴培昊, 张玉洁; 北京交通大学 | 针对中文词语语义关系自动获取的问题,提出了一种基于维基百科和百度百科等网络资源的同义及上下位语义关系的获取方案;实验结果显示,提出的语义关系获取方案,在同义关系和上下位关系自动识别中达到很好的效果。上下位关系自动识别宏平均达到0.4185,微平均达到0.5596。 |
P18 | 基于情感要素的中文观点句抽取与极性判别方法 | 刘楠, 何炎祥, 方文其, 彭敏, 刘健博, 黄佳佳; 武汉大学 | 本文提出一种通过建立情感词典和基于情感文本训练语料的来获取句子中的情感要素的观点句抽取与极性判别方法,通过将单一情感要素和复合情感要素汇总计算,构建主客观句抽取和情感句极性分析的处理流程。并提供可同时用于两种情感信息的情感信息抽取模型。通过参与公开评测,证明该方法的有效性。 |
P19 | 基于微博情感词典的中文微博客话题情感分析 | 崔安颀, 张昊辰, 刘奕群, 张敏, 马少平; 清华大学 | 提出基于微博情感词典的中文客话题分析方法。使用有代表性相关语与未登录,构建微博情感词典,可涵盖传统正式中词典中 缺失的非正式用语。利标签迭代技术,自动计算微博情感词典中的词语情感得分。在微博客的上下文环境中,词语可能具有新含义或与传统相反。通过自动计算得到的情感得分更接近微博客中体现出的情感倾向。分类任务的评价结果表明使用微博词典可帮助识别微博句子主观性和情感倾向。 |
2011开放课题Poster | |||
序号 | 标题 | 编号/承担人 | 承担单位 |
P20 | 中文微博中的情感语义研究 | CCF2011-01-01 文坤梅 |
华中科技大学计算机科学与技术学院 |
P21 | 汉字可信编码及计算 | CCF2011-01-02 杨玉星 |
河南师范大学(山西大学) |
P22 | 汉字字形视觉重心的计算方法 | CCF2011-01-03 张俊松 |
厦门大学信息科学与技术学院 |
P23 | 基于约束条件随机场的电子图书在版编目数据抽取技术研究 | CCF-DP2011-02-03 董永权 |
徐州师范大学 |
P24 | 图书在版编目(CIP)数据提取研究 | CCF-DP2011-02-03 陈毅东 |
厦门大学 |
Industrial Demo | |||
序号 | 展位 | 展示成果 | 参展单位 |
ID1 | 7号展位/贾真 | 耶宝智慧中文分词系统 | 西南交通大学思维与智慧研究所 |
ID2 | 4号展位/周明 | 微软自动对联;英库(必应)词典;英库字幕翻译;英库拼音输入法;新一代多语言自动问答系统;网络语言模型(Web-Ngram) | 微软亚洲研究院; 微软雷蒙德研究院 |
ID3 | 5号展位/周明 | 必应搜索引擎(bing.com) | 微软亚洲互联网工程院 |
ID4 | 2号展位/汤帜 | 普适性文档(CEBX)技术及其应用 | 数字出版国家重点实验室(北大方正集团有限公司) |
ID5 | 6号展位/陈丹 | 优课数字化教学应用系统 | 明博教育科技有限公司 |
ID6 | 3号展位/吕雅娟 | 多语言翻译研究与应用 | 中国科学院计算技术研究所 |
ID7 | 1号展位/高鹏 | 紫冬口译 | 中国科学院自动化研究所 |
NLP&CC 2012
会议主办方 | |||
会议承办方 | |||
会议协办方 | |||
会议赞助方 |