牛骨文教育服务平台(让学习变的简单)
博文笔记

提取中文词组

创建时间:2014-03-07 投稿人: 浏览次数:112

 提取中文词组

原文从如下的txt文件中提取【】中的词组。


【挨边】āi∥biān(~儿)①动靠着边缘:上了大路,要挨着边儿走。②动接近(某数,多指年龄):我六十~儿了。③形接近事实或事物应有的样子:你说的太不~儿!
【挨近】āi∥jìn动靠近:你~我—点儿|两家挨得很近。
【挨批】ái∥pī动受到批评或批判:挨了一顿批。
【挨宰】ái∥zǎi〈口〉动比喻购物或接受服务时被索取高价而遭受经济损失。
【挨整】ái∥zhěnɡ动受到打击迫害:他过去挨过整。
【爱国】ài∥ɡuó动热爱自己的国家:~心|~人士。



程序代码


#! /usr/bin/env python
# -*- coding: cp936 -*-
# -*- coding: encoding -*- 
import re

f=open("hello.txt","r")
f_new=file("hello_new.txt","a+")
while True:
    line=f.readline()
    if line:
        p=re.compile(unicode("【(.*?)】","gb2312"))
        s=unicode(line,"gb2312","ignore")
        for i in p.findall(s):
            print i
            f_new.write(i.encode("gb2312"))
            f_new.write(" ")
    else:
        break
   
f.close()
f_new.close()


声明:该文观点仅代表作者本人,牛骨文系教育信息发布平台,牛骨文仅提供信息存储空间服务。