当前位置: 首页 > news >正文

【语言处理与Python】3.3使用Unicode进行文字处理

Unicode支持超过一百万种字符;

每个字符分配一个编号,成为编码点;在Python中,编码点写作\uXXXX的形式,其中XXXX是四位十六进制数;

 

从文件中提取已编码文本

#得到一个文件的路径(知道这个文件的编码)

path= nltk.data.find('corpora/unicode_samples/polish-lat2.txt')

import codecs

f=codecs.open(path,encoding=’latin2’)

#从文件对象f读出的文本将以Unicode返回,如果想在终端查看,必须使用合适的编码对它进行编码;unicode_escape是一种虚拟的编码

for line in f:

line=line.strip()

print line.encode(‘unicode_escape’)

Python中pring语句假设Unicode字符的默认编码是ASCII码

nacute=u’\u0144’

nacute_utf=nacute.encode(‘utf8’)

print repr(nacute_utf)

 

Python中使用本地编码

在文件的第一行或者第二行中包含字符串

# -*- coding:utr-8 -*-

 

转载于:https://www.cnblogs.com/createMoMo/archive/2013/05/24/3097107.html

相关文章:

  • Android应用程序组件Content Provider应用实例
  • 整数数组关于大整数包的设计!
  • LINQ to Sql系列一 增,删,改
  • [NET].NET Framework 3.5 SP1 真正的离线安装(转)
  • 访问共享目录C#访问共享目录与Word.ApplicationClass发生冲突的解决办法
  • C语言的库函数
  • 鼠标函数VC++全局钩子实现鼠标坐标值实时捕获
  • cut
  • 日志分析软件
  • cocos2d-x多分布率适配(iphone5、ipad、android)
  • 此版本的 SQL Server 不支持用户实例登录标志。该连接将关闭“的解决(转)
  • ASP.NET MVC 3.0(三): 初识MVC的Url映射潜规则Routing
  • C# 数据库删除操作错误报错 System.Data.SqlClient.SqlException (0x80131904)
  • vs2010的新特性(感悟var)
  • 动态规划方法之最长公共子序列
  • 11111111
  • es6--symbol
  • iOS 颜色设置看我就够了
  • Java IO学习笔记一
  • JavaScript对象详解
  • RxJS 实现摩斯密码(Morse) 【内附脑图】
  • SOFAMosn配置模型
  • springboot_database项目介绍
  • 从tcpdump抓包看TCP/IP协议
  • 理清楚Vue的结构
  • 前端设计模式
  • 如何编写一个可升级的智能合约
  • 深入体验bash on windows,在windows上搭建原生的linux开发环境,酷!
  • 世界上最简单的无等待算法(getAndIncrement)
  • 微信支付JSAPI,实测!终极方案
  • 用quicker-worker.js轻松跑一个大数据遍历
  • 责任链模式的两种实现
  • 积累各种好的链接
  • # 透过事物看本质的能力怎么培养?
  • #我与Java虚拟机的故事#连载16:打开Java世界大门的钥匙
  • (附源码)ssm高校实验室 毕业设计 800008
  • (附源码)计算机毕业设计SSM智能化管理的仓库管理
  • (九十四)函数和二维数组
  • (万字长文)Spring的核心知识尽揽其中
  • (转)Android中使用ormlite实现持久化(一)--HelloOrmLite
  • .NET 4.0中的泛型协变和反变
  • .net core webapi 部署iis_一键部署VS插件:让.NET开发者更幸福
  • .NET Core 项目指定SDK版本
  • .NET MVC第三章、三种传值方式
  • .NET 中什么样的类是可使用 await 异步等待的?
  • .NET4.0并行计算技术基础(1)
  • .Net多线程总结
  • .NET是什么
  • .NET与java的MVC模式(2):struts2核心工作流程与原理
  • @Autowired标签与 @Resource标签 的区别
  • [ 环境搭建篇 ] 安装 java 环境并配置环境变量(附 JDK1.8 安装包)
  • [20170705]diff比较执行结果的内容.txt
  • [BZOJ 3680]吊打XXX(模拟退火)
  • [BZOJ 4034][HAOI2015]T2 [树链剖分]
  • [C#]DataTable常用操作总结【转】