广告位联系
返回顶部
分享到

R语言UTF-8各种问题的解决方案

R语言 来源:转载 作者:秩名 发布时间:2021-04-18 10:03:20 人浏览
摘要

R语言在碰到读UTF-8文件,或者处理UTF-8数据时总是会遇到各种各样的问题,本姑娘也是在碰了n多次壁,被气得吐血好多次之后,终于对这类总结出了一些解决办法: 1. 读UTF-8文件,例如UTF-8格式的csv: 最好的处理办法就是: a1=read.table(C:\\test11.csv,sep

R语言在碰到读UTF-8文件,或者处理UTF-8数据时总是会遇到各种各样的问题,本姑娘也是在碰了n多次壁,被气得吐血好多次之后,终于对这类总结出了一些解决办法:

1. 读UTF-8文件,例如UTF-8格式的csv:

最好的处理办法就是:

a1=read.table('C:\\test11.csv',sep=',',fileEncoding = 'UTF-8',header = F)

如果使用如下方法可能会出错(全是血泪教训啊):

a2=read.csv('C:\\test11.csv',fileEncoding = 'UTF-8',header = F)
a2=read.csv('C:\\test11.csv',encoding = 'UTF-8',header = F)

2. 如何在R里把一个数据转化为UTF-8格式:

因为我在R里写了一段程序,需要把数据转化为JSON格式,通过上面的方法读进来的数据是没有问题,但是数据再R里并不是utf-8格式存储的,所以toJSON()时报了如下错误:

unable to escape string. String is not utf8

后来发现R里有一个函数可以把数据转为utf8格式:enc2utf8()

> a='小源'
> Encoding(a)#查看a的编码格式
[1] "unknown"
> b=enc2utf8(a)
> Encoding(b)
[1] "UTF-8"
 

3. 如何SOURCE一个UTF-8格式的R文件:

source一个utf8编码保存的R脚本,在windows下(linux由于默认编码就是utf8,直接source就可以)

source('test.R',encoding = 'UTF-8')

补充:mac系统csv乱码_R语言写入UTF-8格式CSV乱码解决办法

中文编码方式有GBK(GB2312)和UTF-8两种。

由于区域设置问题,在Windows系统下,Excel程序默认用GBK格式读取CSV文件。

因此会导致乱码。

如下图所示:

eb163b05995ec24dd3c026ef2a1c76bf.png

解决的办法是用tidyverse包中的write_excel_csv()函数。

下面上代码:

library(tidyverse)
x <- c('好好地', '针对是棒极啦', '哈好好好好好爱吼吼吼啊', '啊')
y <- c(1, 2, 3, 4)
z <- c('haha', 'hehe', 'hoho', 'lala')
xyz_tbl <- tibble(x,y,z)
        read_csv(file = 'data1.csv', )
#乱码
write.csv(xyz_tbl,'data_old.csv',row.names = T,fileEncoding='UTF-8')
#再次乱码
write_csv(xyz_tbl, 'data.csv')
#解决问题
write_excel_csv(xyz_tbl, 'data_ex.csv')
#以上文件用R读取都没问题
read_csv(file = 'data.csv')
read_csv(file = 'data_ex.csv')
read_csv(file = 'data_old.csv')
 

50379635e55fa90a3e6ca3a1e03204a2.png

原数据

3eaf7b79d1df09ea9d48bb785f391c3c.png

 

data.csv

 

436a7bb6de0de69e2e81f7c9de54d95d.png

 

data_ex.csv

 

56c00a36b452d70dde655a0447c360c0.png

 

data_old.csv

版权声明 : 本文内容来源于互联网或用户自行发布贡献,该文观点仅代表原作者本人。本站仅提供信息存储空间服务和不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权, 违法违规的内容, 请发送邮件至2530232025#qq.cn(#换@)举报,一经查实,本站将立刻删除。
原文链接 : https://blog.csdn.net/snowdroptulip/article/details/78806793
相关文章
  • R语言包的升级与降级问题的介绍
    R语言包的升级与降级 这篇博客只是记录一下在使用偏最小二乘判别分析时遇到的一些问题:暑期实习期间曾自行使用R语言caret包进行机器学
  • R语言绘制尺子的实现教程

    R语言绘制尺子的实现教程
    本文使用基本的绘图命令plot、rect、segments、text绘制一把长10厘米的直尺 1、定义基本单位 xcm - 0.07 ycm - 0.07 2、首先使用plot绘制一个空白画布
  • R语言对数据库进行操作的介绍
    数据是关系数据库系统以规范化格式存储。 因此,要进行统计计算,我们将需要非常先进和复杂的Sql查询。 但R语言可以轻松地连接到许多
  • R语言中ifelse、which、%in%的用法
    ifelse、which、%in%是R语言里极其重要的函数,以后会经常在别的程序中看到。 ifelse ifelse是if条件判断语句的简写,它的用法如下: ifelse(tes
  • R语言-使用ifelse进行数据分组

    R语言-使用ifelse进行数据分组
    数据分组,根据数据分析对象的特征,按照一定的数值指标,把数据分析对象划分为不同的区间部分来研究,以揭示内在的联系和规律性;
  • R语言-如何将list转换为向量?

    R语言-如何将list转换为向量?
    从excel中直接读取的数据为list,如下转换为向量 as.vector(unlist(x)) 补充:R语言基本运算,向量,矩阵,list,数组 1. 基本运算 1.1 加、减、乘
  • R语言中的因子类型的介绍
    一、Factor函数 #函数factor可以把一个向量编码为一个因子,其一般形式为:#factor(x,levels=sort(unique(x),na.last=TRUE),labels,exculde=NA,order=FALSE)#其中
  • R语言UTF-8各种问题的解决方案
    R语言在碰到读UTF-8文件,或者处理UTF-8数据时总是会遇到各种各样的问题,本姑娘也是在碰了n多次壁,被气得吐血好多次之后,终于对这类
  • Rstudio中安装package出现的问题及解决
    Rstudio中安装package问题 一、 install.packages(REmap)无法安装package:错误:无法与服务器建立连接 解决方式:切换下载的镜像 方法一:在Rstudio菜
  • R语言操作X轴日期实例介绍
    R语言操作X轴日期: 需要用到程序包library(lubridate);程序包是在R的安装包C:\R-3.4.4\bin\x64\RGui.exe里根据命令安装的 将日期改为xxxx/xx/01; fir
  • 本站所有内容来源于互联网或用户自行发布,本站仅提供信息存储空间服务,不拥有版权,不承担法律责任。如有侵犯您的权益,请您联系站长处理!
  • Copyright © 2017-2022 F11.CN All Rights Reserved. F11站长开发者网 版权所有 | 苏ICP备2022031554号-1 | 51LA统计