当前位置: 首页 > news >正文

R语言xlsx,txt文件处理:以《书摘》00年-10年资源合集整理为例

偶然间读到一篇文章,分享06年《书摘》的内容,今天来看都不过时,所以起了找下这本老杂志合集的心思。

傅佩荣先生《哲学与人生》选段
“如果有人觉得活着很辛苦,面对自己又感觉无聊乏味,那么他应该多接触自然界。我有个朋友曾经养了九条狗,因为他认为看狗的脸比看人的脸舒服多了——的确,社会上很多人都是以貌取人,或见面先询问身家背景。譬如,我们下雨天走在街上,被一辆疾驶而过的车溅湿了衣服,如果看到那是一辆福特,通常会气愤难平,如果是一辆宾士,可能反而会后退一步,好像自己理屈。这就是群体造成的荒谬,使大家从外在价值来判断行为的是非。自古以来,人间岂有真正的公平?

自然界不会有这个问题,因为自然界的特色就是公平,耶稣说过:“(上天)降雨给义人,也给不义的人。”无论你是好人或坏人,下雨的时候都会淋到,绝对不可能因为你是好人就不会淋湿,坏人就变成落汤鸡。又如,任何人到海边都能听到一样的浪涛声,绝不会因人而异。自然界是公平的,当你觉得在群体和自我两方面面临很大的压力时,不妨和大自然多接触,譬如养宠物、种盆栽,假日到山上、公园走走,甚至街边的路树与小草都有值得观赏的地方。苏东坡说:“凡物皆有可观。苟有可观,皆有可乐,非必怪奇伟丽者也。”即使路边的一株小草、一朵小花,都有美妙迷人之处,并非只有风景名胜才值得造访。”

李强的《如何看待今日中国之富人阶层》。

这篇文章认为,中国人提起富人,总认为“为富即坏”,有“无商不奸”的说法,但作者认为:

“分层和差异在社会上是一种普遍的现象……差异也不是绝对的坏事情。因为我们知道如果没有落差,水是不会流动的。一个社会完全拉平了以后,它就缺乏动力。”

这句话讲得实在是太好了!我们担心的,不是社会有贫富差距,而是这种贫富差距被固化。只要阶层不被固化,社会分层绝对是一件好事。近几年,“绝对公平”的极左思想又开始出现,我们应该读一读十几年前的这段话。

首先是在网上搜现成的pdf合集,但好像没有,只现刊可以订阅,但找到了一个官方网站,刚好有00-10年老杂志的合集,多层链接,且文档是以前2G时代的瞎眼论坛模式,阅读不太友好。
打算根据这个网站,先获取文档,然后整理为带目录的txt文档,手机党就很方便。
在这里插入图片描述
具体分了这几步:
1、文档资源获取(爬虫步骤跳过啦),为了整理方便,处理成一篇文章一行的形式,序号、标题作为目录名称,时间用于分割文件(00-10年合计2k+篇文章,如果全放到一个txt文档,估计看一点人就废了,所以按年度分了11个文档)
在这里插入图片描述
2、接下来就是按上面思路把excel文档转为txt了,我是用R实现的,要点是函数、循环和字符串的拼接

d1<-read.xlsx('正文.xlsx')
#按年拆
d1$year<-str_sub(d1$文本1,1,4)
d1list<-split(d1,d1$year)#每年一合集
ab<-function(test){tt<-c()for (i in 1:nrow(test)) {tt[i]<-str_c(str_trim(str_c('第',test$篇章[i],'篇:',test$文本[i])),test$字段1[i],sep="\n")}rr<-paste(tt, collapse = '\n\n')rr<-str_remove_all(rr,'_x000D_')return(rr)
}for (j in 1:length(d1list)) {test<-d1list[[j]]book<-ab(test)bookname<-str_c('书摘/',names(d1list),'.txt')[j]write.table(book,bookname,col.names = FALSE,row.names = FALSE,quote = FALSE)
}

3、最后整理如下,手机效果也给大家看下,个别段落可能因为爬虫时间等待问题漏采,但是不影响阅读。需要杂志资源的可以评论或者私信。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 微信小程序npm扩展能力探究
  • CCS10导入CCS3.3工程
  • 287. 寻找重复数(stl法)
  • 【机器学习】和【人工智能】在量子力学的应用及代码案例分析
  • Spring Cloud 八股文
  • 【笔记】物理化学绪论
  • 【video clips 专栏 2 -- videopad 视频拼接】
  • 【LLM】局域网内为容器服务启用HTTPS
  • Spring中Bean的相关注解
  • ROM修改进阶教程------如何修改固件 线刷转卡刷 卡刷转线刷 操作中的一些注意事项
  • C++20中头文件bit的使用
  • k8s的环境配置
  • 【Linux】【Vim】Vim 基础
  • Python 数据分析— Pandas 基本操作(下)
  • 使用QT编写有图形界面的TCP局域网聊天室(app)
  • 【从零开始安装kubernetes-1.7.3】2.flannel、docker以及Harbor的配置以及作用
  • 002-读书笔记-JavaScript高级程序设计 在HTML中使用JavaScript
  • android图片蒙层
  • ES6 ...操作符
  • iOS小技巧之UIImagePickerController实现头像选择
  • javascript从右向左截取指定位数字符的3种方法
  • leetcode讲解--894. All Possible Full Binary Trees
  • Lsb图片隐写
  • Protobuf3语言指南
  • webpack4 一点通
  • 闭包,sync使用细节
  • 反思总结然后整装待发
  • 欢迎参加第二届中国游戏开发者大会
  • 力扣(LeetCode)965
  • 小程序测试方案初探
  • 新手搭建网站的主要流程
  • 新书推荐|Windows黑客编程技术详解
  • Linux权限管理(week1_day5)--技术流ken
  • # Java NIO(一)FileChannel
  • # 日期待t_最值得等的SUV奥迪Q9:空间比MPV还大,或搭4.0T,香
  • #git 撤消对文件的更改
  • #nginx配置案例
  • (10)工业界推荐系统-小红书推荐场景及内部实践【排序模型的特征】
  • (2009.11版)《网络管理员考试 考前冲刺预测卷及考点解析》复习重点
  • (MonoGame从入门到放弃-1) MonoGame环境搭建
  • (篇九)MySQL常用内置函数
  • (十五)使用Nexus创建Maven私服
  • (一)Docker基本介绍
  • (一)utf8mb4_general_ci 和 utf8mb4_unicode_ci 适用排序和比较规则场景
  • (一)模式识别——基于SVM的道路分割实验(附资源)
  • (转)chrome浏览器收藏夹(书签)的导出与导入
  • .NET 4.0中使用内存映射文件实现进程通讯
  • .NET C# 操作Neo4j图数据库
  • .net core docker部署教程和细节问题
  • .net core 实现redis分片_基于 Redis 的分布式任务调度框架 earth-frost
  • .NET core 自定义过滤器 Filter 实现webapi RestFul 统一接口数据返回格式
  • .net core使用RPC方式进行高效的HTTP服务访问
  • .NET MVC之AOP
  • .NET 发展历程
  • .NET中winform传递参数至Url并获得返回值或文件