如何利用R软件简单处理文本数据

 时间:2024-10-14 13:39:55

1、将要分析的文本文档存在一个目录里。加载程序包tm,利用函数Corpus处理文档。代码如下:librar烤恤鹇灭y(tm)#读取文件夹名filename<-"C:/Users/jsb/Desktop/txt"#语料库,DirSource处理目录text<-Corpus(DirSource(filename),readerControl = list(language="lat"))summary(text)要处理的目录中有两个文档,文档名称和类别。

如何利用R软件简单处理文本数据

2、读取文档目录后,可以用函数inspect查看文档,查看单个文档要加双括号。#语料库的提取inspect(text[1:2])#提取单个文档identical(text[[1]],text[["text.txt"]])text[[1]]

如何利用R软件简单处理文本数据

3、利用tm_map函数对文本进行一些处理。#去除空白text<- tm_map(text, stripWhitespace)#小写变换text&造婷用痃lt;-tm_map(text,tolower)#停止词去除text<-tm_map(text,removeWords,stopwords("english"))

如何利用R软件简单处理文本数据

4、wordcloud包中的wordcloud函数绘制词云图。#词云图> library(wordcloud)> wordcloud(text)

如何利用R软件简单处理文本数据

5、利用DocumentTermMatrix生成文档关系矩阵,这是建立模型的基础。#文档关系矩阵dtm<-DocumentTermMatrix(text)inspect(dtm[1:2,1:20])结果中可以看到前两个文档中20个词语出现的频次表。

如何利用R软件简单处理文本数据

6、从文档关系矩阵出找出我们关心的瓠鲺闲剔词。例如:#找出出现6次以上的条目findFreqTerms(dtm,6)#找到与"program"的相关系数在0.8以上的条目findAssocs(dtm, "program", 0.8)

如何利用R软件简单处理文本数据
  • 汽车贴膜价格表 一般汽车贴膜要多少钱
  • 英雄联盟手游召唤师技能一览
  • 支付宝地下室夏日FM怎么玩
  • 热门搜索
    走进汉字王国手抄报 百善孝为先手抄报内容 有关消防的手抄报 关于和平的手抄报 关于百分数的手抄报 小学生行为规范手抄报 关于传统文化的手抄报 数学手抄报大全 知识树手抄报 我中国梦手抄报内容