当前位置：首页 > news >正文

Paddle上手实战——NLP经典cls任务“推特文本情感13分类”

news 来源：原创 2024/9/21 20:28:49

Paddle上手实战——NLP经典cls任务“推特文本情感13分类”

实战背景介绍

数据地址：https://www.heywhale.com/home/activity/detail/611cbe90ba12a0001753d1e9/content

Twitter推文具备多重特性，首要之处在于其与Facebook的显著区别——其完全基于文本形式，通过Twitter接口可轻松注册并下载，从而便于作为自然语言处理研究所需的语料库。此外，Twitter明确规定了每篇推文的长度上限为140个字符，实际推文的长短各异，但普遍偏短，部分推文甚至仅包含一个句子或短语，这增加了对其进行情感分类标注的复杂性和挑战性。再者，推文往往具有即兴性，内容中富含情感元素，口语化表达较为普遍，缩写和网络用语频繁出现，情绪符号、新词和俚语亦屡见不鲜，这使得其与正式文本存在显著区别。因此，若采用适用于正式文本的情感分类方法对Twitter推文进行情感分析，其效果往往不尽如人意。

公众情感在多个领域，如电影评论、消费者信心、政治选举以及股票走势预测等，正日益展现出其重要的影响力。针对公共媒体内容进行情感分析，已成为分析公众情感的一项基础性任务，其重要性不言而喻。

准备数据集

数据集基于推特用户发表的推文数据集，并且针对部分字段做出了一定的调整，所有的字段信息请以本练习赛提供的字段信息为准
字段信息内容参考如下：

tweet_id string 推文数据的唯一ID，比如test_0，train_1024
content string 推特内容
label int 推特情感的类别，共13种情感

其中训练集train.csv包含3w条数据，字段包括tweet_id,content,label；测试集test.csv包含1w条数据，字段包括tweet_id,content。

tweet_id,content,label
tweet_1,Layin n bed with a headache  ughhhh...waitin on your call...,1
tweet_2,Funeral ceremony...gloomy friday...,1
tweet_3,wants to hang out with friends SOON!,2
tweet_4,"@dannycastillo We want to trade with someone who has Houston tickets, but no one will.",3
tweet_5,"I should be sleep, but im not! thinking about an old friend who I want. but he's married now. damn, &amp; he wants me 2! scandalous!",1
tweet_6,Hmmm. 
http://www.djhero.com/ is down,4
tweet_7,@charviray Charlene my love. I miss you,1
tweet_8,cant fall asleep,3

加载数据集

加载数据集

在数据分析和机器学习的项目中，加载数据集是至关重要的一步。数据集的质量、格式和完整性直接影响到后续的分析和模型训练的效果。在本章节中，我们将详细讨论如何加载数据集，并对其进行初步的处理和检查。

一、数据集来源与选择

首先，我们需要明确数据集的来源。数据集可以来自公开的数据仓库、研究机构、商业平台或者通过爬虫等方式自行获取。在选择数据集时，需要考虑数据集的可靠性、时效性、相关性和规模。对于Twitter推文这样的文本数据，我们可能需要从Twitter API或者相关的第三方数据源获取。

二、数据加载方式

数据加载的方式取决于数据的存储格式和所使用的编程环境。对于文本数据，常见的存储格式包括CSV、JSON、TXT等。在Python环境中，我们可以使用pandas库来加载这些数据。

例如，对于CSV格式的数据，可以使用以下代码加载：

import pandas as pd  # 假设数据集名为'tweets.csv'  
data = pd.read_csv('tweets.csv')

对于JSON格式的数据，可以使用：

import pandas as pd  # 假设数据集名为'tweets.json'  
data = pd.read_json('tweets.json')

如果数据存储在数据库中，则需要使用相应的数据库连接和查询语句来加载数据。

三、数据初步处理

加载数据后，通常需要进行一些初步的处理，包括数据清洗、缺失值处理、异常值处理等。对于Twitter推文数据，可能需要去除无关字符、标点符号、停用词等，并进行文本编码转换。

例如，我们可以使用正则表达式来去除推文中的URL和特殊字符：

import re  # 定义一个函数来清洗推文  
def clean_tweet(tweet):  tweet = re.sub(r'http\S+', '', tweet)  # 去除URL  tweet = re.sub(r'[^\w\s]', '', tweet)  # 去除特殊字符  return tweet  # 应用清洗函数到数据集中的每一行  
data['clean_tweet'] = data['tweet'].apply(clean_tweet)

四、数据检查

加载并初步处理数据后，我们需要对数据进行检查，以确保数据的完整性和准确性。这包括检查数据的行数和列数、检查是否有缺失值、检查数据的分布情况等。

# 检查数据集的形状（行数和列数）  
print(data.shape)  # 检查缺失值  
print(data.isnull().sum())  # 查看数据分布（例如，查看某个字段的唯一值数量）  
print(data['column_name'].nunique())

通过这些检查，我们可以对数据的整体情况有一个大致的了解，并为后续的分析和建模工作做好准备。

综上所述，加载数据集是数据分析和机器学习项目中的关键步骤。通过选择合适的数据源、使用适当的加载方式、进行初步的数据处理和检查，我们可以确保数据的质量和可用性，为后续的工作奠定坚实的基础。

本数据集实战代码

	tweet_id	content	label
0	tweet_0	@tiffanylue i know i was listenin to bad habi...	0
1	tweet_1	Layin n bed with a headache ughhhh...waitin o...	1
2	tweet_2	Funeral ceremony...gloomy friday...	1
3	tweet_3	wants to hang out with friends SOON!	2
4	tweet_4	@dannycastillo We want to trade with someone w...	3

def read(pd_data):for index, item in pd_data.iterrows():       yield {'text': item['content'], 'label': item['label'], 'qid': item['tweet_id'].strip('tweet_')}

# 分割训练集、测试机
from paddle.io import Dataset, Subset
from paddlenlp.datasets import MapDataset
from paddlenlp.datasets import load_datasetdataset = load_dataset(read, pd_data=train,lazy=False)
dev_ds = Subset(dataset=dataset, indices=[i for i in range(len(dataset)) if i % 5 == 1])
train_ds = Subset(dataset=dataset, indices=[i for i in range(len(dataset)) if i % 5 != 1])

for i in range(5):print(train_ds[i])

# 在转换为MapDataset类型
train_ds = MapDataset(train_ds)
dev_ds = MapDataset(dev_ds)
print(len(train_ds))
print(len(de

北京网站建设多少钱？

辽宁网页制作哪家好_网站建设

高端品牌网站建设_汉中网站制作

C++第一弹---C++入门(上)

【力扣 - 找到字符串中所有字母异位词】

嵌入式学习35-网络通信UDP聊天及TCP

ROS2从入门到精通0-2：ROS2简介、对比ROS1与详细安装流程

rk3568 Android12 增加支持 ntfs 格式

指针的学习4

DNS服务

MySQL 学习笔记（基础篇 Day3）

LVGL在VScode中安装模拟器运行配置笔记教程

留学|推荐信|专业课老师|计算机科学与工程

spring-data-elasticsearch官方文档解读（部分）

Matplotlib进阶学习：基于Matplotlib实现设置Times New Roman字体

RabbitMQ实战：docker compose 搭建RabbitMQ

scrcpy远程投屏控制Android

【调试记录】vscode远程连接问题汇总

【从零开始安装kubernetes-1.7.3】2.flannel、docker以及Harbor的配置以及作用

AWS实战 - 利用IAM对S3做访问控制

conda常用的命令

Cumulo 的 ClojureScript 模块已经成型

ES学习笔记(10)--ES6中的函数和数组补漏

Fundebug计费标准解释：事件数是如何定义的？

js如何打印object对象

js写一个简单的选项卡

SQLServer之创建显式事务

Twitter赢在开放，三年创造奇迹

闭包,sync使用细节

从零开始的webpack生活-0x009：FilesLoader装载文件

基于Volley网络库实现加载多种网络图片（包括GIF动态图片、圆形图片、普通图片）...

看图轻松理解数据结构与算法系列(基于数组的栈)

前端 CSS : 5# 纯 CSS 实现24小时超市

浅谈Golang中select的用法

腾讯优测优分享 | Android碎片化问题小结——关于闪光灯的那些事儿

中国人寿如何基于容器搭建金融PaaS云平台

追踪解析 FutureTask 源码

LevelDB 入门 —— 全面了解 LevelDB 的功能特性

linux 淘宝开源监控工具tsar

（Redis使用系列） Springboot 使用redis实现接口幂等性拦截十一

（web自动化测试+python）1

(几何:六边形面积)编写程序，提示用户输入六边形的边长，然后显示它的面积。

（论文阅读11/100）Fast R-CNN

（七）MySQL是如何将LRU链表的使用性能优化到极致的？

(一)kafka实战——kafka源码编译启动

（转）winform之ListView

(转)重识new

(转)自己动手搭建Nginx+memcache+xdebug+php运行环境绿色版 For windows版

* 论文笔记【Wide Deep Learning for Recommender Systems】

.aanva

.java 9 找不到符号_java找不到符号

.NET 8 中引入新的 IHostedLifecycleService 接口实现定时任务

.NET 将多个程序集合并成单一程序集的 4+3 种方法

.NET项目中存在多个web.config文件时的加载顺序

.NET应用UI框架DevExpress XAF v24.1 - 可用性进一步增强

@AliasFor 使用

@Bean, @Component, @Configuration简析

[ Socket学习 ] 第一章：网络基础知识