当前位置：首页 > news >正文

Irony Detection in Urdu Text: A Comparative Study Using Machine Learning Models and Large Languag...

news 2026/7/5 15:31:55

文章总结与翻译

一、主要内容

该研究聚焦低资源语言乌尔都语的反讽检测问题，核心是通过跨语言数据适配与多模型对比，构建高效的乌尔都语反讽检测体系，具体内容如下：

数据构建：针对乌尔都语反讽数据集稀缺的现状，将英文常用反讽语料库（含1950条Reddit评论，标注为反讽/非反讽）通过“机器翻译+人工后期编辑”的半自动化方式翻译成乌尔都语，经多阶段质量验证，确保语义准确性与反讽意味的完整性，最终形成适用于二分类任务的乌尔都语数据集。
数据预处理：针对乌尔都语语言特性，执行文本标准化（去除冗余空格、控制字符等）、去除变音符号、统一音译形式、小写转换、语言专属分词、停用词移除等步骤；为传统机器学习模型采用GloVe和Word2Vec词嵌入，为Transformer类模型使用内置预训练分词器。
模型实验：
- 传统机器学习模型：测试逻辑回归、SVM、随机森林等10种算法，基于GloVe和Word2Vec嵌入训练，其中梯度提升（Gradient Boosting）表现最佳，GloVe嵌入下F1分数达89.18%。
- 大型语言模型（LLMs）：微调BERT、RoBERTa、LLaMA 2（7B）、LLaMA 3（8B）、Mistral等模型，LLaMA 3（8B）性能最优，F1分数高达94.61%。
实验结论：LLMs在乌尔都语反讽检测中显著优于传统机器学习模型，深层语义表征与上下文捕捉能

http://www.jsqmd.com/news/1129000/

相关文章：

3分钟搞定全学期电子课本下载：智慧教育平台解析工具完全指南

deepseek公式粘贴后出现星号？别怕！AI导出鸭一键清除乱码，精准还原LaTeX

如何去除 AI 输出文本中带 *、# 的小技巧，选用 AI 导出鸭优化文档导出，结合行业数据根除多余格式符号困扰

AI系统安全漏洞响应实战：Open-AutoGLM案例与七大关键步骤

告别网盘限速：9大平台直链下载助手的完全使用指南

NTP算法实现客户端与服务器时间同步

Python OpenCV 二维傅里叶变换实战：5种经典图像频谱图生成与解读

数据分析综合项目案例：幸福指数深度挖掘（KNN，随机森林）

大模型微调实战指南 —— 从 LoRA 到全参微调，一文搞懂 Fine-tuning

【Atlas】Atlas Server 的作用是什么？它对外提供哪些服务？

PIC18F86J55与SLO2016协议在嵌入式通信中的优化实践

作为储能通信方案商，我们在SNEC 2026上被问得最多的问题是什么？

Easy-agent介绍

反反爬进阶：AI自动识别反爬策略并动态切换采集方案

教师资格证认定

存储芯片千问千答第3篇：存储芯片中test mode是什么意思？

用optiland绘制光扇图

小学期第二周记录

【Linux】十一.进程概念--进程的控制

2025年能量回馈的变流器负载试验装置（A题）的软件部分实现（全国大学生电子设计竞赛）

小学期第四周记录

存储芯片千问千答第4问：存储芯片中常说的E2E是啥？

新e选烤火罩pH值[主里料]（C类）GB/T 7573—2009 判定符合

流放之路2构建规划终极指南：用Path of Building PoE2告别盲目配装

Python之rnaglib包语法、参数和实际应用案例

Evaluating Multimodal Large Language Models on Core Music Perception Tasks

2026毕业生降AIGC平台盘点：学术打磨+逻辑优化哪家强？

AI 全栈开发实战（15）：全系列总结——从零到一做一个真正的 AI 产品

Explainability of Large Language Models: Opportunities and Challenges toward Generating Trustwort...