当前位置: 首页 > news >正文

Irony Detection in Urdu Text: A Comparative Study Using Machine Learning Models and Large Languag...

文章总结与翻译

一、主要内容

该研究聚焦低资源语言乌尔都语的反讽检测问题,核心是通过跨语言数据适配与多模型对比,构建高效的乌尔都语反讽检测体系,具体内容如下:

  1. 数据构建:针对乌尔都语反讽数据集稀缺的现状,将英文常用反讽语料库(含1950条Reddit评论,标注为反讽/非反讽)通过“机器翻译+人工后期编辑”的半自动化方式翻译成乌尔都语,经多阶段质量验证,确保语义准确性与反讽意味的完整性,最终形成适用于二分类任务的乌尔都语数据集。
  2. 数据预处理:针对乌尔都语语言特性,执行文本标准化(去除冗余空格、控制字符等)、去除变音符号、统一音译形式、小写转换、语言专属分词、停用词移除等步骤;为传统机器学习模型采用GloVe和Word2Vec词嵌入,为Transformer类模型使用内置预训练分词器。
  3. 模型实验
    • 传统机器学习模型:测试逻辑回归、SVM、随机森林等10种算法,基于GloVe和Word2Vec嵌入训练,其中梯度提升(Gradient Boosting)表现最佳,GloVe嵌入下F1分数达89.18%。
    • 大型语言模型(LLMs):微调BERT、RoBERTa、LLaMA 2(7B)、LLaMA 3(8B)、Mistral等模型,LLaMA 3(8B)性能最优,F1分数高达94.61%。
  4. 实验结论:LLMs在乌尔都语反讽检测中显著优于传统机器学习模型,深层语义表征与上下文捕捉能
http://www.jsqmd.com/news/1129000/

相关文章:

  • 3分钟搞定全学期电子课本下载:智慧教育平台解析工具完全指南
  • deepseek公式粘贴后出现星号?别怕!AI导出鸭一键清除乱码,精准还原LaTeX
  • 如何去除 AI 输出文本中带 *、# 的小技巧,选用 AI 导出鸭优化文档导出,结合行业数据根除多余格式符号困扰
  • AI系统安全漏洞响应实战:Open-AutoGLM案例与七大关键步骤
  • 告别网盘限速:9大平台直链下载助手的完全使用指南
  • NTP算法实现客户端与服务器时间同步
  • Python OpenCV 二维傅里叶变换实战:5种经典图像频谱图生成与解读
  • 数据分析综合项目案例:幸福指数深度挖掘(KNN,随机森林)
  • 大模型微调实战指南 —— 从 LoRA 到全参微调,一文搞懂 Fine-tuning
  • 【Atlas】Atlas Server 的作用是什么?它对外提供哪些服务?
  • PIC18F86J55与SLO2016协议在嵌入式通信中的优化实践
  • 作为储能通信方案商,我们在SNEC 2026上被问得最多的问题是什么?
  • Easy-agent介绍
  • 反反爬进阶:AI自动识别反爬策略并动态切换采集方案
  • 教师资格证认定
  • 存储芯片千问千答第3篇:存储芯片中test mode是什么意思?
  • 用optiland绘制光扇图
  • 小学期第二周记录
  • UVa 520 Append
  • 【Linux】十一.进程概念--进程的控制
  • 2025年能量回馈的变流器负载试验装置(A题)的软件部分实现(全国大学生电子设计竞赛)
  • 小学期第四周记录
  • 存储芯片千问千答第4问:存储芯片中常说的E2E是啥?
  • 新e选烤火罩pH值[主里料](C类)GB/T 7573—2009 判定符合
  • 流放之路2构建规划终极指南:用Path of Building PoE2告别盲目配装
  • Python之rnaglib包语法、参数和实际应用案例
  • Evaluating Multimodal Large Language Models on Core Music Perception Tasks
  • 2026毕业生降AIGC平台盘点: 学术打磨+逻辑优化哪家强?
  • AI 全栈开发实战(15):全系列总结——从零到一做一个真正的 AI 产品
  • Explainability of Large Language Models: Opportunities and Challenges toward Generating Trustwort...