5.3小记1
现在已经爬取了猫途鹰上九寨沟风景区和澳门所有评论数量大于两百的景点的评论了,筛选条件是总评论数量大于两百,爬取数据是中文简体内容,所以数量实际并不多。而且九寨沟景区的景点并不仅仅有九寨沟风景区,这只是一个总的,其下还包括30多个景点,如果需要使用猫途鹰上的评论数据还需要进行爬取补充。
猫途鹰数据初步计划放弃使用,原因在于八爪鱼无法爬取评分,而且评论时间集中于18年之前,对目前的研究价值可能不是很大。
现在正在爬取携程上澳门景点评论数量大于两百的景点评论,和九寨沟36个景点的评论信息(九寨沟景点评论数量不做要求)。目前计划,全部使用携程的评论进行下一步的研究。等八爪鱼爬完,就对数据进行清洗,初步的清洗计划是删掉空格和换行,删除重复评论,表情符号。但是实际上有些评论会使用很多个符号,有些无意义的评论,陈述性评论等等。清洗过后就开始进行情感标注,计划标注1000个。从九寨沟和澳门数据集中按比例抽取,计划对2025年全年的数据进行预测,所以使用2025年之前的数据进行标注和训练模型。
