一名学生利用余弦相似度分析Hacker News评论中的高频词,以识别相似账户。作者通过Python脚本处理数据,应用Burrows-Delta方法生成用户风格向量,并将其存储在Redis中。研究表明,使用150到500个高频词能够有效区分用户的写作风格。
本研究探讨了大型语言模型中某些词汇在科学英语中的频繁出现,分析了21个高频词的过度使用原因。尽管未确认模型架构或训练数据是主要因素,研究强调了大型语言模型对语言变化的影响,并呼吁进一步研究其机制。
完成下面两步后,将自动完成登录并继续当前操作。