文章摘要
【关 键 词】 盲文翻译、课程学习、mT5模型、高中生赛道、社会影响
在2024年的NeurIPS会议上,一个特别的成就引起了广泛关注:中国人民大学附属中学的高中生吴悠,以第一作者的身份提交的论文《Vision-Braille:An End-to-End Tool for Chinese Braille Image-to-Text Translation》被选为Spotlight Project。这项研究提出了一种将中文盲文图像直接翻译成文本的端到端工具,基于谷歌的mT5模型,并采用了课程学习方法进行微调。
该研究面临的挑战包括中文盲文翻译数据集的稀缺性、盲文数据的特殊性以及中文中同音字的混淆问题。为了解决这些问题,研究团队构建了三个中文-盲文数据集:Chinese-Braille-Full-Tone、Chinese-Braille-No-Tone和Chinese-Braille-10per-Tone。他们从莱比锡数据集中收集了100万个中文句子,并使用在线平台将这些句子转换为盲文。为了模拟实际使用情况,他们随机去除了90%的声调,创建了Chinese-Braille-10per-Tone数据集。
在训练方法上,研究者使用RetinaNet进行盲文OCR任务,将图像转换为数字盲文字符,然后通过三个阶段的课程学习策略微调mT5模型。实验结果表明,该模型在验证集和测试集上的BLEU得分分别为62.4和62.3,显著提高了盲文翻译的准确性。
吴悠在高三时完成了这项研究,并在张铭教授的指导下进行。张铭教授是北京大学计算机学院的教授,她的研究领域包括文本挖掘、知识图谱、图神经网络和计算机教育研究等。她的论文曾获得ICML 2014最佳论文和ICDM 2022最佳论文提名。
NeurIPS新设立的“高中生赛道”旨在鼓励高中生探索机器学习的社会影响。提交的项目必须由高中生独立完成,并突出显示其积极的社会影响或潜力。此外,其他顶级会议如CVPR也在通过与高中合作开展专业讲座等活动,积极接触和影响高中生。
论文和项目Demo的链接已公开,供有兴趣的人测试和了解。
原文和模型
【原文链接】 阅读原文 [ 1317字 | 6分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆