Tell me and I forget. Teach me and I remember. Involve me and I learn. Chinese proverb from Xun Zuang

今天收到了,最佳新人奖章,非常激动,酝酿已久的行动,马上开始!

首先是全文HANLP的阅读已经完成,关于代码部分和技术部分,准备在行动中与以加强,标题开篇的古代先贤的话语,作为本次实践的起点,是给自己鼓励和打气。

下面先以HANLP读书笔记为起点,里面已经有了行动FLAG,只是还没有整理抽象出完整需求,对于小白来说,实践出真知,这和很多顾问对客户的定义完全一致,“客户啥都不懂!” 等小白成长成专家了,还要顾问干啥呢?

享受这个学习的过程吧,起飞!

Dear:

志强 和 袁德俊 在微信上的聊天记录如下,请查收。

————— 2022-06-22 —————

袁德俊 10:20

袁德俊 10:21

这个开本,非常适合摊平阅读[强]

袁德俊 10:38

霍金真传,这个可以大大地宣传下。这回传给同学们啦。:smile:

袁德俊 10:38

袁德俊 10:59

袁德俊 11:01

还是LINUX给力。这个场景基本就可以满足SIGER的需求了。再丰富一些语料,就可以武装下编辑同学的工作环境了。出成果有个小样儿,请何老师给评判下,给作业打个评语,考察下学习成果。

袁德俊 11:14

算法力量在图灵社区直播视频中有重点篇幅介绍。

袁德俊 11:14

袁德俊 11:22

如此的循序渐进,通过问题引导同学们探索,真是一位好老师啊。

袁德俊 11:22

袁德俊 15:34


袁德俊 15:34

袁德俊 15:35

不迷信砖家[耶] 眼见为实都不够,要亲自验视过,并经过长期比对才能有自己的判断[呲牙]

袁德俊 15:35

袁德俊 15:37

深入还能浅出,要不学生们就六号开小差啦,时刻提示同学们的目标,就在前方。(标点符号也不能表达作者的真实意图,没准之后,我们要更相信NLP的统计,比起自己的原始想法[偷笑])

袁德俊 15:55

新词的比例是不是有个统计,不会很多吧。新词模型如果够强悍,是否能自己通过训练创生出整个语料库?是不是想多了。

袁德俊 15:55

袁德俊 16:18

果然预谋已久,老谋深算,诱敌深入,循序渐进,这时要召唤下语言生成技术了,词穷的我,没有办法准确表达对老师的敬仰啦。再就是联想输入法真的是混淆视听的存在,提笔忘字不说,懒惰的脑袋,分分钟做语文选择题,真的是要命啊。这给NLP大脑带来多少噪声呢。

袁德俊 16:18

袁德俊 16:23

人家说升级打怪要练的,老师直接把怪都消灭了,简直就是NICE地带练啊,站在老师的肩膀上就升级啦。不能真么容易,只轻松优雅,没有百炼成钢,还是不踏实啊。

袁德俊 16:23

袁德俊 16:33

最近我给同学们布置的学习任务就是这样的地图,打怪升级用的。我们叫兴趣地图。画好自己的兴趣地图后,就要确定学研任务了。然后就是组团打怪,搞定每一关的BOSS,学研任务是以学习小组方式组成的,并要确定一个作业目标,也就是学习小组要完成一个终极任务。比如本次NLP学习小组的任务就很清晰,按照HANLP的知识地图直接上手,SIGER编委的日常编辑工作的辅助工具就是目标。学成后提交编委会实测体验,然后出评测报告给何老师打分颁奖,学习小组就完成一个阶段任务啦。然后可以做二期继续深入迭代,或者转移兴趣点打乱到其他小组,重组。继续打怪升级。我想同学们一定会感怀何老师的深入浅出。也会感染其他学研小组的同学,投来羡慕的目光的。如果NLP学研小组能得到何老师的支持,为其他学习小组也创造一个通用模型,自动勾画出兴趣地图,那就大大超预期啦。带着期待,进发。

袁德俊 16:33

袁德俊 16:36

SIGER NLP学习小组的成果,也可以选择研究协议共享。支持更多小伙伴,不只SIGER编委们。

袁德俊 16:36

袁德俊 16:48

刚想问,除了这些基础算法模型还能有哪些,何老师就直接给答案了,这可不是一般的带人打怪的老师,就是充分实践现身说法的学长,这样的老师怎能不爱呢。跑太快,漏了个关键词 OOV 一会儿补一下。

袁德俊 16:49

袁德俊 16:52

无监督学习,刚立的FLAG就看到曙光了,SIGER学习小组的兴趣地图可以用下面的知识尝试建立。

袁德俊 16:52

袁德俊 16:53

就是这个FLAG,SIGER兴趣驱动,学习循环[得意]

袁德俊 17:01

袁德俊 17:06

未登录词OOV,上何老师的课太轻松了,没有之二。之前SIGER有一个概念叫学霸笔记,鼓励同学们通过记录梳理自己的学习笔记实现分享的同时提高自己的目的。未来降低标准而降低,出来了一个中间标准,自管分享,以自己学习为目的组织语言,先成笔记再成学霸。看了何老师的“笔记”,终于明白了学习的标准。这是得多少个来回才能达到啊。重点突出,循序渐进,深入浅出。这才是真正的巨人[合十][抱拳]

袁德俊 17:08

袁德俊 17:09

SIGER有一个解码科技史的小组,对这些名人传记有特殊的喜爱。香农熵可以单独出一期专题的。[爱心]

袁德俊 17:19

一开始喜欢蝴蝶是因为何老师对蝴蝶的偏爱,在他的愿景表露无遗。这和SIGER对于我是一样,些许不同是 SIGER是自造词,我相信现有的NLP工具是可以理解出SIGER的基本意义的。再新专题香农熵里会介绍这只HANLP蝴蝶,这样两个学习小组的同学就有了交集,在开展各自学习前就有了先验知识,“老师再提问”,就会率先踊跃举手回答问题,得到表扬和鼓励后,就成为了该科的课代表。SIGER愿景之一是在足够丰富多维的兴趣小组中,每一个同学都会成为自己的学习小组课代表,绽放着足够绚丽的光彩,如夺目的蝴蝶在阳光下美丽。这是SIG后缀ER的初心,今日与何老师分享,是非常开心的时刻啦。让我对我们的未来充满期待。这个未来指的就是孩子们。

袁德俊 17:19

袁德俊 17:20

袁德俊 17:32

不劳而获是不可能,工欲善其事,必先利其器,NLP工具是知识工程的必备,怎么可能不劳呢。我们只是站在了巨人的肩膀上。只有更加努力,才能站的更高,看的更远。

袁德俊 17:32

袁德俊 17:37

SIGER的聚类应用之一就是学习小组的筹建,是种子选手的集合,之后依照同学们的自主意愿重新组合。除了各自的兴趣地图,技能树是一个参照标准。然鹅这只是工具,不能起到决定作用,兴趣聚类的主观意愿才是决定性的。而SIGER的示范作用会鼓励同学们去挑战自我。

袁德俊 17:37

袁德俊 17:41

这会很有用,大量的信息冗余会降低学习效率,发现一本好书可不那么容易,遇到何老师就更难了。挡在我和同学们面前的迷雾相当多,这些都是阻挠我们见何老师的噪声。先聚类,再提炼,是学习的必备工具和技能。事半功倍就靠它了。我们可以叫 SIGER 学习情报。必须通过人工干预。

袁德俊 17:41

袁德俊 17:47

有了基础,才能埋上更高台阶,问题从实践中来,终于知道ML和NLP的着力点啦。没有最好,只有更好。工程无止境。不劳而获的欲望沟壑永远无法填满。SIGER只期待事半功倍的利器,不会贪得无厌,也将用同学们的勤勉回报何老师之缘,成为更多振翅高飞的蝴蝶。

袁德俊 17:47

袁德俊 17:54

读到结尾才想起HANLP2.1的相关介绍文章中,有关神经探针,注意力机制的内容。这是一扇窗,由何老师推开,放飞的蝴蝶一定可以煽动大洋彼岸的巨浪,我想SIGER能尽绵薄之力,贡献几只蝴蝶。

袁德俊 17:54

袁德俊 18:04

和NLP同期SIGER另一篇专题,也是非结构化数据的信息挖掘,只是海量视频的标记和结构化信息提取,只作用于舆情监控上,前段时间GITEE的图床艳照风波导致了大面积关闭开源仓,被网友吐槽了很久的敏感词再次被晒到了大家的面前。部分SIGER分支分享一度被错误率很高的GITEE 选用的NLP第三方服务遮蔽。愿景在这里充分体现了工程的重要作用。这就是自顶而下的实践方法论。SIGER作为开源文化的科普期刊,一直秉承北向文化的引领作用。从一期期同学们的选题,就能看出这是一个阳光的群体,他们将减负建设人类共同的未来的使命,我们没有理由不送上我们的肩膀,让他们奋力一跃。

祝HANLP成为更多青少年的良师益友,也祝愿SIGER NLP学习小组诞生出几只茁壮的小苗和蝴蝶[抱拳]

袁德俊 18:05

附上一句评语,一本不用看公式也能畅快淋漓读完的NLP入门书,期待深入NLP早日诞生。[合十]何老师工作顺利

————— 2022-07-02 —————

袁德俊 16:36

袁德俊 16:37

有些尴尬啦[害羞]

袁德俊 16:38

袁德俊 16:39

这是同学们写的笔记版知识地图,肯定不能和何老师的融会贯通的比。但自己写的就是一定印象更深刻。再结合实践就更好了。

袁德俊 16:51

昨天和一位英国的科学老师交流,她回复了一句中国格言让我非常自豪。她在动手学习的课程实践中引用了荀子的格言。现在通俗版叫“实践出真知”

TELL ME AND I FORGET,TEACH ME AND I REMEMBER,INVOLVE ME AND I LEARN
英文源于两个名人,蒙特利梭女士,教育家,本杰明富兰克林。

《荀子 修身》:不闻不若闻之,闻之不若见之,见之不若知之,知之不若行之。学至于行而止矣。行之,明也。

袁德俊 16:55

同学们期待早日上手,并得到老师的直接指导,并以此为案例,展示HANLP学习之旅的畅快。前日的邀约,一直没有得到回复,实在不知我们所立的FLAG,很难实现吗?

袁德俊 16:55

或者是老师们百忙,无暇顾及

目前已经做了两方面的努力:
1.语料库目标已经有了,再准备公号爬虫,可以在linux上运行的还没有找到,都需要微信客户端
2. 适用了1.8 HANLP ,

第一个 FLAG,能对这些语料提取出一些期待的成果。比如:未知新词比例能达到一定的比例。
我有预感,不会很高,比如需要升级到2.1或者更高的版本。

或者,机器学习,左右手互搏出一个行业语料库,用上无监督?突然感觉无从下手。

1 Like

查看了邮件附件的图像没有自动上传到 HANLP 图床。手动传了几张,还没有传完。

欢迎在社区撰写笔记、提出问题!

读书笔记可以整理成文了.这就发!
也是需求清晰化的过程!