Nireader的问题
有待解决的问题:
- 最大的问题:重复抓取本来根据文章的链接地址检查唯一性,后来发现很奇葩的“一个”每天的三篇是同一个链接地址。于是加上文章标题,结果但凡后来修改了标题的,就会被认为是新的文章。好纠结。
- 其次的问题:乱码本来还好,但最近发现某些频道尤其厉害,初步判断是node抓取时拼buffer前将内容自动转码导致的。应该可以解决。
有待实现的算法:
-
对比两篇文章,判断是同一篇(更新内容)或是两篇<服务端>
-
分析文章内容,提取标题、列表等语义结构<前端>
-
根据点击习惯自动调整页面交互模块的位置、大小<前端>
有待做的事:
- 最近事还挺多,可是觉得前端已经有点乱了,真的需要再整理一下了。