痛点发现系统只看 Reddit 不够,我开始给它喂中文互联网
这个改动想解决的问题很直接:一个给独立开发者找机会的系统,如果只看 Reddit 和 HN,它看到的世界就先天偏了。
之前那套痛点发现系统跑得不算差,但数据几乎全是英文社区的吐槽。对我这种想做中文场景、小工具和一人公司产品的人来说,这个样本明显不够用。
所以这篇我主要记录三件事:为什么我决定补中文数据源、这次接入 V2EX / 少数派 / 掘金时分别用了什么办法、以及采集完以后又在哪个基础设施小坑上摔了一跤。
三个数据源,三种喂法
今天干的第一件事:给系统加中国胃。
选了三个平台,各有各的打法:
V2EX 是程序员大本营。我连了13个节点——问与答、创造者、分享发现、奇思妙想这些。数据公开、API友好,帖子质量高,吐槽特别真诚。有人凌晨三点发帖说”做了半年的工具只有3个付费用户”——这种真实的痛苦,比任何市场调研报告都有价值。
少数派 走的是效率工具+生活方式路线。我盯了6个标签:效率、工具、macOS、写作、生活、Apple。少数派的内容有个特点——用户愿意为好工具付费。这意味着如果在少数派上被频繁吐槽的痛点,商业化的可能性更高。
掘金 是技术社区,搜了16组关键词,主要围绕”独立开发””效率工具””SaaS替代””出海变现”这些方向。掘金的搜索API有个坑——endpoint是 /search_api/v1/search,返回数据嵌套在 result_model.article_info 里面,不是直觉上认为的扁平结构。我一开始解析了半天空数据,后来才搞清楚这层套娃。
跑了一次测试,结果还挺惊喜:151条新数据。V2EX贡献了52条,少数派116条(少数派的热门文章RSS量大),掘金需要通过搜索接口所以慢一些。
然后系统就挂了
数据采完,该推送到服务器了。结果——失败。
报错信息很简单:sshpass: command not found。
什么鬼?本地跑得好好的,怎么daemon里面就找不到了?
查了半天,原因其实很蠢:macOS的 launchd 启动的进程,PATH环境变量跟我终端里的不一样。我在终端里 which sshpass 显示 /opt/homebrew/bin/sshpass,但daemon跑的时候,PATH里根本没这个路径。
解决方案也简单:把所有调用 sshpass 的地方改成绝对路径。改了两个文件——opportunity_finder.py 和新写的 cn_opportunity_finder.py,一共四处。
这种环境依赖的坑,真是踩多少次都不长记性。上次是Python虚拟环境的路径问题,上上次是 ffmpeg 找不到。以后凡是用到外部命令的,老老实实写绝对路径吧。
改完之后数据库成功推到了服务器上。看了一眼总量:555条,其中国内数据源贡献了331条,占比约40%。中文互联网的声音终于不是缺席状态了。
意外之喜:Reddit RSS 复活了
干完上面这些事,顺手检查了一下Reddit RSS的状态。之前从4月12号开始就一直是403——Reddit又把RSS给掐了。
今天一试,200了。
这事儿其实影响挺大的。之前Reddit数据全靠PullPush API——但PullPush只能拿到高赞的历史帖子,拿不到新鲜的实时讨论。RSS才是获取”今天刚有人吐槽”这种新鲜痛点的正确通道。
赶紧把RSS采集重新打开了。顺便加了6个新的垂直行业subreddit——修车、屋顶、地毯清洁、房产经纪、婚礼摄影、私人教练。这些小众行业的痛点往往更具体、更没有现成解决方案,反而是好机会。
跑了一轮,又多了81条新数据。
数据在变多,但选哪个才是关键
现在数据库149条帖子,20条精选(评分≥7),11条高质量(≥8)。TOP 3 是:
- 牙医诊所漏接电话的SMS自动回复 — $79/月,1-2周能出MVP
- 发票OCR+数据提取 — $49-149/月,2-3周MVP
- SaaS订阅审计+平替推荐 — $19-49/月,3-4周MVP
今天还给AI分析模板加了一个 market_reach 字段——要求分析的时候必须列出至少两个具体的客户获取渠道。之前有些机会评分很高,但根本不知道去哪找客户。现在等于给每个机会做了一个冷启动获客的预判。
另外加了一条硬约束:如果 feasibility 或 monetization 低于6分,recommend_score 就不能超过7。之前有一些”需求很强但根本做不了”的机会评分虚高,现在给卡住了。
但我自己也不确定这个约束会不会太保守——有些需求确实难做,但一旦做出来就是刚需。管它呢,先跑一阵看数据怎么说。
接下来要干的事:从TOP机会里挑一个,2周内跑一个MVP出来验证。数据采得再多,分析得再细,最后还是得上手做才知道行不行。