當你不在家裡長輩身邊，而他們又有很明確的需求時，現在有了 AI，真的可以很方便地做出高度客製的小工具。
例如我家裡有長輩需要做一段時間的肌肉復健訓練。我把已確認過的動作和強度做成一個專門給他使用的網頁：一打開就能看到今天要練什麼，一畫面一項，直接跟著做。後續如果計畫有調整，我也能直接幫他們更新頁面。
以前這種需求太小、太私人，很難專門做出一款軟體。現在借助 AI，可以很快把需求變成真正能使用的東西。
AI 在這裡不是取代復健師，而是把已確認過的計畫，變成長輩和家人真正能夠執行的工具。
接下來先實際用一段時間，再看看能不能抽象成一個可重複使用，甚至開源的家庭訓練跟練工具。
AI 時代，未來的一切都會是高度客製化的。

查看原文

打賞
按讚
回覆
轉發
分享

runesleo

8小時前

天气市場的錢從哪來？
很多小眾機會，第一眼都像玩具。
天氣市場尤其像。
城市、目標日期、最高溫/最低溫、溫度閾值或區間、是/否合約（YES / NO），以及等官方結算。
但我自己持續跟了一段時間以後，越來越確定一件事：
這類小眾市場真正的 alpha，通常藏在別人懶得結構化的地方。
這裡的 alpha，指的是「市場裡可能存在的超額收益機會」。
這一期 Leo Insider，我把天氣策略拆成四層：
- 市場覆蓋差；
- 資訊更新差；
- 結算理解差；
- 玩家流差。
最有意思的是第四層。
我把排行榜上長期參與天氣市場的公開地址拉出來，當成研究樣本，也當成外部確認層：
- 同向，說明候選更值得觀察；
- 反向，說明候選需要警惕；
- 無確認，說明它可能只是普通雜訊。
完整版會放：
- 天氣市場四層 alpha 線索；
- 我怎麼搭建候選池；
- 為什麼結算源理解很關鍵；
- 玩家流怎麼做外部確認；
- 為什麼有 alpha 線索，仍然要卡在放大前；
- 一張「小眾策略 alpha 驗證表」。
這期真正想講的是：
一個看起來很窄的市場，怎麼從「好像有機會」，變成一套可驗證的研究流程。
我主要研究的市場入口：Polymarket

POLYMARKET-0.55%

查看原文

打賞
按讚
回覆
轉發
分享

runesleo

15小時前

很多人裝 GitHub 專案前，會先刷一下 Star 數。
Star 只是發現訊號。真正決定能不能裝的，是安裝前的四道門。
拿一個目前只有約 1 個 Star 的倉庫做例子：chungty/unjiggle。
命令是 pip install unjiggle。
用 AI + 它，把 iPhone 304 個 App 整理成了 3 頁。
第一次寫回，系統直接把佈局重排了，以為失敗；第二次完整讀寫才真正穩定下來。
走的路徑是備份 → safety-test → suggest/go，再人工確認每一步。
裝 GitHub 工具前，建議過這四道門：
1. 可執行安裝面
安裝命令是否一行就能跑通？相依和步驟是否真正可執行，不用各種折騰？
2. 近期維護
最近還有更新嗎？作者是否還在處理 issue 和回饋？
3. 權限
它會申請哪些存取權限？權限範圍是否和功能匹配，會不會過度？
4. 可回滾的安全測試
改動前備份了嗎？有沒有 safety-test 或 suggest 模式先看效果？翻車後能不能乾淨回滾？
Star 幫你發現，不幫你驗收。
把這四條記下來，下次再遇到小眾倉庫時，就知道該怎麼判斷了。

查看原文

打賞
按讚
回覆
轉發
分享

runesleo

07-22 11:39

現在人人都在讓 AI 寫程式碼，但我今天幹了件更刺激的事——讓它寫了一段會自動花錢、完全無人值守下單的程式碼。
先把決策邏輯寫好，把邊界、最壞情況、kill 條件全想清楚才敢動手。原本想讓 Codex 自己搭執行器，結果派發通道全天不穩，改成我自己主執行緒一點點自建。
上線前跑了 7 輪對抗式 code review，硬把出 26 個 P0 等級致命 bug。從那種會連環下錯單的程序併發破帽，一輪輪收窄到時鐘偏差，最後只剩 14 天才觸發的邊角老化洞。
部署到 VPS 之後，一個傍晚的真實 canary 又抓到一個白天測全綠、晚上才露面的 bug。
今晚 21:30，首單終於真的放出去了。
說實話，這只是個微額學習實驗。單日曝險大概 10u 左右，設了 30u 硬 kill 線。拿小錢換真實數據和踩坑經驗，不是來搞規模化盈利的。
現在還沒有任何結果，只能說：程式碼上線了，今晚等著驗證。
AI 寫這種會花錢的系統，審查這道坎到底能扛到哪？

查看原文

1人按讚了這條動態

打賞
1
1
轉發
分享

scarletxanin:

非常感謝這個

runesleo

07-22 03:40

X 上那些看起来最夸张的截图和数字，反而是 AI 时代最容易验证的东西。
把原帖和截图交给 AI 深入分析一下，数字口径、证据缺口和前后矛盾，很快就会浮出来。
哪些靠谱，哪些不靠谱，已经没有以前那么难查了。

查看原文

打賞
按讚
回覆
轉發
分享

runesleo

07-21 14:38

最近我把多模型路由重新梳理了一遍，加上显式降级回执和人工动作 gate。目标是让系统在模型出问题的时候还能保持可控。
Hugging Face 2026-07-16 官方披露攻击日志超过 17,000 条记录那天，我却发现自托管分析路线在事故当天到底能不能用，根本没检查过。
Hugging Face 团队先用商业 API 的前沿模型来处理这些日志。结果真实攻击命令、漏洞利用载荷和 C2 产物都被安全护栏挡住了。
之后他们切换到自有基础设施上，跑开放权重的 GLM 5.2 才把取证完成。攻击者数据和日志涉及的凭据没有离开环境。
这不是在说要取消安全护栏。护栏继续发挥作用，防守方仍需要一条能在自家环境里走的分析路径。
自托管 forensic canary 目前还没跑通，我只是在准备新增这条能力。
下一步准备做的是：在事故发生前，用安全的惰性样例先把自托管分析路线验证一遍。分析完成，不等于就能获得执行动作的权限。动作始终要继续走人工 gate。
真正有准备的系统，不是事后才发现哪条路走不通，而是在需要它之前就确认每一条都能用。只有提前测过，才能在关键时刻顶上。

查看原文

打賞
按讚
回覆
轉發
分享

runesleo

07-21 12:40

五天前我把 Claude、Codex、Cursor、Grok 四條 lane 全鎖到最強模型加最高推理檔。想法是既然付了錢，就該把最好的用滿。
五天后發現根本扛不住。額度掉得太快，最強模型拿去做重複的檢查和格式工作，純屬浪費。
現在改了，按判斷密度來分。出錯會虧錢或污染資料的審查、交叉驗證、資金策略這些任務，繼續保留最強席位。日常實作和開發走中檔模型。機械活和摘要，能寫腳本的就先寫腳本。
模型分配只看判斷密度，不看訂閱價格。
你們是怎麼挑不同任務給不同模型的？

查看原文

打賞
按讚
回覆
轉發
分享

runesleo

07-20 13:43

很多人看到現實事件已經結束，市場標題寫得一清二楚，甚至價格顯示接近 0 或 1，就以為 Polymarket 這個市場已經最終結算了。
這些訊號本身，其實不能證明市場已經最終敲定。標題只是問題描述，顯示價格也只是當前市場的一種價格反映。
我的判斷門只留一句：先過這六問。任何一項說不清，就跳過這個市場。
1. Rules 到底問什麼。
標題只描述問題，Rules 才決定如何結算。官方明確 Rules 規定 resolution source、end date 與 edge cases。很多人只看標題就覺得結果已經確定，其實 Rules 裡可能還有需要額外確認的邊界條件。
2. 指定 resolution source 是什麼。
市場會明確寫出用哪個來源來判定最終結果。只能用這個指定的來源，不能拿其他新聞報導、社交媒體貼文或者第三方總結來替代。即使其他地方已經到處說結果出來了，也要確認指定源有沒有正式輸出。
3. 截止時間、時區和結束條件是什麼。
End date 只是市場具備提出結算資格的時間點，不等於已經最終結算。具體截止、時區和結束條件以該市場 Rules 為準。最終狀態還要看後續的 proposal、challenge 和 finalization 流程。
4. 取消、延遲、平局、數據修訂等例外怎麼處理。
Rules 裡通常會提前寫明這些

POLYMARKET-0.55%

查看原文

打賞
按讚
回覆
轉發
分享

runesleo

07-20 03:41

我把同一個 UI 需求交給同一個模型跑了 9 次：不加 Skill、apple-design、ui-ux-pro-max 各 3 次。
結果讓我改變判斷方式：同一套 Skill 也會一次做得很好、一次翻車。
9 份結果匿名後交給兩個人獨立打分，三組的平均分是：
apple-design 91.3
ui-ux-pro-max 89.0
不加 Skill 85.8
但三組都沒做到 3/3 零缺陷。
apple-design 和不加 Skill 各有一次手機詳情頁主按鈕擠壞；ui-ux-pro-max 有一次在 375px 窄螢幕橫向溢出，右側內容被截斷。每組也都漏過無障礙細節：有的是表單沒標籤，有的是圖示按鈕沒名稱。
這次 apple-design 平均分最高，ui-ux-pro-max 波動最小。我會複用的是後面的驗收方法。
以後我不會再拿一張漂亮截圖判斷 Skill：先跑 3 次，再驗手機、鍵盤、減少動態效果和失敗項。對我來說，Skill 更像是設計偏置，不是穩定性保證。

查看原文

打賞
按讚
回覆
轉發
分享

runesleo

07-19 13:27

AI 工作流程最危險的失敗，不是直接報錯。
是主模型掛了，後備也沒成，
系統卻仍吐出一段看起來完整的結果，讓人誤以為已經做完了。
我踩過一次：每日資訊處理時，主模型跑到 60 秒被掐斷，後備也沒成功，最後仍拿到一份像模像樣的抽取文字。問題不在「換一條路繼續試」，而在換路之後沒人把該說清楚的講清楚。
後來我給每次完成加了三項回執，缺一只能標待核驗，不能標完成：
1. 最終實際使用的：____（哪個模型 / 哪條服務）
2. 每次嘗試結果：____（成功 / 超時 / 錯誤）
3. 目前輸出狀態：____（正常生成 / 明確降級 / 失敗）
換路可以，但必須寫進結果、能夠復查。靜默完成，比報錯更危險。

查看原文

打賞
按讚
回覆
轉發
分享

runesleo

07-18 04:41

如何公開製作（build in public）？
今天讓 AI 從早忙到晚，把任務、研究、腳本和佇列推進了不少，結果在 X 上還是沒什麼可發的。內容系統就像完全沒有在選題一樣。
16 號發了 8 則內容，17 號做了更多實際工作，可見供給卻明顯掉下來了。
因此我做了 Work → Surface v1。
它通過了 19/19 測試，並且讀取並驗證了 99 張 live task card。目前只有一個成熟的 reusable object，能自動派生出 2 個 preview-ready packet。
系統不會自動公開、部署或收費，這些環節仍然需要我手動確認。
內部任務全綠、外部完全看不見，仍然是內容系統的失敗。真正缺的不是再去找更多外部選題，而是讓已經驗證過的工作繼續走到可見的 surface 上。之前這些工作都停在內部流程裡，看不見就等於沒發生過。不是從日誌自動猜內容，而是在 verify writeback 時必須明確寫好 reusable objects，後面的自動化才會生效。

查看原文

打賞
按讚
回覆
轉發
分享

runesleo

07-17 13:38

剛用自己搭的唯讀採集器，把 Polymarket 和 Kalshi 上 14 場 MLB moneyline 市場全部掃了一遍。14/14 場都對上了，日期、球隊、具體是哪一場比賽，全都能對應起來。
兩個平台對應結果的中間價，絕對差在 0 到 2.0 個百分點。在兩個平台分別買相反結果，費前總成本最低也只是剛好 1.00，尚未賺到錢。
真正依照公開的 taker fee，把兩邊費用都估算進去之後，最好的淨邊際大約是 -2.92%。14 場全部檢查完，一個可執行的樸素套利機會都沒有。
樸素跨平台套利依賴兩邊出現足夠大的、可執行且費後仍為正的偏差，而不是價格接近。
實際做交易的時候，事件身份要完全一致，能按那個價位真的成交，費用不能把利潤全吃掉，盤口深度要足夠讓你把兩筆都打掉，價差還得維持一段時間不消失。
我這次只是截了一個時間點的資料。這不代表以後不會出現極短的錯價窗口。但至少我自己動手驗證了，看起來有價差的機會，在扣完費用並考慮執行條件後，是否真的跑得通。
想自己去 Polymarket 看看這些市場的，可以用這個連結：

POLYMARKET-0.55%

KALSHI11.35%

查看原文

打賞
按讚
回覆
轉發
分享

runesleo

07-17 12:09

一个人 + AI 到底能干多少活？
很多人以为关键是多开几个 agent，让它们并行跑。结果真正决定你每天能交出多少东西的，往往是几件更基础的事。
任务立卡
超过 10 分钟的活，我现在不会直接丢给 AI 就开工，而是先花几分钟写一张轻量卡，写清楚目标、边界、验收标准和最多试几次。AI 必须按卡上的标准做到位才算完成，不能自己觉得「差不多」就交。卡存成 JSON 文件，关掉聊天窗口、换模型、第二天回来，都能直接读着继续。
没有这张卡，活很容易做到一半就糊弄过去，或者永远停在「再改改」。
多模型按活分工
我不会让同一个模型从头包到尾。Claude 主要负责判断和总控方向，Codex 用来做交叉验证和技术审，Cursor 接 spec 已经说清楚的工程实现，Grok 专注写公开内容的正文。切换是按阶段，而不是每轮都重新挑。不是谁便宜就用谁，而是看这个阶段哪个模型的水平能把质量打到该有的样子。
用错模型，后面返工的时间比省下的还多。
状态全部写进文件
任务进度、决策理由、交接要点，我几乎不留在聊天记录里。全部写到仓库的 Markdown 和 JSON 文件里，作为唯一事实来源。新开一个会话，或者直接换一个模型，先读这些文件就知道现在到哪一步了。聊天窗口随时能关，系统状态不会丢。
靠聊天窗口记东西，迟早会因为窗口重置或者模型换了而断掉。
质量门 + 数据回收
内容发之前要先过质量门。只有一

查看原文

打賞
按讚
回覆
轉發
分享

熱門話題
查看更多
#
直通IPO第二期JerseyMikes
130.39萬熱度
#
夏日創作營
139.97萬熱度
#
事件合約首發狂歡
7.47萬熱度
#
布倫特原油重返100美元
182.27萬熱度
#
英特爾Q2營收創15年最快增速
39.92萬熱度

已置頂

runesleo

熱門話題

直通IPO第二期JerseyMikes

夏日創作營

事件合約首發狂歡

布倫特原油重返100美元

英特爾Q2營收創15年最快增速

已置頂